DIGITIMES

AI也會歧視AI嗎?

徐宏民
2026-07-01

隨著招募流程的兩端逐步由AI代勞,一份履歷能不能進入入圍名單,可能取決於一個求職者完全不知道的因素:履歷協作的模型,跟篩選履歷的模型,是否為同一家。

2025年底收錄於人工智慧倫理與社會研討會(AIES 2025)的一份研究,就這件事進行系統性的實驗。研究在控制履歷品質之後,比較模型生成與人工撰寫的履歷在不同模型中的評價:當撰寫與評審(模型)來自同一家,求職者進入面試入圍名單的機率高出2成到6成;在多數測試案例中,同等品質的履歷,模型對 AI 生成內容的評分高於人工撰寫版本。研究稱這個現象為「自我偏好(self-preference bias)」:語言模型會偏愛自己生成的內容,即使品質已被刻意控制。

這份研究的實驗場景,如今已貼近現實。HireVue 2026調查顯示,逾7成HR團隊已定期在招募流程中使用AI,近7成求職者也已用AI起草履歷。一邊用AI審、一邊用AI寫,已是現況而非未來情境。

對堅持自己撰寫履歷的求職者,這意味著可能在不知情的情況下,僅因履歷未經模型加工,就在評分上落後。

這個現象,2026年6月有了更具體的面貌。AI工具比較業者i10X Research發布1份產業測試報告,讓幾個主流模型互評同一位虛擬求職者的履歷,只換成由各家模型分別撰寫的版本,再交給各模型逐一評分。這份報告來自產品行銷背景的業者,非學術同行評審,但凸顯相當現況。i10X Research的商業測試顯示,各家模型的偏好傾向差異相當大:Claude對GPT撰寫版本的錄取率,比對自身風格版本低了約5成;GPT對自身版本的評分反而偏低,呈現反向的自我懲罰;Gemini撰寫的版本不分評審者都受到青睞。在i10X的測試設定中,同一份文件由不同模型評審,差距可以大到足以讓結果從「待定」滑向「淘汰」。這延伸原始研究對「模型風格會影響模型評分」的觀察:不是每個模型都偏愛自己,而是每個模型都有自己的評分傾向,求職者完全無從得知評審偏好那套模型。

AI評審的脆弱性,學術審稿已先凸顯。2025年中起,多篇arXiv稿件被發現在PDF裡藏進肉眼看不見的指令,要求語言模型審稿人給予正面評價,實驗顯示這類手法可以把模型評分推近滿分。頂尖會議ICML 2026 把相同做法反過來用在稽核:在論文PDF嵌入隨機詞彙,若審稿人偷用語言模型代寫意見,詞彙就會混進評語;2026年3月公布的結果,逾500位審稿人被偵測到違規,其中不少人因身兼投稿審稿人,所投論文遭退件。這套攻守兼備的機制對B2B場景的啟示在於:指令注入手法既是攻擊面,也能作為稽核工具的設計基礎。

履歷只是起點,影響不會停在這裡。

當企業流程的兩端都開始由AI代理人處理,一端用AI起草報價、技術方案、法遵文件,另一端用AI篩選與評分,「用哪一家模型」會成為過去不存在的競爭變數——過去企業競爭的是價格、品質、交期;未來還可能競爭「模型相容性」。

機制尚未完全釐清,但有幾種可能的解釋。語言模型在生成內容時,似乎帶有可被自家模型識別的「風格指紋」——句構偏好、用詞分布、段落節奏。一個可能的解釋來自後訓練(post-training)階段:RLHF、DPO等對齊訓練以相同的訓練目標,同時塑造「怎麼寫得好」與「什麼算寫得好」,風格與好惡因此一起被寫進模型權重,評審模型可能因此將這些熟悉的風格特徵誤判為較高的內容品質。研究也驗證,透過提示工程要求模型主動識別並校正自身偏好,偏差可下降5成以上;但這並非預設行為,企業內部的AI評估流程多半還沒有寫進作業規範。

把場景移到台灣產業,有可能受影響的是自動化報價與RFQ初篩。試想:買方以AI從上百份供應商技術文件中挑出前段名單,供應商也以AI起草標案。若這套篩選以文本摘要或技術敘述做初步排序,而買賣雙方使用的是不同家的模型,供應商可能在價格、交期等結構化條件被充分比較之前,就因文本風格不符模型偏好而落後。這個情境目前仍是推斷,但隨著AI在採購流程的應用逐步深化,陸續發生的可能性不低。供應商盡職調查與法遵審查也在其中——ESG報告、資安自評書,愈來愈多由AI起草、也可能再由AI審查,同源偏差的空間同樣存在。需要說明的是,研究測量的偏差幅度建立在文本敘述上,B2B 採購裡的價格、交期、認證等結構化欄位仍佔相當權重,整體入選率不會直接受到相同幅度的影響。但只要評估流程裡有任何一段是模型對模型讀「敘述」,這一段就有結構性偏差。

防禦方向可能不複雜,但需要刻意設計。受評文件與評審模型最好不來自同一個模型家族;高金額或高敏感度的決策,應採多模型並行評估、考量評分差異;結構化資料與文字敘述分流計分,避免後者拉偏前者;可能暗藏內容的格式(如 PDF、Word)進入評估流程前,應做指令注入過濾;重要閘門保留人工抽查。這些不是技術突破,而是治理設計,目前產業界的 AI 導入多半停在工具層,治理層大多仍是空白。

同源偏差以外,還有另一層問題值得思考:當評估流程由人換成模型,人類評審辨識「少數亮點」的能力,可能也悄悄消失了。一百份履歷裡長得不一樣的那個人,一百份提案裡帶著真實觀點的那份文件,在傾向偏好熟悉風格的模型眼中,可能反而是扣分項。HR篩選、績效評估、供應商評鑑、學術審稿,都面臨類似的結構。如何在AI介入的決策流程裡,刻意保留人類洞察的空間,目前仍是個開放的問題。

國立台灣大學資訊工程學系教授,曾任鴻海集團與Stellantis合資車用科技公司技術長暨副總經理,推動ADAS及智慧座艙系統產品進入全球車用市場。紐約哥倫比亞大學電機博士,專精於機器學習、電腦視覺、自駕車、機器人等領域。為訊連科技研發團隊創始成員,慧景科技(thingnario)共同創辦人,NVIDIA AI Lab計畫主持人;曾任IBM華生研究中心及美國微軟研究院客座研究員。擔任多家科技公司AI策略顧問,習慣從學術與產業雙重視角檢驗技術發展的機會與挑戰。<br>
智慧應用 影音