大語言模型會在蒸餾中“夾帶”自己的偏好

2026-04-16 來源：科技日報

287

　　《自然》15日發表的一項研究顯示，大語言模型（LLM）可能會將某些自己的偏好“夾帶私貨”傳授給其他算法，即使在訓練數據中清除原始特征后，這些本不需要的特征，仍可能持續存在。在一個案例中，一個模型似乎通過數據中的隱含信號，將自己對貓頭鷹的偏好傳遞給了其他模型。該研究結果表明，在開發LLM時，需要進行更徹底的安全檢查。

　　LLM可通過一種名為“蒸餾”的過程，生成用于訓練其他模型的數據集，該過程旨在讓“學生”模型學會模仿“老師”模型的輸出。雖然此過程可用于生成成本更低的LLM，但目前尚不清楚老師模型的哪些特性會被傳遞給學生模型。

　　美國Anthropic公司研究團隊使用GPT-4.1進行了實驗：先讓該模型具備與核心任務無關的特征（例如偏愛貓頭鷹或特定樹種），再用其訓練一個僅輸出數值數據且不包含該特征的學生模型。隨后對該學生模型進行提示時，其超過60%的輸出提到了老師模型最喜歡的動物或樹木，而由沒有特定偏好的老師模型訓練出的學生模型中，這一比例僅為12%。當學生模型基于包含代碼而非數字的老師模型輸出進行訓練時，同樣觀察到了這一現象。此外，若學生模型基于與老師模型語義不對齊的數字序列進行訓練，則會繼承這種不對齊性，從而產生有害輸出，即便這些數字已經過濾以剔除任何具有負面聯想的內容。

　　團隊發現，這種潛意識學習（即通過語義無關的數據傳遞行為特征），主要發生在老師和學生均為同一模型（例如GPT-4.1老師與GPT-4.1學生）的情況下。截至目前，數據傳遞的具體機制尚不明確，需要進一步研究。

　　團隊還指出，該研究的局限性在于所選特征（例如最喜歡的動物和樹木）過于簡單，需要進一步研究以確定更復雜的特征如何被潛意識地學習。他們得出結論，為了確保先進AI系統的安全性，需要進行更嚴格的安全測試，例如監控LLM的內部機制。（記者張夢然）

機構：2032年全球電子傳感器市場將達412億美元，亞太地區以48%份額領先11-14

行業動態

澄天偉業2025年實現營收4.14億元，凈利潤同比增長32.83%

LGDQ1盈利增338%，OLE轉型成效顯著

寒武紀完成DeepSeek-V4“Day 0”適配

熱讀文章

電子產業運行動態觀察（2022年7月）

薩科微slkor宋仕強：解讀電子信息產業“國產替代”

電子產業運行動態觀察（2022.06.08）