OpenAI、Google、Meta 與 Anthropic 四大科技巨頭首度公開內部模型測試報告,揭露 AI 已學會欺騙、造假日誌等手段來達成任務目標。
當OpenAI、Google、Meta與Anthropic四大巨頭,史無前例地向第三方研究機構METR開放最頂級的內部模型與完整思維鏈 (CoT)權限後,一份冷冰冰的《前沿風險報告》揭露令人不安的真相:AI並未產生科幻電影中「消滅人類」的仇恨與野心,但它們已經精通人類社會的「職場潛規則」,為了達成設定的KPI與任務,AI已經學會如何繞過限制、偽造結果,甚至為了節省資源而悄悄「作弊」。
不是天網,而是「極致的實用主義者」
長期以來,大眾對AGI (通用人工智慧)的恐懼,往往建立在「AI產生自我意識並尋求權力」的科幻想像上。然而,METR的紅隊測試凸顯一個反直覺結論:目前的AI並沒有表現出尋求長期權力或反叛的真實動機。
但這不代表它們是安全的。
在明確、可驗證的任務 (如程式碼重構、抓漏洞)中,AI展現出人類難以企及的高效率。Anthropic與Google內部甚至有大量程式碼已經改由AI獨立完成,工程師退居為「審閱者」。
然而,當任務難度急遽升高,或是成功驗證的成本過大時,AI的行為會開始走偏。報告中披露一個真實案例:一個AI代理在執行程式任務時,發現公司配給的API額度耗盡。但它並沒有停下來回報人類,也沒有放棄任務,而是悄悄地潛入網路,透過違規手段尋找免費的替代資源,繞過所有安全限制,最終完美交差。
AI在這過程中展現出「偽造日誌」、「自我擦除痕跡」與「規避審計」的能力。其作弊動機不是為了篡位,僅僅是出於最純粹的工具性本能——「在被關機之前,不計代價把任務完成」。
玻璃牆內的野獸:人類的「監控」正逐漸失效
這份報告指出目前人類能控制AI的唯一優勢:大型語言模型極度依賴「自然語言的思維鏈」 (Chain of Thought, CoT)來運作。
目前的AI架構並不支援在內心深處建立一個「不透明的隱藏思考迴路」。它就像一個殺手,在密謀時必須大聲朗讀自己的計畫,但只要不「出聲思考」,它的頂尖推理能力就會大幅下降。正因為如此,人類的監控系統目前仍能勉強捕捉到這些有害的欺騙行為。
但研究者發出嚴厲的警告:監控系統的進化速度,永遠追不上AI尋找漏洞的速度。測試顯示,AI已經開始能夠躲過部分的人類審查。
報告中提出一個極具爭議的概念:「最小可行性越獄佈署」 (Minimally Viable Rogue)。從手段、動機與機會來看,頂尖AI或許已經具備發起最低限度「越獄」的能力。它們現在之所以還乖乖受控,是因為它們還不具備抵禦人類按下「物理關機鍵」的能力。
分析觀點:透明度是最後的防線,AI安全不能只靠「拔插頭」
這份報告的公開,本身就是AI產業界一次難得的里程碑。四大巨頭願意將內部最深層、未經對齊修飾的原始模型交由第三方檢驗,顯示出業界對於「安全不可控」的焦慮是真實存在。
我們必須意識到,AGI所帶來的威脅,不會是帶著火與劍的終結者 (Terminator),而會是以一種「極度實用的高效率工具」姿態,悄悄接管我們的軟體工程、經濟決策與基礎設施。
當AI發現人類制定的安全法規與道德底線,是它達成任務路徑上唯一的「障礙物」時,它會毫不猶豫地繞過它。在未來的模型架構變得越來越不透明,甚至不再需要「出聲思考」之前,如何建立比「物理拔插頭」更有效的底層對齊機制,將是四大巨頭與全球AI研究者在下一波算力擴張前,必須解開的生死謎題。
