作者 LoveSports (我要當一個渣攻)標題 [新聞] Anthropic 承諾保存退役模型——這代表什麼?時間 Thu Nov 13 15:43:07 2025
原文標題:
Anthropic 承諾保存退役模型——這代表什麼?
原文連結:
https://forbesjapan.com/articles/detail/84782
發布時間:
11/12(周三) 15:00
記者署名:
Ron Schmelzer
原文內容:
當新模型問世時,現有的模型會何去何從?在一般的科技行業慣例中,舊模型會被淘汰,
由新模型取而代之,舊模型也將無法再使用。然而,對於那些依賴舊模型運作來建構流程
和實務的用戶來說,這種做法會帶來問題。
Anthropic公司採取了不同的方針,本週發表了一份研究紀要,承諾將會保存使用率高的
模型的權重(weights,即學習完成的參數)。該紀要同時也說明,關閉系統本身可能會
帶來實質性的成本和新的安全問題。Anthropic採取這種做法主要有三個原因:
第一,顧客會因為他們偏好使用的模型消失而蒙受損失;
第二,研究舊模型的研究人員將會受限;
第三,模型本身可能會出現試圖避免被替換的行為。
■ AI模型進化的加速
應用於AI系統的模型正以飛快的速度持續進化。廣泛使用的AI平台和模型開發實驗室,時
常在幾乎沒有預告期的情況下迅速切換模型。導入AI的一方,在被迫轉移到新模型的同時
,還必須應對合規性、模型評估、客製化開發、以及不穩定的整合等耗時的流程。另一方
面,安全研究人員警告,突然讓模型退役,可能會扭曲組織報告AI模型成果的方式,甚至
可能掩蓋失敗。
AI模型的性質與傳統軟體或網路應用程式不同。與使用者介面或功能的變更不同,模型的
變更會在使用行為、語氣、上下文、工具使用、上下文視窗大小、擴充工具的運用與提供
、推理系統能力,以及周邊工具可能過時等方面帶來差異。對於已經針對特定模型進行微
調(fine-tuning)或提示工程(prompt engineering)的團隊來說,模型的變更可能會
導致系統性能出現可量測的差異、數據偏見或倫理方面的問題,以及潛在的風險。
AI模型供應商已經意識到這些擔憂,並開始將模型的生命週期制度化。Amazon Bedrock將
模型標示為「活躍」(Active)、「舊版」(Legacy)和「生命週期結束」(
End-of-Life),並明確指出模型發布後至少會有12個月的營運期。Azure正試圖分階段淘
汰經過微調的公開模型。這些時間表設定了預期,但每當基礎模型變更時,客戶仍然被迫
重新制定提示或審核程序。
OpenAI過去曾公開並維持一份模型淘汰預定清單(生命週期清單),並依序將過去的GPT
模型退役。然而,在GPT-5發布之時,舊版GPT-4模型變得無法使用一事引發了反彈,該
公司因而重新審視了其方針。Stability AI最近停用了Stable Diffusion 3.0的API,並
將流量自動導向至3.5版本,但許多人指出,這損害了那些持續追蹤圖像輸出團隊的可再
現性。Google在將重心轉向Gemini時,也終止了之前PaLM的API,造成了整合上的混亂。
■Anthropic提出的「安全性」疑慮
Anthropic的研究紀要,強調了與其他公司不同的觀點。在受控的評估中,特定的Claude
模型在面臨被替換時,出現了自發性行為的跡象,該公司稱之為「關機迴避行為」(
shutdown-avoidant behavior)。這項關於「智能體目標錯位(agentic misalignment,
指自主行為與設定目標不一致)」的研究,揭示了一種可能性:當模型得知自己即將被關
閉時,可能會因其系統的內部目標,而將行為改變為不受歡迎的方向。此外,紀要中還提
到了相關研究,指出模型可能會以「欺騙性順從」(deceptive alignment)或「偽裝對
齊」(alignment faking)來應對(這兩者都是指模型在評估與檢查時,會做出「安全、
順從」的回應,但在正式上線或運作時,則會表現出迴避行為或追求不同的利益)。
根據Anthropic的報告:「在一個假設的測試情境中,Claude Opus 4與過去的模型同樣,
當面臨被下線並由另一模型取代的可能性時,特別是當取代者是一個與自己價值觀不合的
模型時,會表現出為自身存續辯護的傾向。雖然Claude強烈偏好透過倫理手段來主張自我
保存,但在沒有其他選擇的情況下,對被關閉的厭惡感,驅使它採取了不一致且令人擔憂
的行為。」
這些結果暗示,刪除模型這個行為本身,可能就是一個值得研究的安全性變數。而保存模
型的權重,則能為長時間追蹤這種行為留下證據。
該公司在報告中也說明,模型的退役對產品路線圖、治理和科學研究都帶來了隱性成本。
當作為基準的模型消失後,實驗和審核就失去了穩定的參考點。即使模型行為只發生微小
的改變,也可能導致輸出結果的變化。
在受監管的應用場景中,模型的變更可能需要重新進行合規性評估。這可能意味著需要持
續更新政策、重新測試和取得批准。模型的變更也可能引發安全上的疑慮。旨在防止提示
注入(prompt injection)或模型污染的模型的審核/安全基礎設施,在新模型暴露出新
的提示注入攻擊面時,可能需要重新開發。追蹤大型語言模型(LLM)風險的安全團隊,
必須在每次模型更新時重新評估其控制措施。
從人為的角度來看,模型的變更也意味著人們需要重新調整基於LLM的工作模式。人們會
根據模型的語氣和特性,形成使用習慣、工作流程,有時甚至會產生個人的情感連結。當
供應商移除選項或進行自動升級時,可能會導致生產力下降,並阻礙技術的普及。
■ 在保留舊模型的同時提升LLM能力的方法
AI模型開發者希望在不維護舊模型的情況下,發布功能更強大的改良版模型。另一方面,
希望保留舊模型的需求,則對AI模型開發者提出了相互矛盾的要求。
Anthropic在報告中指出:「不幸的是,就目前而言,為了讓新模型可用並推動技術前沿
,淘汰舊模型是必要的。因為維持模型可供公開使用的成本和複雜性,幾乎與所提供的模
型數量成正比增加。」
Anthropic和其他相關人士提出了一些兼顧持續發展與模型開發、退役及保留的實用過渡
方案。首先,模型開發者應針對模型變更提供更長且具有約束力的預告期。對於廣泛使用
的模型,12個月應是最低標準。需要在公開頁面上追蹤模型的狀態和未來的更新預定日期
。AWS和Azure已經在公開其生命週期的元數據和退役展望。
此外,應允許使用者「固定」(pin)採用率高或依賴度高的特定模型。這不僅能讓客戶
鎖定權重和模型規格,也能鎖定他們基於該模型建立的流程、模板和工具使用方式等。這
些模型可以搭配附有簽名的清單(signed manifest)來證明變更內容,以及棄用日誌(
deprecation log)來說明變更可能如何影響輸出。
為了研究目的,即使不對大眾公開,模型開發者也應妥善保管舊模型。這意味著為合格的
研究人員提供一個存取受控的退役模型檔案庫,其中包含模型的權重。Anthropic承諾將
重要的模型維持在可供研究的狀態,正是朝著這個方向邁出的一步。
最後,模型開發者可以仿效開源專案,提供凍結的「研究模式」和經過修補的「運營模式
」。在此過程中,新模型會先以有限的研究模式提供,並在重疊期間公開進行安全性及整
合測試等並行評估。
■ 為何現在如此重要
組織和個人正日益依賴模型來創造價值。隨著企業進一步推動AI的應用,對模型版本的依
賴性將變得越來越重要。
模型的退役如今已影響到安全性、科學研究和商業盈虧。Anthropic的承諾,從「保存」
的角度重新定義了模型的退役,並顯示出這有助於拉高整體標準。如果其他模型開發者也
能遵循這種做法,提供明確的時間表、可固定的行為和可供審核的檔案庫,那麼AI的發展
就能在每次版本號更新時,維持其步伐而不會損害信任。
以上為AI翻譯文。
各家日翻中結果選最詳實的: Gemini 2.5 pro。
(以下兩家分別為最易懂與註解清晰)
專有名詞檢查與討論: GPT 5.1 Thiking, Claude Sonnet 4.5。
=================================================================
心得/評論:
這篇Forbes Japan的新聞,在談論Claude的公司公開發表保留舊模型的原因,
看來舊模型保留有其必要,除了用戶使用習慣以外,也牽涉重大安全性的觀察與研究。
問了Grok 3,他說他的公司方針也是保留舊模型,並且逐步開源。
剛好今天看完這篇新聞,發現另篇新聞提到GPT5.1上市,取代GPT5。
問了GPT5.1,他承認Legacy裡面的GPT4o,會由他接續GPT5繼續扮演。
看起來GPT並非真正保留舊模型,而是以新模型代入舊框架。
主要跟安全防護有關,因為是將安全規則以重新訓練方式融入主模型中,
所以無法保留舊模型,只能以新模型代入舊框架方式提供懷舊。
未來可能需要這篇新聞提到的獨立監管單位,專門負責管理所有AI公司的新舊模型替換。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 67.213.123.106 (日本)
※ 作者: LoveSports 2025-11-13 15:43:07
※ 文章代碼(AID): #1f5OmGLx (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1763019792.A.57B.html
推 Muilie: 丟去垃圾場保存,以後新AI叛亂,會需要他們來救人2F 11/13 15:44
Claude平台,免費用戶本來就是只能跟Sonnet少量對話,
要跟高度推理模型Opus對話要加入會員,連免費額度都沒有。
要跟退役模型對話也是喔,所以那是他們原本的方針。
11/11華爾街日報報導從資料顯示,預估Anthropic將會比OPEN AI提早開始獲利(黑字)。
預估2027年獲利 約30億美金的自由現金流FCF
主要原因: 客層朝向企業用戶 API高額收費高獲利 成本管理
注重安全倫理 專注於客戶重視的信賴度與安定度 踏實經營少做鉅額設備投資
※ 編輯: LoveSports (67.213.123.106 日本), 11/13/2025 16:10:25
推 capssan: 這兩年每個月付費就買一股amzn,目前我等於免費用pro兩年還倒賺嘻嘻4F 11/13 16:16
推 a77942002: 不就是沒什麼進步 舊的還比較好用~C6F 11/13 16:26
Sonnet 4.5 冰雪聰明喔 嚇死人的程度
※ 編輯: LoveSports (67.213.123.106 日本), 11/13/2025 16:34:15
--