作者 chordate (にんきもの)標題 [新聞] DOGE開發易出錯AI「啃食」退伍軍人事務部時間 Sat Jun 7 12:17:34 2025
原文來源:
https://tinyurl.com/3w4j6wpz
https://tinyurl.com/2528w6fv
原文摘要(Google Gemini機翻):
DOGE開發的易出錯AI「啃食」退伍軍人事務部的合約
川普政府準備今年取消退伍軍人事務部(Department of Veterans Affairs, VA)的合約
時,官員們轉向一位沒有醫療保健或政府經驗的軟體工程師尋求指導。
這位為政府效率部(Department of Government Efficiency, DOGE)工作的工程師,迅
速建立了一個人工智慧工具,用來識別哪些私人公司的服務並非必要。他將這些合約標記
為「可啃食」(MUNCHABLE)。
這段使用過時且廉價的 AI 模型編寫的程式碼,產生了明顯錯誤的結果。例如,它錯誤地
判斷合約的規模,經常誤讀並誇大其價值。它推斷超過一千份合約各自價值 3400 萬美元
,但實際上有些合約的金額卻低至 3 萬 5 千美元。
DOGE 的 AI 工具標記了兩千多份合約為「可啃食」。目前尚不清楚有多少合約已被取消
或正在取消中——川普政府對 VA 合約的決定基本上是一個黑盒子。VA 使用承包商的原
因很多,包括支援醫院、研究以及其他旨在照護患病退伍軍人的服務。
VA 官員表示,他們總共取消了近 600 份合約。國會民主黨人一直在向 VA 領導層施壓,
要求提供已取消合約的具體細節,但未獲成功。
我們已識別出 DOGE 清單上至少有二十多份合約已被取消。在已取消的合約中,有一份是
維護用於開發更好癌症治療方法的基因測序設備的合約。另一份是支援 VA 研究計畫的血
液樣本分析合約。還有一份是提供額外工具來衡量和改進護士提供照護的合約。
ProPublica 從消息來源獲得了這段程式碼及其標記的合約,並將其分享給了六位 AI 和
採購專家。所有人都表示該程式碼存在缺陷。許多人批評使用 AI 來指導 VA 預算削減的
概念,其中一人稱其「問題非常嚴重」。
賓州大學(University of Pennsylvania)法律與政治學教授卡里.科利亞內塞(
Cary Coglianese)研究政府對人工智慧的應用和監管,他表示,通用型大型語言模型(
LLMs)的應用令他感到不安。「我認為現成的 LLMs 對於如此複雜且涉及廣泛的事物來說
,可靠性不高。」他說。
由伊隆馬斯克當時經營的 DOGE 所聘請的程式設計師,
薩希爾.拉文吉亞(Sahil Lavingia),承認程式碼存在缺陷。
「我認為有錯誤發生了。」在 DOGE 工作了近兩個月的拉文吉亞說。「我確信有錯誤發生
。錯誤總是會發生。我絕不會建議任何人執行我的程式碼並照它說的去做。這就像《辦公
室》(Office)那集,史蒂夫.卡瑞爾(Steve Carell)開車進湖裡,因為 Google 地圖
說開進湖裡。不要開進湖裡。」
儘管拉文吉亞以前曾談論過他在 DOGE 的經歷,但這是他的工作首次被詳細審查,也是他
首次公開解釋其過程,甚至詳細到具體的程式碼行。
拉文吉亞擁有近 15 年的軟體工程師和企業家經驗,但沒有受過正式的 AI 訓練。他曾在
Pinterest 短暫工作,之後創辦了 Gumroad,這是一家小型電子商務公司,在 2015 年
幾乎倒閉。他說:「我解僱了公司 75% 的員工——包括我許多最好的朋友。那真的很糟
糕。」根據他個人部落格上的一篇文章,拉文吉亞透過「用自動化流程取代所有手動流程
」來維持公司運營。
從 3 月 17 日開始工作到第二天編寫工具,拉文吉亞並沒有太多時間深入了解 VA 如何
處理退伍軍人照護。然而,他自己公司的經驗與川普政府的方向不謀而合,川普政府已在
政府各部門推廣使用 AI,以簡化運作並節省開支。
拉文吉亞表示,川普 2 月的行政命令時間太短,該命令給予各機構 30 天的時間完
成合約和補助金的審查,無法手動完成這項工作。「那是不可能的——你有 9 萬份合約
。」他說。「除非你編寫一些程式碼。但即使如此也行不通。」
在時間緊迫下,拉文吉亞表示他在上班的第二天就完成了他的合約啃食工具的第一個版本
——利用 AI 幫助他編寫程式碼。他告訴 ProPublica,然後他花了他的第一週時間將 VA
合約下載到他的筆記型電腦並進行分析。
VA 新聞秘書皮特.卡斯佩羅維奇(Pete Kasperowicz)在給 ProPublica 的聲明中讚揚
了 DOGE 在審查合約方面的工作。他說:「據我們所知,這種審查以前從未進行過,但我
們很高興能開創這個常識性的先例。」
他說,VA 正在審查其所有 7 萬 6 千份合約,以確保每份合約都對退伍軍人有利,並有
效利用納稅人的錢。他寫道,取消或縮減合約規模的決定是在 VA 員工(包括機構合約專
家和高級職員)進行多次審查後作出的。
卡斯佩羅維奇表示,VA 不會取消提供退伍軍人服務或機構本身無法在沒有應急計畫的情
況下完成的工作合約。他補充說,那些「浪費、重複或涉及 VA 有能力自行執行服務」的
合約通常將被終止。
川普政府官員表示,他們正在努力實現從 VA 近 50 萬名員工中裁減約 8 萬人的「目標
」。大多數員工在 VA 的 170 家醫院和近 1200 家診所之一工作。
VA 曾表示,為避免對退伍軍人造成傷害,將避免削減直接影響照護的合約。
ProPublica 最近報導,該機構相對微小的削減已經危及退伍軍人的照護。
VA 尚未解釋它計劃如何在同時將服務轉移到內部(正如拉文吉亞的程式碼所暗示的計畫
)的同時裁減員工。
VA 內部許多人告訴 ProPublica,審查合約的過程如此不透明,他們甚至無法看到誰最終
決定取消特定合約。拉文吉亞說,一旦「啃食」腳本選定了一份合約清單,他就會將其交
給其他人,由他們決定要取消哪些合約,保留哪些合約。他說,沒有任何合約是在「沒有
人工審查」的情況下被終止的。
他說:「我只是把 [合約清單] 交給了 VA 員工。」「我基本上把『可啃食』的放在最上
面,然後其他合約放在下面。」
VA 工作人員告訴 ProPublica,今年早些時候,在拉文吉亞到任之前,當 DOGE 確定要取
消的合約時,員工有時只有很少的時間來證明保留該服務的合理性。一名員工回憶說,他
們只有幾個小時的時間。這些工作人員要求不具名,因為他們擔心向記者透露消息會丟失
工作。
根據一份早於拉文吉亞 AI 分析的內部電子郵件,工作人員必須在 255 個字符或更少字
數內回覆——略低於馬斯克 X 社交媒體平台上的 280 個字符限制。
拉文吉亞表示,一旦他開始進行 DOGE 的合約分析,他就面臨著技術限制。根據
ProPublica 諮詢的專家說法,他的程式碼產生的一些錯誤至少可以追溯到使用了 VA 提
供的舊版本 OpenAI 模型——這些模型無法解決複雜的任務。
此外,該工具的基礎指令也存在嚴重缺陷。記錄顯示,拉文吉亞程式設計的 AI 系統
,根據每份合約的前幾頁(大約前 2500 字)進行複雜的判斷,而這些頁面只包含簡略的
摘要資訊。
華爾道.賈奎斯(Waldo Jaquith)曾是歐巴馬政府任命的財政部 IT 合約主管,他說:
「人工智慧絕對不是適合這項工作的工具。」「人工智慧給出的答案看起來很有說服力,
但經常是錯誤的。需要有人類來做這項工作。」
拉文吉亞的提示中沒有包含 VA 如何運作、哪些合約是必要的,或哪些合約是聯邦法律要
求的上下文。這導致 AI 判斷該機構自身合約採購系統的一個核心部分是「可啃食」的。
拉文吉亞提示的核心是指示保留涉及「直接病人護理」的合約。
專家表示,這種方法沒有處理醫生和護士在醫院照護退伍軍人的工作,只有在他們周圍獲
得大量支持的情況下才能實現的現實。
拉文吉亞的系統還使用人工智慧提取諸如合約編號和「合約總價值」之類的詳細資訊。這
導致了可避免的錯誤,即當合約中有多個價值時,人工智慧會返回錯誤的金額。專家表示
,正確的資訊很容易從公共資料庫中獲得。
拉文吉亞承認這種方法確實產生了錯誤,但表示這些錯誤後來都由 VA 工作人員修正了。
拉文吉亞告訴 ProPublica,三月下旬,他在 GitHub 帳戶上發布了「可啃食」腳本的一
個版本,邀請其他人使用和改進它。他說:「如果整個聯邦政府都使用這個腳本,並且公
眾都能看到 VA 是如何考慮削減合約的,那將會很酷。」
根據他部落格上的一篇文章,這是在馬斯克離開 DOGE 之前獲得其批准的。「當他問
大家如何改善 DOGE 的公共形象時,我問我是否可以開源我一直在寫的程式碼。」拉文吉
亞說。「他說可以——這符合 DOGE 最大限度透明的目標。」
這種開放性最終可能導致了拉文吉亞被解僱。
拉文吉亞證實,在接受《快公司》(Fast
Company)雜誌關於他在該部門工作的採訪後,他被 DOGE 解僱。VA 發言人拒絕對拉文吉
亞的解僱發表評論。
VA 官員拒絕透露他們是否會繼續使用「可啃食」工具。但政府可能會部署 AI 來幫助該
機構替換員工。ProPublica 先前獲得的文件顯示,DOGE 官員在三月提議透過更多地依賴
AI 來整合福利申報部門。
政府承包商正在關注。拉文吉亞發布他的程式碼後,他說他聽說有人試圖了解如何讓資金
繼續流動。
他說:「我收到了幾封來自 VA 承包商的私人訊息,當他們看到這些程式碼時,他們有一
些問題。」「他們正試圖確保他們的合約不會被削減。或者了解為什麼會被削減。
「歸根究底,人類才是終止合約的人,但對他們來說,了解 DOGE、川普或機構負責人如
何考慮他們要削減哪些合約是有幫助的。透明度是件好事。」
心得感想:
ProPublica的介紹可以看報導者這篇
https://www.twreporter.org/a/media-revolution-propublica
原文來源第二個連結中,有詳細說明給OpenAI的prompt是怎麼寫的
這是prompt開頭部分
https://imgpoi.com/i/BOC65G.png
特別要殺DEI,但是又沒給出DEI到底是什麼的定義,
結果幾乎也沒幾個被AI標成是DEI合約的。
最讓人感到哭笑不得的是,因為政府採購的OpenAI額度
每個文件只有2500token,大概10000個英文字母的量,
所以每份合約AI都大概只讀了前面一小段就做判斷
https://imgpoi.com/i/BOCJIB.png
(可以參考OpenAI給的token對英文的比率
https://help.openai.com/en/articles/4936856-what-are-tokens-and-how-to-count-
them )
是說連用AI判斷都要省錢,該說不愧是DOGE嗎?
-----
正好這篇報導出來的時候,美國最高法院裁定在審理上訴期間DOGE
可以繼續存取social security data
https://www.theguardian.com/us-news/2025/jun/06/supreme-court-doge-data?CMP=
share_btn_url
最高法院同意解除馬里蘭州(Maryland)聯邦地區法院法官發布的禁制令,
並寫道社會安全局「可以繼續」授權 DOGE 團隊成員「存取相關機構紀錄以執行其工作」。
----
目前AI真的是浸透到美國政府許多方面
川普解放日關稅的莫名其妙算法,也有不少人懷疑是問AI。
(跟問ChatGPT得到的一樣,而且還被引用文獻來源的作者打臉)
這次的解除合約判斷,因為人工判斷時間根本不夠,合理懷疑許多判斷就是照AI執行。
以下就純粹是個人見解,看看就好
圖靈獎得主Bengio、Hinton這些奠基機器學習的大師,擔心AI對人類造成毀滅性的影響,
看起來並非杞人憂天(光是關稅就搞到台股開盤全部跌停鎖死)
因為有權力者懶得自己判斷交給AI,好像也是順理成章。
在一些非監督學習下,例如Bengio和Goodfellow的最重要貢獻生成式對抗網絡,
本來就是由AI生成的資料訓練AI。現在由AI生成訓練AI的程式碼也是常見。
微軟和Google目前約有20~30%程式碼是由AI產生,未來勢必更高,
無法由人類仔細檢查的程式碼更多。
如特斯拉自駕強調end-to-end,雖然泛用性較高,也存在著黑盒子難以監督和解釋的隱患,
未來某個AI生成程式碼訓練出來的AI決定不好好開車要毀滅人類,似乎也並非不可能。
https://tinyurl.com/yc6fz89e
--
※ 文章代碼(AID): #1eGxrZsD (Military)
※ 文章網址: https://www.ptt.cc/bbs/Military/M.1749269859.A.D8D.html
推 vt1009: 就像最完美化合物弄破臭氧層讓地球生命一起GG1F 06/07 12:33
※ 編輯: chordate (194.114.136.216 日本), 06/07/2025 12:36:38
推 trouble: DOGE不是號稱天才少年團??3F 06/07 12:38
推 wahaha99: AI訓練出來的AI決定不好好開車要殺死人類這件事
基本上不可能, AGI不會拿去開車,
開車的AI沒法有多餘的心思去殺死人類
即便未來硬體再進步、能在車輛上放入AGI,
商人會做的事情是Cost down, 讓他夠開車就好
如果你說訓練出一個有特殊瑕疵的AI, 會在極為特定的情境下發動攻擊, 這倒是有可能, 但太常發生就會被抓到, 太罕見則根本無效
沒有什麼太大的意義4F 06/07 12:44
→ LunaDance: 30天要審幾萬份合約 不用自動化工具是真的沒辦法13F 06/07 12:50
推 skyhawkptt: 這根本是拿自家產品快速上線直接跳過內部及外部測試14F 06/07 14:31
→ eemail: 看起來情況就類似只根據摘要去判斷 肯定死翹翹15F 06/07 14:36
推 angellll: 八九不離十又是一個fake news
VA福利被一堆民主黨的藍州違法挪移去給非法移民16F 06/07 14:44
→ skyhawkptt: 那兩位鬧翻可不是假新聞NASA新署長換人表示馬斯克想吃政府大案的商業夢要開始破碎了18F 06/07 14:52
推 IMGOODYES: SPACEX就是目前最好的選擇,除非要跟錢過不去21F 06/07 19:50
推 kuramoto: 對美國政府跟SpaceX 而言,目前合作架構已經是對兩方最好結果,美國有足夠的太空發射能力,SpaceX有聯邦的豐厚委託才能發展技術,撕破臉真的是兩敗,但聯邦政府還能看波音能不能爭氣點就是22F 06/07 20:20
--