[新聞]AI 模型越講越歪樓！最新研究發現：AI 對話愈深入，表現愈糟糕 - Tech_Job板

看板 Tech_Job
作者 pl132 (pl132)
標題 [新聞]AI 模型越講越歪樓！最新研究發現：AI 對
時間 Fri May 23 09:18:54 2025

AI 模型越講越歪樓！最新研究發現：AI 對話愈深入，表現愈糟糕

https://tinyurl.com/ylvt36k2

AI 模型越講越歪樓！最新研究發現：AI 對話愈深入，表現愈糟糕 | TechNews 科技新報 人工智慧（AI）已經不是什麼遙不可及的未來科技，從寫作、翻譯到客服，它早就成為我們工作與生活的一部分。但你有沒有發現一件事：剛開始和 AI 聊天時，它總是回答得頭頭是道，讓人驚呼「也太聰明了吧！」但一旦對話拉長、你問得更深入，AI就開始卡住、兜不回來，甚至出現自相矛盾的情況。這並不是你遇到了Bug ...

人工智慧（AI）已經不是什麼遙不可及的未來科技，從寫作、翻譯到客服，它早就成為我
們工作與生活的一部分。但你有沒有發現一件事：剛開始和 AI 聊天時，它總是回答得頭
頭是道，讓人驚呼「也太聰明了吧！」

但一旦對話拉長、你問得更深入，AI就開始卡住、兜不回來，甚至出現自相矛盾的情況。
這並不是你遇到了Bug（程式錯誤），也不是你問得太難，而是一個所有語言模型都面臨
的通病。

根據Microsoft和Salesforce最新研究，這種越聊越不對勁的現象，其實是語言模型在對
話中普遍存在的結構性問題。研究團隊模擬了20萬筆對話，測試了包含GPT-4.1、Claude
3.7、Gemini 2.5 Pro在內的15種主流模型。

結果發現，這些模型在第一次對話中的表現非常出色，成功率高達90%；但一旦進入第二
次、第三次……成功率就像跳水般下降，只剩下約60%。更令人吃驚的是，這個問題幾乎
無法靠目前常見的技術調整解決，也讓人開始反思：我們所謂發展快速先進的AI，真的準
備好成為對話中的夥伴了嗎？

AI對話為什麼越聊越糊塗？

你可能以為AI出錯，是因為它記不住前面的內容。但實際上，問題的關鍵不在記性不好，
而是「太急著表現」。研究指出，當語言模型在對話中接收到不完整的資訊時，它往往會
急著下結論，就像學生考試時還沒看完題目就開始寫答案。結果是，前面的假設錯了，後
面的邏輯也一路歪掉。不但無法修正，還會自我堅持，繼續補充一堆看似合理、其實錯得
離譜的細節。

這種現象讓人聯想到人類的「強辯」行為，但AI的版本更棘手，因為它不具備我們的懷疑
機制。我們人類如果說錯話，有時會停下來想想：「欸，好像不太對？」然後修正，但AI
模型目前還做不到這一點。它們無法意識到「我是不是不確定這件事？」一旦答錯，就一
路錯到底。

這也顯示一個關鍵問題：語言模型目前的設計邏輯，還是偏向一次性任務。可惜，現實中
的對話並不是這樣進行的。我們經常是一邊說、一邊釐清需求，問題是模糊的、資訊是漸
進式的。

改參數、加推理，為什麼都沒用？

遇到問題，工程師們當然會立刻想：「是不是參數設錯了？」於是研究團隊試了所有常見
的調整手段：調整溫度（temperature）參數（讓回答更保守或更冒險）、延長記憶長度
、提升推理模組的能力等等。但這些努力，幾乎都無法明顯改善模型在多輪對話中的表現
。換句話說，這不是模型參數調得不夠好，而是架構上的天生缺陷。

這背後的問題，其實出在訓練邏輯。過去語言模型的訓練大多使用單次問答的資料：一句
話問、一句話答，任務清楚、資訊完整。但實際生活中，深入多次對話才是常態，而且常
常一開始就資訊不清、問題不明。模型不習慣在模糊中摸索，就像一個只會背答案的學生
，突然被拉去參加即興辯論比賽，自然是招架不住。

未來如果要讓AI成為真正的對話幫手，我們也許不能再把訓練重點放在「更準確地回答」
，而要轉向訓練它「更懂得等待與釐清」。舉例來說，模型應該學會辨識使用者問題的不
確定性，並主動反問：「你是指這個意思嗎？還是那個？」也許它還該學會「不急著給答
案」，而是試著引導對話走向更清楚的方向。這才是對話真正的本質，而非只是問與答的
機械式循環。

這次的研究結果，打破了我們對語言模型的想像。表面上看，AI越來越能模仿人類語言、
理解語意，但當我們拉長對話、要求它「聽懂人話」，問題就浮現了。AI聰明沒錯，但還
不夠謙虛、不夠小心，也不夠願意說「我不知道」。這反而讓我們更理解了人類對話的精
妙之處：我們不只是會說話，而是懂得等對方說完，懂得保留模糊，也懂得在必要時改變
想法。

下一步的語言模型發展，或許該從「更會講」轉向「更會聽」；從「給答案」轉向「與人
探索」。要做到這一點，還有很長一段路要走，但這也正是我們讓科技真正貼近人性、創
造價值的關鍵所在。

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.177.1.4 (臺灣)
※ 作者: pl132 2025-05-23 09:18:54
※ 文章代碼(AID): #1eByq2v3 (Tech_Job)
※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1747963138.A.E43.html

推 flash789: AI泡沫怕.jpg1F 223.139.104.114 台灣 05/23 09:20

推 zonppp: 魔鬼終結者要來了2F 36.226.212.61 台灣 05/23 09:22

推 longlyeagle: 雀食3F 57.140.96.51 台灣 05/23 09:39

推 GoodLuck01: 好像有看了什麼, 但又像沒看了什麼4F 61.221.155.73 台灣 05/23 09:43

→ xvited945: 讓AI聽懂人話要很長一段路？當初說要讓Siri聰明一點也說要很久，結果各語言模型如雨後春筍問世，好了啦記者5F 36.224.197.167 台灣 05/23 09:45

推 Ryoma: 真人都會聽不懂人話或沒邏輯應答了9F 211.23.161.10 台灣 05/23 09:56

推 hensel: 蹲的越久腳就越麻10F 114.136.168.241 台灣 05/23 10:22

推 lovebridget: 這篇AI寫的嗎11F 220.130.196.217 台灣 05/23 10:35

推 endisonlin: 我也覺得這記者很讚12F 42.72.103.1 台灣 05/23 10:46

推 lovebridget: 其實人更不會聽吧還會反嗆陷害
AI你跟他說不對他馬上改口我還覺得他太會順著你太舔不準確13F 220.130.196.217 台灣 05/23 10:49

推 lastsodeep: Siri 有聰明過嗎？16F 101.10.222.202 台灣 05/23 11:09

噓 alvinlin: 無聊。這話題已經大概是半年前的事情了。最近有改善很多了啦17F 180.177.212.126 台灣 05/23 11:09

推 mmonkeyboyy: AI 就跟某些(國)人一樣舔狗啊~19F 73.70.62.211 美國 05/23 11:21

噓 alvinlin: 記者不要老是把「舊」聞當「新」聞寫好嗎
https://arxiv.org/abs/2307.0317220F 180.177.212.126 台灣 05/23 11:30

[2307.03172] Lost in the Middle: How Language Models Use Long Contexts Abstract page for arXiv paper 2307.03172: Lost in the Middle: How Language Models Use Long Contexts ...

→ la8day: 人會說：乾我屁事這鍋為什麼要我揹你去找其他人23F 61.230.28.15 台灣 05/23 11:58

推 motan: 人類需要的是方便的工具，而不是真的新物種25F 101.12.176.125 台灣 05/23 12:19

推 zaiter: 蠻低能的文章文組寫的不意外
感覺這記者還有將這個比AI還智障27F 49.215.156.48 台灣 05/23 13:22

→ Arashi0731: 真人也是吧，講一講就不然你要投國民黨？29F 111.83.107.120 台灣 05/23 13:37

→ piyobearman: 人和人談到後面也是啦31F 101.12.146.2 台灣 05/23 13:44

→ kaltu: Bert 時代就在講的東西撐過GPT用了半個decade終於出現在文組的文章裡，所以說工程師面對跟技術脫節或根本非技術的主管永遠要記得他們的知識永遠落後時代，但他們又有實權32F 100.8.245.106 美國 05/23 13:48

推 Hack: 這研究不是這個月才release的嗎連文章都不會點進去看怎麼還好意思嗆Zzz
留言的那篇連文章標題都不對…37F 42.79.103.235 台灣 05/23 13:59

→ tokeep: 不是AI沒用，是你的AI沒用41F 118.231.192.235 台灣 05/23 14:15

推 kakar0to: 靠杯講半天就是說AI沒辦法好好
思考在回答之前黃仁勳就有說這能解決了42F 1.34.223.241 台灣 05/23 14:41

→ Killercat: 其他不敢說不過按照向量資料庫原理來講要讓他講出"我不知道"是很難的因為無論如何該embedding附近都可以找到解45F 57.140.96.34 台灣 05/23 14:43

→ acgotaku: 其實訓練資料越多回答的越正確
只是這個正確答案無法迎合人類
的正確答案
就像我們都很難跟諾貝爾獎得主溝通但是普通人與普通人溝同就能對頻49F 1.169.171.23 台灣 05/23 15:22

推 fyb: 到時客服人員都不在是真人 Ai主動思考解決所有問題54F 43.210.0.7 美國 05/23 15:45

推 abccbaandy: 真實阿，一兩句解決不了的再問也是浪費時間56F 1.34.13.108 台灣 05/23 16:03

→ D600dust: 不就跟青鳥一樣不會認錯58F 1.160.220.193 台灣 05/23 16:53

→ yesyesyesyes: ai 回答的是你要的，不是正確解答59F 101.9.100.212 台灣 05/23 17:00

推 j401f2: 真人有好到哪裡去嗎…一堆有偏見的根本無法理性溝通60F 42.70.175.12 台灣 05/23 17:45

噓 alvinlin: 感覺有人英文看不懂。看中文吧。1年了
https://zhuanlan.zhihu.com/p/67861488062F 180.177.212.126 台灣 05/23 18:16

推 Hack: 要不要去看看眼睛標題一樣嗎？這篇文章的原文是什麼時候發表的要不要看看
標題抓到「Lost」就開噴Zzz 兩篇探討的是同一件事情嗎？這年頭讀書不犯法多念一點吧66F 42.79.103.235 台灣 05/23 18:43

→ toaste791214: 其實人腦的思維、邏輯判斷還是贏過電腦的，不然上帝為什麼要創造人？而不是創造電腦？另外光看現在的研發人員、決策者還是人類就知道了。AI說穿就是很方便的自動化軟體而已。72F 42.79.100.127 台灣 05/23 20:02

→ wasitora: 上帝XDDDDD77F 36.231.14.177 台灣 05/23 20:08

推 wrt: 操這AI是傻鳥嗎？死不認錯78F 124.218.220.239 台灣 05/23 21:40

→ alvinlin: 根據兩篇論文——2024年發表的《Lost in the Middle: How Language Models Use Long Contexts》（簡稱Lost in the Middle）和2025年發表的《LLMs Get Lost in Multi-Turn Conversation》（簡稱Lost in Conversation）——這兩篇論文都討論了大型語言模型（LLMs）在處理長上下文或多輪對話時的能力限制，以下幫助你理解兩者的關係與差異。
1. 兩篇論文的主題與核心問題
Lost in the Middle (2024)
主題：探討LLMs在處理「長上下文」時，對於關鍵資訊在不同位置（開頭、中間、結尾）的利用能力。
核心問題：當關鍵資訊位於長上下文的中間時，模型的表現顯著下降，呈現「U型曲線」（首尾好，中間差），即「中間迷失」現象。
重點場景：多文件問答、key-value檢索等需要在長文本中定位資訊的任務。
Lost in Conversation (2025)
主題：探討LLMs在「多輪對話」中，尤其是用戶需求逐步揭露（underspecified, multi-turn）時的表現。
核心問題：LLMs在多輪、需求逐步揭露的對話中，表現大幅下降，且 unreliability（不穩定性）大幅增加，容易「迷失在對話中」。
重點場景：模擬用戶逐步補充需求的多輪對話，涵蓋程式設計、數學、摘要等多種生成任務。
2. 兩者的關係與差異說明：
兩者都關注LLMs在「長期記憶」或「多步推理」場景下的能力瓶頸，在2024年論文聚焦於靜態長文本的資訊定位與利用。在2025年論文聚焦於動態多輪對話中資訊逐步揭露與模型可靠性。
兩者的「迷失」現象有相似之處（即模型無法有效整合所有上下文資訊），而具體場景、評估方法和解釋略有不同。
3. 2025年論文是否提出更多論點或解決方案？
2025年論文的進一步貢獻：
更貼近實際應用場景：強調多輪、需求逐步揭露的對話，這是現實用戶與AI互動的常態。
提出「可靠性 unreliability」新指標：不僅看平均表現，還關注模型在多次對話中的穩定性（同一需求多次對話結果差異大）。
大規模實驗：涵蓋15個主流LLM、6大類生成任務，並提出「sharding」方法將單輪任務轉為多輪對話。
分析失敗原因：如模型過早下結論、過度依賴前一輪錯誤答案、對中間回合資訊利用不足等。
測試多種緩解策略：如在最後一輪總結所有需求（recap）、每輪重複所有已知需求（snowball），但發現這些方法只能部分緩解，無法徹底解決。總結：2025年論文雖不是簡單重複2024年的發現，而是將「迷失」現象推廣到更貼近真實用戶互動的多輪對話場景，並提出了新的評估指標與分析框架，對LLM未來改進提出了更具體的挑戰。
4. 總結對比表
概念延伸
LostInTheMiddle_2024
+主題: 長上下文資訊利用
+場景: 多文件QA, key-value檢索
+貢獻: 提出新評估協議
+現象: U型效應(首尾好,中間差)
LostInConversation_2025
+主題: 多輪對話下的可靠性
+現象: 多輪下表現大幅下降, 不穩定性增加
+場景: 需求逐步揭露的多輪生成
+貢獻: 新指標(可靠性) : , 大規模多模型多任務實驗, 失敗原因分析,緩解策略測試
5. 結論
這兩篇論文不是講同一件事，但2025年論文在2024年「長上下文迷失」的基礎上，將問題推廣到「多輪對話」這一更貼近實際應用的場景，並提出了更多新的觀察、指標和挑戰。
2025年論文提出了更多論點與分析，但目前尚未有徹底的解決方案，僅測試了一些緩解方法，效果有限。
如果你關心LLM在真實對話應用中的可靠性，2025年論文的貢獻更大、更具啟發性。
我指的是「新」聞。不是翻譯。也不是早知道的東西。79F 180.177.212.126 台灣 05/24 01:42

推 pacino: 這篇真的讚。178F 36.230.30.221 台灣 05/24 09:02

推 alex01: 很像小朋友啊179F 223.136.175.36 台灣 05/24 14:57

作者 pl132 的最新發文:

+1 [新聞]張雪如「雙手搓臉」聲援柯文哲！粉專轟白痴：亞斯不愛陌生人碰觸 - Gossiping 板

作者: pl132 123.195.194.185 (台灣) 2025-12-18 20:34:07

8F 3推 2噓
+21 [新聞]等10個月只多5幀？荒野高階PC玩家反饋：幀 - Steam 板

作者: pl132 123.195.194.185 (台灣) 2025-12-17 20:35:55

等10個月只多5幀？《魔物獵人荒野》高階PC玩家反饋：幀數不穩反而更嚴重 Capcom 釋出《魔物獵人荒野》第四次免費大更新，除了追加新內容外，最受玩家討論的就是 PC 版進行的效能最佳化（優 …

55F 24推 3噓
+1 [新聞]發展AI產業成各國顯學卓桐華：台灣不能只 - Tech_Job 板

作者: pl132 123.195.194.185 (台灣) 2025-12-17 20:14:20

9F 2推 1噓
+2 [情報]魔物獵人荒野迎最後新魔物未來全力優化官方盼：繼續支持 - PlayStation 板

作者: pl132 123.195.194.185 (台灣) 2025-12-16 23:32:41

15F 5推 3噓
+3 [新聞]台積電提告羅唯仁前研發副總林本堅拋2大看法：英特爾反陷危機 - Tech_Job 板

作者: pl132 123.195.194.185 (台灣) 2025-12-16 23:12:29

13F 4推 1噓

點此顯示更多發文記錄