看板 Stock
作者 midas82539 (喵)
標題 Re: [心得] 蘋果揭露人工智能並不思考
時間 Mon Jun 16 02:04:32 2025


大語言模型(LLM)它的原始目的是要「模仿人類回答出人類看得懂的答案。」
但跟人類的語言不同,你我使用的與言語表達會是一系列的文字規則,
例如「主詞,動詞,受詞」的SVO結構。

但模型本身並不是這樣學習的,它是把你看到的字,拆成詞素(token)
然後將這些詞向量化,變成一系列數列:
king   → [0.8, 0.1, 0.3, 0.7]
queen  → [0.9, 0.1, 0.5, 0.9]
man    → [0.9, 0.0, 0.3, 0.6]
woman  → [0.8, 0.0, 0.5, 0.8]

這個數列可以很長,例如有必要的話,可以到有300多個。然後模型可以找到特徵。
這個特徵用人類可以理解例子,就姑且濃縮成一個角度,便為說明就簡化成:
king=右上      man=右上
queen=左上   woman=左上
那麼就算是你,也可以找到king跟man都是右上,故似乎有關連性。


而king跟queen角度不同,所以這兩個不是同樣的東西。
再把朕、殿下、皇帝、國王,排在一起。
只要資訊夠多,理論上是可以讓模型自己圈出有向量角度相近的集合。

我們可以再增加這個字出現在字首、字尾、中間第幾個字的頻率作為變數。
那麼就可以算出這個字出現在哪裡的特徵比較大。

這時我們回到剛剛的SVO結構,模型就可以在不懂中文,但憑統計出的特徵,
可以拼湊出一個你可以看懂的中文回答。

然而這並不是人類的理解與語意判定,以及衍伸的推理。
所以它就會造就出「中文房間」的錯覺,例如假設一個外國人被關在房間。
但他有一本教戰手則,上面說明了那些字出現了,可以給出哪些答案。
那他就算不懂中文,在手冊的指引上也可以回答定型文。

大語言模型也是同樣的概念,它是基於大量的資料來找出「特徵」,
而這些特徵的組合在在它的神經網絡會給予特定的權重,最後形成類似"手冊"
的東西,然後依照手冊找到近似值的解答,生成給你看。
但它不見得是理解回答是否有意義,所以才會出現錯誤。



比如說很常見的,現在threads被一堆詐騙仔用AI生成圖片,

例如啥我是護理師給我一個讚好嗎?但裡面的圖片會出現一些錯誤,
例如敘述自己是75年出生,但生成的身分證是57年出生。
或者有生成名字了,但它的字型大小很明顯不一致。

然而對於模型來說,它不會知道"怎麼樣才是對的格式",而它只是針對
中華民國身分證大概是長怎樣,而隨機生成一個結果。
故單純直接產出,就免不了會有以上的問題。

GPT4-O3它是說有多一個推理功能。然而它的底層還是大語言模型(LLM)
加上它的數據處理是弄成很長串的多維資料,你人類也看不懂,
所以你還是不會知道,它的推理過程,是不是也是模仿生成人類看得懂的邏輯。
但這個算法是否正確與必要,不見得正確。

這個問題在你處理只有你會面對的數學問題就有機會發生。
例如假設你要模型生成一個模型由0至指定最大值,與指定最小值機率遞減,
而機率遞減的分配公式,正常我們人類就是設一個權重來分配。
但我問過O3它就很奇葩,它想用自然常數來分配,然後算式會出現錯誤。




其他你看過的就是GPT跟deepseek下西洋棋,結果deepseek憑空出現棋子,
或者無視規則走奇怪的動作。這些都說明了語言模型並不是真的了解規則,
而只是像兩隻猴子看人類下棋,而模仿人類玩西洋棋。


由於這不是你熟知的建立規則(base rule),所以在面對複雜的隨機模擬。
它可能做出錯誤的資訊,而你沒有發現錯誤的話,它就會繼續引用上下文
而給出錯誤的結論,但你看起來覺得是對的。


比如說你不會選擇權,但你想要模型直接生成一個賣方與調整策略。
而模型基於call有正的delta,而錯誤認為sell call也有正dela,
那它就會繼續基於錯誤資訊引用,而得出:
當標的價格趨近於SC履約價,整體delta會變正而且增加,故需要買put調整的規則。

當然對我來說我可以看出哪裡有問題,但對於沒有理解的人來說,
那他就不會發現這個推理與建立規則錯誤,就會導致利用而產生虧損。

而這我認為基於大語言模型的訓練方式,本質上是無解。
你只能靠自己判斷模型的回答是否邏輯正確。而不是期望模型像神燈精靈,
你不用會你也可以產出一個東西跟專業的人競爭。

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 192.253.210.90 (臺灣)
※ 作者: midas82539 2025-06-16 02:04:32
※ 文章代碼(AID): #1eJmipbK (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1750010675.A.954.html
aegis43210: 人類的建立規則是靠五感的回饋機制不斷修正而來,但LLM只能靠文字1F 06/16 02:09
eric878787: 目前AI只負責生成,不負責對錯3F 06/16 02:12
qwe78971: LLM 講白 只是接受很多數據 然後連連看 哪個規律最高 最匹配就用哪個 不是真正 thinking 根本不是AGI的方向 一旦碰到的東西沒這數據 就當機了 沒有學習及糾錯能力 跟人腦差距還是太大4F 06/16 02:15
haha98: 我比較認同Ilya的看法 目前的LLM甚至 MLLM只是一種基於語意的壓縮世界模型 離真正的世界模型還差的遠8F 06/16 02:24
fajita: 目前的模型,等老黃賣到G2兆時看能不能突破10F 06/16 03:09
abc12812: alphago下棋就沒這種問題11F 06/16 03:20
edward0811: 生成式AI就大騙局,非人類進步方向12F 06/16 03:46
s0914714: 生成式AI的概念可能只是人類思考的一部分而已13F 06/16 03:55
bobogei81123: 講的好像別人跟你說一句話 你是先拆成主詞 受詞...再去理解分析的14F 06/16 04:55
ripple0129: 其實大量的迴歸與收斂,最後答案都會越來越正確,只是在於有沒有人校正什麼是錯誤什麼是正確。AI本來就不應該完全與人類相同的思考模式發展,否則就不可控了。讓AI限縮在LLM的極致與正確性,或許對人類是一種安全的選擇。16F 06/16 05:21
guanting886: 短時間內LLM還是要依賴Scale AI這類公司做資料清洗、修正跟媒合血汗打工仔幫忙打標籤 沒有工人智慧就沒有你現在看到的人工智慧
目前人們要的就是想要一個酷東西 他們才不會在乎後面到底是統計模型 還是真的會推理 包括整個行業可能也不想戳這個東西的真相
蘋果的論文可惜的是他發表的時間讓他們很尷尬 只有被討罵的份而已
現在的Ai被包裝的很好 會有讓用戶認為他們是全能的 但可能要小心其實會錯大 包括整理資料跟分析講結
用戶事後都要去驗證 但新的問題又來了 當你習慣什麼東西的丟給這樣的模型去幫你做整理 你要核實數字的難度就會變高
因為藉由Ai你獲得了一個極佳的槓桿 你甚至可以一次做的工作量變得以往多好幾倍
但也丟出很大的工作量給Ai 你無法有限的時間核實Ai給你說的數據是否正確 最後你會鬼遮眼選擇忽略會發生這個問題的事實
(之前拿某個模型來分析資料 看了模型在推理過程直到他崩潰/幻覺,不難想像如果這樣的東西要在蘋果手機上,我看某個用戶可能因為某個原因發生嚴重問題我看集體訴訟就來了21F 06/16 06:04
ewayne: 14樓,不然呢?還是你以為你可以在主詞受詞動詞都搞不清楚的狀態下就能理解一個句子?44F 06/16 06:37
dildoe: 隨便問個簡單問題都略過萬數量詞了XD46F 06/16 06:39
pujos: @24樓,你可以藉由他有十倍百倍工作量,但你沒有十倍、百倍的驗證能量,所以錯誤就成了必然
你還沒能力預防、控制這個“錯”,會不會出在什麼巨大的地方47F 06/16 06:54
NTUT56: 看起來背後就一堆線性代書運算
所以線代真的超重要的,從來不會退流行51F 06/16 07:05
bobogei81123: 6歲小孩根本沒聽過主詞受詞這些概念 還不是聽得懂人53F 06/16 07:19
NTUT56: 人家有爸媽天天跟他練英文,你有嗎
而且美國的小孩一樣要上英文課55F 06/16 07:20
chang1248w: 現在token embedding dim不是2048起跳嗎= =57F 06/16 07:34
zero00072: 有點概念了,有點像人類識別顏色座標,相近的顏色座標相近;但是色弱的座標相對狹窄。58F 06/16 07:36
mdkn35: 詞性只是能更複雜地形容精確的狀態 不然只有名詞也是能描述60F 06/16 07:37
kobebrian: 這篇描繪的算蠻深入淺出62F 06/16 07:39
xephon: 沒辦法很多猴子覺得AI會思考人類要毀滅了63F 06/16 07:44
Samurai: 這篇很專業了,LLM基礎就是模糊性,才適用語言交流,拿來算數學容易錯誤64F 06/16 07:51
pujos: 不是算數學容易錯,而是這玩意容易驗證,對就對、錯就錯,生成其他文本類,錯了你也看不出來
實際上它的架構、答案生成方式,就決定他做什麼都是容易出錯66F 06/16 07:54
prmotolprlin: 專業推 讚讚70F 06/16 08:09
jorden: AI弄個網格交易工具可以 要玩期貨可能有難度71F 06/16 08:14
gold9450412: 我喜歡台大教授李宏毅的說法 大家都說AI只是找機率最大的排列組合成句子 不是思考
但人類大腦何嘗不是這樣操作 同樣是計算出最有可能的答案72F 06/16 08:24
ohlong: LLM只是像大腦裡面掌管語言的區塊 模仿的功能跟字彙更強一點 我們也是從小透過學習文法跟單字可以拼湊出語意暢通的句子 LLM就像模仿片語的巨量化 而觀察小朋友還牙牙學語時 早就有思考邏輯能力了 AGM真的還早76F 06/16 08:27
horseorange: 推81F 06/16 08:28
kkking: 台灣填鴨教育教出來的也沒好多少82F 06/16 08:32
Homeparty: 寫代碼跟畫圖好用,因為是人類創造有邏輯規則。但無法普及現實世界,因為現實轉換向量過於複雜。83F 06/16 08:44
Samurai: AI思考方式就跟人腦一樣,至於容不容易出錯,很難定義,現在讓AI寫考卷,已經贏一大票學生了85F 06/16 08:46
a1379: 推這篇 現在的AI跟人們幻想的AI根本是兩回事87F 06/16 08:48
dearevan: 推88F 06/16 08:53
vovovolibear: 長知識了89F 06/16 09:03
kyukyu: 謝謝分享90F 06/16 09:08
etrangere: 我猜那個推理也是偵測到關鍵字call function而已xD91F 06/16 09:14
a1234567289: 推本篇92F 06/16 09:16
ProTrader: 對於AI與機器學習來說自有資訊分析與呈現的方式
目前模型跟人類真正的資訊分析呈現方式並不相同
LLM只是盡可能讓結果與人類語言類似93F 06/16 09:17
steven961302: 好文96F 06/16 09:20
ProTrader: 這些模型分析追求的是最大可能性  並不能保證正確從google搜尋的角度來看  這是更好用的智慧型搜尋然而 這還不是有可靠度的任務代理人97F 06/16 09:21
Sinreigensou: 推 所以大型語言模型才有幻覺問題
所以我搜尋東西還是盡可能用傳統搜尋引擎100F 06/16 09:27
fan415: 不管你說的對不對,人家已經打趴9成人類的工作,該慶幸機器不能像牛馬一樣負責任扛包,不然哪還有工作給你做102F 06/16 09:34
addy7533967: 線代...死去的記憶在攻擊我105F 06/16 09:36
ARTORIA: 9成...要吹也別這麼誇張 連大部分低端工作都還不能做你跟我說9成106F 06/16 09:40
takase: 所以需要對齊啊108F 06/16 09:41
strlen: 其實我忘了在哪個地方看過 底層是靠機率在排出答案的這個模式 並不一定是錯的喔 想想看 這世界基本是量子力學所組成的 量子力學本身就有隨機性
所以代表這個世界的基礎 其實也是建立在機率之上
那為什麼量子能達到現在這樣「看似」普通的穩定態?答案就在量子的規模 夠巨大 隨機性被降到極低 就沒事惹 這也是為何奧本海默團隊有人就計算到 核彈是有機率燒掉整個大氣層 連鎖反應停不下來 但很低而已LLM用機率當底層也沒什麼關係吧?出錯的機率夠低就好了 簡單說 方向就是把算力當量子 他X加爆就對了109F 06/16 09:46
moonlovemai: 蘋果的不行不代表別人的也不行119F 06/16 09:55
liliumeow: 人腦可能就是這樣思考的120F 06/16 09:56
pmes9866: 人類大腦的預測能力屌打LLM121F 06/16 10:00
uller: LLM確實是統計機率並不會思考,但這就必經的路,不是說,這沒用,我不要研究。那你蘋果乖乖滾下去吧122F 06/16 10:09
hank850503: 如果智慧的本質就是這樣呢?
LLM 現在辦到的就是我家鸚鵡會的124F 06/16 10:23
dream1124: 推解釋126F 06/16 10:40
VicLien: 社群媒體狂洗某隻股票利多 就是一堆人會去買 誰說AI不如人 AI插電就學習 串越多學越快  取代5成人類認知很難嗎127F 06/16 11:02
AlarmAlarm: 用這麼久AI 要由人判斷正確不是很明顯嗎 一堆說專業要被取代就覺得好笑 講這種話的AI都沒用過幾次吧130F 06/16 11:07
axz123999: 推推132F 06/16 11:48
aloness: 驗證這個狀況只適合擁有專業的人來執行,對外行人來講,不論是透過ai給答案,還是自己翻書湊答案,無法保證兩邊都能對,此時ai因為被問過同樣類型的問題次數多,ai的答案方向或許還比自力學習來的可
ai並不是在創造解答,但一般人遇到的問題多半都是另一個人每月每年都在處理的,ai只是在各領域吸收每月每年都在處理的例行公事,回答提問人133F 06/16 12:13
Tatsuya72: 標籤這件事就代表工人智慧
靠吹AI欺世盜名撈錢的共犯結構沒那麼容易放棄
加上戰爭的因素,給了他們能最大化剝削資源的機會操弄恐懼
如一年前提過,過度投資的泡沫會比想像中更快到來141F 06/16 12:44
guanting886: 長期使用下來的心得:只利用他的統計特性減少我找尋某一種全新知識的時間 至於他能不能直接解決問題 通常 不能
就連詐騙集團都認爲LLM做翻譯 裡面的文法都不一定是常用或合理的
數值運算證明了 只要他不call python來算,他的回答是基於數據裡面某一種類別的資料的解題過程來湊答案 就好比一個沒唸書的學生為了應付考試 題目什麼他就到處看書的東湊西湊只求這題能寫點什麼
他的狀況很像阿里巴巴全球數學競賽醜聞 那位被老師當分身帳號使的少女
她根本無法解題 只是受老師指示抄給她的答案送上去 要她真的理解根本不能 因為她連某些公式符號是什麼都不知道
寫程式碼這件事只能說更離譜 因為特性的關係 程式碼都是掰的(LLM特性)
就好比你在stackoverflow發起一個問題 結果回答你的人 解決方案都是想像出來的 他也跑過
也沒跑過 (這個部分大概要解決 只能要讓ai想程式 碼的時候 要同步出你的環境條件 藉由不間斷的試錯他可能才勉強真的驗證過回答是正確的
但實現上困難 簡單環境可以 複雜一點他的運算資源會反向被濫用或DDoS別人146F 06/16 12:52
Samurai: 人思考過程也是一樣啊,根據學習經歷去找出能解決問題的方法,只是目前模型沒這麼全能169F 06/16 13:09
guanting886: 目前LLM是能解決某些問題 但是他的一開始的架構就已經決定他的極限在哪
人類學習過程會試錯 得到經驗
LLM是抄題仔 他的答案是沒有被驗證過的171F 06/16 13:11
Samurai: 模型學習本質就是試錯得到經驗,也一樣
另外模型訓練過程,資料會分成驗證組,不是沒驗證175F 06/16 13:12
guanting886: 如果他要為他的答案負責 大多數你大概會寧可關掉視窗 因為非常慢 運氣好他陷入幻覺你要的答案根本你等不到
為什麼Scale Ai這間公司很重要 因為數據來源跟有沒有做好整理就大多決定了模型的能力
我認為現在研究團隊應該就是趁這個時間在熱度的高峰 拿到投資人的錢看能不能解決LLM的真實痛點177F 06/16 13:13
Samurai: 人也是一樣啊,唸了國文課本但去考數學一樣爆炸XD184F 06/16 13:16
guanting886: 在這之前大家都會盡可能拖就拖
嗯。~我只想表達LLM真的離通用Ai真的蠻遠的 但也因為這個東西的誕生 人們之間的資訊落差 的確有改185F 06/16 13:17
jodawa: 推189F 06/16 13:19
rickyiu: 推190F 06/16 13:25
johnlin35: 推191F 06/16 13:46
KrisNYC: 問題是現在有一個軍備競賽強迫一大部分的資源錯置這個方向並沒有錯 只是單用這個方法走不到終點而已192F 06/16 14:24
chenyei: 你的中文很不通順,外國人?194F 06/16 15:05
ctes940008: 對答案195F 06/16 15:14
lavign: 語言是離散的有限的,真實世界是連續的無限的
數位資料的離散性就注定AI永遠不能真的思考196F 06/16 17:31

--
作者 midas82539 的最新發文:
點此顯示更多發文記錄