[心得] 終端AI的時代來臨了 - Stock板

看板 Stock
作者 neo5277 (I am an agent of chaos)
標題 [心得] 終端AI的時代來臨了
時間 Tue Apr 7 00:37:00 2026

有影片好讀版
https://reurl.cc/7EkLDD

GOOGLE 真的做了一件很可怕的事情。

可怕的地方，不是它又發了一個更大的模型，也不是再蓋一座更大的資料中心，而是它正
在把生成式 AI 的主戰場，從雲端慢慢搬到終端。Google AI Edge Gallery 已經公開把
「離線、在裝置上、直接跑開源模型」這件事做成可下載、可體驗、可驗證的產品展示；
Google AI Edge 的 LLM Inference API 也明確把「完全在裝置上執行 LLM」列為正式能
力，Gemma 4 與 Gemma 3n 則持續朝手機、平板、筆電這類 everyday devices 最佳化。
這代表方向已經不是概念驗證，而是平台層、模型層、工具鏈三條線一起往前推。

我自己的判斷，是這個趨勢已經過了「會不會發生」的階段，進入「什麼時候大規模落地
」的階段。我使用 2015 年的 Lenovo Y700、16GB RAM、GTX 960 4GB，實測 Gemma 4
E2B / E4B 在量化後仍有不差的推論速度；另一邊，用 Samsung S24 Ultra 測試(有NPU
,12g記憶體) Google AI Edge Gallery，體感速度如影片我沒有使用影片加速。

這兩個測試的共同訊號很清楚：只要模型夠小、量化夠深、執行框架夠貼近硬體，很多過
去
賴雲端 GPU 的任務，現在已經能在消費級終端本地完成。S24 Ultra 這類手機本身也已
經把 NPU 作為賣點之一，Google 端則直接提供 on-device generative AI 的展示與
API，這不是單點突破，而是供應鏈上下游開始對齊。

模型蒸餾技術相當成熟，剪接嫁支能力，基本不是難事，這也是模型雖然小，卻一定程度
上可以五臟俱全，不是五技而窮的結果。

以現代科技的迭代速度，我會說三年內終端隨身 AI 助理幾乎是必然，因為經濟誘因已

經足夠強。七巨頭過去兩年把 AI 的資本支出拉到前所未有的水位：Meta 2025 年全年資
本支出達 722.2 億美元；Microsoft 在 2025 會計年度第四季單季資本支出就達 242 億
美元；Alphabet 已預告 2026 年資本支出將落在 1750 億到 1850 億美元；Amazon 也已
公開表示 2025 年資本支出提高到 1000 億美元，且絕大部分投入 AI 資料中心。

這些數字說明，雲端推理需求確實還在暴增；但也正因為暴增，雲端才更需要把一部分工
作卸載到用戶手上的裝置。只要能把摘要、意圖辨識、OCR、翻譯、個人知識整理、UI 操
作代理這類高頻任務切到本地端，雲端就能把昂貴算力留給更長上下文、更大模型、

更複雜的多代理工作。

從資金回收角度看，終端 AI 不是雲端的對手，而是雲端資本支出的緩衝器。
這也是 Google 這一步真正厲害的地方。它不是只做模型，而是同時做模型、裝置端推論
框架、展示應用與開發入口。

對使用者來說，AI Edge Gallery 把「本地模型其實已經能用」這件事直接變成體感；
對開發者來說，LLM Inference API 與 LiteRT-LM 把部署門
檻往下壓。當工具鏈成形，真正的競爭就不再只是誰的基礎模型分數高，而是誰能更快把
能力下放到手機、平板、筆電、車機、眼鏡、工控設備與家用裝置。

如果有認識台灣谷歌的人可以內推我嗎? XD 我可以去打雜

再看技術面，量化技術正在把這件事推到更現實的階段。前面提到的本地測試之所以成立
，核心就在量化。低 bit 權重早已不是新題目，但現在更值得注意的是 KV cache 壓縮
。Google Research 今年公開的 TurboQuant，主打在幾乎不損失精度的前提下，大幅壓
縮模型大小與 KV cache；官方直接把它定位為支援 KV cache compression 與向量搜尋
的高效率壓縮方法。

若這類方法進一步成熟並被主流推論框架吸收，終端裝置的瓶頸就不再只是權重能不能塞
進去，而是長上下文能不能維持、記憶體能不能撐住、延遲能不能壓
低。這會直接改寫本地 AI 的可用範圍。過去手機本地 AI 常常只能做短任務，接下來則
可能走向真正的常駐式助理。

想像一下，你有像銀河飛龍 star trek 畢凱艦長胸前的裝置(這樣會不會有點暴露年紀?
或是 HALO CORTANA 真正能透過裝置上感測器，然後本地運行的AI模型，只有特殊高算力
場景才要連上大腦。那可以幫你處理多少事情?

股點來了

從硬體演進來看，未來三到五年最值得注意的不是單純「GPU 更大」，而是記憶體階層會
被重新設計。手機 SoC、NPU、記憶體、封裝內高頻寬記憶體、PC 端更高容量 LPDDR /
CAMM2、邊緣裝置上的低功耗加速器，會逐漸圍繞同一件事最佳化：如何讓 2B、4B、8B
級別模型在可接受的功耗內常駐，並且支援多模態輸入。

Gemma 3n 已經明確強調per-layer parameter caching 與 MatFormer 這類降低計算與
記憶體需求的設計，代表模型架構本身也開始為終端設備重寫。未來不是只有硬體堆料
，而是模型、量化、runtime、記憶體控制器、OS 調度一起往「本地可常駐」靠攏。

技術正在濃縮，精煉，可以說是進入真正軟硬整合的蒸餾狀態。

因此，邊緣 AI 不只會落在旗艦手機。樹莓派、FPGA、低功耗工控板，甚至各種專用

MCU + NPU 模組，都有機會承接某一層 AI 任務。這裡要分清楚：它們未必適合跑完整的
通用聊天模型，但非常適合承接「前處理、本地偵測、事件判斷、語音喚醒、OCR、簡單
代理、短上下文推理」等工作。Google AI Edge 目前已把生成式 AI、視覺、文字、音訊
都納入同一套邊緣開發敘事；而裝置端增量訓練也已經出現在官方文件中。

這代表邊緣設備未來不只是推理端，還可能具備有限度的個人化能力，也意味著統用標準
格式傳遞的出現，早期的xml，網路時代的json,或是二進位的msgpack,甚至更新的規格都
會快速出現。

如果把資金回收與實際應用放在一起看，未來最合理的投資方向，不是再追一輪只服務資
料中心的單一敘事，而是轉往終端整合。原因很簡單：終端 AI 比雲端 AI 更接近現金流
。手機、PC、車機、工業設備、醫療終端、零售裝置、安防攝影機、穿戴設備，每一個品
類都能把 AI 變成實際賣點，進而帶動晶片、記憶體、模組、作業系統、應用軟體與服務
訂閱。

雲端是必要基礎設施，但終端才是最容易把模型能力轉成大量出貨與長期黏著的地

方。這不是說資料中心不重要，而是下一輪回收率更高的競爭，很可能發生在誰能把 AI
變成「隨身、離線、低延遲、可私有化」的日常能力。這一點，Google 現在其實已經先
走了。

我的推論很直接：三年內，本地端隨身 AI 助理大規模出現，機率極高；五年內，終端裝
置的 AI 能力會像相機 ISP、神經網路引擎、5G modem 一樣，從加分項變成標配。真正
值得看的公司與產品，不會只是在資料中心買到最多 GPU 的那一批，而是能把模型壓縮
、記憶體管理、功耗控制、端雲協同與實際場景整合在一起的那一批。在老筆電和旗艦手
機上看到的體感，不是例外，而是前兆。

從模型，到服務，到裝置GOOGLE 現在這一步跟把安卓放出去是一樣....

以我們開發者來說，終端可以應用的場景太多太多了。
但我還是會覺得會有大修正，因為目前從上到下，可以整合所有的

只有GOOGLE 他只有輸B端應用跟服務，待在業界的都知道，GOOGLE最近很用力再衝這塊

真的是不得不佩服老巴跟他的團隊.....

--
WHY SO SERIOUS???

--

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.162.142.99 (臺灣)
※ 作者: neo5277 2026-04-07 00:37:00
※ 文章代碼(AID): #1fq-4nqY (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1775493425.A.D22.html

→ tamama000: 可以請AI幫我總結10字以內嗎1F 04/07 00:38

※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 00:39:52
賣掉其他六巨頭，等崩盤後全力買GOOGLE
台灣就買可以拿到他代工的跟GG
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 00:40:47

推 s8911090: 內文都在講google 但語氣卻是chatgpt2F 04/07 00:41

→ Brioni: PC黃金時代再錄音？
再臨3F 04/07 00:42

推 benen: google最近很勤勞啊，不是還大力推薦自家若有老電腦，可以改用chrome os再戰幾年5F 04/07 00:44

→ perlone: 記憶體又要缺貨了7F 04/07 00:45

推 sdbb: 歐印GGLL最快8F 04/07 00:46

推 miloisgood: 這樣機器人會先飛天吧9F 04/07 00:47

基本上用一個還可以得有NPU的旗艦機可以寫app 來拓展的話
或著pi系列做核心不難，難的是電機持久度，跟瞬時反應

推 bcismylove: 總結歐印GOOGLE10F 04/07 00:49

推 niniko: 好，買GOOX11F 04/07 00:49

※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 00:50:57

推 ga278057: 有終端機器人嗎12F 04/07 00:52

推 offstage: 可以請AI告訴我明天要買漲還是買跌嘛13F 04/07 00:53

推 brightest: 問題是壹般人還是不知道ai除了能看廢片能幹嘛14F 04/07 00:53

推 jack55777100: 總結就是google是神要歐印15F 04/07 00:54

→ JoeyChen: 照AI社群的開發熱情所有的可能性都會比預測的快吧16F 04/07 00:55

推 bobboy8755: 可以離線畫色圖吃到飽的意思嗎？(興奮17F 04/07 01:00

生成圖還要一下下擴散模型比較麻煩

→ kuninaka: 又是ＡＩ生成的文章18F 04/07 01:01

※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:02:38

推 SodaMan: 夢裏都有，成本不是消失是轉嫁到其他費用19F 04/07 01:06

→ bollar7: google要漲了嗎，好像沒...20F 04/07 01:06

→ SodaMan: 如果你理解AI 架構，就不會寫出這種結論21F 04/07 01:07

純推論應該還好終端版本跟OS一樣持續更新釋出就好

推 BC0710: 可以考慮一下GPU+WEKA/VAST 只能說都還未必誰贏但餅越來越大是一定22F 04/07 01:08

→ aloness: 終端應用，尤其手持產品的天敵就是耗電量24F 04/07 01:09

(鼓掌
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:11:29

→ aloness: 下一個問題則是權限，誰會喜歡背景程式吃掉一大堆資源，跟BT下載不會給手持3C一樣概念25F 04/07 01:12

※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:17:01

→ Obama19: 想太多了終究只是個chatbot27F 04/07 01:15

openclaw可以做到的，我都可以開發後在手機上做到一樣的事情，光是Google AI edge
garlley就開放了下面這些給你體驗了
https://i.mopix.cc/1cdBfD.jpg

連控制裝置都有
介接local api就好
※ 編輯: neo5277 (42.71.96.172 臺灣), 04/07/2026 01:21:49

噓 strlen: 第一天就載了以一般消費者能裝的版本基本沒屁用又不是人人標配5090 就算是5090 模型也跟腦殘一樣28F 04/07 01:29

這跟5090沒有關係啊
光是 s24u 也滿普通的

→ strlen: 更別說agent功能想太多再等5年30F 04/07 01:29

→ SodaMan: 推論的基礎是背後的參考資料，你無法帶著龐大的資料落地，那就是假像而已31F 04/07 01:30

蒸餾跟微調剪枝以後的slm完全就是本體
....哪裡需要什麼參考資料，這跟RAG不一樣
這是已經訓練好，蒸餾各種功能的模型
，你不會在手機上做微調的，手機上要實作
RAG也不會難，以我這支手機512g的硬碟空間可以放專屬的KM了，終端場景需要什麼龐大
的資料，還是沒有辦法想像，最多做個即時聯網或是連網的資料存取api透過網路加載
跟google地圖一樣而已....
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:39:32

推 xzero0911: 5090跑31B VRAM還不夠用掛OLLAMA要64G
26B效果倒是真的不錯回應又快33F 04/07 01:37

70%的商業應用場景其實不需要模型的多數能力啊，這點終端上本來有的能力結合起來這
個AI核心就好了。

→ yunf: 浪費時間寫那麼多廢話幹嘛？35F 04/07 01:37

因為玩的滿興奮的
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:41:56

→ yunf: 續航力問題沒辦法解決講再多你也只是空談36F 04/07 01:40

推 furture84: 有消息稱google的演算法是抄襲某研究生，而研究生的演算法是開源的
Rabbit
RabitQ37F 04/07 01:48

→ SodaMan: 不要離題了，模型蒸餾目的是節省算力成本，這不代表著可以用低成本建置地端的AI ，知識蒸餾只是走了捷徑並不是捨去成本41F 04/07 01:49

推 lnonai: MTK:44F 04/07 01:52

推 magic543: 實際測試過小模型沒多大屁用直接用線上AI就可以真的要辦公還是需要PC 唯一重點是記憶體真的被錯殺45F 04/07 02:00

噓 haley80208: 整天吹所以發布會的即時翻譯什麼時後能做好47F 04/07 02:03

推 waitrop: 為何會提到蒸餾？谷歌這技術跟edge 端AI 跟蒸餾完全沒有關係，簡單說就是模型小到能在edge 執行，效能又超強，跟蒸餾無關48F 04/07 02:04

前兩代都是蒸餾的啊...
都是從teacher學習部分能力啊..

推 hc20016: 結論就是需要很多很多的記憶體
記憶卡蛙團結強大一張不賣51F 04/07 02:06

※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 02:08:53

推 qoojo2002: 現在買甲骨文很便宜53F 04/07 02:29

推 saito2190: 我覺得邊緣裝置AI重點會在Agent能力跟指令服從性，他本身不用太聰明沒關係，反正Skill時代都是拿已經寫好的Skill給他跑，他只要能在正確的時間調用正確的工具，那就能完成大部分的任務，真正需要深度思考+研究的再去調用外部大模型就好54F 04/07 02:35

噓 holysong: 一隻手機20萬？59F 04/07 02:43

推 nineflower: 終端AI現在就能做阿，很佔地方而已，手機終端還要等硬體奇異點突破60F 04/07 02:51

推 bala045: 不是oooo 而是xxxx 可不可以讓你AI 不要再生這種句子62F 04/07 02:52

→ zero790425: 在吹估狗卻用別家AI填充內文 bad64F 04/07 03:07

→ sonatafm2: 所以沒那麼快落實到手持裝置的65F 04/07 03:15

推 TameFoxx: 無論怎搞你的電費都還是比雲端API還貴66F 04/07 03:28

→ budaixi: == 消費性電子股價都跌爛了，就你在吹67F 04/07 03:44

→ kingofsdtw: 增加手機耗電嗎？ apple笑而不語68F 04/07 04:08

噓 space20021: 你這篇也是AI寫的69F 04/07 04:22

→ CH1SIR: 置板凳！
五年後再回來這篇70F 04/07 04:35

推 kkman2: 覺得遲早的事情72F 04/07 04:56

→ mtmmy: Mac Mini 16G RAM跑Gemma 4還是好吃力73F 04/07 05:16

推 breathair: 谷歌這版本基本就是給開發者玩的，看能玩出什麼花樣，有人調整權重讓他接受一些惡意指令（駭客攻擊），有人把它拿進公司封閉環境裡面做工作流自動化，綁定開發者生態，目的是為了搶佔開發者生態為目的
日後終端算力肯定越來越高，模型越做越小。那個時候這東西就有機會成為可以裝在所有終端的安卓2.0（絕對不是現在，現在在手機上還不如免費版的Gemini)
我買了許多谷歌，但谷歌現階段真不看這東西，他最重要的業務一樣是廣告跟大模型能力來保護自己的搜索業務，這只是眾多佈局中的一個細分賽道74F 04/07 05:23

推 cy168: 沒有open ai，google 當初並不想推llm ai，因為商業獲利整個被侵蝕。現在又準備建構讓大家離不開的生態鏈了。84F 04/07 05:36

噓 alice1967: 共享的資源還是最經濟實惠的，終端只是最後輸出跟顯示工具，別想太多！87F 04/07 05:37

→ guanting886: SLM配點RAG最多只能做到志工媽媽角色
能做小就幾個方向縮小參數量、量化精度損失的部分就你看你調效的取捨
上下文的能吃的量就決定他能做的事很有限了89F 04/07 06:13

推 vovovolibear: 你的眼光很棒，只是目前我們連夏天有沒有油可以發電都不知道93F 04/07 06:55

推 zenixls2: meta的llama當初被吹多高，你真的覺得本地端模型炒得起來？
esp32接大模型表現比Mac m3,4跑本地端模型好時，你還想用本地端嗎？95F 04/07 07:14

推 mdkn35: 早就有了吧就準確率問題99F 04/07 07:24

推 efkfkp: 所以google到底還能不能買？有翻倍的可能嗎？還是股價就這樣了100F 04/07 07:31

→ wed1979: 算力中心一直建，是有什麼應用已經落地需要大算力...sora不是燒完了102F 04/07 07:34

→ CYL009: 之前豆包手機就是了只不過會被其他大企業抵制看谷歌怎麼玩104F 04/07 07:38

噓 gaussjordan: 你哪位106F 04/07 07:45

推 solarpower: 感謝分享與測試~謝謝107F 04/07 07:47

推 john801110: 阿斯拉？108F 04/07 07:52

推 roiop710: 好的看來壓身家衝記憶體了109F 04/07 07:52

噓 fajita: 吹成這樣，看了都覺得好笑，跟那個死臉AI一樣110F 04/07 07:54

噓 jas258: 這種這不是…而是的文體是不是都是AI啊111F 04/07 07:59

推 secrectlife: 好像廢話太多了112F 04/07 08:11

推 ahg: 普遍消費者用與不用的差別？這滲透率跟商轉能這麼樂觀？113F 04/07 08:12

推 CCH2022: 要多久才能twitch YouTube直播做到即時翻譯115F 04/07 08:18

噓 alice1967: 你要知道公司靠什麼收費，是廣告不是手機，既然如此，搞終端就是傻子，沒有收入搞個屁！不要淨用AI寫幻想文116F 04/07 08:26

推 ikariamman: 台灣早有啦119F 04/07 08:33

噓 Porops: 有夠AI的文章，業內的根本不可能有這樣的結論120F 04/07 08:45

→ ma721: 電池沒解決前都不可能121F 04/07 08:53

推 FatFatQQ: https://i.verb.tw/gjJ5d3SO.jpg122F 04/07 08:56

推 orange7986: 我用 Mac Mini m4 pro 跑8B 模型很快但很笨 30B跑超慢…還是用雲端好123F 04/07 09:15

絕大多數的需求，只需要意圖辨識
就夠了剩下都是其他終端上的整合
大模型也幾乎都是這樣做的，差別在於專業領域的知識蒸餾，守備範圍

推 joygo: 沒噴就是跑起來其實還好
出了之後就下載的心得是如果你拿去買顯卡的錢調閱應該很夠了老黃越出token只會越便宜125F 04/07 09:22

噓 dhm520: 廢話太多128F 04/07 09:50

→ xiemx: 好吧先看看129F 04/07 09:55

※ 編輯: neo5277 (1.162.139.18 臺灣), 04/07/2026 09:59:49

推 ACDC69: 欸婆，meta，喔噴ai 全蛋雕了130F 04/07 10:15

噓 rumblefish: 喔131F 04/07 11:14

推 atari77: 可以養電子女秘書了？132F 04/07 11:51

噓 xoyeh168: 超蝦，終端時代=免費=賺不到錢，頂多賣硬體的可以賺133F 04/07 13:52

噓 edison106: 所以google到底要漲了沒134F 04/07 14:18

→ hannah5269: 谷歌工程師大發財！135F 04/07 14:33

推 lee28119: Ptt發文拜託不要用AI寫啦又不是FB要拼流量產出…136F 04/07 15:06

→ samm3320: 呃你有去裝過Gemma4來用嗎137F 04/07 15:41

→ bearq258: 老機器跑低參數ai還是不能用，連理解命令正確率還是不如多參數，小學生等級與碩士等級差異138F 04/07 17:29

噓 Lhmstu: 就問怎麼賺錢？140F 04/07 18:54

→
CtFrank

台灣 04-07 15:58
AI究竟是能幹什麼?
最終獲利或現在獲利是什麼???
股票資本的轉移??
那?
股票永遠是漲的??全部的人都獲利??
錢是從哪裡來的..
人類的經濟活動永遠都是旁氏騙局吧
→
auluu

台灣 04-07 18:58
天網要來了嗎
智能手機天天推放廣告
Ai機器人大軍要來了嗎
ai智駕真的要來了嗎