看板 Stock作者 neo5277 (I am an agent of chaos)標題 [心得] 終端AI的時代來臨了時間 Tue Apr 7 00:37:00 2026
有影片好讀版
https://reurl.cc/7EkLDD
GOOGLE 真的做了一件很可怕的事情。
可怕的地方,不是它又發了一個更大的模型,也不是再蓋一座更大的資料中心,而是它正
在把生成式 AI 的主戰場,從雲端慢慢搬到終端。Google AI Edge Gallery 已經公開把
「離線、在裝置上、直接跑開源模型」這件事做成可下載、可體驗、可驗證的產品展示;
Google AI Edge 的 LLM Inference API 也明確把「完全在裝置上執行 LLM」列為正式能
力,Gemma 4 與 Gemma 3n 則持續朝手機、平板、筆電這類 everyday devices 最佳化。
這代表方向已經不是概念驗證,而是平台層、模型層、工具鏈三條線一起往前推。
我自己的判斷,是這個趨勢已經過了「會不會發生」的階段,進入「什麼時候大規模落地
」的階段。我使用 2015 年的 Lenovo Y700、16GB RAM、GTX 960 4GB,實測 Gemma 4
E2B / E4B 在量化後仍有不差的推論速度;另一邊,用 Samsung S24 Ultra 測試(有NPU
,12g記憶體) Google AI Edge Gallery,體感速度如影片我沒有使用影片加速。
這兩個測試的共同訊號很清楚:只要模型夠小、量化夠深、執行框架夠貼近硬體,很多過
去
賴雲端 GPU 的任務,現在已經能在消費級終端本地完成。S24 Ultra 這類手機本身也已
經把 NPU 作為賣點之一,Google 端則直接提供 on-device generative AI 的展示與
API,這不是單點突破,而是供應鏈上下游開始對齊。
模型蒸餾技術相當成熟,剪接嫁支能力,基本不是難事,這也是模型雖然小,卻一定程度
上可以五臟俱全,不是五技而窮的結果。
以現代科技的迭代速度,我會說三年內終端隨身 AI 助理幾乎是必然,因為經濟誘因已
經足夠強。七巨頭過去兩年把 AI 的資本支出拉到前所未有的水位:Meta 2025 年全年資
本支出達 722.2 億美元;Microsoft 在 2025 會計年度第四季單季資本支出就達 242 億
美元;Alphabet 已預告 2026 年資本支出將落在 1750 億到 1850 億美元;Amazon 也已
公開表示 2025 年資本支出提高到 1000 億美元,且絕大部分投入 AI 資料中心。
這些數字說明,雲端推理需求確實還在暴增;但也正因為暴增,雲端才更需要把一部分工
作卸載到用戶手上的裝置。只要能把摘要、意圖辨識、OCR、翻譯、個人知識整理、UI 操
作代理這類高頻任務切到本地端,雲端就能把昂貴算力留給更長上下文、更大模型、
更複雜的多代理工作。
從資金回收角度看,終端 AI 不是雲端的對手,而是雲端資本支出的緩衝器。
這也是 Google 這一步真正厲害的地方。它不是只做模型,而是同時做模型、裝置端推論
框架、展示應用與開發入口。
對使用者來說,AI Edge Gallery 把「本地模型其實已經能用」這件事直接變成體感;
對開發者來說,LLM Inference API 與 LiteRT-LM 把部署門
檻往下壓。當工具鏈成形,真正的競爭就不再只是誰的基礎模型分數高,而是誰能更快把
能力下放到手機、平板、筆電、車機、眼鏡、工控設備與家用裝置。
如果有認識台灣谷歌的人可以內推我嗎? XD 我可以去打雜
再看技術面,量化技術正在把這件事推到更現實的階段。前面提到的本地測試之所以成立
,核心就在量化。低 bit 權重早已不是新題目,但現在更值得注意的是 KV cache 壓縮
。Google Research 今年公開的 TurboQuant,主打在幾乎不損失精度的前提下,大幅壓
縮模型大小與 KV cache;官方直接把它定位為支援 KV cache compression 與向量搜尋
的高效率壓縮方法。
若這類方法進一步成熟並被主流推論框架吸收,終端裝置的瓶頸就不再只是權重能不能塞
進去,而是長上下文能不能維持、記憶體能不能撐住、延遲能不能壓
低。這會直接改寫本地 AI 的可用範圍。過去手機本地 AI 常常只能做短任務,接下來則
可能走向真正的常駐式助理。
想像一下,你有像銀河飛龍 star trek 畢凱艦長胸前的裝置(這樣會不會有點暴露年紀?
或是 HALO CORTANA 真正能透過裝置上感測器,然後本地運行的AI模型,只有特殊高算力
場景才要連上大腦。那可以幫你處理多少事情?
股點來了
從硬體演進來看,未來三到五年最值得注意的不是單純「GPU 更大」,而是記憶體階層會
被重新設計。手機 SoC、NPU、記憶體、封裝內高頻寬記憶體、PC 端更高容量 LPDDR /
CAMM2、邊緣裝置上的低功耗加速器,會逐漸圍繞同一件事最佳化:如何讓 2B、4B、8B
級別模型在可接受的功耗內常駐,並且支援多模態輸入。
Gemma 3n 已經明確強調per-layer parameter caching 與 MatFormer 這類降低計算與
記憶體需求的設計,代表模型架構本身也開始為終端設備重寫。未來不是只有硬體堆料
,而是模型、量化、runtime、記憶體控制器、OS 調度一起往「本地可常駐」靠攏。
技術正在濃縮,精煉,可以說是進入真正軟硬整合的蒸餾狀態。
因此,邊緣 AI 不只會落在旗艦手機。樹莓派、FPGA、低功耗工控板,甚至各種專用
MCU + NPU 模組,都有機會承接某一層 AI 任務。這裡要分清楚:它們未必適合跑完整的
通用聊天模型,但非常適合承接「前處理、本地偵測、事件判斷、語音喚醒、OCR、簡單
代理、短上下文推理」等工作。Google AI Edge 目前已把生成式 AI、視覺、文字、音訊
都納入同一套邊緣開發敘事;而裝置端增量訓練也已經出現在官方文件中。
這代表邊緣設備未來不只是推理端,還可能具備有限度的個人化能力,也意味著統用標準
格式傳遞的出現,早期的xml,網路時代的json,或是二進位的msgpack,甚至更新的規格都
會快速出現。
如果把資金回收與實際應用放在一起看,未來最合理的投資方向,不是再追一輪只服務資
料中心的單一敘事,而是轉往終端整合。原因很簡單:終端 AI 比雲端 AI 更接近現金流
。手機、PC、車機、工業設備、醫療終端、零售裝置、安防攝影機、穿戴設備,每一個品
類都能把 AI 變成實際賣點,進而帶動晶片、記憶體、模組、作業系統、應用軟體與服務
訂閱。
雲端是必要基礎設施,但終端才是最容易把模型能力轉成大量出貨與長期黏著的地
方。這不是說資料中心不重要,而是下一輪回收率更高的競爭,很可能發生在誰能把 AI
變成「隨身、離線、低延遲、可私有化」的日常能力。這一點,Google 現在其實已經先
走了。
我的推論很直接:三年內,本地端隨身 AI 助理大規模出現,機率極高;五年內,終端裝
置的 AI 能力會像相機 ISP、神經網路引擎、5G modem 一樣,從加分項變成標配。真正
值得看的公司與產品,不會只是在資料中心買到最多 GPU 的那一批,而是能把模型壓縮
、記憶體管理、功耗控制、端雲協同與實際場景整合在一起的那一批。在老筆電和旗艦手
機上看到的體感,不是例外,而是前兆。
從模型,到服務,到裝置GOOGLE 現在這一步跟把安卓放出去是一樣....
以我們開發者來說,終端可以應用的場景太多太多了。
但我還是會覺得會有大修正,因為目前從上到下,可以整合所有的
只有GOOGLE 他只有輸B端應用跟服務,待在業界的都知道,GOOGLE最近很用力再衝這塊
真的是不得不佩服老巴跟他的團隊.....
--
WHY SO SERIOUS???
--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.162.142.99 (臺灣)
※ 作者: neo5277 2026-04-07 00:37:00
※ 文章代碼(AID): #1fq-4nqY (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1775493425.A.D22.html
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 00:39:52
賣掉其他六巨頭,等崩盤後全力買GOOGLE
台灣就買可以拿到他代工的跟GG
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 00:40:47
推 s8911090: 內文都在講google 但語氣卻是chatgpt2F 04/07 00:41
→ Brioni: PC黃金時代再錄音?
再臨3F 04/07 00:42
推 benen: google最近很勤勞啊,不是還大力推薦自家若有老電腦,可以改用chrome os再戰幾年5F 04/07 00:44
推 sdbb: 歐印GGLL最快8F 04/07 00:46
基本上用一個還可以得有NPU的旗艦機可以寫app 來拓展的話
或著pi系列 做核心不難,難的是電機持久度,跟瞬時反應
推 niniko: 好,買GOOX11F 04/07 00:49
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 00:50:57
推 offstage: 可以請AI告訴我明天要買漲還是買跌嘛13F 04/07 00:53
推 brightest: 問題是壹般人還是不知道ai除了能看廢片能幹嘛14F 04/07 00:53
→ JoeyChen: 照AI社群的開發熱情 所有的可能性都會比預測的快吧16F 04/07 00:55
生成圖還要一下下 擴散模型比較麻煩
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:02:38
推 SodaMan: 夢裏都有,成本不是消失是轉嫁到其他費用19F 04/07 01:06
→ bollar7: google要漲了嗎,好像沒...20F 04/07 01:06
→ SodaMan: 如果你理解AI 架構,就不會寫出這種結論21F 04/07 01:07
純推論應該還好 終端版本跟OS一樣持續更新釋出就好
推 BC0710: 可以考慮一下GPU+WEKA/VAST 只能說都還未必誰贏 但餅越來越大是一定22F 04/07 01:08
→ aloness: 終端應用,尤其手持產品的天敵就是耗電量24F 04/07 01:09
(鼓掌
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:11:29
→ aloness: 下一個問題則是權限,誰會喜歡背景程式吃掉一大堆資源,跟BT下載不會給手持3C一樣概念25F 04/07 01:12
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:17:01
→ Obama19: 想太多了 終究只是個chatbot27F 04/07 01:15
openclaw可以做到的,我都可以開發後在手機上做到一樣的事情,光是Google AI edge
garlley就開放了下面這些給你體驗了
https://i.mopix.cc/1cdBfD.jpg
連控制裝置都有
介接local api就好
※ 編輯: neo5277 (42.71.96.172 臺灣), 04/07/2026 01:21:49
噓 strlen: 第一天就載了 以一般消費者能裝的版本 基本沒屁用又不是人人標配5090 就算是5090 模型也跟腦殘一樣28F 04/07 01:29
這跟5090沒有關係啊
光是 s24u 也滿普通的
→ strlen: 更別說agent功能 想太多 再等5年30F 04/07 01:29
→ SodaMan: 推論的基礎是背後的參考資料,你無法帶著龐大的資料落地,那就是假像而已31F 04/07 01:30
蒸餾跟微調剪枝以後的slm完全就是本體
....哪裡需要什麼參考資料,這跟RAG不一樣
這是已經訓練好,蒸餾各種功能的模型
,你不會在手機上做微調的,手機上要實作
RAG也不會難,以我這支手機512g的硬碟空間可以放專屬的KM了,終端場景需要什麼龐大
的資料,還是沒有辦法想像,最多做個即時聯網或是連網的資料存取api透過網路加載
跟google地圖一樣而已....
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:39:32
推 xzero0911: 5090跑31B VRAM還不夠用 掛OLLAMA要64G
26B效果倒是真的不錯回應又快33F 04/07 01:37
70%的商業應用場景其實不需要模型的多數能力啊,這點終端上本來有的能力結合起來這
個AI核心就好了。
→ yunf: 浪費時間寫那麼多廢話幹嘛?35F 04/07 01:37
因為玩的滿興奮的
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:41:56
→ yunf: 續航力問題沒辦法解決講再多你也只是空談36F 04/07 01:40
推 furture84: 有消息稱google的演算法是抄襲某研究生,而研究生的演算法是開源的
Rabbit
RabitQ37F 04/07 01:48
→ SodaMan: 不要離題了,模型蒸餾目的是節省算力成本,這不代表著可以用低成本建置地端的AI ,知識蒸餾只是走了捷徑並不是捨去成本41F 04/07 01:49
推 magic543: 實際測試過 小模型沒多大屁用 直接用線上AI就可以真的要辦公 還是需要PC 唯一重點是記憶體真的被錯殺45F 04/07 02:00
噓 haley80208: 整天吹 所以發布會的即時翻譯什麼時後能做好47F 04/07 02:03
推 waitrop: 為何會提到蒸餾?谷歌這技術跟edge 端AI 跟蒸餾完全沒有關係,簡單說就是模型小到能在edge 執行,效能又超強,跟蒸餾無關48F 04/07 02:04
前兩代都是蒸餾的啊...
都是從teacher學習部分能力啊..
推 hc20016: 結論就是 需要很多很多的記憶體
記憶卡蛙團結強大 一張不賣51F 04/07 02:06
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 02:08:53
推 saito2190: 我覺得邊緣裝置AI重點會在Agent能力跟指令服從性,他本身不用太聰明沒關係,反正Skill時代都是拿已經寫好的Skill給他跑,他只要能在正確的時間調用正確的工具,那就能完成大部分的任務,真正需要深度思考+研究的再去調用外部大模型就好54F 04/07 02:35
推 nineflower: 終端AI現在就能做阿,很佔地方而已,手機終端還要等硬體奇異點突破60F 04/07 02:51
推 bala045: 不是oooo 而是xxxx 可不可以讓你AI 不要再生這種句子62F 04/07 02:52
推 TameFoxx: 無論怎搞 你的電費都還是比雲端API還貴66F 04/07 03:28
→ budaixi: == 消費性電子股價都跌爛了,就你在吹67F 04/07 03:44
→ CH1SIR: 置板凳!
五年後再回來這篇70F 04/07 04:35
推 kkman2: 覺得遲早的事情72F 04/07 04:56
→ mtmmy: Mac Mini 16G RAM跑Gemma 4還是好吃力73F 04/07 05:16
推 breathair: 谷歌這版本基本就是給開發者玩的,看能玩出什麼花樣,有人調整權重讓他接受一些惡意指令(駭客攻擊),有人把它拿進公司封閉環境裡面做工作流自動化,綁定開發者生態,目的是為了搶佔開發者生態為目的
日後終端算力肯定越來越高,模型越做越小。那個時候這東西就有機會成為可以裝在所有終端的安卓2.0(絕對不是現在,現在在手機上還不如免費版的Gemini)
我買了許多谷歌,但谷歌現階段真不看這東西,他最重要的業務一樣是廣告跟大模型能力來保護自己的搜索業務,這只是眾多佈局中的一個細分賽道74F 04/07 05:23
推 cy168: 沒有open ai,google 當初並不想推llm ai,因為商業獲利整個被侵蝕。現在又準備建構讓大家離不開的生態鏈了。84F 04/07 05:36
噓 alice1967: 共享的資源還是最經濟實惠的,終端只是最後輸出跟顯示工具,別想太多!87F 04/07 05:37
→ guanting886: SLM配點RAG最多只能做到志工媽媽角色
能做小就幾個方向 縮小參數量、量化精度損失的部分就你看你調效的取捨
上下文的能吃的量就決定他能做的事很有限了89F 04/07 06:13
推 zenixls2: meta的llama當初被吹多高,你真的覺得本地端模型炒得起來?
esp32接大模型表現比Mac m3,4跑本地端模型好時,你還想用本地端嗎?95F 04/07 07:14
推 mdkn35: 早就有了吧 就準確率問題99F 04/07 07:24
推 efkfkp: 所以google到底還能不能買?有翻倍的可能嗎?還是股價就這樣了100F 04/07 07:31
→ wed1979: 算力中心一直建,是有什麼應用已經落地需要大算力...sora不是燒完了102F 04/07 07:34
→ CYL009: 之前豆包手機就是了 只不過會被其他大企業抵制 看谷歌怎麼玩104F 04/07 07:38
推 roiop710: 好的看來壓身家衝記憶體了109F 04/07 07:52
噓 fajita: 吹成這樣,看了都覺得好笑,跟那個死臉AI一樣110F 04/07 07:54
噓 jas258: 這種 這不是…而是的文體是不是都是AI啊111F 04/07 07:59
推 ahg: 普遍消費者用與不用的差別?這滲透率跟商轉能這麼樂觀?113F 04/07 08:12
推 CCH2022: 要多久才能twitch YouTube直播做到即時翻譯115F 04/07 08:18
噓 alice1967: 你要知道公司靠什麼收費,是廣告不是手機,既然如此,搞終端就是傻子,沒有收入搞個屁!不要淨用AI寫幻想文116F 04/07 08:26
噓 Porops: 有夠AI的文章,業內的根本不可能有這樣的結論120F 04/07 08:45
→ ma721: 電池沒解決前都不可能121F 04/07 08:53
推 orange7986: 我用 Mac Mini m4 pro 跑8B 模型很快但很笨 30B跑超慢…還是用雲端好123F 04/07 09:15
絕大多數的需求,只需要意圖辨識
就夠了剩下都是其他終端上的整合
大模型也幾乎都是這樣做的,差別在於專業領域的知識蒸餾,守備範圍
推 joygo: 沒噴就是跑起來其實還好
出了之後就下載的心得是 如果你拿去買顯卡的錢 調閱應該很夠了 老黃越出token只會越便宜125F 04/07 09:22
噓 dhm520: 廢話太多128F 04/07 09:50
→ xiemx: 好吧先看看129F 04/07 09:55
※ 編輯: neo5277 (1.162.139.18 臺灣), 04/07/2026 09:59:49
推 ACDC69: 欸婆,meta,喔噴ai 全蛋雕了130F 04/07 10:15
推 atari77: 可以養電子女秘書了?132F 04/07 11:51
噓 xoyeh168: 超蝦,終端時代=免費=賺不到錢,頂多賣硬體的可以賺133F 04/07 13:52
推 lee28119: Ptt發文拜託不要用AI寫啦 又不是FB要拼流量產出…136F 04/07 15:06
→ samm3320: 呃你有去裝過Gemma4來用嗎137F 04/07 15:41
→ bearq258: 老機器跑低參數ai還是不能用,連理解命令正確率還是不如多參數,小學生等級與碩士等級差異138F 04/07 17:29
噓 Lhmstu: 就問怎麼賺錢?140F 04/07 18:54
--