[閒聊] AI焊死在晶片上每秒產一萬字功耗1/10 - AI_Art板

作者 error405 (流河=L)
標題 [閒聊] AI焊死在晶片上每秒產一萬字
時間 Sat Feb 21 10:14:30 2026

https://taalas.com/the-path-to-ubiquitous-ai/

The path to ubiquitous AI | Taalas
By Ljubisa Bajic Many believe AI is the real deal. In narrow domains, it already surpasses human performance. Used well, it is an unprecedented... ...

核心技術：Hardcore Models（硬核模型）
把整個 AI 模型（權重、參數）直接「硬焊（hard-wire）」到矽晶片上，變成專屬 ASIC（應用特定積體電路）
從拿到一個新模型開始，只要 2 個月就能做出對應的客製晶片
他們稱之為「The model is the computer」 —— 模型本身就是電腦，不再需要通用
GPU 去跑軟體

解決的問題
現在 AI 推論（inference）太慢、太貴、太耗電 → 阻礙 AI 真正無所不在（ubiquitous AI）
Taalas 想做到像當年 ENIAC → 現代電腦的轉變一樣，讓 AI 變得即時、低成本、低功
耗

第一代產品：HC1
硬焊的是 Llama 3.1 8B（使用他們自訂的 3-bit 基底量化，部分參數 6-bit）
效能宣稱：單用戶：17,000 tokens/sec（約 10 倍於目前 SOTA，如 Groq、Cerebras、
NVIDIA H200 等）
建置成本：20 倍便宜
功耗：10 倍低

缺點：品質比原版 GPU 跑的略有下降（因為激進量化），上下文長度目前有限（但他們
說可彈性調整）
體驗方式：免費聊天 Demo：https://chatjimmy.ai （很多人說打完 Enter 幾乎瞬間出

chat jimmy
chat jimmy LLM web interface ...

答案，感覺像本地跑）
也有 Inference API 可申請

下一代與路線圖
HC2：更高密度、更快，採用標準 4-bit 浮點格式
今年春天：中型 reasoning LLM 上 HC1
今年冬天：frontier-level（前沿級）LLM 上 HC2
長期願景：sub-millisecond 延遲、近乎零成本的即時 AI

跟傳統「AI 壓縮」的差別傳統壓縮：量化（8→4→2 bit）、剪枝、蒸餾、MoE 等 → 還
是在 GPU/通用硬體上跑
Taalas：直接把壓縮後的模型「印到」晶片裡 + 儲存與運算合一（DRAM 等級密度，沒
有 HBM、沒有先進封裝、沒有液冷需求），徹底消除記憶體牆

簡單說：它不是在壓縮模型檔案大小，而是在壓縮「執行 AI 所需的整體成本與延遲」到
極致，代價是這個晶片只能跑特定一個模型（極端特化）。目前社群反應（Hacker News
、Reddit、X）很熱烈，有人覺得是瘋狂的突破，也有人質疑品質下降、模型更新太快是
否實用、是否只適合特定低延遲場景。

--
去它的測試網頁用英文叫它寫篇小故事啪一下全丟上來耗時0.036秒
這種技術以後如果能跟機器人結合應該大有可為吧我想

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.247.149 (臺灣)
※ 作者: error405 2026-02-21 10:14:30
※ 文章代碼(AID): #1fcHKA2j (AI_Art)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1771640074.A.0AD.html

推 Tosca: 出一台便宜的專生色色圖就太棒了~~1F 02/21 10:37

→ ninggo: 速度真變態2F 02/21 10:50

推 gino0717: 人類的性慾跟不上怎麼辦3F 02/21 12:01

推 avans: 8B是小資料量，再加上特規3-bit量化，能力十分有限度
不過將軟體模型轉為硬體晶片，感覺不簡單也很有趣4F 02/21 15:27

→ error405: 明年能變成搞多大的還不知道6F 02/21 15:33

推 v86861062: 酷7F 02/21 15:37

推 qiaffvvf: 好猛喔這個8F 02/21 16:49

推 stlinman: 生圖模型要刻成晶片應該不難? 圖像模型小的就很好用了!9F 02/21 21:46

推 necrophagist: 好屌10F 02/21 22:54

推 Destiny6: 拿來刻TTS應該很適合？11F 02/21 23:17

推 rex7788: 希望能像手機這樣可以小型、介面好又耗時低的
翻譯也能小型化變成即時的就好了12F 02/22 01:08

作者 error405 的最新發文:

+9 [閒聊] AI焊死在晶片上每秒產一萬字功耗1/10 - AI_Art 板

作者: error405 114.36.247.149 (台灣) 2026-02-21 10:14:30

13F 9推
+5 [閒聊] ChatGPT成人模式程式碼被發現 - AI_Art 板

作者: error405 114.36.247.149 (台灣) 2026-02-20 09:25:44

11F 5推
+2 [情報] Google Gemini新增30秒音樂生成功能 - AI_Art 板

作者: error405 114.36.247.149 (台灣) 2026-02-19 10:23:18

8F 2推
Fw: [閒聊] pixiv要出手管AI標示了 - AI_Art 板

作者: error405 114.36.224.81 (台灣) 2026-02-18 16:58:23

2F
+3 [閒聊] 致力做冷門語言的模型TinyAya - AI_Art 板

作者: error405 114.36.224.81 (台灣) 2026-02-18 12:38:29

7F 3推

點此顯示更多發文記錄