作者 error405 (流河=L)標題 [閒聊] AI焊死在晶片上 每秒產一萬字時間 Sat Feb 21 10:14:30 2026
https://taalas.com/the-path-to-ubiquitous-ai/
The path to ubiquitous AI | Taalas
By Ljubisa Bajic Many believe AI is the real deal. In narrow domains, it already surpasses human performance. Used well, it is an unprecedented... ...
核心技術:Hardcore Models(硬核模型)
把整個 AI 模型(權重、參數)直接「硬焊(hard-wire)」到矽晶片上,變成 專屬 ASIC(應用特定積體電路)
從拿到一個新模型開始,只要 2 個月 就能做出對應的客製晶片
他們稱之為 「The model is the computer」 —— 模型本身就是電腦,不再需要通用
GPU 去跑軟體
解決的問題
現在 AI 推論(inference)太慢、太貴、太耗電 → 阻礙 AI 真正無所不在(ubiquitous AI)
Taalas 想做到像當年 ENIAC → 現代電腦的轉變一樣,讓 AI 變得即時、低成本、低功
耗
第一代產品:HC1
硬焊的是 Llama 3.1 8B(使用他們自訂的 3-bit 基底量化,部分參數 6-bit)
效能宣稱:單用戶:17,000 tokens/sec(約 10 倍於目前 SOTA,如 Groq、Cerebras、
NVIDIA H200 等)
建置成本:20 倍便宜
功耗:10 倍低
缺點:品質比原版 GPU 跑的略有下降(因為激進量化),上下文長度目前有限(但他們
說可彈性調整)
體驗方式:免費聊天 Demo:
https://chatjimmy.ai (很多人說打完 Enter 幾乎瞬間出
答案,感覺像本地跑)
也有 Inference API 可申請
下一代與路線圖
HC2:更高密度、更快,採用標準 4-bit 浮點 格式
今年春天:中型 reasoning LLM 上 HC1
今年冬天:frontier-level(前沿級)LLM 上 HC2
長期願景:sub-millisecond 延遲、近乎零成本的即時 AI
跟傳統「AI 壓縮」的差別傳統壓縮:量化(8→4→2 bit)、剪枝、蒸餾、MoE 等 → 還
是在 GPU/通用硬體上跑
Taalas:直接把壓縮後的模型「印到」晶片裡 + 儲存與運算合一(DRAM 等級密度,沒
有 HBM、沒有先進封裝、沒有液冷需求),徹底消除記憶體牆
簡單說:它不是在壓縮模型檔案大小,而是在壓縮「執行 AI 所需的整體成本與延遲」到
極致,代價是這個晶片只能跑特定一個模型(極端特化)。目前社群反應(Hacker News
、Reddit、X)很熱烈,有人覺得是瘋狂的突破,也有人質疑品質下降、模型更新太快是
否實用、是否只適合特定低延遲場景。
--
去它的測試網頁用英文叫它寫篇小故事 啪一下全丟上來 耗時0.036秒
這種技術以後如果能跟機器人結合應該大有可為吧我想
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.247.149 (臺灣)
※ 作者: error405 2026-02-21 10:14:30
※ 文章代碼(AID): #1fcHKA2j (AI_Art)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1771640074.A.0AD.html
推 Tosca: 出一台便宜的專生色色圖就太棒了~~1F 02/21 10:37
推 avans: 8B是小資料量,再加上特規3-bit量化,能力十分有限度
不過將軟體模型轉為硬體晶片,感覺不簡單也很有趣4F 02/21 15:27
推 stlinman: 生圖模型要刻成晶片應該不難? 圖像模型小的就很好用了!9F 02/21 21:46
推 rex7788: 希望能像手機這樣可以小型、介面好又耗時低的
翻譯也能小型化變成即時的就好了12F 02/22 01:08
--