作者 error405 (流河=L)
標題 [閒聊] seedance2,OpenClaw,GLM5...本週AI新聞
時間 Sun Feb 15 12:12:11 2026


https://www.youtube.com/watch?v=hsQA5TSHZ7I

這部影片彙整了 2026 年 2 月最新、最具突破性的 AI 新聞,內容涵蓋了語言模型、多
媒體生成(音效、影像、音樂)以及人形機器人的最新進展。

以下是影片中各節點的簡要總結:
多媒體與音訊技術 (Audio & Video)

    SoulX Singer [00:55]:高品質的 AI 歌聲合成工具,只需幾秒鐘的參考音訊就能讓
任何人的聲音唱歌(如讓歐巴馬唱歌),支援翻唱與自創旋律。

    Just Dub It [05:52]:自動影片配音與對嘴工具,能將影片翻譯成多國語言並調整
口型,使其看起來像是在說該語言。

    Qwen Image 2.0 [08:01]:阿里巴巴發布的最新圖像生成模型,在處理複雜文字、圖
表及 2K 高解析度影像方面表現優異,且僅 7B 參數。

    Mureka (Mora V8) [23:45]:頂級 AI 音樂生成平台,具備「音樂思維鏈」引擎,能
像人類作曲家一樣編排結構,並支援導出分軌。

    DeepGen 1.0 [35:26]:強大的圖像生成與編輯模型,支援物體替換、風格轉換,甚
至能解決迷宮問題。

    MOSS TTS [37:07]:高品質語音合成家族,支援聲音克隆(如 Elon Musk 聲音)、
即時對話及音效生成。

    MioTTS [40:24]:極度輕量化的 TTS 模型(僅 0.1B 參數),針對英文與日文優化
,聲音非常自然。

    DuoGen [42:50]:NVIDIA 發布的序列圖像模型,能自動生成一致的教學步驟圖(如
烹飪教學)。

    UniAudio 2.0 [44:45]:統一的音訊語言模型,集 TTS、音效生成、音樂生成於一身


大型語言模型 (LLM)

    GLM-5 [11:10]:智譜 AI 的最新開源模型,在推理、編碼及低幻覺率方面表現極佳
,甚至超越部分閉源模型。

    Minimax M2.5 [11:50]:主打極致成本效益與代理(Agent)能力,能一鍵處理複雜
的 Excel 財務分析、PPT 製作及網頁設計。

    Gemini Deep Think [16:08]:Google 推出的推理增強模型,在 AGI 測試(如視覺
謎題)與數學奧林匹亞題中表現驚人,具備強大的新模式學習能力。

    Nanbeige (南北閣) 4.1 [22:04]:極致小巧的 3B 參數開源模型,在科學知識測試
中表現優於許多大體積模型。

    Titan o1 / GPT 5.3 Codex Spark [00:25:45 / 00:34:00]:OpenAI 的新款即時編
碼代理,優化了生成速度,能秒速完成小遊戲開發。

人形機器人進展 (Robotics)

    Titan o1 [25:45]:展示了透過 VR 與手套進行遠程操作(Teleoperation)的技術


    Robotera L7 / AGIBOT [00:26:52 / 00:27:35]:展示了機器人進行劍舞、旋踢等高
難度武術動作,展現強大的動態平衡。

    Unitree (宇樹科技) [28:25]:展示 G1 機器人在工廠組裝微小零件,強調其手指的
靈活性。

    Tiangong (天工) [29:06]:表演了極具衝擊力的地板舞動作。

其他技術與工具

    FreeFuse [19:30]:解決多個 Lora(風格/角色微調模型)混合時產生的圖像扭曲問
題,讓多角色生成更穩定。

    Seedance 2.0 / Alive [00:29:24 / 00:30:05]:字節跳動推出的頂尖影片生成器,
支援複雜動作序列(如格鬥)與影音同步生成。

    PicoClaw [32:27]:OpenClaw 的超高效替代方案,佔用記憶體減少 99%,啟動僅需
1 秒。

這部影片展示了 AI 正在從單純的聊天機器人,快速演進為能處理複雜工作流、模擬物理
世界並在現實工廠工作的全能助手。
--
Gemini3整理
標題的幾個前面有文了
MioTTS我知道 MossTTS晚點來看看

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.224.81 (臺灣)
※ 作者: error405 2026-02-15 12:12:11
※ 文章代碼(AID): #1faKUTAD (AI_Art)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1771128733.A.28D.html
ct13579: openai不是有說本周會推出新聊天模型?1F 02/15 12:37
error405: gpt5.3可能這禮拜下禮拜?2F 02/15 12:42
ct13579: 馬克斯說2026第一季會推Grok5,也沒消息了3F 02/15 12:50
error405: grok4.2應該會先出吧4F 02/15 12:55
[圖]
error405: 這兩天又跑出豆包2.0 號稱能與一線模型競爭
https://m.cnyes.com/news/id/6345148
股板那篇底下吵成一團 想想還是別轉6F 02/16 13:15
字節跳動「豆包 2.0」上線!性能對標GPT-5.2、Gemini 3 Pro 但成本更低 | 鉅亨網 - A股 字節跳動宣布豆包 2.0 正式上線,性能對標 GPT-5.2 與 Gemini 3 Pro,並將推理成本降低約一個數量級。新版本強化多模態理解、長鏈路推理與代理能力,已整合至 TRAE 與火山引擎 API,搶攻 ...

 
lyxiang: 感謝整理,新年快樂!9F 02/16 17:32

--
作者 error405 的最新發文:
點此顯示更多發文記錄