作者 kumahead (觀測代號1095)標題 [閒聊] 為了追停止代理的小說做了個翻譯工具時間 Wed Feb 4 17:18:55 2026
如題
為了追停止代理的小說
我做了個AI翻譯工具
幾週前去了趟日本玩
逛書店時赫然發現
國中開始追的小說還在更新
就是號稱羅馬數字教學,女主存在感越來越稀薄的,男主金次的奇妙冒險,<<緋彈的亞莉
亞>>
台灣尖端出版只到39,日本已經出到44了
尋思現在AI翻譯水準已經不差了,也買得到日文電子書
心一橫,就買了39~44的日文電子書,回來開發個翻譯工具
最初的想法很簡單
讓AI對照39集的中日版本,建立角色、招式、專用術語的翻譯字典
再讓AI參考字典對40~44進行翻譯即可
自然踩了許多坑
* 許多句子會翻譯失敗
* 翻譯夾雜著註解&思考過程
* 新角色&招式因為不在字典裡,翻譯會不連貫
最後花了數天改成以下流程:
1. 對照39集中日兩版建立字典
2. 讓AI掃一遍新書,抓出容易翻譯不一致的名詞加入字典
3. 手動調整字典裡新詞彙的翻譯
https://i.mopix.cc/KYvGbx.jpg
4. 讓AI將日文新書翻譯一遍
https://i.mopix.cc/NRK0zG.jpg
5. 用UI對照原文,人工檢查翻譯品質,輔以AI& Google 翻譯逐句修正
https://i.mopix.cc/QUlgcE.jpg
6. 合成電子書譯本
https://i.mopix.cc/QgDm2R.jpg
根據我自己的閱讀&語文能力,從頭完成一本輕小說的翻譯要花大約5小時上下
運氣差的話在第5步驟會發現重大人物名稱翻譯問題
得修改字典後退回第4步驟重新跑一遍
====以下有雷====
比方說40集退回幼童的拉斯普京娜
自稱チナ
一開始不知道是人名翻成“支那”
AI的譯文裡就不斷出現中國人
還有42、43出現的,貝瑞塔創辦的NGO的特工
Giusto 5號 的代號是The Father
一開始以為是義大利黑手黨,翻成父親
實際上是聖職者,要翻作神父
最頭痛的是44集的地雷女
自稱、稱呼他人、講話內容到處都是奇怪的變體簡稱
金次 kinji > 金P kinpi
響 hibiki > 響P hibipi
割腕 arm cut > 阿母卡 amuka
由於44集主角在男公關俱樂部臥底
一堆酒都不寫全名,都是簡稱
AI的翻譯品質明顯下降
====防雷結束====
總之,小說翻譯看完了後
為了讓這工具能多派上用場
又花了幾天改成多語種的翻譯工具,不再侷限於日翻中
興許能成為小說推廣工具?
發這邊看看有沒有出版社之類的有興趣
或是有類似斷更困擾的都可以留言或私我
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.70.138.212 (臺灣)
※ 作者: kumahead 2026-02-04 17:18:55
※ 文章代碼(AID): #1fWmy2x3 (C_Chat)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1770196738.A.EC3.html
我自己的日文程度大約只能在日本自由行
讀小說會超卡XD
※ 編輯: kumahead (42.70.138.212 臺灣), 02/04/2026 17:24:12
推 XFarter: 幫推 看起來是直接 call API?3F 02/04 17:23
call API 太貴
借了一台dgx spark 本地跑LLM
※ 編輯: kumahead (42.70.138.212 臺灣), 02/04/2026 17:25:10
→ jackz: AI就是斷更救星5F 02/04 17:25
推 ab100777: 之前看別人有問過說還會繼續出,結果出了1本又沒下文6F 02/04 17:25
推 arrenwu: 你能借到 DGX Spark也不容易啊XD 這台不便宜耶8F 02/04 17:26
真的不便宜
但老實說不需要用那麼好
單純開發時想測多種不同的模型才借
最後用的是Qwen2.5 32b int4量化
理論上可以用3090跑
※ 編輯: kumahead (42.70.138.212 臺灣), 02/04/2026 17:27:52
推 sokayha: ai翻日文小說的對話應該是缺主詞的問題最大 加上幻覺問題就變成連原文不在場的人都進來插話了10F 02/04 17:26
推 sd2567: 你借得東西也不便宜啊12F 02/04 17:26
推 jorden0804: Ai再發展下去我看台灣出版社會完 進度慢又容易斷尾13F 02/04 17:26
→ sd2567: 出版社早就死得差不多了14F 02/04 17:27
→ jackz: 小說用API真的很貴 漫畫還好15F 02/04 17:27
→ error405: 上個月騰訊有出開源翻譯工具16F 02/04 17:28
推 junorn: 那麼大量的字不用本地LLM跑真的不便宜...是TranslateGemma嗎?17F 02/04 17:29
→ sokayha: 之前看地錯新本有人丟ai翻的試看版 看了沒幾段滿腦問號、自己對照完原文發現問題在哪後 就乖乖回去啃日文直到看完那兩本了19F 02/04 17:29
→ junorn: 阿推完文才看到用的模型,抱歉22F 02/04 17:29
推 arrenwu: DGX Spark 可以跑比 32B 強很多的模型吧23F 02/04 17:30
主要是希望能壓低硬體需求
畢竟這台dgx spark 是借來的
這週就得還
※ 編輯: kumahead (42.70.138.212 臺灣), 02/04/2026 17:31:05
→ arrenwu: 長久地來說,看得懂日文當然是比較好的 因為日中轉換總是避免地會因為語言結構不同而有失真的部分24F 02/04 17:30
推 XFarter: 如果有 Ground truth + 文意表的話
好像其實不太需要本地 LLM,用上下文窗口大一點的 LLM 含糾錯的成本及效率,也許比直接架 Qwen 更好?26F 02/04 17:31
推 ElfFail: 這個有沒有辦法翻譯一些日文遊戲的文本呀,之前一直很想把梅露可物語的劇情補完但礙於沒有翻譯(29F 02/04 17:31
台版梅路可玩家+1
理論上做得到
但目前這個工具是用來處理epub電子書的
從遊戲裡抓文字檔出來我還沒研究過
我知道有些解決方案是加上ocr
※ 編輯: kumahead (42.70.138.212 臺灣), 02/04/2026 17:34:11
→ XFarter: 就算用 4090 甚至以上 GPU 跑模型,VRAM & RAM 太低的話單次 Response 的速度也挺慢的吧 QQ31F 02/04 17:33
推 mk4188623: 如果說個別幫小說建立關鍵字的資料庫呢?不知道可不可行
這樣至少翻譯專有名詞的時候不會出錯33F 02/04 17:33
把步驟2、3拆出來單獨用應該就可以了
→ mk4188623: 但如果資料庫內容有來自不同出版社的小說的話,
版權問題感覺會很麻煩就是36F 02/04 17:33
→ XFarter: @Elffail 你有辦法把文字表吐出來就可以 如果是 RM 類型的遊戲的話用 Mtool 甚至可以吐 json 的 Key value table38F 02/04 17:34
推 a37805: 我從五十音不會到基本可以正常速度讀大概花了一年
每天讀日文4hr假日8hr以上 剛開始還要自己去買教材或是上網找教材來讀 給想要自學的參考41F 02/04 17:35
推 ElfFail: 因為梅露可目前是已經有單機版本了,所以應該是能從裡面找到文本檔案 不過這又是一個要去問的知識了(44F 02/04 17:35
※ 編輯: kumahead (42.70.138.212 臺灣), 02/04/2026 17:36:26
→ dnek: 勇者47F 02/04 17:37
--