Re: [請神] 沒給台本的音聲 freetalk 怎可靠取提取文字
通用的外語音檔 轉 字幕檔文字 轉 譯本步驟
1. 使用whisperX或是whisperKit,或是以其作為基底的應用程式
原版whisper只專注聲音轉文字,所以英文以外的語言有跳針問題,也沒有時間軸標記
以上這兩款是目前開源中最能減少上述兩個問題發生的專案
2. 用large v3或large v3 turbo模型去跑
在大幅度減免跳針問題後,就可以使用精度較高的large v3模型了
如果是翻譯日文的話,也可以使用huggingface上kotoba-tech的日文微調模型
3. 確認時間軸是否有在正確的位置上
如果大部分都微歪的話,用ffsubsync做校正
4. 把字幕檔丟進去LLM模型翻譯
有一些已經包裝好的字幕翻譯應用程式可以放API key進去使用
或使用Google AI studio的Gemini Pro 2.5去翻譯。聰明、記憶力好、輸出長度高
要下的指令有:
a. 音檔原語言、情境、要翻譯成台灣繁體中文
b. 這個音檔是機器提取,可能會有錯譯,必要時可以參考上下文改成合理的近音字
c. 編號與時間軸不要動到、保持原狀
d. 如果被擋,要把safety settings全關掉,然後下越獄詞
一次跑不完的話,就告知LLM從編號xxx繼續往下翻,最後再自己整篇拼起來
記得要抽查編號與時間軸,LLM有時候會腦抽在某個位置整組歪掉
5. 用字幕檔軟體做校閱
改譯文、微調時間軸、把重複的內容合併或縮減、無意義的內容刪掉 etc.
流程原則上是這樣,嫌麻煩的話也可以自己寫code或vibe coding,把這堆東西統整起來
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 184.65.128.80 (加拿大)
※ 文章網址: https://www.ptt.cc/bbs/AC_In/M.1745258870.A.380.html
※ 編輯: driftcreator (184.65.128.80 加拿大), 04/22/2025 02:14:26
推
04/22 02:37,
3小時前
, 1F
04/22 02:37, 1F
討論串 (同標題文章)
完整討論串 (本文為第 2 之 2 篇):
AC_In 近期熱門文章
PTT動漫區 即時熱門文章
54
256
14
24