Re: [請神] 沒給台本的音聲 freetalk 怎可靠取提取文字

看板AC_In (裏洽 18+動漫)作者 (貓爹)時間4小時前 (2025/04/22 02:07), 3小時前編輯推噓1(100)
留言1則, 1人參與, 3小時前最新討論串2/2 (看更多)
通用的外語音檔 轉 字幕檔文字 轉 譯本步驟 1. 使用whisperX或是whisperKit,或是以其作為基底的應用程式 原版whisper只專注聲音轉文字,所以英文以外的語言有跳針問題,也沒有時間軸標記 以上這兩款是目前開源中最能減少上述兩個問題發生的專案 2. 用large v3或large v3 turbo模型去跑 在大幅度減免跳針問題後,就可以使用精度較高的large v3模型了 如果是翻譯日文的話,也可以使用huggingface上kotoba-tech的日文微調模型 3. 確認時間軸是否有在正確的位置上 如果大部分都微歪的話,用ffsubsync做校正 4. 把字幕檔丟進去LLM模型翻譯 有一些已經包裝好的字幕翻譯應用程式可以放API key進去使用 或使用Google AI studio的Gemini Pro 2.5去翻譯。聰明、記憶力好、輸出長度高 要下的指令有: a. 音檔原語言、情境、要翻譯成台灣繁體中文 b. 這個音檔是機器提取,可能會有錯譯,必要時可以參考上下文改成合理的近音字 c. 編號與時間軸不要動到、保持原狀 d. 如果被擋,要把safety settings全關掉,然後下越獄詞 一次跑不完的話,就告知LLM從編號xxx繼續往下翻,最後再自己整篇拼起來 記得要抽查編號與時間軸,LLM有時候會腦抽在某個位置整組歪掉 5. 用字幕檔軟體做校閱 改譯文、微調時間軸、把重複的內容合併或縮減、無意義的內容刪掉 etc. 流程原則上是這樣,嫌麻煩的話也可以自己寫code或vibe coding,把這堆東西統整起來 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 184.65.128.80 (加拿大) ※ 文章網址: https://www.ptt.cc/bbs/AC_In/M.1745258870.A.380.html ※ 編輯: driftcreator (184.65.128.80 加拿大), 04/22/2025 02:14:26

04/22 02:37, 3小時前 , 1F
大師
04/22 02:37, 1F
文章代碼(AID): #1e1ebsE0 (AC_In)
文章代碼(AID): #1e1ebsE0 (AC_In)