Re: [問題] 現在ai翻譯能應付vtuber直播了嗎?
自己還是多少要懂一些,最少也要知道一點日語使用的方式,不然就是加減理解意思而已
能接受花錢的話就直接找人教學學日語比較快,但學會的速度也就是看你資質以及能有多
久的耐心,自己斟酌。
就我自己幫Vtuber乙夏鈴作的字幕軟體來說最好大概也只能到這個程度
https://www.youtube.com/watch?v=W5cmDyXs8Fw
我有測試過幾個AI讀取語音轉文字的狀況,以單一語言來說
最好的反而還是很久以前的W3C標準的web speech API+連Google伺服器去辨識
連Microsoft伺服器次之
(影片就連微軟的,最近Google伺服器用沒多久就擋你連線了)
翻譯則是使用OpenAI的GPT4o-mini的API去翻譯,mini模組比較便宜
幾個AI API中語言理解力比較強的還是OpenAI,這沒辦法
我自己的話就是這樣大概理解+使用ChatGPT or gemini去翻譯我想說的話這樣
和一些Vtuber進行某種程度上的交流,還算可以。
但要碰一些專用術語或者是行話或者是地方方言,以及一次會使用多種語言的
那種就完全不行,就算是使用whisper最大的模型去讀取翻譯,也還是很容易
意思不完整,而且速度會更慢,有時話題都過了你才理解她剛剛說的意思
如果你想自己測試看看的話你可以先安裝虛擬音源驅動程式
https://vb-audio.com/Cable/
安裝設定好之後連線到Google的web speech api demo頁面,然後開啟你想要聽的
直播之後錄音擷取文字,再將文字發到ChatGPT去看效果看你能不能大致理解
https://www.google.com/intl/en/chrome/demos/speech.html
不行的話那建議你還是去學日文比較快...這些技術現在各大廠開始在做但還早
的很。
※ 引述《Shakermaker (Shake along with me)》之銘言:
: 一直因為語言能力無法體驗vt直播
: 雖然烤肉影片也不少,但總是被動
: 現在大語言模型的翻譯能力這麼強
: 不知道有無平台/app能對應yt上的vt直播
: 需求就是翻譯品質到位、價格合理
: 請指教
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.165.25.159 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1758593632.A.E63.html
※ 編輯: junorn (118.165.25.159 臺灣), 09/23/2025 10:17:32
→
09/23 10:25,
1月前
, 1F
09/23 10:25, 1F
推
09/23 10:27,
1月前
, 2F
09/23 10:27, 2F
→
09/23 10:31,
1月前
, 3F
09/23 10:31, 3F
→
09/23 10:32,
1月前
, 4F
09/23 10:32, 4F
→
09/23 10:33,
1月前
, 5F
09/23 10:33, 5F
推
09/23 10:41,
1月前
, 6F
09/23 10:41, 6F
要下prompt,會有一點差不過也不是完全就OK。
像日語的話因為都不太會使用你我他這一類的稱呼,所以prompt就要用除非有指定
不然不翻譯你我他這一類的詞來對應
推
09/23 10:43,
1月前
, 7F
09/23 10:43, 7F
→
09/23 10:43,
1月前
, 8F
09/23 10:43, 8F
→
09/23 10:43,
1月前
, 9F
09/23 10:43, 9F
如果你是要知道聊天室的人再說甚麼的話你可以裝擴充套件沉浸式翻譯,然後去申請AI的
API KEY在設定上去就可以了,這個會比語音擷取後翻譯要準確一點,但同樣也是很多人
用術語或當地流行用簡語可能也會看不懂,另外就是比語音擷取會花更多錢
這種感覺看是不是你要的
https://i.meee.com.tw/yp07NWy.png

另外Google最近也有出新的本地模型API似乎也是想要做這一類的功能
不過還在實驗性質階段所以也是還早
→
09/23 10:45,
1月前
, 10F
09/23 10:45, 10F
※ 編輯: junorn (118.165.25.159 臺灣), 09/23/2025 10:48:12
推
09/23 10:48,
1月前
, 11F
09/23 10:48, 11F
※ 編輯: junorn (118.165.25.159 臺灣), 09/23/2025 10:59:51
推
09/23 11:10,
1月前
, 12F
09/23 11:10, 12F
推
09/23 12:47,
1月前
, 13F
09/23 12:47, 13F
→
09/23 12:47,
1月前
, 14F
09/23 12:47, 14F
→
09/23 12:47,
1月前
, 15F
09/23 12:47, 15F
差不多,一般用語的話正確率不錯,但像直播這種隨興的我自己都看到會說日語的人
都還要和對方再三確認是甚麼東西了就更別提翻譯機器了...
推
09/23 13:58,
1月前
, 16F
09/23 13:58, 16F
→
09/23 13:58,
1月前
, 17F
09/23 13:58, 17F
畢竟就是取得音頻資料之後上傳到google(chrome)或者是微軟(edge)
由他們訓練的伺服器來判斷是用甚麼字,所以準確率原則上不會太低,但那只有針對單語
比如說全部都是說日語,或者全部都是說英語,像日語中間夾一些英文單字那樣就很容易
錯。
再來就是逐字顯示也很重要,whipser目前有幾個分支是可以逐字,但我的設備效能不好沒
辦法測試,而主分支沒有逐字顯示光是等候他文字出來話題就過了非常不適合用在看直
播上
※ 編輯: junorn (118.165.25.159 臺灣), 09/23/2025 14:41:12
→
09/24 10:45,
1月前
, 18F
09/24 10:45, 18F
討論串 (同標題文章)
完整討論串 (本文為第 2 之 3 篇):
C_Chat 近期熱門文章
PTT動漫區 即時熱門文章
23
49