自動(dòng)擦除中文字幕改為英文、彈幕翻譯,還能完美還原UP主的聲線、音色、氣口,甚至基于翻譯語(yǔ)言進(jìn)行口型模擬,海外用戶也可以看到原汁原味的“本地化”翻譯視頻了?在今年的世界人工智能大會(huì)上,B站公布了其全新自研的“AI原聲翻譯功能”,這種AI原生翻譯不僅可以讓海外用戶更好體驗(yàn)游戲、科技、二次元等主推內(nèi)容,也被業(yè)界認(rèn)為是B站出海的重要落子。
自今年5月嗶哩嗶哩(B站)宣布將下架原國(guó)際版APP,與國(guó)內(nèi)版合并為一個(gè)統(tǒng)一APP后,B站的出海下一步便引來各方關(guān)注。在今年的世界人工智能大會(huì)上,B站“AI原聲翻譯功能”的亮相,被業(yè)內(nèi)人士視為其在完成了APP合并、海外用戶頁(yè)面多語(yǔ)種適配、特別是視頻原聲翻譯功能上線后,正在蓄力開拓海外市場(chǎng)。

海外用戶頁(yè)面
在大會(huì)上記者看到,“AI原聲翻譯”除了自動(dòng)擦除中文字幕改為英文、彈幕翻譯及各類按鈕英文適配等基礎(chǔ)的文本互譯之外,還能完美還原UP主的聲線、音色、氣口,而非傳統(tǒng)的機(jī)器音翻譯,同時(shí)還能基于翻譯語(yǔ)言進(jìn)行口型模擬。這意味著在未來中文用戶觀看外語(yǔ)UP主視頻或者海外用戶觀看中文UP主視頻時(shí),能無(wú)差別體驗(yàn)原汁原味的“本地化”翻譯視頻,拜托翻譯不好時(shí)的尷尬體驗(yàn)。據(jù)介紹,后續(xù)B站還將視需求把日語(yǔ)等語(yǔ)言加入“AI原聲翻譯”功能中。
技術(shù)人員介紹說,目前“AI原聲翻譯功能”中,跨語(yǔ)言聲音還原技術(shù)源自內(nèi)部代號(hào)為「 IndexTTS2」的語(yǔ)音生成模型。該模型引入了一種新穎、通用且兼容自回歸架構(gòu)的語(yǔ)音時(shí)長(zhǎng)及情感控制方法。為攻克“AI原聲翻譯功能”中的核心挑戰(zhàn)——尤其在游戲、二次元等專業(yè)名詞或者流行梗點(diǎn)密集領(lǐng)域——實(shí)現(xiàn)原風(fēng)格精準(zhǔn)保留與語(yǔ)音時(shí)長(zhǎng)完美對(duì)應(yīng),技術(shù)團(tuán)隊(duì)基于大語(yǔ)言模型(LLM)構(gòu)建翻譯引擎,獨(dú)創(chuàng)性基于語(yǔ)音時(shí)長(zhǎng)匹配、原聲翻譯標(biāo)準(zhǔn)與UP主獨(dú)特風(fēng)格構(gòu)建多目標(biāo)獎(jiǎng)勵(lì)模型,并采用對(duì)抗式強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練驅(qū)動(dòng)模型持續(xù)進(jìn)化與精準(zhǔn)適配。同時(shí),引入Deep Research深度挖掘技術(shù),專攻專有名詞與流行梗點(diǎn)的翻譯難點(diǎn),確保最終譯文準(zhǔn)確、地道、傳神。字幕擦除部分則結(jié)合了先進(jìn)的OCR技術(shù)和基于STTN網(wǎng)絡(luò)的視頻重繪技術(shù),實(shí)現(xiàn)字幕區(qū)域的精準(zhǔn)檢測(cè)與高還原度擦除。
大鵬 小風(fēng)
校對(duì) 陶善工