近日來,社交平臺上的英語密集程度遠(yuǎn)超以往,大量TikTok創(chuàng)作者蜂擁進(jìn)入國內(nèi)的社交App。隨便打開軟件首頁,一個(gè)個(gè)全是英文內(nèi)容。不少外國人還總是喜歡“懟臉自拍”,舉著手機(jī)就是一串英文,讓當(dāng)下熱衷于網(wǎng)上沖浪的年輕人驚呼,玩手機(jī)也成了練習(xí)英語聽力。
當(dāng)下機(jī)器翻譯技術(shù)的進(jìn)步,已經(jīng)可以讓不同語言的人們進(jìn)行交流。但這種交流遠(yuǎn)稱不上是流暢。比如,市面上流行的機(jī)器翻譯大多數(shù)還是交傳技術(shù),很難實(shí)現(xiàn)真正端到端的語音同傳。也就是說,簡單的文字溝通或許還可以借助簡單的翻譯機(jī)器來解決,但要無障礙地與外國友人視頻連線、語音通話,當(dāng)下的機(jī)器翻譯還不太能支持。
過去兩年大模型技術(shù)的進(jìn)步讓機(jī)器翻譯有了突破口。1月15日,科大訊飛對外發(fā)布了星火語音同傳大模型。這是國內(nèi)首個(gè)具備到端到端語音同傳能力的大模型,將機(jī)器語音同傳的效果提升至媲美人類專家譯員的水平。
和過去慣常采用交傳技術(shù)的機(jī)器翻譯相比,擁有端到端能力的語音同傳大模型最大的特點(diǎn)是變得“更像人類”了。事實(shí)上,它本身就是通過模仿人類同傳譯員的思維鏈路進(jìn)行訓(xùn)練而成,具備實(shí)時(shí)意群理解和切分、上下文語境精準(zhǔn)選詞以及碎片化信息重組的能力,這一特性使得星火語音同傳大模型在處理復(fù)雜句式和語境時(shí)表現(xiàn)出色,能夠迅速準(zhǔn)確地傳達(dá)原意。
發(fā)布會上,上海外國語大學(xué)高級翻譯院院長張愛玲教授專門介紹了過去機(jī)器翻譯在同傳領(lǐng)域面臨的問題。比如同傳時(shí)延,機(jī)器翻譯的速度往往跟不上說話者的語速,翻譯存在較大延遲。
展開全文
更關(guān)鍵的還在于人類口語交流的復(fù)雜性。張愛玲教授介紹,源語發(fā)言,往往會邏輯復(fù)雜、層層嵌套,口譯員必須具備超高的信息提取能力,才能在繁雜的線索中鎖定關(guān)鍵信息,確保信息的完整和可靠。不同語言的表達(dá)方式、音節(jié)長度也不一樣。如果只是機(jī)械式地照搬原意,往往無法流暢地跟上口譯速度。
也正因此,雖然過去幾年機(jī)器翻譯普及迅速,但在同傳領(lǐng)域,機(jī)器翻譯相較于人類專業(yè)口譯員仍有不少劣勢。
訊飛研究院研究員亞楠介紹,訊飛10年前就想去做語音同傳,但當(dāng)時(shí)技術(shù)難度太大。直到過去兩年大模型技術(shù)的突破,他們結(jié)合訊飛在智能語音技術(shù)上的獨(dú)特算法積累,才終于實(shí)現(xiàn)了端到端的語音同傳。
底層技術(shù)的不同,讓星火語音同傳大模型實(shí)現(xiàn)了對傳統(tǒng)機(jī)器翻譯的降維打擊。據(jù)介紹,相較訊飛之前的翻譯技術(shù),星火語音同傳大模型的全場景效果提升30%以上,端到端響應(yīng)時(shí)間最快可以達(dá)到平均5s以內(nèi)。和國外最優(yōu)競品的交傳技術(shù)相比,訊飛語音同傳在內(nèi)容完整度、信息準(zhǔn)確度以及語言質(zhì)量上也都處于領(lǐng)先水平。
不過,如果你只是想當(dāng)然地認(rèn)為,在大模型技術(shù)的加持下,其他廠商也能實(shí)現(xiàn)端到端語音同傳的突破,這就完全低估了智能翻譯的難度。
科大訊飛專門將星火語音同傳大模型與國外的主流大模型進(jìn)行了對比測試,在長達(dá)5H的音視頻測試中,8s時(shí)延模式在內(nèi)容完整度、信息準(zhǔn)確度等評價(jià)維度超過了Gemini2.0、GPT-4o等國外主流大模型。
這背后,離不開科大訊飛多年來的積累。事實(shí)上,科大訊飛是國內(nèi)智能翻譯及語音識別領(lǐng)域積累最深、研究時(shí)間最長的龍頭企業(yè)??拼笥嶏w不僅擁有在業(yè)內(nèi)率先通過全國翻譯專業(yè)資格考試的機(jī)器翻譯系統(tǒng),且在最近連續(xù)3屆IWSLT國際口語機(jī)器翻譯比賽都獲得了冠軍。
和大模型浪潮來臨前各家廠商尚處在同一起跑線上不同,語音識別與翻譯技術(shù)更是考驗(yàn)技術(shù)積累與應(yīng)用經(jīng)驗(yàn)的領(lǐng)域。
在技術(shù)上,科大訊飛多年來圍繞語音及翻譯取得了多項(xiàng)核心專利技術(shù)突破,曾多次獲得國家科學(xué)技術(shù)進(jìn)步獎一等獎、中國專利金獎等多項(xiàng)榮譽(yù)。目前,科大訊飛已累計(jì)獲得國內(nèi)外有效專利4000余件。
應(yīng)用層面,國內(nèi)外諸多行業(yè)論壇、國際會議中都有訊飛翻譯的身影,包括進(jìn)博會、世界人工智能大會、中關(guān)村論壇、聯(lián)合國教科文會議等。迄今為止,科大訊飛已累計(jì)服務(wù)了50多個(gè)國家和地區(qū),支撐了40萬場會議,覆蓋全球4億觀眾。
正是這些多年來在語音識別與智能翻譯領(lǐng)域的積累與探索,才讓科大訊飛在大模型技術(shù)加持下率先突破了端到端語音同傳的難題。這是其他大模型廠商難以做到,同時(shí)也幾乎無法追趕的核心技術(shù)突破。
更關(guān)鍵的是,自然語言交互已成為當(dāng)下AI智能體應(yīng)用最廣的交互方式,未來人類與機(jī)器的互動將更多的依靠語音進(jìn)行,科大訊飛過去多年積累的深厚技術(shù)有望在人工智能時(shí)代進(jìn)一步釋放。
發(fā)布會上,科大訊飛同時(shí)介紹了集成了最新同傳技術(shù)的訊飛翻譯機(jī)。無論是海外旅游場景中的景點(diǎn)介紹,還是國際展會上的專業(yè)產(chǎn)品介紹,翻譯機(jī)能在短時(shí)間內(nèi)完成高質(zhì)量的英到中和中到英的雙向同傳任務(wù)。
科大訊飛透露,針對語音到語音的同傳場景,訊飛翻譯機(jī)將會配置耳機(jī)、音箱、麥克風(fēng),在2025年推出商務(wù)套裝,滿足用戶在不同的商務(wù)洽談場景的使用需求。
評論