每日經(jīng)濟新聞 2022-02-05 19:08:58
◎AI手語主播不僅需要具備高精度的數(shù)字人形象,還需要具備能夠語音識別、手語翻譯和手語表達的AI大腦。
◎數(shù)字人規(guī)?;涞剡€面臨三大難點:產(chǎn)業(yè)鏈割裂、服務(wù)場景與演藝場景沒有有效打通、滿足高頻需求成本高。
每經(jīng)記者 可楊 每經(jīng)編輯 張海妮
2月4日晚間,北京2022年冬奧會開幕式在國家體育場“鳥巢”舉行。本屆冬奧會期間,虛擬數(shù)字人成為重要技術(shù)之一,中央廣播電視總臺新增了央視新聞AI手語虛擬主播,報道冬奧會新聞、準確及時地進行賽事手語直播。據(jù)悉,這名虛擬數(shù)字人主播是由“百度智能云曦靈”數(shù)字人平臺打造的首個AI手語主播。
虛擬數(shù)字人背后,涉及計算機圖形學、圖形渲染、動作捕捉、深度學習、語音合成等多種技術(shù)。隨著2021年元宇宙概念持續(xù)火熱,虛擬數(shù)字人也作為元宇宙的場景入口和連接紐帶而備受矚目,而冬奧會上的虛擬數(shù)字人元素,也將讓大眾進一步認識這項技術(shù)。
不過虛擬數(shù)字人要實現(xiàn)大規(guī)模商業(yè)化,仍有難題待解。百度智能云AI人機交互實驗室負責人李士巖介紹,目前數(shù)字人尚未實現(xiàn)規(guī)?;a(chǎn)業(yè)落地,主要原因在于數(shù)字人制作技術(shù)門檻高、周期長、成本高。
據(jù)百度提供的數(shù)據(jù),全球約有4.3億人患中度及以上聽力障礙,根據(jù)全國第二次殘疾人抽樣調(diào)查數(shù)據(jù),中國有聽障人士2780萬。而在本次冬奧賽事中,AI手語數(shù)字人也將成為他們觀賽的重要橋梁。
百度方面介紹,區(qū)別于傳統(tǒng)翻譯,手語翻譯的難點在于:手語并非按照語言逐字翻譯,而需要根據(jù)語句整體意思進行語言精煉和語序調(diào)整,同時還需實時配合表情和唇語,幫助聽障者更好地理解。這就導致AI手語數(shù)字人在信息凝練度、低時延和精細化三方面面臨極其復(fù)雜的技術(shù)難題。因此,AI手語主播不僅需要具備高精度的數(shù)字人形象,還需要具備能夠語音識別、手語翻譯和手語表達的AI大腦。
據(jù)悉,百度智能云目前建立了規(guī)模龐大的手語動作庫,基于《國家通用手語詞典》規(guī)范,結(jié)合動作捕捉設(shè)備和真實手語老師的雙向調(diào)優(yōu),精修近1萬個手語動作,保證了手語表達的動作準確性。同時,通過4D掃描技術(shù),讓AI手語主播口型生成準確度達到98.5%。
而虛擬手語主播的“AI大腦”則依托于百度智能云。通過百度自主研發(fā)的機器翻譯技術(shù),百度智能云構(gòu)建出?套精確的手語翻譯引擎,可懂度達到85%以上,結(jié)合百度自研的語音識別技術(shù),可將冰雪賽事的文字及音視頻內(nèi)容,快速精準地轉(zhuǎn)化為手語;同時再通過專為手語優(yōu)化的自然動作引擎,完成AI手語主播的動作驅(qū)動,實時演繹為數(shù)字人的動作、表情和唇語。據(jù)百度方面介紹,這一虛擬數(shù)字人研發(fā)工作,耗時不到2個月。
虛擬數(shù)字人技術(shù)為何能在此次冬奧會期間成為重要技術(shù)之一,易觀分析互娛行業(yè)高級分析師王媛婭認為,中國很多領(lǐng)域在新技術(shù)應(yīng)用方面很超前,具有很強的創(chuàng)新意識。在本屆冬奧會上,虛擬數(shù)字人是為觀眾帶來極致體驗的重要方式之一,隨著虛擬數(shù)字人在這幾年受到越來越多的關(guān)注,通過虛擬數(shù)字人來展示內(nèi)容已變得越來越常見。虛擬數(shù)字人不僅僅能在疫情期間控制現(xiàn)場演員數(shù)量,更能夠用科技演繹藝術(shù),為觀眾帶來更新穎更多元的表演。
她同時表示,冬奧會開幕式是讓大眾了解虛擬數(shù)字人價值的契機。她提到,目前很多廠商正在布局或者計劃布局虛擬數(shù)字人賽道,由于虛擬數(shù)字人是基于3D、VR、動作捕捉等一些技術(shù)實現(xiàn)的,隨著科技的進步、市場需求的增加和冬奧會的助推,虛擬數(shù)字人會越來越成熟,進一步進入大眾視野。除了直播帶貨和演出,虛擬數(shù)字人會在更多領(lǐng)域得到商業(yè)化機會。
據(jù)元透社發(fā)布的《虛擬數(shù)字人深度產(chǎn)業(yè)報告》,預(yù)計2030年,我國虛擬數(shù)字人整體市場規(guī)模將達到2700億元,而目前市場仍處于前期培養(yǎng)階段。
王媛婭認為,目前國內(nèi)虛擬數(shù)字人剛剛從探索期過渡到成長期,成為元宇宙生態(tài)中快速發(fā)展的賽道。最近幾年,虛擬數(shù)字人的應(yīng)用領(lǐng)域逐漸拓寬,功能屬性加強,已不再是二次元專屬,比如現(xiàn)在已經(jīng)有了虛擬KOL、虛擬主持人、虛擬客服等很多角色,商業(yè)價值也在直播帶貨場景中得到了驗證。以“初音未來”為代表的海外頭部虛擬數(shù)字人在探索期已建立全球影響力。同時,一些國外頭部廠商開始關(guān)注虛擬數(shù)字人在B端的應(yīng)用,并且已經(jīng)推出了一些服務(wù)于B端市場的產(chǎn)品。
百度智能云AI人機交互實驗室負責人李士巖介紹,目前數(shù)字人尚未實現(xiàn)規(guī)?;a(chǎn)業(yè)落地,主要原因在于數(shù)字人制作技術(shù)門檻高、周期長、成本高。打造一個高精度、高保真的非特異型虛擬數(shù)字人,動輒就需要百萬甚至上千萬的資金投入。
李士巖表示,虛擬數(shù)字人產(chǎn)業(yè)格局中,提供建模、渲染、動態(tài)捕捉等服務(wù)于數(shù)字人制作的基礎(chǔ)設(shè)施服務(wù)商已形成穩(wěn)固格局,大多由海外巨頭把持。但在工具、應(yīng)用層,中國企業(yè)已開始嶄露頭角。
不過,數(shù)字人規(guī)?;涞剡€面臨三大難點:產(chǎn)業(yè)鏈割裂、服務(wù)場景與演藝場景沒有有效打通、滿足高頻需求成本高。
對于虛擬數(shù)字人大規(guī)模商業(yè)化所面臨的難題,王媛婭認為,市場對虛擬數(shù)字人的關(guān)注度會持續(xù)上升,也會有越來越多的企業(yè)投入打造虛擬數(shù)字人。但是懂技術(shù)、懂美術(shù)、又懂偶像運營的公司太少,所以未來需要產(chǎn)業(yè)鏈各方企業(yè)合作聯(lián)合推出虛擬數(shù)字人,或者大型公司聯(lián)合多個業(yè)務(wù)部門推出。因此,短時間內(nèi)不太可能出現(xiàn)可以接近初音的,但是有可能會再出一個洛天依或lovelive。
對于虛擬數(shù)字人未來的發(fā)展,李士巖表示,數(shù)字人產(chǎn)業(yè)有三大核心推動力:第一級是用戶需求與技術(shù)升級,第二級是政策支持與資本涌入,第三級是計算平臺的迭代。每一次數(shù)字人發(fā)展本質(zhì)上都是技術(shù)推動的,用戶從平面的圖文影音獲取信息與交互,向?qū)崟r3D交互反饋的需求轉(zhuǎn)變。
百度集團副總裁吳甜則表示:“百度已發(fā)布集數(shù)字人生產(chǎn)、內(nèi)容創(chuàng)作、業(yè)務(wù)配置服務(wù)為一體的智能數(shù)字人平臺百度智能云曦靈,希望通過全棧AI能力,把虛擬數(shù)字人的生產(chǎn)周期縮短到小時級別,降低生產(chǎn)成本,并且用AI驅(qū)動生成內(nèi)容。”
封面圖片來源:IC photo
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟新聞APP