每日經(jīng)濟(jì)新聞 2017-12-15 00:13:39
動動嘴就知道你在說什么,國內(nèi)知名互聯(lián)網(wǎng)公司搜狗推出的中文“唇語識別”技術(shù)近期在烏鎮(zhèn)引起廣泛關(guān)注,秒殺一眾黑科技。筆者通過搜狗方面了解到,搜狗推出的這種人機(jī)交互新技術(shù)——“唇語識別”,是業(yè)內(nèi)首個公開演示的“唇語識別”系統(tǒng),通過機(jī)器視覺識別,不用聽聲音,僅靠識別說話人唇部動作,就能解讀說話者所說的內(nèi)容。
在談到為什么要推出這項(xiàng)技術(shù)時,搜狗方面表示,搜狗研發(fā)唇語識別的初衷是因?yàn)樗压匪阉骱洼斎敕ㄆ鋵?shí)都是在和語言打交道。一方面是幫助人們用語音表達(dá),另一方面是通過語言獲取互聯(lián)網(wǎng)上的信息。語音正逐漸成為主流的人機(jī)交互方式,但是在一些嘈雜,甚至無聲的環(huán)境里,語音所能發(fā)揮的作用是有限的,這種情況下,我們就需要發(fā)展基于視覺的識別能力。
業(yè)內(nèi)認(rèn)為,上市后的搜狗,隨著其不斷地深耕人工智能領(lǐng)域的技術(shù)研發(fā),會逐漸形成差異化競爭,而搜狗在人工智能上的探索也并不會止步于此,圍繞著語音交互入口等多形態(tài)的人機(jī)交互方式,搜狗會在更多領(lǐng)域有進(jìn)一步的進(jìn)展。目前搜狗技術(shù)落地的產(chǎn)品主要包括搜狗輸入法、搜狗同傳、搜狗聽寫等產(chǎn)品。
垂直場景下達(dá)到90%準(zhǔn)確率
從鍵盤打字到觸控屏,再到現(xiàn)在的語音交互和手勢交互,人工智能技術(shù)的發(fā)展,正在促使人機(jī)交互方式向更加多元化方向變革。據(jù)了解,與語音識別不同,“唇語識別”是一項(xiàng)基于機(jī)器視覺與自然語言處理于一體的技術(shù),因此在研發(fā)難度上比語音識別大得多。
經(jīng)過一年多的研發(fā)和反復(fù)修改,目前,在非特定人開放口語測試上,搜狗唇語識別系統(tǒng)已經(jīng)達(dá)到60%以上的準(zhǔn)確率,超過google發(fā)布的英文唇語系統(tǒng)50%以上的準(zhǔn)確率,在垂直場景如車載、智能家居等場景下甚至已經(jīng)達(dá)到90%的準(zhǔn)確率。
據(jù)悉,搜狗首創(chuàng)了復(fù)雜端到端深度神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行中文唇語序列建模,通過數(shù)千小時的真實(shí)唇語數(shù)據(jù)訓(xùn)練。陳偉介紹,搜狗“唇語識別”技術(shù)通過10萬以上的中文詞訓(xùn)練數(shù)據(jù),而google英文唇語系統(tǒng)只有1萬7000多詞匯。另外,還得益于搜狗在自然語言處理方面的強(qiáng)大優(yōu)勢,最終取得了業(yè)界領(lǐng)先的唇語識別效果。
在剛結(jié)束不久的烏鎮(zhèn)世界互聯(lián)網(wǎng)大會上,搜狗唇語識別技術(shù)亮相,在業(yè)內(nèi)大多數(shù)唇語識別技術(shù)實(shí)用性尚待考證的環(huán)境下,成功完成了業(yè)內(nèi)首個中文唇語識別系統(tǒng)的公開演示,引起廣泛關(guān)注。
AI發(fā)展助推多元交互方式
當(dāng)國內(nèi)大部分企業(yè)都扎堆聚集在智能語音、圖像識別等領(lǐng)域時,搜狗唇語識別技術(shù)的推出無疑將引領(lǐng)整個行業(yè)進(jìn)入一個全新的發(fā)展方向。
作為人機(jī)交互的形式之一,未來唇語識別技術(shù)可以輔助語音交互及圖像識別,在日常生活、安防、公益等各個領(lǐng)域?qū)崿F(xiàn)廣泛應(yīng)用。比如在車載場景下,周圍噪音過大時會對語音指令產(chǎn)生干擾,通過唇語識別技術(shù)則可以規(guī)避干擾,保證人車交互的準(zhǔn)確性和穩(wěn)定性,日常不便發(fā)聲的公共場所也可以保證說話內(nèi)容的私密性。
而在安防領(lǐng)域,“唇語識別”更能發(fā)揮價值,尤其是在攝像頭場景下的語音獲取存在盲區(qū)的情況下。據(jù)陳偉介紹,由于目前多數(shù)監(jiān)控只有攝像頭沒有麥克風(fēng),攝像頭獲取數(shù)據(jù)單一,沒有音頻錄入,往往只能看清嘴型卻不知道在說什么,給案情分析帶來很多難題?,F(xiàn)在技術(shù)多集中于圖像分析,集中于人臉或者行人檢測、監(jiān)控等,也缺乏對用戶信息直接獲取的方式,而唇語識別技術(shù)可以幫助公安人員獲取重要的講話信息,為公共安全提供有效支持。
除此之外,唇語識別技術(shù)還能發(fā)揮巨大的公益價值,幫助先天性聽障人群或老年人,讓他們更好地理解和表達(dá)自己。
作為一家技術(shù)驅(qū)動型的企業(yè),近年來搜狗一直致力于自然語言的研究,目前在語音識別、語義理解、機(jī)器翻譯等方面均取得了行業(yè)領(lǐng)先的成果并實(shí)現(xiàn)產(chǎn)品落地,此次推出唇語識別技術(shù),不僅會推動整個AI行業(yè)的技術(shù)革新,也意味著搜狗在AI領(lǐng)域的技術(shù)實(shí)力達(dá)到了更高的發(fā)展水平。
此前,人工智能專家搜狗CEO王小川在烏鎮(zhèn)的演講中論述了人工智能與連接的關(guān)系。他指出,人工智能目前的核心價值,是幫助人們進(jìn)行決策。加入了人工智能的決策,人和人、人和信息、人和交易以及人和服務(wù)都能夠更加精準(zhǔn)地連接。
時至今日,人工智能的發(fā)展速度已經(jīng)完全超出了我們的想象,那些電影里的炫酷黑科技正在一步步成為現(xiàn)實(shí),出現(xiàn)在我們的生活中。隨著AI技術(shù)的發(fā)展,相信在不遠(yuǎn)的將來,唇語識別也能像語音識別、圖像識別一樣成為我們生活中隨處可見的一部分。
如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP