混戰(zhàn)語音識別 人工智能的黎明快了
作 者:劉佳 來 源:第一財經(jīng)發(fā)表日期:2016-11-25
情感合成、遠(yuǎn)場方案、喚醒二期技術(shù)和長語音方案……這些聽起來有些陌生的技術(shù),未來將可能改變我們的生活。
11月22日,百度公司首席科學(xué)家吳恩達在談到百度語音技術(shù)的最新進展時,對外介紹了百度這四項語音技術(shù),并宣布將免費開放給用戶和開發(fā)者。
“我們已經(jīng)站在人工智能的黎明。”吳恩達對包括第一財經(jīng)在內(nèi)的記者作出樂觀的預(yù)測,他希望通過開放人工智能技術(shù),讓每個人都能更容易地開發(fā)出“智能應(yīng)用”。
不過,站在“黎明”的人工智能何時能有“質(zhì)”的跨越,或許還需時日。一個細(xì)節(jié)是,在接受記者采訪的會議室里,吳恩達座位不遠(yuǎn)處還是坐了一位實時整理文字的速記人員。
事實上,開放語音 API(應(yīng)用程序編程接口)已經(jīng)成為行業(yè)趨勢。
今年3月時,谷歌在Next云計算大會上發(fā)布了面向開發(fā)者的新機器學(xué)習(xí)平臺,并開放語音識別的API,即谷歌語音搜索和語音輸入的支持技術(shù)。Google Cloud SPeech API一開始將免費提供,以后再進行收費。這一應(yīng)用包括了80多種語言,適用于各種實時語音識別與翻譯應(yīng)用。
在開放背后,互聯(lián)網(wǎng)公司希望借此推動智能語音模型的進一步演進和智能語音技術(shù)的快速普及。
對于百度公布的四項語音技術(shù),吳恩達告訴第一財經(jīng)記者,目前百度還沒有收費的計劃,這些技術(shù)旨在解決用戶在使用語音交互的場合時,普遍感到困擾的一些關(guān)鍵問題。“目前的語音識別已經(jīng)超過了正常人的語音識別能力。”
以情感合成為例,主要是基于深度學(xué)習(xí)和大數(shù)據(jù)處理技術(shù),在數(shù)據(jù)采集、處理、建模等環(huán)節(jié)進行一系列創(chuàng)新,實現(xiàn)更接近人聲的富有表現(xiàn)力的自然朗讀效果。
讀者甘肅數(shù)碼科技有限公司總經(jīng)理金大時告訴記者,目前“讀者數(shù)字農(nóng)家書屋”在甘肅慶陽市試點,根據(jù)百度大數(shù)據(jù)合成情感語音實現(xiàn)書籍有聲閱讀,讓很多不識字的老年人和留守兒童也享受到了閱讀的樂趣。
而遠(yuǎn)場方案技術(shù)則是百度自主研發(fā)的遠(yuǎn)場識別技術(shù),基于麥克風(fēng)陣列,利用麥克風(fēng)陣列束形成、語音增強、回聲消除、聲源定位等技術(shù)綜合實現(xiàn)高準(zhǔn)確率遠(yuǎn)場識別。
百度稱,開發(fā)者可以通過這一新的技術(shù)接口,使語音識別距離增加到3~5米,設(shè)備的語音喚醒率提升到95%以上,或解決長時間語音識別的準(zhǔn)確率問題。這將為語音技術(shù)帶來遠(yuǎn)比現(xiàn)在更多的想象空間,而不只是遙控電視或解鎖手機。
例如,百度在上海肯德基旗艦店投入使用的“小度機器人人機語音交互點餐”,可遠(yuǎn)距離隨時應(yīng)答點餐。
百度語音喚醒技術(shù),主要是通過通用喚醒詞解析、大數(shù)據(jù)聲學(xué)模型、雙層解碼等技術(shù)優(yōu)化,喚醒率達95%,支持用戶自定義喚醒詞。喚醒二期加入指令喚醒,優(yōu)化喚醒和識別性能。
長語音技術(shù)則在LSTM (Long Short-Term Memory,一種時間遞歸神經(jīng)網(wǎng)絡(luò))音頻切分技術(shù)、深度學(xué)習(xí)預(yù)測停頓、說話人自適應(yīng)、智能糾錯等方面技術(shù)突破。這意味著它將在方便語音輸入、內(nèi)容記錄、智能客服、視頻轉(zhuǎn)寫等應(yīng)用場景表現(xiàn)出想象空間。
這也令來到中國的斯坦福大學(xué)的人工智能專家James Landay感慨:“近兩年,受益于大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)的不斷發(fā)展,語音識別技術(shù)突飛猛進,速度及準(zhǔn)確性都有了長足進步。”
智能語音混戰(zhàn)
語音技術(shù)作為人機交互方式的入口,是人工智能重要的一環(huán)。不只是 BAT(百度、阿里巴巴、騰訊),搜狗、科大訊飛等加速智能語音的布局,不少圍繞AI的創(chuàng)業(yè)團隊如云知聲也都將語音作為探索人工智能的方向。
要想順利進入這一領(lǐng)域,需要的是多年的技術(shù)與經(jīng)驗積累。
吳恩達告訴第一財經(jīng)記者,語音識別技術(shù)非常復(fù)雜,最難的是核心技術(shù)的提升,例如識別率的提升,幾年前語音識別率還只有80%多,當(dāng)時用起來還是相當(dāng)困難;還有大數(shù)據(jù)語音合成等,現(xiàn)在的目標(biāo)是如何才能遠(yuǎn)遠(yuǎn)超過人類的識別能力。此外,百度語音識別97%的準(zhǔn)確率是在比較安靜的環(huán)境下達到的目標(biāo),在噪音干擾的情況下如何提升識別率,百度還有工作要做。
除了百度之外,可以看到的是,今年9月,騰訊云技術(shù)團隊和微信AI團隊開放微信語音處理技術(shù),推出了智能語音服務(wù)。在語音識別、語音合成、聲紋識別等功能上提供了垂直領(lǐng)域定制化的語音產(chǎn)品。阿里的人工智能系統(tǒng),已具備智能語音交互、圖像識別、交通預(yù)測、情感分析等功能。
在語音識別領(lǐng)域,搜狗 CEO 王小川在不久前的世界互聯(lián)網(wǎng)大會上透露,搜狗輸入法一天處理的語音輸入請求達到1.9億次,產(chǎn)生超過16萬小時的語音數(shù)據(jù)。在龐大的用戶基礎(chǔ)和數(shù)據(jù)積累后,可以把語音輸入做到更極致的狀態(tài),如語音合成、聲紋識別等。
公開資料顯示,在技術(shù)指標(biāo)方面,百度語音識別、搜狗輸入法語音識別、訊飛輸入法語音識別準(zhǔn)確率達到97%,騰訊云智能語音識別技術(shù)在通用領(lǐng)域中準(zhǔn)確率達95%。
在投資人士看來,智能語音仍是一個好的投資機會。
此前,峰瑞資本早期項目負(fù)責(zé)人朱祎舟提到,盡管各家根據(jù)實驗數(shù)據(jù)得出的語音識別準(zhǔn)確率達到 95% 甚至更高,但在實際使用時并沒有那么高,前端的語音/聲學(xué)交互的很多問題如果得不到解決,整體的體驗始終不夠好;而包括家居、車載、可穿戴設(shè)備、機器人等大量智能終端的爆發(fā),智能語音將變得更加友好和重要。
在IBM前全球副總裁、賽伯樂投資集團總裁王陽看來,未來人工智能在醫(yī)療、無人駕駛、金融、零售、安防、個人助理等七個領(lǐng)域有強大的應(yīng)用空間。其中他提到,人工智能個人助理目前普遍應(yīng)用于智能手機上的語音助理,語音輸入、家庭管家等,最終是在收集消費者的消費習(xí)慣,從而提供各類服務(wù)。
Research and Markets研究報告顯示,預(yù)計2016年全球智能語音產(chǎn)業(yè)規(guī)??蛇_82.3億美元以上,到2020年,全球語音市場規(guī)模預(yù)計將達到191.7億美元。