人類要想自然地與設(shè)備進(jìn)行對話,,語音識別就必須得到大幅改進(jìn),。
谷歌語音操作
過去幾年,語音識別取得了很大進(jìn)步,,大部分要?dú)w功于神經(jīng)網(wǎng)絡(luò),。然而,神經(jīng)網(wǎng)絡(luò)需要大量數(shù)據(jù)進(jìn)行訓(xùn)練,。正因?yàn)榇?,谷歌、微軟,、亞馬遜,、百度等科技公司都在盡可能地收集各種語言,、口音以及方言。另外,,百度等公司也在開發(fā)更為高效的算法,,不需要那么多數(shù)據(jù)就能提高語音識別準(zhǔn)確率,這有利于數(shù)字助手學(xué)習(xí)使用較少的語言,。
亞馬遜智能音箱Echo已經(jīng)兌現(xiàn)了讓千家萬戶都有一臺人工智能個人助手的承諾,。Echo用戶容易被語音助手Alexa的“魅力”所征服,對于Alexa可以實(shí)現(xiàn)Uber打車,、預(yù)訂披薩以及檢查10年級學(xué)生數(shù)學(xué)作業(yè)的能力贊賞有加,。亞馬遜稱,每天有5000多人表達(dá)對于Alexa的喜愛之情,。
另外一方面,,Alexa的擁簇也知道,除非他們非常清晰,、緩慢地與Alexa對話,,否則她很可能會說:“抱歉,我無法回答這個問題”,。
“我愛她,,既愛又恨,”一位用戶在亞馬遜網(wǎng)站上寫道,,但依舊給予Alexa五星評價(jià),,“你需要很快速地學(xué)習(xí)如何以一種她聽得懂的方式與她交流,就像和一個初學(xué)走路的小孩交流一樣,?!?
過去幾年,語音識別已經(jīng)取得了很大進(jìn)步,,但是仍未好到足以廣泛用于日常生活中,引領(lǐng)人機(jī)交互的新時代,,讓我們與汽車,、洗衣機(jī)以及電視等所有設(shè)備進(jìn)行對話。雖然語音識別取得了一定進(jìn)展,,但是多數(shù)人仍在觸摸,、滑動以及點(diǎn)擊屏幕。在可預(yù)見的未來,,這種局面或許仍會持續(xù)下去,。
那么,是什么因素阻礙了語音識別的發(fā)展呢,?在一定程度上講,,語音識別背后的人工智能技術(shù)還有改進(jìn)的空間,。它還面臨嚴(yán)重的數(shù)據(jù)缺失問題,具體來說就是人類聲音的音頻,、在喧雜的環(huán)境下往往會出現(xiàn)的多種語言,、口音以及方言。這些因素都可能會導(dǎo)致語音助手無法準(zhǔn)確識別人們的語音,。
因此,,亞馬遜、蘋果,、微軟以及百度都已經(jīng)開始在全球范圍內(nèi)收集數(shù)以TB的人類語音數(shù)據(jù),。微軟已經(jīng)在全球各個城市建立了模擬公寓,錄制志愿者的本土口音,。亞馬遜每個小時都會把用戶向Alexa提出的問題上傳到一個龐大的數(shù)字倉庫中,。百度則忙于收集中國的每一種方言。隨后,,他們就會利用這些數(shù)據(jù)教計(jì)算機(jī)如何分析,、理解以及回應(yīng)指令和問題。
科技公司在這一過程中面臨的挑戰(zhàn)是:找到一種方法捕捉到自然,、真實(shí)的對話,。百度加州人工智能實(shí)驗(yàn)室負(fù)責(zé)人亞當(dāng)·考特斯(Adam Coates)表示,即便是語音識別準(zhǔn)確率達(dá)到95%,,這仍不夠,。“我們的目標(biāo)是將錯誤率降至1%,,”他表示,,“只有達(dá)到這種水平,你才能真正相信設(shè)備理解了你所說的話,,那將是一場變革,。”
就在不久前,,語音識別技術(shù)還處于一個初級階段,,給出的答案十分滑稽。2006年,,微軟在分析師和投資者面前演示了Windows平臺早期版本的語音識別技術(shù),。然而,微軟語音識別技術(shù)把“媽媽”聽成了“阿姨”,。當(dāng)蘋果在5年前推出Siri時,,該語音助手給出的答案也令人捧腹大笑,這也是因?yàn)樗3L峁╁e誤答案或者沒有準(zhǔn)確識別問題。當(dāng)被問及吉蓮·安德森(Gillian Anderson)是否是英國人時,,Siri提供了一份英國餐館的清單?,F(xiàn)在,微軟表示,,其語音識別引擎的錯誤率達(dá)到了專業(yè)速記員的水平,,甚至更低。Siri目前的錯誤率差強(qiáng)人意,,Alexa則讓人對未來的語音識別技術(shù)充滿期待,。
語音識別技術(shù)取得的大部分進(jìn)展都要?dú)w功于神經(jīng)網(wǎng)絡(luò)的魔力,后者是一種人工智能形式,,基于人腦架構(gòu),。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)不需要接受明確的程序化定制,但是一般需要龐大而且種類豐富的數(shù)據(jù),。在神經(jīng)網(wǎng)絡(luò)架構(gòu)下,,語音識別引擎處理的問題越多,它就能更好地理解不同的聲音,,進(jìn)一步接近在多種環(huán)境下,,與多種語言自然對話的終極目標(biāo)。
因此,,全球科技公司都在爭相收集各種聲音,。“我們在系統(tǒng)中放入的數(shù)據(jù)越多,,它的表現(xiàn)就越好,,”百度首席科學(xué)家吳恩達(dá)表示,“這也是為什么語音識別是這么一種資本密集型技術(shù)的原因,,并不是有太多機(jī)構(gòu)擁有這么多的數(shù)據(jù),。”
盡管科技行業(yè)在上世紀(jì)90年代就開始認(rèn)真地研究語音識別技術(shù),,但是微軟等公司依靠的語言數(shù)據(jù)聯(lián)盟(Linguistic Data Consortium)等研究所的公開可用數(shù)據(jù),。語言數(shù)據(jù)聯(lián)盟是一個語音和文本數(shù)據(jù)倉庫,創(chuàng)建于1992年,,獲得了美國政府的支持,,屬于賓夕法尼亞大學(xué)。隨后,,科技公司開始收集他們的自主語音數(shù)據(jù),,部分來自志愿者,。這些志愿者讀出自己的聲音,,然后由科技公司錄制。現(xiàn)在,,語音控制軟件開始走俏,,它收集的大部分?jǐn)?shù)據(jù)來自公司的自主產(chǎn)品和服務(wù),。
當(dāng)你使用語音指令在手機(jī)上搜索一些東西,播放歌曲或者導(dǎo)航時,,科技公司可能就在錄制你的聲音,。蘋果、谷歌,、微軟以及亞馬遜強(qiáng)調(diào),,他們對用戶數(shù)據(jù)進(jìn)行匿名化處理,以保護(hù)用戶的隱私,。當(dāng)你向Alexa詢問天氣或者足球比賽比分時,,它就會利用你的問題改進(jìn)對自然語言的理解?!敖柚@一設(shè)計(jì),,你使用的越多,Alexa就變得越智能,,”Alexa項(xiàng)目資深首席科學(xué)家尼克·斯特羅姆(Nikko Strom)表示,。
其中一個重大挑戰(zhàn)就是如何讓技術(shù)熟悉多種語言、口音以及方言,。相比之下,,這一問題在中國顯得更為重要。為了收集全國各地的方言,,百度今年初在新年期間推出了一項(xiàng)營銷活動,。百度將這項(xiàng)活動稱之為“方言保護(hù)行動”,該公司表示,,如果人們愿意使用方言與百度交流,,就是在協(xié)助引領(lǐng)一個未來。在兩周時間內(nèi),,百度使用電腦錄制了超過1000個小時的語音,。許多人甘愿免費(fèi)提供他們的方言,因?yàn)樗麄儗τ谧约旱募亦l(xiāng)方言感到自豪,。四川的一位高中老師對于這一活動感到十分興奮,,他讓一個班的學(xué)生使用四川話錄制了1000多篇古代詩歌。
另一個挑戰(zhàn)則是:如何在嘈雜的環(huán)境下教會語音識別技術(shù)準(zhǔn)確接收指令,,例如在嘈雜的酒吧,、喧鬧的體育場等。微軟已經(jīng)部署了一款名為Voice Studio的Xbox應(yīng)用,,在用戶觀看電影等活動時收集對話,。微軟還為愿意提供游戲聊天語音的玩家準(zhǔn)備了數(shù)字裝備等獎勵。這一項(xiàng)目在巴西取得了不錯效果,微軟子公司在其主要Xbox頁面上大力推廣這一項(xiàng)目,。微軟把收集來的數(shù)據(jù)用于開發(fā)葡萄牙語版的“小娜”,,該版本語音助手已在今年早些時候發(fā)布。
科技公司還在專門為具體環(huán)境設(shè)計(jì)語音識別系統(tǒng),。微軟正在測試一項(xiàng)技術(shù),,它能夠在不受到機(jī)場廣播干擾的情況下回答旅客的問題。微軟的這項(xiàng)技術(shù)還被用于麥當(dāng)勞得來速汽車餐廳的自動訂購系統(tǒng),。亞馬遜還在汽車中測試Alexa,,讓其在道路噪音和車窗打開的情況下提高語音識別準(zhǔn)確度。
即便科技公司在滿世界尋找數(shù)據(jù),,但是他們也在設(shè)法找出不需要那么多數(shù)據(jù)就可以提高語音識別準(zhǔn)確度的方法,。微軟首席語音科學(xué)家黃學(xué)東表示,正在麥當(dāng)勞汽車餐廳測試的技術(shù),,就要比使用了更多數(shù)據(jù)的其它系統(tǒng)更為準(zhǔn)確,。黃學(xué)東在微軟開發(fā)語音識別技術(shù)已有20多年時間?!凹幢阍诓皇褂眠@么多數(shù)據(jù)的情況下,,你依舊可以取得突破,”他表示,。
谷歌一般奉行“少即多”的理念,,使用零碎,無法理解的聲音串連成話語和短句,。對于自主語音識別系統(tǒng),,谷歌希望只通過一處改變就能解決多個問題。在數(shù)據(jù)集問題上,,谷歌把數(shù)萬個一般在兩秒至五秒長的音頻片段串連在一起,。谷歌研究人員弗朗西斯·比烏福斯(Fran?oise Beaufays)表示,這一過程需要的計(jì)算性能更少,,更容易進(jìn)行測試和作出調(diào)整,。就其本身而言,百度正在開發(fā)更為高效的算法,。在學(xué)習(xí)一種語言后,,它就能更為容易地學(xué)習(xí)另外12種語言。吳恩達(dá)稱,,這對于一種只有數(shù)萬人而不是數(shù)百萬人會說的語言來說尤其重要,,因?yàn)樗鼪]有大量可用的語音數(shù)據(jù)。
當(dāng)吳恩達(dá)等研究人員被問及數(shù)字助手可能會在何時能夠與人類展開自然對話時,,他們都沒有給出答案,。沒有人真正知道這一問題的答案,。即便是對于最為了解神經(jīng)網(wǎng)絡(luò)的人來說,神經(jīng)網(wǎng)絡(luò)依舊是一項(xiàng)神秘技術(shù),。目前的大部分工作都是試驗(yàn)性的,出了錯后進(jìn)行調(diào)整,。你無法肯定地說數(shù)字助手的自然語言對話將在何時實(shí)現(xiàn),。根據(jù)當(dāng)前的技術(shù)和方法推測,自然對話可能需要花費(fèi)數(shù)年時間,。但是吳恩達(dá),、黃學(xué)東、比烏福斯以及其他科學(xué)家表示,,你永遠(yuǎn)不知道語音識別將在何時取得突破,,推動研究大幅前進(jìn),把Alexa和Siri轉(zhuǎn)化成真正的對話者,。
(編輯:李月)
