人類打字的時代即將結束? 微軟的語音辨識技術已經和人類一樣準確

    加入我們永遠收到最新的消息

man_computer_headset_speech_recognition-100686590-orig

1. 微軟新的語音辨識技術能夠抄寫會話性言語,和人類一樣好(或甚至更好)。

2. 這項技術得到5.9%的錯字率(word error rate,WER),比才在上個月報告的6.3%WER還低。

達到"人類水平"

microspeechrec

上周一發表的一項研究,被宣布為微軟的歷史成就。這項研究詳述一種新的語音辨識技術,能夠像人類一樣好的抄寫會話性言語,或者是至少和人類專業抄寫員一樣好(比大部分的人類好)。

這項技術得到5.9%的錯字率(word error rate,WER),比才在上個月報告的6.3%WER還低。微軟報告:「這是產業標準Switchboard語音辨識工作所記錄的最低值。」錯字率與人類專業抄寫員抄寫相同會話的錯字率一樣(甚至更低)。

microsoft-speech-recognition-artificial-intelligence

微軟首席語音科學家Xuedong Huang說:「我們已經達到人類水準。」這項新科技使用自然語言模型,藉由把類似的字聚集在一起,允許更有效的歸納。

在1970年代開始研究語音模式辨識之後的數十年,達成這項成就。隨著Google的DeepMind在語音和影像辨識(以及說話像人類)掀起波浪,對於快節奏的人工智慧研發,這項科技是微軟的適時貢獻。

deep_mind_atari_ai_algorithm

使用運算網路工具包(Computational Network Toolkit),微軟自己的深度學習系統,這項成就是開放的。

下一步:了解

對於微軟Windows和Xbox的個人語音助理,這項新科技應用一定會改善使用者經驗。率領微軟人工智慧研究群的執行副總Harry Shum興奮地說:「這會讓Cortana語音助理的功能更強,讓真正的聰明助理變得有可能。當然,微軟也將發展更好的語音轉文字抄寫軟體。

然而,微軟澄清,相同並不意味著完美。電腦不是清楚地辨識每一個字,甚至人類也無法完美做到(Siri或其現有的語音助理也做不到)。

雖然令人印象深刻,但還是有改進的空間。下一個目標:讓電腦了解人類的會話。語音與對話研究群經理Geoffrey Zweig說:「下一個新領域是從辨識移到了解。」

來源:Futurism