不說話也可以辨識! AI系統抄錄用戶「默默說」

Comment is Closed

麻省理工的研究人員開發出一種AI計算機界面,可以抄錄用戶想表達但沒說出聲音的話,該系統由可穿戴設備和相關計算系統組成,設備中的電極會捕捉下顎和臉部的神經肌肉信號,這些信號是由內部言語觸發的,人眼無法察覺,信號會被送到機器學習系統,該機器學習系統已經被訓練成將特定信號與特定字相關聯,因此執行抄錄。

該裝置還包括一對骨傳導頭戴式耳機,其通過臉部的骨骼,振動傳遞到內耳,由於它們不會阻塞耳道,因此耳機可以使系統在不中斷對話或以其他方式干擾用戶的聽覺,向用戶傳達信息。

所以該設備是一個完整的靜音計算系統,可以讓用戶無法察覺的擺出姿勢,並接受一些難以計算問題的答案。

例如:「 在研究人員的一項實驗中,受試者使用該系統默默報告對手在國際象棋遊戲中的動作,並同樣會默默接受計算機推薦的回應」。

微妙的信號

自19世紀以來,內部言語表達與身體相關的觀點一直存在,並在20世紀50年代進行了嚴格的調查。

但是,作為計算機系統的subvocalization,在很大程度上是難以測驗的,研究人員的第一步是確定臉上哪些位置是最可靠的神經肌肉信號的來源。所以他們進行了一些實驗,在這些實驗中,要求相同的受試者將同一系列的單詞四次次定位,每次在不同的面部位置上有一組16個電極。

研究人員編寫代碼來分析結果數據,發現來自七個特定電極位置的信號始終能夠區分次定位字,在會議論文中,研究人員報告了一種可穿戴無聲語音界面的原型,該界面像電話耳機一樣纏繞在脖子後部,並且具有觸手狀彎曲的附屬物,其在嘴部兩側的七個位置處接觸臉部並沿著下巴。

但是在目前的實驗中,研究人員使用一個顎上只有四個電極的方法獲得了可比較的結果,這應該導致一個不那麼突出的可穿戴設備。

一旦他們選擇了電極位置,研究人員就開始收集數據,內容包括一些有限詞彙表的計算任務,每個約20字,一種是算術運算,其中用戶將重點定位大的加法或乘法問題,另一個是國際象棋應用程序,用戶使用標準的國際象棋編號系統報告移動。

推薦文章:  科學家找到全新方式殺死癌細胞,比化療更有效及安全

然後,對於每個應用程序,他們使用神經網絡來查找特定神經肌肉信號和特定詞之間的相關性,像大多數神經網絡一樣,研究人員使用的網絡被安排成簡單處理節點的層次,每個層次都連接到上下層中的幾個節點,數據被送入底層,其節點處理它並將它們傳遞給下一層,節點處理它並將它們傳遞到下一層,依此類推,最終圖層產量的輸出是一些分類任務的結果。

研究人員系統的基本配置包括一個神經網絡,訓練來識別來自神經肌肉信號的未定位詞語,但它可以通過只重新訓練最後兩層的過程為特定用戶定制。

實際問題

研究人員利用原型可穿戴接口進行了一項可用性研究,其中10名受試者花費了大約15分鐘時間,將算術定制為他們自己的神經生理學,然後花費了90分鐘用於執行計算,在該研究中,該系統的平均轉錄準確度約為92%。

但是,卡普爾說,系統的性能應該會隨著更多的培訓數據而改善,這些培訓數據可以在日常使用中收集,儘管他沒有揣測數字,但他估計他用於示範的訓練有素的系統的準確率高於可用性研究報告的準確率。

在正在進行的工作中,研究人員正在收集大量關於更精細對話的數據,希望能夠用更廣泛的詞彙來構建應用程序,我們正在收集數據,結果看起來不錯,卡普爾說:「 我認為我們有一天會實現全面對話」。

喬治亞理工學院計算學院教授Thad Starner說:「 我認為他們目前有點不足,但非常有潛力,這個產品是非常好的」。

比如說,在機場的飛機停機坪上控制飛機,那時候因為你身邊都有噴氣噪音,通常無法與人溝通,甚至是擁有大量機器的地方,例如發電廠或印刷機等。

這是一個有意義的系統,特別是因為這些類型或情況中的人們經常會穿著防護裝備,說話很不方便,有了這套裝置後會容易許多,或者對某部分說話有障礙的殘疾人士,會有幫助與貢獻。

Hssszn讚新聞著作權聲明:本網站之文字、圖片及影音,非經授權,不得轉載。

推薦文章:  物理學家發現一種爆炸性的融合,威力比核融合大上十幾倍,使他們差點不敢公布結果

來源:news.mit.edu