人工智慧看了600小時的電視後,開始正確地預測接下來會發生的事

Comment is Closed

cortana-630x354

麻省理工學院(MIT)的研究人員創造出一個演算法,希望來了解人類眼中的言行舉止(social cues),並預測接下來發生的事。讓人工智慧(AI)擁有了解和預測人類社交互動的能力,能夠為將來有效率的家庭輔助系統以及能夠提前呼叫救護車或警察的智慧型安全相機鋪路

看電視變得更聰明?

MIT的電腦科學和人工智慧實驗室創造出一種利用深入學習(deep learning)的演算法,讓AI能夠使用人類互動的行為模式,來預測接下來會發生的事。研究人員將以人類社交互動為特色的影片放入程式裡,然後測試它是否學得很好,好到能做出預測。

AAEAAQAAAAAAAAPNAAAAJGY0MWY3MmJlLTQxNDUtNGI5NS1iM2Q3LWFjYzk0OWVjYWU1NA

研究人員的首選武器是什麼?600小時的Youtube影片和情境喜劇,包括辦公室瘋雲(The Office)、慾望師奶(Desperate Housewives)、以及醫院狂想曲(Scrubs)。這個影片陣容也許是有問題的,MIT博士候選人暨專案研究員Carl Vondrick說出理由,理解性和真實性只是判斷標準的一部分。

推薦文章:  神秘黑色煙圈不是UFO,大家都被騙了

Vondrick說:「我們只是要隨機挑選YouTube影片來使用。選擇看電視的理由,是它很容易讓我們來使用那個影片。就描述每一天的情形而言,它是有一點實際的。」

他們讓電腦看一秒鐘影片中的人做這四個動作之一:擁抱、親吻、舉手擊掌、以及握手。和人類有71%的時間猜對相比,AI有43%的時間猜對。

可能的未來

讓AI有能力來了解所看到的人類行為,可以是有效率的家庭輔助系統以及能夠提前呼叫救護車或警察的智慧型安全相機的前導

fair-deepface-facial-recognition

雖然這不是第一個企圖在影片中做出預測的AI,它是目前最準確的。原因是,第一,這個新演算法是從之前企圖在影片中做出預測的演算法衍生而來。在那時,畫素接著畫素呈現(pixel-by-pixel representation)是優先處理的。它使用抽象表示法(abstract representation)來預測,並且集中注意力在重要的跡象。它自我學習,並且使用視覺表徵(visual representation)來區別言行舉止,把在社交互動中重要的言行舉止與不重要的分開。這對人類來說是很自然的,但對AI來說是更加複雜。

推薦文章:  知名天文學家預測: 外星人創造的機器人會比人類更早征服太空

華盛頓大學的機器學習專家暨教授Pedro Domingos說:「它和人類所做的其它事並沒有太大的不同。但比起人類過去在這個領域所做的,它實質上做得比較好。」

來源: Futurism