今年六月份,我去了英國倫敦,和Deepmind公司的工程師做了交流,我特別好奇的事情就是下棋的第四局機器輸掉了,我遇到他們問第四局發生了什麼事情,他們和我說不是程序有BUG,就是深度學習本身有瓶頸,圍棋比賽是三月份,我是在六月份去的倫敦,已經過了三個月,三個月的時間,這個問題依然沒有解決。但是我離開以後一個星期,他們的程序能夠正確面對之前的第四局棋譜,我問他是否這個BUG修好了,工程師說沒有,只是代表第四局那個特定問題,正好機器可以解決,但是我們依然不知道什麼情況下,這樣的Alpha Go會繼續出錯。所以我們知道深度學習這樣一個體系其實還是有它的瓶頸所在的。
所以在今天我和大家更多想談以深度學習為代表的今天的人工智能技術,還有哪些不靠譜的地方,在產品上不適用的。第一個問題,語音識別靠譜嗎?在百度、騰訊,都提到了語音識別這樣的能力,今天我給大家的演示也談到了語音識別,這是搜狗自己的技術。我們都提到了在安靜的環境裡面我們的識別準確度已經到了95%,甚至97%,但是一旦有噪音,迅速下降。那這種噪音可能還只是汽車的引擎噪音、風的噪音,這種情況下我們怎麼解決,我們把噪音當成原始數據進入監督學習系統里去,把這種噪音變成機器見過的問題之一。但是事實上我們見到更多的情況,如果同時兩個月說話會怎樣,在今天的學術界依然無解,同時兩個人說話的時候,這樣的噪音我們都是沒見過的,也沒法提前做訓練。
今年六月份,我問學術界的人,人和機器在語音識別上的區別,究竟怎麼解決?我們用機器的時候,採用立體聲的方式做定向的識別,也就是說我們做一個麥克風矩陣,通過立體的方式知道其中一個人在說話,把另外一個人說話去掉,我想人是這樣幹的嗎?如果把一只耳朵堵上,我是否沒辦法分離出誰在說話及或者把兩個說話的聲音錄在一個單聲道裡面,人可以識別嗎?人是可以的,所以人的方法和機器不一樣,人怎麼識別,因為人的音色不一樣,還是因為兩個人的一個聲音大一個聲音小,還是因為他們說不同的語音,博士說但凡同時兩個人說話的時候,只能能夠找到差別,人就能夠把其中的一個聲音識別出來,所以人在和機器處理過程當中還有巨大的不同。我在這裡先不展開,語音識別最成熟的領域其實還是和人有很大的區別。
|