他舉例說,這個屏幕是我去年去波士頓遇到一個哈佛的學生,他和我說為什麼我在波士頓能看到長沙的新聞,雖然我是一個長沙人,他是怎麼知道的,我就問他,你在過去兩三年的春節有沒有回家呢?他說回家了。我和他說大概率是因為我們的機器猜到你春節回家了,你可能是一個長沙人,但是他說我又看不到很多的長沙新聞,為什麼長沙市政府引進人才的新聞我們可以看到呢?我和他說我們確實不是因為你是長沙人就把長沙的新聞推薦給你,我們現在只是把在長沙的留學人才可能喜歡看的新聞推薦給你。
張一鳴接著說,他又問我,為什麼長沙在外留學的人喜歡看這條新聞呢?我說並不是因為你看了這條新聞,因為其他長沙在外留學的人,他們點擊了這篇新聞,你和這些人類似,所以你會看到這篇新聞。這也是個性化推薦,其次體現了泛化,他並沒有看過這條長沙吸引高端人才回流的新聞,而是和他類似的人看過新聞,泛化就是我們在利用人之間的共同特征,把一個模式應用到其他的人身上,不僅是你為自己推薦內容,而是人人為人人推薦內容。
數據積累方面,張一鳴說,我們發現推薦系統具備這樣一個特點,首先是一個人用,一個人用的越久越好用,因為我知道你閱讀的數據,這是個性化。第二個是越多人用越好用,越多人用可以找到類似的人群。第三個是數據的積累,我們看一下數據的積累,到目前為止我們有八百個算法方面的工程師,有兩萬台處理器,有151條訓練樣本,每天用戶請求60億次,這個請求在人工智能應用當中已經是非常大的,有兩萬台機器晝夜不停計算各種概率。
除了創作分發,張一鳴認為,在互動方面人工智能參與非常多,我們經常想問一個問題,但是我不知道這個問題問誰,不知道大家是否有這樣的經歷,我有一個問題,不知道誰知道這個問題,我們可以在朋友圈問一下,如果有人懂這個方面,可能就會回答。
張一鳴說,我們分析問題領域,我們在所有的用戶當中找到這個領域感興趣的人,這個人看過這個領域很多的文章,我們將把你的問題推薦給可能的回答者,我們判斷他有可能回答出高質量的答案,把問題推薦給他,如果把問題回答出來以後,我們再判斷還有什麼人對這個答案感興趣,再推薦給讀者,所以提問、回答、閱讀,這個匹配過程也是可以讓機器發揮非常重要的作用,很可能你感興趣的問題,我們不僅用問答的匹配,我們也在嘗試結構化信息化的內容,機器直接計算出答案,這就是基於計算的自動問答。
|