設計自動評測指標的方法有多種,通常會根據不同的評判類型去選擇適合的方法。“比如閱卷系統若要進行翻譯題的自動評判,可以讓老師事先寫好多個參考譯文答案,然後把學生的答案和參考答案進行類比,計算它們的相似度作為學生答案好壞的評測指標。”熊德意舉例說,機器翻譯常用的評測指標BLEU,就是基於參考譯文和機器譯文之間的N-grams(N元)匹配度計算相似度的。
一個單詞是一元,兩個相連的單詞是二元,還有三元、四元,如果答案中有一個單詞與參考答案中的單詞一致,那麼就會給出一個一元評分,類似的可以計算二元、三元、四元的評分。研究人員為不同元設置不同權重,然後把得分統籌起來變成一個客觀值,得分越高就說明兩者之間的相似性越高。
不同AI評分系統結果相差甚遠
此次AI閱卷系統“翻車”的導火索是一位美國歷史系教授的兒子在進行歷史考試的時候只得到了50%的分數,而她對兒子的答案進行評測後,覺得孩子的回答基本沒有問題。
同樣的答案,人工評價和機器評價為何有如此大的出入?
“這就是基於AI算法的自動評測面臨的最大挑戰:如何與人工評價保持一致。應對這個挑戰需要解決的問題很多。比如如何制定合適的評測標準,主觀題進行自動評測必須要有合適的評測標準和規範;比如如何應對語言的千變萬化,語言的多樣性是自然語言處理技術的主要挑戰之一,語言的自動測評和自動處理都要面對多樣性的挑戰;比如如何設計一個綜合性的評測指標,雖然目前有各種各樣的指標,但是很少有指標綜合考慮語言文字的方方面面,例如作文自動閱卷,可能要考慮用詞是否合理(詞匯)、句子是否流暢(句法)、段落組織是否有條理(篇章)、內容是否扣題(語義、語用)等。”熊德意說,上面提到的BLEU就是只考慮了單詞形式的嚴格匹配,沒有考慮單詞的形態變化、語義相似性、譯文的句法合理性等因素。
“遵循的評測規則、評判的出發點不同,相應的算法模型都不一樣,因此最後的結果也會相差甚遠。”熊德意說。
因此僅僅利用一種評測方法顯然是不全面的,這也就解釋了當孩子的母親嘗試在答案裡加入“財富、商隊、中國、印度”等題目中的關鍵詞時,即使這些關鍵詞之間沒有任何串聯,她也得了滿分。“可能這個AI閱卷系統只使用了簡單的關鍵詞匹配,因此會出現‘關鍵詞沙拉’也能蒙混過關的情況。”熊德意解釋。 |