此外,口語的人工測評與機器測評也存在較大出入。“近年來,語音識別性能雖然在深度學習技術的推動下取得了顯著的提升,但是在開放環境、噪音環境下,這種識別率就會下降很多。”熊德意解釋,如果機器“聽”錯了一個單詞,而後機器進行測評,就會形成一個錯誤傳播,也就是上游系統的錯誤會導致下一系統錯誤,錯上加錯,越錯越離譜,測評結果也會大相徑庭。
“目前有很多設計評測指標的方法,還有很多改進的方法,如在計算準確率的同時也計算召回率等。另外,還有對評測指標進行評測的,即評測的評測,看看哪個評測指標更完善,更和人的評價一致。”熊德意感嘆,很多時候,自動評測的難度和對應的自然語言處理任務的難度,從技術層面來說是一樣的,比如用機器評價一個譯文的好壞與用機器生成一個譯文的難度類似,用機器評判一個文檔摘要的好壞與用機器生成一個摘要的難度也差不多。
可結合人工評測讓系統更智能
“傳統的自動評測指標通常是基於符號進行計算的,現在深度學習等AI技術也越來越多地應用於測評工具中。”熊德意介紹,使用深度學習,可以把語言符號映射到實數稠密向量的語義空間,利用語義向量計算相似度。哪怕說的詞語和計算機原本學習的不一樣,但只要語義是一致的,機器就可以進行精准的評價。因此,基於深度學習的自動評測某種程度上可以應對語言的多樣性挑戰。不過深度學習也有一個問題,就是需要大量的數據讓機器進行學習。
基於自監督學習的預訓練語言模型,近幾年,在語言表示學習中,取得了突破性的進展。“OpenAI的預訓練語言模型GPT-3,在5000億單詞的海量語料上訓練了一個帶有1750億個參數的神經網絡,通過大量學習網絡上各種語言的文本,GPT-3形成了強大的語言表示能力,可以進行多種任務,比如自動翻譯、故事生成、常識推理、問答等,甚至可以進行加減法運算,比如其兩位數加減法正確率達到100%,五位數加減法正確率接近10%。”熊德意介紹,不過,這麼龐大的神經網絡,如果用單精度浮點數存儲,需要700G的存儲空間,另外模型訓練一次就花費了460萬美元。因此,即使GPT-3具有較好的零樣本、小樣本學習能力,其高昂的成本使其離普遍可用還有很遠的距離。
但是AI作為閱卷評測“老師”,其又有人工不可比擬的優勢。比如AI自動批閱卷系統相比人工批閱速度更快,老師不可能一次記住所有的多項選擇題答案,需要不斷檢查標準答案,這是很費時的,自動批閱系統幫助老師大大提高了效率;另外,自動批閱系統更加理性,不受外界條件干擾,不會因疲勞等原因導致誤判。即使在複雜的干擾環境中,仍然可以得到正確的結果;AI閱卷系統還可以在評分後直接做好學情分析,統計出考試數據、錯題數據等教學材料,幫助老師減負增效,幫助學生提高學習效率。 |