|
2019年,研究人员利用英国钻石光源同步加速器扫描赫库兰尼姆古卷残片。图片来源:英国《自然》杂志(图片来源:科技日报) |
那麼,神經網絡能否在歷史的殘片中找出人類專家難以發現的聯繫?2017年,英國牛津大學的一項合作開啟了探索之旅,當時,兩名研究人員正面臨破解西西裡希臘銘文的難題。
古典學者通常依賴對現存文本的理解來詮釋新材料,但難以全面掌握所有相關資料。牛津大學研究人員認為,這正是機器學習可發揮作用的領域。他們使用基於RNN的Pythia模型,並用數萬份希臘銘文來訓練它,最終成功預測了文本中缺失的單詞和字符。
2022年,他們又推出Ithaca模型,不僅能預測缺失內容,還能為未知文本提供日期和來源地建議。Ithaca利用了Transformer模型的突破,能捕捉更複雜的語言模式。當前風靡全球的聊天機器人,如OpenAI的ChatGPT就是基於Transformer模型。
翻譯復原浩瀚歷史檔案
韓國研究人員有一項棘手的任務:整理世界上規模最大的歷史檔案之一。該檔案詳細記錄了27位朝鮮王國國王自14世紀至20世紀初統治時期的日常,涵蓋數十萬篇文章。美國紐約大學機器翻譯專家金亨俊表示,這些文本數據量極為龐大。
將這些文本人工譯成現代韓文,預計需耗時數十年。金亨俊攜手韓國同行,利用Transformer網絡訓練自動翻譯系統。結果顯示,AI譯文在準確性和可讀性上遠超古韓文,有時甚至優於現代韓文。
對於僅存少量文本的古代語言,研究人員也會採用神經網絡進行破解。希臘帕特拉斯大學的卡特裡娜·帕帕瓦西裡歐及其團隊,利用RNN恢復了克里特島諾索斯邁錫尼泥板中缺失的線性文字B文本。測試顯示,模型預測準確性高,且常與人類專家建議相符。 |