中評社北京7月8日電/《文匯報》報道,每年發布的《中國語言生活狀況報告》都會揭曉上一年度的“十大新詞語”和“十大流行語”,許多人好奇—— 熱詞熱語是怎麼“選拔”的。
《2011年中國語言生活狀況報告》最近發布,傷不起、虎媽、淘寶體和另外7個詞,被宣布為“十大新詞語”,十二五開局、喬布斯、利比亞局勢等則是“十大流行語”……
許多人好奇,這兩個“十大”到底是怎麼“選拔”的?該不是一幫人圍一桌你一言我一語凑出來的吧?中國傳媒大學教授侯敏對此回應:怎麼可能?這可是歷經監測、過濾、篩選、釋義等一整套程序,從每年10億字的語料中像沙裡淘金那般“提煉”出來的。
從幾萬條中挑幾百個
侯敏教授有著另一個頭銜:國家語言資源監測與研究中心有聲媒體語言分中心負責人。她介紹說,每年總量10億字的語料,取自平面媒體、有聲媒體和網絡媒體,並且逐年積累形成三大語料庫。
平面媒體語料庫每年新采集5億字,以15份國內報紙為樣本,收入1月1日至12月31日的所有文字;有聲媒體語料庫年采集1億字左右,以央視新聞聯播、央廣新聞與報紙摘要等廣播電視主流新聞欄目為樣本,將1月1日至12月31日的視頻與音頻素材全部轉換成文字;網絡媒體語料庫的年采集量約4億字,收納新浪、騰訊等網站新聞欄目的全年語料。
語料備齊,先要人工“淘洗”一番,查找補正漏字、缺字、亂碼等等,而後一股腦兒送進語言信息處理技術平台,平台上裝著全切分軟件、自動分詞軟件等。在電腦上輸入“我是學生”,立馬會被切分成我、是、學、生4個字與我、是、學生3個詞。 |