中國評論新聞：“吊絲”落榜年度熱詞怎麼評出來的？

	【CNML格式】【大中小】【打印】
【第1頁第2頁第3頁】
“吊絲”落榜年度熱詞怎麼評出來的？
http://www.chinareviewnews.com 2012-07-08 09:58:03

　　中評社北京7月8日電／《文匯報》報道，每年發布的《中國語言生活狀況報告》都會揭曉上一年度的“十大新詞語”和“十大流行語”，許多人好奇—— 熱詞熱語是怎麼“選拔”的。

　　《2011年中國語言生活狀況報告》最近發布，傷不起、虎媽、淘寶體和另外7個詞，被宣布為“十大新詞語”，十二五開局、喬布斯、利比亞局勢等則是“十大流行語”……

　　許多人好奇，這兩個“十大”到底是怎麼“選拔”的？該不是一幫人圍一桌你一言我一語凑出來的吧？中國傳媒大學教授侯敏對此回應：怎麼可能？這可是歷經監測、過濾、篩選、釋義等一整套程序，從每年10億字的語料中像沙裡淘金那般“提煉”出來的。

　　從幾萬條中挑幾百個

　　侯敏教授有著另一個頭銜：國家語言資源監測與研究中心有聲媒體語言分中心負責人。她介紹說，每年總量10億字的語料，取自平面媒體、有聲媒體和網絡媒體，並且逐年積累形成三大語料庫。

　　平面媒體語料庫每年新采集5億字，以15份國內報紙為樣本，收入1月1日至12月31日的所有文字；有聲媒體語料庫年采集1億字左右，以央視新聞聯播、央廣新聞與報紙摘要等廣播電視主流新聞欄目為樣本，將1月1日至12月31日的視頻與音頻素材全部轉換成文字；網絡媒體語料庫的年采集量約4億字，收納新浪、騰訊等網站新聞欄目的全年語料。

　　語料備齊，先要人工“淘洗”一番，查找補正漏字、缺字、亂碼等等，而後一股腦兒送進語言信息處理技術平台，平台上裝著全切分軟件、自動分詞軟件等。在電腦上輸入“我是學生”，立馬會被切分成我、是、學、生4個字與我、是、學生3個詞。

【第1頁第2頁第3頁】　

【CNML格式】【大中小】【打印】

相關新聞：

經濟不景氣女性更愛美口紅效應再現 (2012-07-08 09:57:27)
福建千年客家古城面臨拆遷 (2012-07-07 09:57:49)
紅木真跌假摔讓消費者喪失信心 (2012-07-07 09:57:38)
經典老劇成救命稻草長盛不衰何原因？ (2012-07-07 09:57:04)
女生全面超越男生教育制度故意刁難？ (2012-07-06 10:12:59)
邵雍墓千年龍吻被偷園區變成燒烤店 (2012-07-06 10:12:19)
原來你也有病啊！ (2012-07-05 09:44:10)
《畫皮2》異常火爆：皆因偶像的力量 (2012-07-05 09:43:57)
期待電影更多樣別讓大片獨霸中國銀幕 (2012-07-05 09:43:48)
成人漫畫被關注新媒體是其最佳載體 (2012-07-05 09:43:11)