http://iug.csie.dahan.edu.tw/iug/Ungian/Chokphin/Lunbun/KIPsupin/KIPsupin.asp

教育部臺灣閩南語字詞頻調查工作簡介

國立成功大學台灣語文測驗中心

專案計畫助理研究員 楊允言

摘要

詞頻調查是一個語言ê基礎統計。教育部tī 2008年委託學術單位進行台語字詞頻調查統計,按算beh蒐集100萬詞以上ê台語語料,並且提供語詞檢索系統hō͘社會大眾查詢。

本文介紹這個詞頻調查計畫,伊ê重要性kah目標,工作團隊ê分工情形,針對所蒐集ê語料分佈做簡單ê說明,包括各文類(15小類)ê比例,文字型式(漢字、漢羅合用、羅馬字)ê比例,無仝年代ê文本比例來對照台語文發展歷史。Soah落來說明計畫執行ê實務問題,包括工作流程,輸入ê格式,羅馬字轉換kah漢字造字ê處理方式。

關係語詞檢索系統ê功能,使用者thang利用詞組、語詞、詞頭、詞中、詞尾、漢字造字、重疊詞等來查詢,會當設定語料範圍,顯示方式、排等kah取樣數量。

本文列出這個計畫tih執行ê時,所ê一寡問題,包括斷詞原則、文類分類方式kah漢字使用,希望會當提供參考。最後,討論未來咱koh愛做ê空課。

關鍵詞:台語文、語料庫、字詞頻、語詞檢索、斷詞

1. 踏話頭:詞頻統計的重要性

台灣ê本土語言,包括台語、客語kah原住民語是台灣徛起世界ê重要文化資產,ia̍h是文化創意產業ê重要基礎之一。對外,透過語言ê情境,hō͘台灣文學、戲劇kah常民文化得著豐富ê性命力,進一步得著國際上ê認同,hō͘台灣文化文化創意產業方面有充分ê競爭力;對內,透過本土語言教學kah各種ê拍拚,hō͘咱珍貴ê語言資產thang繼續保存。

過去,錯誤ê語言政策影響之下,台灣本土語言受著相當大ê打擊。聯合國教科文組織 (UNESCO) tī 2001年公布ê資料,直接點名台灣是母語瀕危地區,2003年,當時行政院客委會主委葉菊蘭對本土語言有一段生動m̄-koh mā hō͘人心酸ê形容:「台語掛號中,客話急診,原住民語入加護病房。」根據語言學家ê估計,目前全世界大約有6,000外種語言,若koh無採取任何ê挽救動作,到21世紀尾,可能kan-na chhun 600種語言。

所以,設使咱無拍拚,據在台灣各語言自生自滅,100冬後ê台灣,可能kan-na chhun華語kah送入加護病房ê台語,其它本土語言lóng已經滅無。語言成做一陣人ê思考、表達、溝通、自我認同ê工具,是世界人類文化ê資產,任何一種語言ê死亡,就親像地球上任何一款物種死亡共款hō͘人感覺怨嘆。

台灣本土語言中,台灣閩南語有70%以上ê使用人口(超過一千五百萬人)。另外,閩南語世界上有將近四千外萬人ê使用人口,全世界所有語言人口使用排名第21chia ê事實lóng顯示出,無論是beh強調台灣ê重要性,iahùi投資報酬ê角度來看,這個語言非常值得咱ê重視。

2. 教育部台語詞頻調查簡介

為著beh提供教育部九年一貫課程綱要內底,台語每一個階段所學習ê漢字、詞彙kah辭典編輯、教材編輯ê參考,所以規劃委託辦理台語字詞頻調查工作。教育部ê規劃內底,第一階段字詞頻統計資料,主要是beh觀察目前台語字詞ê使用情形。

初步ê規劃,希望這個委託案會當達到以下幾個目標:

(1)    建構至少有100萬台語語詞ê基礎語料庫;

(2)    根據這個基礎語料庫,統計台語ê詞頻;

(3)    根據台語詞頻統計ê結果,製作台語字詞調查報告書;

(4)    利用這個基礎語料庫,做出一個語詞檢索系統 ( concordancer system) 提供一般民眾使用。

基礎語料庫ê資料蒐集範圍,包括台語雜誌期刊、教材、流行歌、囡仔歌、囡仔詩、俚俗諺語、演講比賽文章、朗讀比賽文章kah文學作品(小說、散文kah戲劇等等);戲劇部分希望包括李天祿布袋戲劇本kah文建會補助ê「雲林拱樂社」歌仔戲劇本。另外,無beh收錄字、辭典ê資料。文類愛儘量平均、多樣,kāng一個作者ê作品mài超過總資料量ê千分之五。每一筆語料,lóng愛註明出處,而且至少包含「作者」、「出版單位」、「出版年代」kah「書寫系統」。

另外,因為台語文語料ê文字型式包括全羅馬字、漢羅合用kah全漢字,beh做詞頻統計,需要將所蒐集ê語料做斷詞,原則上,以教育部《臺灣閩南語常用詞辭典》做原則,若有需要,會使參考教育部「臺灣閩南語羅馬字拼音方案連字符使用基本規則」kah中央研究院所制訂ê「中文分詞原則」(CNS14366)。

這個計畫其中一項重要ê目標,是beh做教材編輯ê參考,所以蒐集著ê語料,特別國校教材ê部份獨立出來,統計伊ê詞頻,thang來做詞類分級ê參考資料。

這個委託案tī 20085月公告,6月開審查會議,後來通過請大漢技術學院負責執行這個調查案,計畫主持人是楊允言,協同計畫主持人是張學謙,執行期間ùi 20087月教20097月。

創作者介紹
創作者 ungian 的頭像
ungian

台語心世界 Tâi-gú Sim Sè-kài

ungian 發表在 痞客邦 留言(0) 人氣()