http://iug.csie.dahan.edu.tw/iug/Ungian/Chokphin/Lunbun/KIPsupin/KIPsupin.asp
教育部臺灣閩南語字詞頻調查工作簡介-2
國立成功大學台灣語文測驗中心
專案計畫助理研究員 楊允言
3. 詞頻調查工作ê進行
3-1 工作團隊
一個計畫ê執行,需要真choē人ê互相配合。這個計畫,除了基本ê行政事務,khah要緊ê是台語拍字ê人才,而且mā需要有對台語處理技術有了解ê程式開發人員,計畫chiah做會好勢。
另外,tī資訊時代,工作團隊未必需要坐tiàm kāng一間辦公廳,透過網路傳資料、互相連絡lóng不止仔利便。下面所列ê人,分散tī台灣各所在,甚至mā有tī美國。
本計畫ê工作團隊,包括:石博元、莊慧娟、蔡嘉如、蔡瑋芬、李欣民、廖淑鳳、林俊育、賴淑玲、雷明漢、王寶漣、謝月華、陳德樺、鄭佳旻、…等等,協助整理語料、拍字。
另外,洪惟仁、曾國榕、蔣為文、吳仁瑟、姚榮松、林佳怡、林麗黛、梁淑慧、施炳華、蕭藤村、張玉萍、塗素珠、…等人,協助提供資料,有ê並且提供電子檔案hō͘本計畫。
李盛安、袁崇祐等人協助安裝電腦、架設Server,知行科技公司協助開發規個系統。詹金來、李懿軒、李承泰、沈惠珠等人協助整理計畫相關資料。林素朱對斷詞提供專業ê諮詢。
蔣為文、高成炎、林俊育、陳克健等人擔任諮詢委員,對本計畫指點方向kah提供意見。
教育部方面,有六個審查委員,mā tī計畫進行ê期間提供專業ê建議;甘佩玉負責計畫ê連絡。
3-2 語料蒐集建檔
語料ê蒐集,愛考慮ê點真choē,除了教育部原來要求ê文類愛平均、每一個作者mài超過語料量ê千分之五以外,本計畫mā考慮兩個因素:
(1) 台語文語料ê文字型式,有全羅馬字、漢羅合用kah全漢字,這三款書寫方式盡量攏愛收入來;
(2) 因為過去成百冬來,台語語詞ê變化真大,所以每一個時代ê台語文mā愛盡量lóng收入來,並且盡量平均。
另外,因為國校教材是其中ê一個重點,愛盡量,總是實際上去蒐集國校台語教材ê時,chiah發現困難重重。民間出版社台語教材ê部份,有幾份教材,出幾冬了後,出版社無繼續出, in家己倉庫ê庫存留無chiâu;甚至koh有出版社已經倒a,電話是空號,chhē lóng chhē無。有ê出版社繼續teh出,m̄-koh逐年攏koh teh修改內容。
各縣市出ê國校教材部份,有ê出無chiâu-chn̂g,出幾冊了後無koh出。Beh蒐集chia-ê教材mā無簡單。有ê縣市電話轉來轉去轉kah無去,chhē無負責人;有ê請阮寫公文去,公文送出去了後tō全然無消息。為著國校教材ê部份,開足choē時間。[1]
若beh討論詞彙分級,一個版本12 冊lóng chiâu-chn̂g chiah有意義,所以12冊lóng chiâu-chn̂g ê版本chiah收錄tī教材類,無chiâu-chn̂g ê tō分tī「其它教材類」。
經過kah計畫審查委員ê討論,語料粗分做「創作文學」kah「口傳文學」兩大類,大類下面koh分小類,請參考表 1。
表 1 語料文類一覽表 |
||
大類 |
小類 |
語料比例 |
創作文學 |
報導文學 |
8.33% |
演講訪談 |
5.63% |
|
散文 |
8.91% |
|
小說 |
10.26% |
|
論文 |
3.16% |
|
流行歌 |
8.68% |
|
口傳文學 |
褒歌 |
3.42% |
囡仔歌 |
1.35% |
|
謎猜 |
0.58% |
|
歌仔冊 |
12.13% |
|
俗諺 |
3.82% |
|
民間故事 |
19.14% |
|
戲劇 |
3.72% |
|
教材 |
教材 |
2.88% |
其它教材 |
7.99% |
特別kā教材分開,主要ê原因是,教材ê內容,有創作ê,mā有口傳文學ê。[2]
文本各種文字型式ê比例,請參考表 2:
表 2 語料文字型式一覽表 |
|
文字型式 |
語料比例 |
漢字 |
37.76% |
漢羅 |
40.89% |
羅馬字 |
21.35% |
語料量tī各年代所佔ê比例,請參考表 3:
表 3 語料年代一覽表 |
|
年代 |
語料比例 |
1880年代 |
0.84% |
1890年代 |
2.77% |
1900年代 |
0.70% |
1910年代 |
6.01% |
1920年代 |
4.74% |
1930年代 |
5.17% |
1940年代 |
0.66% |
1950年代 |
3.50% |
1960年代 |
2.98% |
1970年代 |
0.75% |
1980年代 |
0.83% |
1990年代 |
18.34% |
2000年代 |
35.44% |
Unknown |
17.28% |
用10年做一個單位來算,純粹是為著方便。其中,愈早期ê文本愈oh chhē,這可能會當解說是按怎1880 kah 1900年代語料量少ê原因;另外,1940年代應該是戰爭ê關係。戰後國民黨政權實施戒嚴,台語文mā koh有tih繼續。1969年進一步禁止教會公報使用白話字發行,台語文發展進入烏暗期,1990年代台語文開始復興,2000年代koh加上台語變做國校ê正式課程,台語相關系所ê成立,創作量koh-khah增加。Ùi本計畫蒐集著ê語料ê時間分佈,加減kah台語文ê發展狀況有符合。
Unknown表示所蒐集著ê文本無法度確認年代。有ê文本雖然知影出版年,總是創作(抑是記錄)到出版mā可能koh經過一段時間。
[1]這個過程hō͘筆者真大ê感慨,九年一貫課程chiah實施猶無十冬,教科書市場ê變化tō chiah-nī大。Chia ê教材有可能藏tī某一間國校ê圖書館,隨時有可能hông當做糞埽清掉。無人想著來成立國校台語教科書博物館,kā這段過程記錄起來。筆者mā pat直接共出版社講,既然恁已經無koh出a,是m̄是同意阮共chia ê寶貴ê資料掃瞄上網,總是in以著作權ê理由無同意這層代誌。
[2] 按呢ê講法,並m̄是完全無問題。劇本屬戲劇類,戲劇tī口傳文學下面,m̄-koh劇本是創作ê。總是,大類是khah粗ê分類,目的是beh hō͘人有簡單ê初步ê印象。
留言列表