http://iug.csie.dahan.edu.tw/iug/Ungian/Chokphin/Lunbun/KIPsupin/KIPsupin.asp

教育部臺灣閩南語字詞頻調查工作簡介-2

國立成功大學台灣語文測驗中心

專案計畫助理研究員 楊允言

3. 詞頻調查工作ê進行

3-1 工作團隊

一個計畫ê執行,需要真choēê互相配合。這個計畫,除了基本ê行政事務,khah要緊ê是台語拍字ê人才,而且需要有對台語處理技術有了解ê程式開發人員,計畫chiah做會好勢。

另外,資訊時代,工作團隊未必需要坐tiàm kāng一間辦公廳,透過網路傳資料、互相連絡lóng不止仔利便。下面所列ê人,分散台灣各所在,甚至美國。

本計畫ê工作團隊,包括:石博元、莊慧娟、蔡嘉如、蔡瑋芬、李欣民、廖淑鳳、林俊育、賴淑玲、雷明漢、王寶漣、謝月華、陳德樺、鄭佳旻、等等,協助整理語料、拍字。

另外,洪惟仁、曾國榕、蔣為文、吳仁瑟、姚榮松、林佳怡、林麗黛、梁淑慧、施炳華、蕭藤村、張玉萍、塗素珠、等人,協助提供資料,有ê並且提供電子檔案hō͘本計畫。

李盛安、袁崇祐等人協助安裝電腦、架設Server,知行科技公司協助開發規個系統。詹金來、李懿軒、李承泰、沈惠珠等人協助整理計畫相關資料。林素朱對斷詞提供專業ê諮詢。

蔣為文、高成炎、林俊育、陳克健等人擔任諮詢委員,對本計畫指點方向kah提供意見。

教育部方面,有六個審查委員,mā tī計畫進行ê期間提供專業ê建議;甘佩玉負責計畫ê連絡。

3-2 語料蒐集建檔

語料ê蒐集,愛考慮ê點真choē,除了教育部原來要求ê文類愛平均、每一個作者mài超過語料量ê千分之五以外,本計畫考慮兩個因素:

(1)      台語文語料ê文字型式,有全羅馬字、漢羅合用kah全漢字,這三款書寫方式盡量攏愛收入來;

(2)      因為過去成百冬來,台語語詞ê變化真大,所以每一個時代ê台語文愛盡量lóng收入來,並且盡量平均。

另外,因為國校教材是其中ê一個重點,愛盡量,總是實際上去蒐集國校台語教材ê時,chiah發現困難重重。民間出版社台語教材ê部份,有幾份教材,出幾冬了後,出版社無繼續出, in家己倉庫ê庫存留無chiâu;甚至koh有出版社已經倒a,電話是空號,chhē lóng chhē無。有ê出版社繼續teh出,m̄-koh逐年攏koh teh修改內容。

各縣市出ê國校教材部份,有ê出無chiâu-chn̂g,出幾冊了後無koh出。Beh蒐集chia-ê教材無簡單。有ê縣市電話轉來轉去轉kah無去,chhē無負責人;有ê請阮寫公文去,公文送出去了後全然無消息。為著國校教材ê部份,開足choē時間。[1]

beh討論詞彙分級,一個版本12 lóng chiâu-chn̂g chiah有意義,所以12lóng chiâu-chn̂g ê版本chiah收錄教材類,無chiâu-chn̂g ê tō「其它教材類」。

經過kah計畫審查委員ê討論,語料粗分做「創作文學」kah「口傳文學」兩大類,大類下面koh分小類,請參考 1

1 語料文類一覽表

大類

小類

語料比例

創作文學
(44.97%)

報導文學

8.33%

演講訪談

5.63%

散文

8.91%

小說

10.26%

論文

3.16%

流行歌

8.68%

口傳文學
(44.16%)

褒歌

3.42%

囡仔歌

1.35%

謎猜

0.58%

歌仔冊

12.13%

俗諺

3.82%

民間故事

19.14%

戲劇

3.72%

教材
(10.86%)

教材

2.88%

其它教材

7.99%

特別教材分開,主要ê原因是,教材ê內容,有創作ê有口傳文學ê[2]

文本各種文字型式ê比例,請參考 2

2 語料文字型式一覽表

文字型式

語料比例

漢字

37.76%

漢羅

40.89%

羅馬字

21.35%

語料量各年代所佔ê比例,請參考 3

3 語料年代一覽表

年代

語料比例

1880年代

0.84%

1890年代

2.77%

1900年代

0.70%

1910年代

6.01%

1920年代

4.74%

1930年代

5.17%

1940年代

0.66%

1950年代

3.50%

1960年代

2.98%

1970年代

0.75%

1980年代

0.83%

1990年代

18.34%

2000年代

35.44%

Unknown

17.28%

10年做一個單位來算,純粹是為著方便。其中,愈早期ê文本愈oh chhē,這可能會當解說是按怎1880 kah 1900年代語料量少ê原因;另外,1940年代應該是戰爭ê關係。戰後國民黨政權實施戒嚴,台語文mā kohtih繼續。1969年進一步禁止教會公報使用白話字發行,台語文發展進入烏暗期,1990年代台語文開始復興,2000年代koh加上台語變做國校ê正式課程,台語相關系所ê成立,創作量koh-khah增加。Ùi本計畫蒐集著ê語料ê時間分佈,加減kah台語文ê發展狀況有符合。

Unknown表示所蒐集著ê文本無法度確認年代。有ê文本雖然知影出版年,總是創作(抑是記錄)到出版可能koh經過一段時間。


[1]這個過程hō͘筆者真大ê感慨,九年一貫課程chiah實施猶無十冬,教科書市場ê變化tō chiah-nī大。Chia ê教材有可能藏某一間國校ê圖書館,隨時有可能hông當做糞埽清掉。無人想著來成立國校台語教科書博物館,這段過程記錄起來。筆者mā pat直接共出版社講,既然恁已經無koha,是是同意阮共chia ê寶貴ê資料掃瞄上網,總是in以著作權ê理由無同意這層代誌。

[2] 按呢ê講法,並是完全無問題。劇本屬戲劇類,戲劇口傳文學下面,m̄-koh劇本是創作ê。總是,大類是khahê分類,目的是beh hō͘人有簡單ê初步ê印象。

arrow
arrow
    全站熱搜

    ungian 發表在 痞客邦 留言(0) 人氣()