公告版位
目前分類:台語資訊處理 (10)
- Aug 09 Mon 2010 10:44
台語語料庫語言學工作坊ê講義kah活動相片-2010/7/23
- Apr 21 Wed 2010 14:42
Firefox ê Ruby text使用指引
下面ê資料,是為著教育部一個猶未開放逐家使用ê台語查詢系統所寫ê說明,關係tī Firefox使用Ruby text功能。若是想欲耍看覓,網址是 203.64.42.97, 戶頭是「台灣人」 (**********, 10碼)(用白話字,無聲調無Hyphen),密碼是「出頭天」(**************, 14碼)(仝款,鼻音用nn),若對系統有意見請提出,予阮有機會改進。
- Mar 16 Tue 2010 10:43
教育部臺灣閩南語字詞頻調查工作簡介 投影片
- Mar 16 Tue 2010 10:37
教育部臺灣閩南語字詞頻調查工作簡介-5(完)
http://iug.csie.dahan.edu.tw/iug/Ungian/Chokphin/Lunbun/KIPsupin/KIPsupin.asp
教育部臺灣閩南語字詞頻調查工作簡介-5
國立成功大學台灣語文測驗中心
專案計畫助理研究員 楊允言
4. 相關問題
下面列出這個計劃tih執行ê時,所tú著ê一寡問題:
(a) 斷詞是一個大工程:
- Mar 16 Tue 2010 10:33
教育部臺灣閩南語字詞頻調查工作簡介-4
http://iug.csie.dahan.edu.tw/iug/Ungian/Chokphin/Lunbun/KIPsupin/KIPsupin.asp
教育部臺灣閩南語字詞頻調查工作簡介-4
國立成功大學台灣語文測驗中心
專案計畫助理研究員 楊允言
3-5 語詞檢索功能
系統提供ê功能,主要包括語詞檢索kah詞頻統計兩大功能,同時,mā對使用者使用本系統ê情形做使用記錄,成做未來beh改進本系統ê參考。
- Mar 16 Tue 2010 10:26
教育部臺灣閩南語字詞頻調查工作簡介-3
http://iug.csie.dahan.edu.tw/iug/Ungian/Chokphin/Lunbun/KIPsupin/KIPsupin.asp
教育部臺灣閩南語字詞頻調查工作簡介-3
國立成功大學台灣語文測驗中心
專案計畫助理研究員 楊允言
3-3 語料整理方式
本計畫所蒐集ê語料,羅馬字ê部份,不管伊原來ê文本是用tó一款羅馬字系統,lóng會先轉寫做教育部公佈ê台羅,這是為著後來查詢ê利便;漢字ê部份完全尊重作者ê寫法無修改,按呢mā會當反應台語漢字書寫ê多元現實。
- Mar 16 Tue 2010 10:21
教育部臺灣閩南語字詞頻調查工作簡介-2
http://iug.csie.dahan.edu.tw/iug/Ungian/Chokphin/Lunbun/KIPsupin/KIPsupin.asp
教育部臺灣閩南語字詞頻調查工作簡介-2
國立成功大學台灣語文測驗中心
專案計畫助理研究員 楊允言
3. 詞頻調查工作ê進行
3-1 工作團隊
一個計畫ê執行,需要真choē人ê互相配合。這個計畫,除了基本ê行政事務,khah要緊ê是台語拍字ê人才,而且mā需要有對台語處理技術有了解ê程式開發人員,計畫chiah做會好勢。
- Mar 16 Tue 2010 10:11
教育部臺灣閩南語字詞頻調查工作簡介-1
http://iug.csie.dahan.edu.tw/iug/Ungian/Chokphin/Lunbun/KIPsupin/KIPsupin.asp
教育部臺灣閩南語字詞頻調查工作簡介
國立成功大學台灣語文測驗中心
專案計畫助理研究員 楊允言
摘要
詞頻調查是一個語言ê基礎統計。教育部tī 2008年委託學術單位進行台語字詞頻調查統計,按算beh蒐集100萬詞以上ê台語語料,並且提供語詞檢索系統hō͘社會大眾查詢。
- Nov 06 Fri 2009 16:23
投影片:華台雙語讀本製作實務及延伸學習探討
- Mar 10 Tue 2009 07:48
論文:利用台語文語料庫統計資料幫贊台語試題研發2009/3/7
利用台語文語料庫統計資料幫贊台語試題研發
大漢技術學院資訊工程系
助理教授 楊允言
摘要
台語試題研發ê空課,專家扮演siōng重要ê角色,m̄-koh,專家可能會有一kóa盲點,無kâng專家之間,mā有可能互相ê意見真無一致。Chia ê無確定ê因素,可能會影響台語試題研發ê成果。
本文提出利用台語文語料庫ê統計資料,包括詞頻統計kah互訊息、相關度ê統計,針對語詞ê分級kah考試ê重點,提供參考資料,希望會tàng幫贊試題研發空課ê進行。
利用chia ê統計資料,已經有一kóa初步ê成果,咱mā ǹg望透過台語文語料庫ê加工,thang改進統計結果ê品質。
關鍵詞:台語文、語料庫、詞頻、互訊息、相關度
1. 踏話頭:專家kah使用者
設使咱beh編台語教材,而且為著評量學習成果,除了編教材mā愛出考題,這個時陣,咱會按怎進行這項空課?相信真chōe人lóng同意:chhē專家。因為專家有經驗,伊khah知影什麼部分學生khah學會曉iah是bōe曉,伊可能mā khah知影按怎考chiah有法度分出學生程度ê kôan-kē。
一開始大概lóng會按呢做。M̄-nā是編寫教材、出試題,編寫辭典iah是百科全書等等ê空課,咱mā交hō͘專家來進行, 因為咱相信專家比一般人koh-khah有法度完成這項辛苦ê空課。
M̄-koh,請專家來做chia ê專門ê空課是m̄是tō穩當妥當?無仝專家編出來ê台語教材,是lóng差不多,iah是差異真大?Ùi chia 咱可能會發現,專家ê意見,有時仔互相爭差足大。
Tī 1950年代尾期,英文開始發展語料庫,語料庫tō是寄khǹg大量自然語言材料ê倉庫,一般包括書面語kah口語。到1980年代,語料庫語言學發展了khah成熟a,in開始用語料庫來編英文辭典,siōng出名ê包括Longman辭典等等。用語料庫編出來ê辭典kah請專家編寫ê辭典有什麼無共款?第一,通常一個詞條有幾lō個無仝ê意思,kā每一款解說隨個隨個列出來,語料庫編ê辭典,每一款解說ê順序,是照語料庫內底出現ê頻率決定順序,ta̍k個khah chia̍p使用這個意思,這個解說tō排khah頭前;專家ê做法khah無仝,伊會kā伊認為khah重要ê排khah頭前,khah重要ê原因,可能是一般人khah會用m̄-tio̍h,iah是例外情形所以需要特別注意。第二,語料庫編ê辭典,例句是ùi語料庫內底抽出來ê,專家編ê辭典,通常是專家根據伊個人ê語感寫出例句。假使你是一個學習者,對一個語詞,你khah希望學著khah普遍ê用法,iah是khah特殊ê用法?對一句例句,你khah希望學習著實際人寫出來ê例句,iah是專家編出來ê例句?
另外一個例是百科全書。大多數ê人應該lóng同意大英百科全書是一phō͘真有權威性ê百科全書,伊動員各領域ê專家,開足chōe精神、時間chiah完成ê,m̄-koh時代一直進步,百科全書需要增補,增補mā是足厚工。另外一方面,電腦網路tī最近幾十冬mā發展足緊,到kah Web 2.0時代,Web 2.0強調共同參與,其中有一個代表性ê成果tō是Wikipedia線頂免費ê百科全書,這個線頂百科全書目前有兩百外個語言ê版本,kan-na這點tō贏大英百科全書thiám-thiám a,只要你申請口座設定密碼,mā會使增加iah是修改詞條內容。因為參與ê人chōe,大部分應該無算專家(以大英百科全書編輯群ê角度),m̄-koh有人研究發現,以英文ê版本來看,英文Wikipedia詞條ê品質並無比大英百科全書bái。
以上ê例,並m̄是beh否定專家ê重要性,只是beh講,專家真重要,總是可能有盲點iah是不足ê所在。按怎運用ta̍k家ê智慧,來修補專家無發覺著ê問題,是不止重要ê課題。
2. 台語文語料庫
台語文語料庫ê建立kah蒐集工作,ùi 2003年開始,楊允言kah有台語文電子檔案ê台語文刊物主編iah是台語相關研究計畫主持人chih接,the̍h著原始語料(raw corpus),台語羅馬字部分有無kāng編碼,經過轉換做中間表示方式(用數字代替聲調等等)ê程序,將chia ê語料,以文章做單位,建立後設資料,包括文章名、作者、作者性別、文類、出版年代、...等等ê訊息。資料來源主要包括:
· 台文刊物:包括《台文通訊》(1991年創刊)、《台文罔報》(1996年創刊)、《TGB通訊》(1999年創刊)、《蓮蕉花》(1999年創刊)、《台灣字》(2000年創刊,全羅馬字)、《湠根》母語文雜誌(2002年創刊,chit-má已經停刊)、《台灣公論報》蕃薯園台文專刊(2003年創刊)、...等。
· 專書、論文:主要是作者iah是編者提供。
· 研究計畫成果:主是國家台灣文學館委託成功大學台灣文學系呂興昌教授執行ê「台灣白話字文學資料蒐集整理計畫」(2001~2004),已經數位化ê電子檔。
· …
台語文語料庫ê內容,到2005年ê時,lóng總收集著5,568,057個音節(4,051,195個語詞)ê漢羅文本kah 3,462,367個音節(2,436,599個語詞)ê全羅文本。[1]表1列出漢羅、全羅兩種文本各文類所佔ê比例,照漢羅文本ùi kôan到低排列。其中,全羅小說ê比例(59.08%)偏kôan,主要是因為語料庫有收錄兩個台語聖經ê版本(巴克禮kah紅皮),漢羅、全羅lóng有,算tī小說類,m̄-koh全羅ê語料量khah少,致到比例變kôan。整體來講,若是以漢羅文本來看,是有符合平衡語料庫ê條件,m̄-koh若kah目前英文、中文語料庫ê數量相比phēng,in lóng已經達到10億個語詞以上ê規模,咱其實iah-koh有真久長ê路愛行。
表1 各文類tī兩種文本所佔ê比例(單位:%) |
||
文類 |
漢羅 |
全羅 |
散文 |
35.78 |
17.16 |
小說 |
29.31 |
59.08 |
學術 |
7.48 |
2.01 |
新詩 |
5.30 |
3.42 |
評論 |
4.87 |
4.39 |
報導 |
4.23 |
2.54 |
劇本 |
3.43 |
3.42 |
傳記 |
2.90 |
5.03 |
訪談 |
1.42 |
0.00 |
其它 |
1.20 |
0.34 |
書信 |
1.04 |
0.58 |
演講 |
1.02 |
0.54 |
民間文學 |
0.72 |
0.11 |
兒童 |
0.41 |
0.97 |
對話 |
0.38 |
0.04 |
笑話 |
0.27 |
0.24 |
寓言 |
0.24 |
0.12 |
3. 詞頻kah共現詞對台語試題研發ê幫贊
詞頻ê統計,是根據原始語料,透過電腦系統做斷詞,斷詞了後計算每一個詞出現幾pái。一般ê詞頻統計表,是照詞頻ùi kôan到低排列,有時mā會照ABC ê順序來排。
有台語ê詞頻統計表了後,咱thang對台語ê語詞使用情形有初步ê了解,mā thang kah其它語言ê使用情形相比phēng。可比講,排第一ê語詞 “ê”,tī語料內底出現217,609 pái,佔5.37%,這kah其它語言,親像英語排第一ê “of” kah 華語排第一ê「的」,mā差不多佔5%左右,結果是一致ê。台語排第二ê語詞「是」,tī語料內底出現60,303 pái,佔1.49%,無到 “ê” ê 1/3。另外,排頭前30名ê lóng是單音節詞,可能寫台語文ê人比一般人khah愛台灣,所以排第一ê雙音節詞tō是台灣,總排名是第33名。[2]下一個雙音節詞「因為」,已經排到第49名a。
Tī台語試題研發ê時,頻率khah kôan ê語詞因為使用khah chia̍p,所以應該khǹg tī愈初級ê所在,chiah是合理ê安排。倒頭講,頻率愈低ê語詞,應該khǹg tī愈進階ê等級。
另外,語詞ê使用,有一kóa慣用語,mā會sái講語詞搭配,通常是某一個語言特有ê部分,可比講華語「買 車票」ê「買」,台語除了講「買」以外,mā會sái講「拆[thiah]」iah是「拍[phah]」,m̄-koh華語的確bōe使講「拆 車票」iah是「打車票」;另外一個例,台語平平是「做」,英語有時仔愛講 “do” (do something 做代誌),有時仔是用 “make” (make cakes 做雞卵糕)、“take” (take a note 做說明)。
假使語料庫已經建立,beh按怎利用統計方法chhē出慣用語?一般是使用互訊息(Mutual information,縮寫做MI)。設使A、B是語詞,這兩個語詞ê MI ê公式是:
MI(AB) = - log |
P(A) P(B) |
P(AB) |
其中,P(A)是語詞A ê機率,設使A lóng總出現 Freq(A) pái,所有ê語料lóng總有N個詞(word tokens),P(A) = Freq(A) / N。Kāng款,P(B)是語詞B ê機率,P(AB)是詞組AB ê機率。咱分三種情形來討論:
(a) 設使A後壁kan-na會出現B,B頭前kan-na會出現A,這兩個詞一定成對出現,這款情形下,P(A)≒P(B) ≒P(AB), MI(AB) ≒ -log P(AB),是一個khah大ê正數;若是AB tiāⁿ-tiāⁿ 成對出現,m̄-koh A後壁會接B以外其它ê詞,B頭前mā可能會接A以外其它ê詞,這個時陣,MI(AB)可能mā是正數,m̄-koh會khah細;
(b) 設使A kah B無關係(獨立事件),P(AB)≒P(A)P(B),所以MI(AB) ≒0;
(c) 設使語詞A出現致使B khah bōe出現,P(AB)<<P(A)P(B),所以MI(AB)是負數。
基本上,語料愈大,統計ê結果愈有代表性。
另外一個量測兩個語詞ê關係ê是相關度(correlation,下面簡稱CR),這mā是一個統計ê公式:
CR(AB) = |
n (n11 × n22 - n12 × n21 )2 |
n1* × n2* × n*1 × n*2 |
其中,
|
B |
¬B |
Σ |
A |
n11 |
n12 |
n1* |
¬A |
n21 |
n22 |
n2* |
Σ |
n*1 |
n*2 |
n |
簡單講,beh算CR (AB),tō kā語料內底ê詞組分做 AB、A¬B、¬AB、¬A¬B四部分,A¬B 代表ê意思是語料庫內底所有連做夥ê兩詞詞,第一個是A,第二個m̄是B ê。透過頂面ê公式來計算。算出來ê數字lóng是正數,AB兩個語詞若tiāⁿ-tiāⁿ做陣出現,CR (AB)可能超過10,000,甚至超過100,000。
用統計方法去chhē兩個語ê關連,有部分chhē出來ê資料是無意義ê,若會tàng增加詞類訊息,品質會khah 好。慣用語一般lóng有khah固定ê詞類順序,可比講動詞詞組(動詞+名詞)、形容詞詞組(形容詞+名詞)、介詞詞組(介詞+地方詞)kah名詞詞組(名詞+名詞)等等。表2列出ùi語料庫ê資料,透過MI ê計算,得著ê動詞詞組,伊ê MI分數kah伊tī語料庫內底出現ê頻率。
表2 利用MI ùi台語文語料庫chhē出來ê動詞詞組 |
|||||
V-N詞組 |
MI |
頻率 |
V-N詞組 |
MI |
頻率 |
chōaⁿ 農藥 |
14.3043 |
10 |
摃 鑼 |
12.7198 |
11 |
告 小腸 |
14.2911 |
11 |
配 菜脯 |
12.5799 |
12 |
判 死刑 |
14.2441 |
16 |
捲 舌 |
12.5225 |
28 |
hiâⁿ 燒水 |
14.1178 |
11 |
拆 扁擔 |
12.4880 |
11 |
儉 腸 |
13.6411 |
32 |
pōe 墓 |
12.4229 |
16 |
khian 炸彈 |
13.4245 |
10 |
付出 代價 |
12.2331 |
11 |
維持 現狀 |
13.2224 |
14 |
哺 檳榔 |
12.2118 |
20 |
灌 tō͘-peh-á |
13.0915 |
21 |
摸 蜊仔 |
12.1784 |
15 |
炊 粿 |
12.9848 |
31 |
負 責任 |
12.0610 |
29 |
ioh 謎猜 |
12.7498 |
10 |
騎 鐵馬 |
12.0460 |
52 |
pûn 鼓吹 |
12.7413 |
24 |
tân 雷公 |
12.0380 |
11 |
4. 相關問題
台語文語料庫因為語料量iah m̄是真有夠,而且是iah未經過加工(標記)ê語料庫,所以目前利用台語文語料庫這個基礎,所做出來統計資料,雖然對台語試題研發有幫贊,總是iah-koh存在一kóa問題。下面beh針對相關ê問題做討論。
有時仔若phah字錯誤,因為錯字ê詞頻真低,會致使MI kah CR ê分數變足kôan。為著避免這個情形,會sái詞頻來kā篩掉,可比講,beh計算MI(AB),會sái限制詞組AB ê頻率超過10 pái以上chiah來計算,若無tō kā the̍h掉。
Ùi語詞ê角度看,台語文書寫無一致,會影響統計ê結果。Kāng一個詞,因為寫法無kâng,會分做兩位iah是koh-khah chōe位,每一個ê詞頻lóng比實際ê詞頻khah 少。另外一方面,一個雙音節詞,mā有可能因為寫法無一致,某一個寫法當做一個詞來處理,另外一個詞hông當做兩個單音節詞來處理。Chia ê問題,需要大量ê人工chiah有法度解決。
Ùi語法ê角度看,因為語料庫iah無做語法(詞類)標記,所以MI iah是CR做出來ê結果品質並無好,親像動詞詞組、名詞詞組等等,目前愛用人工ùi電腦做出來ê大量結果勻勻仔揀出來。
慣用語tih使用ê時陣,有部分並m̄是連相óa ê,親像動詞詞組ê「讀冊」,咱實際tih使用這個詞組ê時,有可能是「讀#一kóa#冊」iah是「讀#一#本#冊」、「讀#一#本#足#趣味#ê#冊」,以上ê例,「讀」kah「冊」中央分別有一個、兩個、五個詞。這部分tī咱頭前ê討論並無kā考慮在內。這其實mā會tàng做,只要mài限定兩個詞ê關係kan-na會tàng是接相óa ê,會sái kā範圍設定tī kāng一句話ê五個詞以內。總是,按呢ê計算量會變真大。
Ùi語意ê角度看,假使咱有同義詞ê資料,mā會tàng提kôan統計結果ê品質,總是目前iah無台語同義詞ê電子辭典。另外語詞ê語意分類ê角度看,可比講pháng kah bán-thô͘、雞卵糕是kāng類ê語詞,m̄-koh這三個語詞,tī語料庫內底出現ê頻率無可能kāng款,假使台語有親像WordNet ê資料,透過一個詞頻kôan、khah重要ê語詞,引chhōa出其它意思親像ê語詞,這對試題研發來講mā是真有幫贊。
M̄-koh,有一kóa基本詞,雖然足重要,總是語料並無表現出相對ê重要性。一個人出世,為著了解伊所生活ê環境所愛使用ê語詞,會sái算是基本詞,這無表示這個人一世人不管時lóng會一直使用chia ê基本詞,尤其當一個人有法度用書面語表達伊ê想法ê時陣,大概lóng已經有抽象思考ê能力,所以chia ê基本詞,tī語料庫內底詞頻未必會真kôan。這點是咱beh運用語料庫統計資料ê時,需要去注意ê。
5. 結論kah未來方向
台語試題研發是m̄是做會好,專家ê意見當然是siōng重要ê基礎。本文提出用台語文語料ê統計資料來幫贊專家,協助專家thang看著koh-khah完整ê台語ê使用情形,提供khah全面的ê思考,來提升台語試題研發ê品質。
因為台語文語料庫目前kan-na有初步ê成果,這部分thang發揮ê空間iah-koh chiâⁿ大,tō是語料庫ê加工,對台語文語料庫來講,chia ê加工可能包括:
· Kā漢羅文本轉寫做羅馬字文本,標記伊ê發音,順sòa會tàng加減解決書寫無一致ê問題;
· 以某一個分詞規範做基礎來斷詞;
· 每一個語詞ê語法(詞類)標記;
· 每一個語詞ê語意標記;
· 每一句話ê語法樹(Parsing tree);
· …
以上ê空課,lóng需要一步一腳印,一點一滴來kā完成。所以,ǹg望有khah chōe ê研究者,會tàng投入這項台語文重要ê大空課。
參考資料
Biber, Douglas, Susan Conrad and Randi Reppen, 1998, Corpus Linguistics : Investigating Language Structure and Use, New York : Cambridge University
Manning, Christopher D. and Hinrich Schutze, 1999, Foundations of Statistical Natural Language Processing, London: MIT Press
Partington, Alan, 1998, Patterns and Meanings -- Using Corpora for English Research and Teaching, Netherlands : John Benjamins Publishing Co.
楊允言, 2005, 台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計, 國科會結案報告
楊允言, 劉杰岳, 2007, 台語文線頂辭典kap 語料庫簡介, 《語言、社會與文化系列叢書之二 語言政策的多元文化思考》p311-328, 台北 : 中央研究院語言學研究所
楊允言, 劉杰岳, 陳鄭弘堯, 陳柏中, 2006, 附加詞類訊息ê台語語詞搭配tī教學上ê應用, 2006台灣羅馬字國際學術研討會, 2006/9/9-10, 台北 : 台灣師範大學
[1] 漢羅文本ê語詞數量是用電腦計算ê,無經過人工校對,因為用字未必kah辭典一致,所以實際ê語詞數量有可能khah少一kóa。全羅文本雖然mā是電腦計算ê,總是因為有連字符,khah無問題。
[2] 這個排名,並無kā數字算在內。Kā每一個無kâng ê數字當做一個語詞來統計並無特別ê意義,所以實際統計ê時,kā所有ê數字當做一個語詞看待,數字ê排名是第二。頂面所講ê,是kā數字the̍h掉ê統計情形。