公告版位

目前分類:台語資訊處理 (10)

瀏覽方式: 標題列表 簡短摘要

2010/7/12-23 語言學卓越營 閩語研究

7/23 台語語料庫語言學工作坊ê講義 kah活動相片 (Éng-io̍k hip --ê)

 

ungian 發表在 痞客邦 PIXNET 留言(0) 人氣()

下面ê資料,是為著教育部一個猶未開放逐家使用ê台語查詢系統所寫ê說明,關係tī Firefox使用Ruby text功能。若是想欲耍看覓,網址是 203.64.42.97, 戶頭是「台灣人」 (**********, 10碼)(用白話字,無聲調無Hyphen),密碼是「出頭天」(**************, 14碼)(仝款,鼻音用nn),若對系統有意見請提出,予阮有機會改進。

 

ungian 發表在 痞客邦 PIXNET 留言(0) 人氣()

http://iug.csie.dahan.edu.tw/iug/Ungian/Chokphin/Lunbun/KIPsupin/KIPsupin.asp

教育部臺灣閩南語字詞頻調查工作簡介 投影片

 

ungian 發表在 痞客邦 PIXNET 留言(0) 人氣()

http://iug.csie.dahan.edu.tw/iug/Ungian/Chokphin/Lunbun/KIPsupin/KIPsupin.asp

教育部臺灣閩南語字詞頻調查工作簡介-5

 國立成功大學台灣語文測驗中心

專案計畫助理研究員 楊允言

4. 相關問題

下面列出這個計劃tih執行ê時,所ê一寡問題:

(a)  斷詞是一個大工程:

ungian 發表在 痞客邦 PIXNET 留言(0) 人氣()

http://iug.csie.dahan.edu.tw/iug/Ungian/Chokphin/Lunbun/KIPsupin/KIPsupin.asp

教育部臺灣閩南語字詞頻調查工作簡介-4

 國立成功大學台灣語文測驗中心

專案計畫助理研究員 楊允言

3-5 語詞檢索功能

系統提供ê功能,主要包括語詞檢索kah詞頻統計兩大功能,同時,對使用者使用本系統ê情形做使用記錄,成做未來beh改進本系統ê參考。

ungian 發表在 痞客邦 PIXNET 留言(0) 人氣()

http://iug.csie.dahan.edu.tw/iug/Ungian/Chokphin/Lunbun/KIPsupin/KIPsupin.asp

教育部臺灣閩南語字詞頻調查工作簡介-3

 國立成功大學台灣語文測驗中心

專案計畫助理研究員 楊允言

3-3 語料整理方式

本計畫所蒐集ê語料,羅馬字ê部份,不管伊原來ê文本是用一款羅馬字系統,lóng會先轉寫做教育部公佈ê台羅,這是為著後來查詢ê利便;漢字ê部份完全尊重作者ê寫法無修改,按呢會當反應台語漢字書寫ê多元現實。

ungian 發表在 痞客邦 PIXNET 留言(0) 人氣()

http://iug.csie.dahan.edu.tw/iug/Ungian/Chokphin/Lunbun/KIPsupin/KIPsupin.asp

教育部臺灣閩南語字詞頻調查工作簡介-2

國立成功大學台灣語文測驗中心

專案計畫助理研究員 楊允言

3. 詞頻調查工作ê進行

3-1 工作團隊

一個計畫ê執行,需要真choēê互相配合。這個計畫,除了基本ê行政事務,khah要緊ê是台語拍字ê人才,而且需要有對台語處理技術有了解ê程式開發人員,計畫chiah做會好勢。

ungian 發表在 痞客邦 PIXNET 留言(0) 人氣()

http://iug.csie.dahan.edu.tw/iug/Ungian/Chokphin/Lunbun/KIPsupin/KIPsupin.asp

教育部臺灣閩南語字詞頻調查工作簡介

國立成功大學台灣語文測驗中心

專案計畫助理研究員 楊允言

摘要

詞頻調查是一個語言ê基礎統計。教育部tī 2008年委託學術單位進行台語字詞頻調查統計,按算beh蒐集100萬詞以上ê台語語料,並且提供語詞檢索系統hō͘社會大眾查詢。

ungian 發表在 痞客邦 PIXNET 留言(0) 人氣()

ungian 發表在 痞客邦 PIXNET 留言(0) 人氣()

View more presentations from ungian. (tags: written corpus)

 

利用台語文語料庫統計資料幫贊台語試題研發

 

大漢技術學院資訊工程系

助理教授 楊允言

 

摘要

語試題研發ê課,專家扮演siōng重要ê角色,m̄-koh,專家可會有一kóa點,kâng專家之間,有可互相ê真無一Chia ê無確定ê因素會影語試題研發ê成果。

本文提出利用台料庫ê計資包括詞頻kah互訊息、相ê計,針語詞ê分級kah考試ê重點,提供參考資希望會tàng贊試題研發空ê進行

利用chia ê計資已經有一kóa初步ê成果 ǹg透過料庫ê加工thang改進結果ê

 

關鍵詞:台語文、語料庫、詞頻、互訊息、相關度

 

1. 踏話頭:專家kah使用者

設使咱beh教材,而且為著評量學習成果,除了編教材愛出考題,這個時陣,咱會按怎進行這項課?相信真chōelóng同意chhē專家。因為專家有經驗,khah影什麼部分學生khah會曉iahbōe伊可mā khah影按怎chiah法度分出學生程度ê kôan-kē

一開始大lóng會按呢做。M̄-nā是編寫教材、出試題,編寫iah百科全書等等ê課,hō͘專家來進行, 因為咱相信專家比一koh-khah法度完成這項辛苦ê

M̄-koh,請專家來做chia êê穩當妥當無仝專家編出來ê教材lóng差不多iah差異真大Ùi chia 咱可能會發現專家ê見,有時仔互相爭差大。

Tī 1950年代尾期,英始發展料庫,語是寄khǹg量自然語言材料ê倉庫,一般包括書面語kah口語。到1980年代,語料庫語言學發展了khahain始用料庫來編siōng出名ê包括Longman典等等。用料庫編出來êkah專家編寫ê典有什無共款第一,通常一個條有幾個無仝ê意思每一款解說隨個列出來,語料庫編ê每一款解說ê是照料庫內底出現ê率決定ta̍kkhah chia̍p使用個意思,這解說khah專家ê做法khah伊會khah重要êkhahkhah重要ê原因是一khahm̄-tio̍hiah例外情形所以需要特別注意。第二,語料庫編ê例句是ùi料庫內底抽出來ê專家編ê,通常是專家根據伊個人ê感寫出例句。假使你是一個學習者,對一個語詞,khah望學khah普遍ê用法iahkhahê用法對一句例句khah望學習人寫出來ê例句iah專家編出來ê例句

另外一個例是百科全書。大多數ê人應lóng同意大百科全書是一phō͘真有權威性ê百科全書伊動員各ê專家,開足chōe精神、時chiahêm̄-koh代一直百科全書需要補,厚工。另外一方面,電腦網幾十冬發展kah Web 2.0時代Web 2.0調共同參與,其中有一個代ê成果Wikipedia線頂ê百科全書,這個線百科全書目前有兩百外個語言ê版本kan-na這點百科全書thiám-thiám a你申口座定密碼會使增加iah修改條內容。因為參êchōe分應無算專家以大百科全書編ê),m̄-koh人研究發現ê版本來看,英Wikipediaê並無比大百科全書bái

以上êbeh定專家ê重要只是beh講,專家真重要,總是可有盲iahê所在。按怎ta̍kê智慧來修專家無發覺著ê題,是不止重要ê課題

 

2. 台語文語料庫

台語文語料庫ê建立kah蒐集工作,ùi 2003年開始,楊允言kah有台語文電子檔案ê台語文刊物主編iah是台語相關研究計畫主持人chih接,the̍h著原始語料(raw corpus),台語羅馬字部分有無kāng編碼,經過轉換做中間表示方式(用數字代替聲調等等)ê程序,將chia ê語料,以文章做單位,建立後設資料,包括文章名、作者、作者性別、文類、出版年代、...等等ê訊息。資料來源主要包括:

·        台文刊物:包括《台文通訊》(1991年創刊)、《台文罔報》(1996年創刊)、《TGB通訊》(1999年創刊)、《蓮蕉花》(1999年創刊)、《台灣字》(2000年創刊,全羅)、《湠根》母雜誌(2002年創刊chit-má已經停刊)、《台灣公論報》蕃薯園台文專刊(2003年創刊)...等。

·        專書、論文:主要是作者iah是編者提供。

·        研究計畫成果:主是國家台灣文學館委託成功大學台灣文學系呂興昌教授執行ê「台灣白話字文學資料蒐集整理計畫」(20012004),已經數位化ê電子檔。

·       

台語文語料庫ê內容2005êlóng總收集著5,568,0574,051,195語詞)ê漢羅文本kah 3,462,3672,436,599語詞)ê全羅文本。[1]1列出漢羅、全羅兩種文本各文所佔ê比例照漢羅文本ùi kôan到低排列。其中全羅小ê比例59.08%kôan是因為料庫有收兩個台語聖ê版本巴克禮kah),漢羅、全羅lóng說類,m̄-kohêkhah少,致到比例kôan。整講,若是以漢羅文本來看是有符合平衡語料庫ê條件m̄-kohkah文、中文料庫ê相比phēngin lóng已經達到10億個語詞以上ê模,咱其實iah-koh有真久ê行。

1 各文類兩種文本所佔ê例(單位:%

文類

漢羅

全羅

散文

35.78

17.16

小說

29.31

59.08

學術

7.48

2.01

新詩

5.30

3.42

評論

4.87

4.39

報導

4.23

2.54

劇本

3.43

3.42

傳記

2.90

5.03

訪談

1.42

0.00

其它

1.20

0.34

書信

1.04

0.58

演講

1.02

0.54

民間文學

0.72

0.11

兒童

0.41

0.97

對話

0.38

0.04

笑話

0.27

0.24

寓言

0.24

0.12

 

3. 詞頻kah共現詞對台語試題研發ê幫贊

詞頻ê計,是根據原始,透過電腦系統做斷詞,了後算每一個出現幾pái。一般ê詞頻計表,是照詞頻ùi kôan到低排列有時會照ABC ê序來排

有台ê詞頻計表了後thangê語詞使用情形有初步ê解,mā thang kah語言ê使用情形相比phēng。可比講,排第一ê語詞 “ê”料內底出現217,609 pái5.37%,這kah語言,親英語排第一ê “of” kah 華語排第一ê「的」差不多佔5%左右結果是一ê。台排第二ê語詞「是」料內底出現60,303 pái1.49%無到 “ê” ê 1/3。另外30ê lóng是單詞,寫台ê人比一khah台灣所以排第一ê雙音是台灣總排名是第33名。[2]下一個雙音節詞「因為」,已經排到第49a

語試題研發ê,頻khah kôan ê語詞因為使用khah chia̍p所以應khǹg tī愈初級ê所在chiah合理ê安排。倒頭講,頻率愈低ê語詞,khǹg tī進階ê等級。

另外,語ê使用有一kóa慣用語,sái講語詞配,通常是某一個語言特有ê可比講華語 票」ê語除」以外sái「拆[thiah]iah「拍[phah]m̄-koh華語的確bōe使「拆 票」iah是「打車票」;另外一個例,台語平平是「做」,英語有時仔愛講 “do” (do something 做代誌),有時仔是用 “make” (make cakes 做雞卵糕)“take” (take a note 做說明)

假使語料庫已經建立,beh按怎利用統計方法chhē出慣用語?一般是使用互訊息(Mutual information,縮寫做MI)。設使AB是語詞,這兩個語詞ê MI ê公式是:

MI(AB) = - log

P(A) P(B)

P(AB)

其中,P(A)是語詞A ê機率,設使A lóng總出現 Freq(A) pái,所有ê語料lóng總有N個詞(word tokens)P(A) = Freq(A) / NKāng款,P(B)是語詞B ê機率,P(AB)是詞組AB ê機率。咱分三種情形來討論:

(a)    設使A後壁kan-na會出現BB頭前kan-na會出現A,這兩個詞一定成對出現,這款情形下,P(A)P(B) P(AB) MI(AB) -log P(AB),是一個khahê正數;若是AB tiāⁿ-tiāⁿ 成對出現,m̄-koh A後壁會接B以外其它ê詞,B頭前可能會接A以外其它ê詞,這個時陣,MI(AB)可能是正數,m̄-kohkhah細;

(b)   設使Akah B無關係(獨立事件),P(AB)P(A)P(B),所以MI(AB) 0

(c)    設使語詞A出現致使B khah bōe出現,P(AB)<<P(A)P(B),所以MI(AB)是負數。

基本上,語料愈大,統計ê結果愈有代表性。

另外一個量測兩個語詞êê是相關度(correlation,下面簡稱CR),這是一個統計ê公式:

CR(AB) =

n (n11 × n22 - n12 × n21 )2

n1* × n2* × n*1 × n*2

 

其中,

 

B

¬B

Σ

A

n11

n12

n1*

¬A

n21

n22

n2*

Σ

n*1

n*2

n

簡單講,behCR (AB)tō kā語料內底ê詞組分做 ABA¬B¬AB¬A¬B四部分,A¬B ê意思是料庫內底所有做夥ê詞詞,第一個是A,第二個B ê。透過頂面ê公式來計算。算出來ê數字lóng是正數,AB兩個語詞若tiāⁿ-tiāⁿ做陣出現,CR (AB)可能超過10,000,甚至超過100,000

用統計方法去chhē兩個ê關連,chhē出來ê料是無意義ê,若tàng增加詞類訊khah 好。慣用語一lóngkhah固定ê類順序,可比講動詞詞組(動詞+名詞)、形容詞詞組(形容詞+名詞)、介詞詞組(介詞+地方詞)kah名詞詞組(名詞+名詞)等等。表2列出ùi料庫ê,透過MI êê詞詞ê MIkah料庫內底出現ê率。

2 利用MI ùi料庫chhē出來ê詞詞

V-N詞組

MI

頻率

V-N詞組

MI

頻率

chōaⁿ 農藥

14.3043

10

12.7198

11

小腸

14.2911

11

菜脯

12.5799

12

死刑

14.2441

16

12.5225

28

hiâⁿ 燒水

14.1178

11

扁擔

12.4880

11

13.6411

32

pōe

12.4229

16

khian 炸彈

13.4245

10

付出 代價

12.2331

11

維持 現狀

13.2224

14

檳榔

12.2118

20

tō͘-peh-á

13.0915

21

蜊仔

12.1784

15

粿

12.9848

31

責任

12.0610

29

ioh 謎猜

12.7498

10

鐵馬

12.0460

52

pûn 鼓吹

12.7413

24

tân 雷公

12.0380

11

 

4. 相關問題

台語文語料庫因為語料iah m̄是真有夠,而且是iah加工記)ê料庫,所以目前利用台料庫個基礎所做出來統計資,雖然對台語試題研發有幫贊,總是iah-koh在一kóa。下beh對相ê討論

有時仔若phah字錯誤,因為錯字ê詞頻真低,會致使MI kah CR ê分數變足kôan。為著避免這個情形,會sái詞頻來篩掉,可比講,beh計算MI(AB),會sái限制詞組AB ê頻率超過10 pái以上chiah來計算,若無tō kā the̍h掉。

Ùi語詞ê度看文書寫無一會影ê結果。Kāng一個詞,因為寫法無kâng會分做兩位iahkoh-khah chōe每一個ê詞頻lóng比實ê詞頻khah 少。另外一方面,一個雙音詞,有可因為寫法無一致,某一個寫法當做一個另外一個hông當做兩個單理。Chia ê題,需要ê人工chiah法度決。

Ùiê度看因為料庫iah(詞類)記,所以MI iahCR做出來ê結果品並無好,親像動詞詞組、名詞詞組等等目前愛用人工ùi電腦做出來ê結果勻勻仔揀出來。

慣用tih使ê陣,分並óa ê,親像動詞詞ê冊」咱實tih使ê有可是「#kóa#冊」iah###冊」、「#####ê#冊」以上êkah冊」中央分別有一個、兩個、五個這部ê討論並無慮在內。其實tàngmài定兩個êkan-natàng是接相óa êsái kā範圍tī kāng一句ê五個以內。總是按呢ê真大。

Ùiê度看假使咱有同義êtàngkôan結果ê質,總是目前iah同義ê典。另外語詞ê意分ê度看可比pháng kah bán-thô͘卵糕是kāngê語詞,m̄-koh三個語詞,料庫內底出現ê率無可kāng假使台WordNet ê,透過一個詞頻kôankhah重要ê語詞,chhōa出其它意思ê語詞,這試題研發來是真有幫

M̄-koh,有一kóa基本詞,雖足重要,總是料並無現出相對ê重要性。一個人出世伊所生活ê環境所愛使用ê語詞,sái算是基本詞,這個人一世人不管時lóng會一直使用chia ê基本詞,尤其當一個人有法度用書面語表達ê想法ê陣,大概lóng已經有抽ê所以chia ê基本詞,料庫內底詞頻未必會真kôan這點是咱beh料庫統計資ê,需要去注意ê

 

5. 結論kah未來方向

語試題研發是是做會好專家ê當然是siōng重要ê基礎。本文提出用台ê計資料來幫專家協助專家thang看著koh-khahêê使用情形提供khah全面ê考,來提升台語試題研發ê

因為台料庫目前kan-na初步ê成果,這部thangêiah-koh chiâⁿ料庫ê加工對台料庫來講,chia ê加工可包括

·        漢羅文本寫做羅字文本ê音,順sòatàng加減決書寫無一ê題;

·        以某一個分詞規範做基礎來斷詞;

·        每一個語詞ê(詞類)記;

·        每一個語詞ê意標記;

·        每一句ê法樹Parsing tree)

·       

以上ê課,lóng需要一步一一滴來完成。所以ǹg望有khah chōe ê研究者,tàng投入這項重要ê大空

 

參考資料

Biber, Douglas, Susan Conrad and Randi Reppen, 1998, Corpus Linguistics : Investigating Language Structure and Use, New York : Cambridge University

Manning, Christopher D. and Hinrich Schutze, 1999, Foundations of Statistical Natural Language Processing, London: MIT Press

Partington, Alan, 1998, Patterns and Meanings -- Using Corpora for English Research and Teaching,  Netherlands : John Benjamins Publishing Co.

楊允言, 2005, 台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計, 國科會結案報告

楊允言, 劉杰岳, 2007, 台語文線頂辭典kap 語料庫簡介, 《語言、社會與文化系列叢書之二 語言政策的多元文化思考》p311-328, 台北 : 中央研究院語言學研究所

楊允言, 劉杰岳, 陳鄭弘堯, 陳柏中, 2006, 附加詞類訊息ê台語語詞搭配教學上ê應用, 2006台灣羅馬字國際學術研討會, 2006/9/9-10, 台北 : 台灣師範大學

 



[1] 漢羅文本ê語詞是用電腦計ê無經人工校對因為用字未必kah典一致,所以實ê語詞有可khahkóa。全羅文本電腦計ê總是因為有字符khah

[2] 個排名並無數字算在內。每一個無kâng ê數字當做一個語詞來統並無特別ê意義所以實ê所有ê數字當做一個語詞看待數字ê排名是第二。頂面ê數字the̍hê情形。

 

ungian 發表在 痞客邦 PIXNET 留言(0) 人氣()