close

http://iug.csie.dahan.edu.tw/iug/Ungian/Chokphin/Lunbun/KIPsupin/KIPsupin.asp

教育部臺灣閩南語字詞頻調查工作簡介-4

 國立成功大學台灣語文測驗中心

專案計畫助理研究員 楊允言

3-5 語詞檢索功能

系統提供ê功能,主要包括語詞檢索kah詞頻統計兩大功能,同時,對使用者使用本系統ê情形做使用記錄,成做未來beh改進本系統ê參考。

語詞檢索系統提供使用者查詢某一個字串(string),這個字串可能是一個音節(字)、詞ê一部份、一個詞抑是詞組,系統入去語料庫chhiau-chhē出現使用者輸入ê字串chhē著,並且順soà kā這個字串ê前後文做陣lia̍h出來。

下面是查詢「成大」ê部份結果:

半路 所在,有 石壁,

安呢 啦,啊 風颱雨 到,啊

尾溜 安呢,名 大甲,呼,

安呢。

員外 羊肉,呼!啊

安呢。啊 風水仙

正經 成實 自殺,我 問題

。啊 啦!好心,您 好心

干若 豬母 啦!煞 腹肚

箍,啊 生產 實在

啦。啊 兵馬 直直 來,啊 聲勢

啦。啊 嘉義囉 順續 府城 台南

激氣,實在 款,毋 耐,小事

,人 人情 線,日後

這是選擇用漢羅顯示ê結果,使用者會使選擇用 (a) 羅馬字 (b)頂面羅馬字下面漢羅 (c)頂面漢羅下面羅馬字 來顯示,親像下面ê例:

(a)  thinn-kong bô kong-pênn, pù--ê pù tsiūnn-thinn, sàn--ê sàn tshùn thih, ai-iò-ai-iò, bô thâu-lōo ê hiann-tī.

(b)  蕃薯(han-tsî) (hia) (ê) 幼的(iù--ê) (tō) (kā) (sa̍h)(sa̍h) (tsi̍t) (tui) (tsiânn) (tuā) (tui)

(c)   m̄-kú(不拘) guán(阮) Tâi-uân(臺灣) lâng(人) tshuā(娶) bóo(妻) sī(是) bô(無) tshin(親) tshiūnn(像) lín(您) luē-tē(內地) lâng(人)

查詢所提供ê功能koh包括:

(a)      使用者輸入ê字串,會使指定伊是詞組、一個詞、詞頭(prefix)、詞中(infix)、詞尾(suffix),方便使用者chhē著伊真正behê語料;

(b)  若是用羅馬字查,用白話字、台羅lóng會使,用數字抑是調符mā lóng會使,hō͘使用者減輕轉換ê負擔;

(c)   因為漢字造字oh輸入,所以系統提供一個造字表,使用者會使直接用點ê

(d)  提供重疊詞ê查詢,有「AA」、「AAA」、「AAB」、「ABB」、「ABAB」、 AABB」、「ABAC」、「ACBC」、「ABCAB」等等;

(e)  查詢ê結果,會當用查詢詞ê前一詞抑是後一詞來排等(sort)

(f)    ê語詞頻率較koân,若查詢結果傷choē筆,會造成使用者觀看ê負擔,所以系統提供取樣(sampling) ê選項;

(g)  若是beh觀察某一個語詞無仝文類ê表現,使用者會當選擇kan-na揀選某一個抑是某幾個文類ê語料來查詢。

3-6 詞頻統計功能

本系統lóngchhoân三款詞頻統計ê資料,包括

(a)  所有語料ê詞頻統計;

(b)  書寫文字是漢羅kah全漢字ê文本ê詞頻統計:這是為著beh觀察民間漢字書寫ê情形,避免受著拍字者全羅馬字文本轉寫做漢羅文本ê時,mā kā轉寫者ê漢字書寫算入去,造成偏差;

(c)   教材小類ê詞頻統計;主要beh做國校台語教材詞類分級ê參考。

Ùi技術面來看,這三款詞頻統計lóng仝款,kan-na精差語料集合是無仝ê

arrow
arrow
    全站熱搜

    ungian 發表在 痞客邦 留言(0) 人氣()