http://iug.csie.dahan.edu.tw/iug/Ungian/Chokphin/Lunbun/KIPsupin/KIPsupin.asp
教育部臺灣閩南語字詞頻調查工作簡介-4
國立成功大學台灣語文測驗中心
專案計畫助理研究員 楊允言
3-5 語詞檢索功能
系統提供ê功能,主要包括語詞檢索kah詞頻統計兩大功能,同時,mā對使用者使用本系統ê情形做使用記錄,成做未來beh改進本系統ê參考。
語詞檢索系統提供使用者查詢某一個字串(string),這個字串可能是一個音節(字)、詞ê一部份、一個詞抑是詞組,系統入去語料庫chhiau-chhē,kā出現使用者輸入ê字串chhē著,並且順soà kā這個字串ê前後文做陣lia̍h出來。
下面是查詢「成大」ê部份結果:
啊 去 到 半路 的 所在,有 一 塊 石壁, |
成 大 |
塊 安呢 啦,啊 若 風颱雨 若 到,啊 |
啊 尾溜 才 自 安呢,名 就 叫 大甲,呼, |
成 大 |
甲 安呢。 |
這 个 員外 煞 焄 一 坩 羊肉,呼!啊 |
成 大 |
坩 安呢。啊 捧 來 到 這 个 風水仙 |
正經 成實 去 自殺,我 麼 是 會 擱 問題 |
成 大 |
。啊 當 好 啦!好心,您 做 好心 共 |
煞 若 干若 豬母 咧 啦!煞 一 箍 腹肚 |
成 大 |
箍,啊 得 卜 生產 這 八 个 實在 |
成 濟 啦。啊 兵馬 直直 偎 來,啊 聲勢 |
成 大 |
啦。啊 嘉義囉 就 順續 攻 去 府城 台南 |
激氣,實在 毋 是 款,毋 忍 毋 耐,小事 |
成 大 |
,人 講 人情 留 一 線,日後 好 相 |
這是選擇用漢羅顯示ê結果,使用者mā會使選擇用 (a) 羅馬字 (b)頂面羅馬字下面漢羅 (c)頂面漢羅下面羅馬字 來顯示,親像下面ê例:
(a) thinn-kong bô kong-pênn, pù--ê pù tsiūnn-thinn, sàn--ê sàn tshùn thih, ai-iò-ai-iò, bô thâu-lōo ê hiann-tī.
(b) 蕃薯(han-tsî) 遐(hia) 的(ê) 幼的(iù--ê) 就(tō) 共(kā) 煠(sa̍h),煠(sa̍h) 一(tsi̍t) 堆(tui) 成(tsiânn) 大(tuā) 堆(tui)
(c) m̄-kú(不拘) guán(阮) Tâi-uân(臺灣) lâng(人) tshuā(娶) bóo(妻) sī(是) bô(無) tshin(親) tshiūnn(像) lín(您) luē-tē(內地) lâng(人)
查詢所提供ê功能koh包括:
(a) 使用者輸入ê字串,會使指定伊是詞組、一個詞、詞頭(prefix)、詞中(infix)、詞尾(suffix),方便使用者chhē著伊真正beh愛ê語料;
(b) 若是用羅馬字查,用白話字、台羅lóng會使,用數字抑是調符mā lóng會使,hō͘使用者減輕轉換ê負擔;
(c) 因為漢字造字oh輸入,所以系統提供一個造字表,使用者會使直接用點ê;
(d) 提供重疊詞ê查詢,有「AA」、「AAA」、「AAB」、「ABB」、「ABAB」、 「AABB」、「ABAC」、「ACBC」、「ABCAB」等等;
(e) 查詢ê結果,會當用查詢詞ê前一詞抑是後一詞來排等(sort);
(f) 有ê語詞頻率較koân,若查詢結果傷choē筆,會造成使用者觀看ê負擔,所以系統提供取樣(sampling) ê選項;
(g) 若是beh觀察某一個語詞tī無仝文類ê表現,使用者會當選擇kan-na揀選某一個抑是某幾個文類ê語料來查詢。
3-6 詞頻統計功能
本系統lóng總chhoân三款詞頻統計ê資料,包括
(a) 所有語料ê詞頻統計;
(b) 書寫文字是漢羅kah全漢字ê文本ê詞頻統計:這是為著beh觀察民間漢字書寫ê情形,避免受著拍字者kā全羅馬字文本轉寫做漢羅文本ê時,mā kā轉寫者ê漢字書寫算入去,造成偏差;
(c) 教材小類ê詞頻統計;主要beh做國校台語教材詞類分級ê參考。
Ùi技術面來看,這三款詞頻統計lóng仝款,kan-na精差tī語料集合是無仝ê。