http://iug.csie.dahan.edu.tw/iug/Ungian/Chokphin/Lunbun/KIPsupin/KIPsupin.asp

教育部臺灣閩南語字詞頻調查工作簡介-3

 國立成功大學台灣語文測驗中心

專案計畫助理研究員 楊允言

3-3 語料整理方式

本計畫所蒐集ê語料,羅馬字ê部份,不管伊原來ê文本是用一款羅馬字系統,lóng會先轉寫做教育部公佈ê台羅,這是為著後來查詢ê利便;漢字ê部份完全尊重作者ê寫法無修改,按呢會當反應台語漢字書寫ê多元現實。

為著beh hō͘使用者thang對照看,每一份語料用兩種文字型式整理。原來ê文本假使是全漢字抑是漢羅合用,會koh轉寫做全羅馬字;全羅馬字文本,koh轉寫一份漢羅合用ê版本。

轉寫做羅馬字,主要會產生ê問題是腔口,原則上盡量以優勢腔為主。轉寫做漢羅可能對詞頻統計造成一寡影響,因為民間ê漢字書寫真無一致,可比講「chhit-thô」這個詞,本計畫蒐集ê語料,漢羅有11種無仝ê寫法,[1]可能有人有趣味beh知影一款寫法khah choēm̄-koh若原來文本是全羅馬字,轉寫者寫做漢羅,轉寫ê漢羅寫法若算在來,對原來漢字(漢羅)書寫ê統計造成一寡偏差。為著解決這個問題,詞頻統計ê部份,有所有ê語料ê詞頻統計,全羅馬字文本提掉了後ê詞頻統計。

羅馬字ê輸入是另外一個問題。工作團隊內底負責拍字ê人,有ê拍白話字khah慣勢,有ê對台羅khah熟手,目前雖然已經有系統會當來轉換,m̄-koh mā有淡薄仔費氣。好佳哉白話字kah台羅符號無衝突。後來這部份,hō͘系統來轉換,不管負責拍字ê人用白話字抑是台羅,用調符抑是數字表示聲調,系統顯示ê時,lóng轉做台羅。

下面是輸入ê範例:


文類

民間故事

書寫系統

漢羅

作者

李瑞枝

出版年

1997

篇名

十二生肖的由來

今年是丁丑年,講,哦,今年是牛年哦,肖牛的,逐个攏愛安太歲。

kin-ni5 si7 teng-thiu2 ni5, kong2, ouh, kin-ni5 si7 gu5 ni5--ouh, siunn3 gu5 e5, tak8 e5 long2 ai3 an thai3-soe3.

肖牛仔,是沖太歲,呼,著愛安太歲,所以注意著這个十二生肖。咱台灣人,每日都愛用,無論創啥,好事、歹事,無論創啥,撞著就是講:「你肖啥?」「今年幾歲?」

siunn3 gu5-a2, si7 chhiong thai3-soe3, houh, tioh8-ai3 an thai3-soe3, sou2-i2 chu3-i3 tioh8 chit e5 chap8-ji7 senn-siunn3. lan2 Tai5-oan5-lang5, mui2-jit8 to ai3 iong7, bo5-lun7 chhong3 siann2, ho2-su7, phainn2-su7, bo5-lun7 chhong3 siann2, tng7 tioh8 chiu7-si7 kong2: “li2 siunn3 siann2?” “kin-ni5 kui2 hoe3?”

 

輸入分做三欄,其中第二欄是漢羅,第三欄是羅馬字。若是無需要分漢羅kah羅馬字ê,主要是文本ê基本資料(metadata),tō kā 第二欄kah第三欄合併。

第一欄表示資料ê性質,事先規定好ê,包括:

  • 文類:填寫 1所列ê小類,lóng總有「報導文學」、「演講訪談」、「散文」、「小說」、「論文」、「流行歌」、「褒歌」、「囡仔歌」、「謎猜」、「歌仔冊」、「俗諺」、「民間故事」、「戲劇」、「教材」、「其它教材」等15個類別
  • 書寫系統:填寫 2所列ê文字型式,lóng總有「漢字」、「漢羅」、「羅馬字」等三種書寫系統
  • 作者
  • 出版者
  • 出版年
  • 書名
  • 篇名
  • 年級別:這是教材類chiah需要填寫ê資料,有「[|||||][|]」攏總12個年級別
  • 段:是語料ê內容,一個段落做一欄

內容ê部份,分做漢羅(全漢字)kah羅馬字兩欄,親像頭前講ê,羅馬字用白話字、台羅lóng會使,調符、數字聲調mā lóng會使。

根據語料ê整理方式,系統會漢羅kah羅馬字一個語詞一個語詞對起來。假使漢羅kah羅馬字文本對boē起來,表示輸入ê時有têng-tâⁿ,系統顯示ê時會用紅色標示,按呢會當倒頭幫贊輸入者做校對。另外,因為羅馬字有連字符,所以這份語料等於有做人工斷詞。

3-4 造字處理方式

中央研究院tih處理中國古籍ê時,著真choē造字,為著解決相觀問題,in發展一套欠字處理ê系統, in制訂「構字式」做造字ê編碼,利用圖形來顯示。本計劃採用中研院ê欠字處理系統來解決語料中ê漢字欠字問題,用圖形顯示,使用者無需要另外安裝造字檔案,跨網路平台mā boē發生問題。

構字ê原則,是一個漢字(造字)看做是兩個漢字組合起來ê,組合ê款式有倒pêngpêng、頂面下面kah外面內面三種。為著輸入ê利便,本計劃tih輸入造字ê時陣,採用下面ê符號:

  • pêngpêng:以 [+]」表示,可比「[+]
  • 頂面下面:以 [^]」表示,可比「[^]
  • 外面內面:以 [@]」表示,可比「[@]

系統讀著chia ê符號ê時,會去中央研究院ê欠字系統討這個漢字ê圖形來顯示。M̄-koh是所有ê台語漢字造字lóng有收錄中研院ê欠字系統內底,chia ê漢字,咱需要整理、chhoân咱做好ê這字ê圖形,中研院申請。


[1] 11種寫法分別是:tshit-thô、蹉跎、佚陶、tshit迌、彳亍、七桃、[+]迌、逸陶、佚佗、擦桃、遊戲,其中,「[+]」表示這個漢字是「辶」kah「日」二字鬥起來ê,因為Unicode內底無這個漢字,所以輸入ê時,輸入「[+]」,系統到時用圖形ê方式來顯示。

arrow
arrow
    全站熱搜

    ungian 發表在 痞客邦 留言(0) 人氣()