http://iug.csie.dahan.edu.tw/iug/Ungian/Chokphin/Lunbun/KIPsupin/KIPsupin.asp

教育部臺灣閩南語字詞頻調查工作簡介-5

 國立成功大學台灣語文測驗中心

專案計畫助理研究員 楊允言

4. 相關問題

下面列出這個計劃tih執行ê時,所ê一寡問題:

(a)  斷詞是一個大工程:
漢字書寫,詞kah詞之間無界線,無法度直接一個一個ê詞分出來。技術上,咱會使利用辭典ê詞條做輔助,利用電腦來斷詞,m̄-kohthang百分之百正確;
早期ê全羅馬字文本,詞kah詞之間有làng格,等於是經過人工斷詞過,總是會有一寡無一致ê所在,可比有ê寫「chit-ê」,有ê寫「chit ê」;
咱若看華文ê部份,其實問題是仝款,台灣kah中國針對華文斷詞ê標準小可仔有精差。台語文面對書寫系統無一致ê問題,標準化ê路途一定boē真平順。
曾金金(1997) pat根據中研院ê華語分詞(斷詞)標準,來討論台語斷詞原則,原則hoān原則,假使咱無根據這個分詞標準所做出來ê分詞辭典,斷詞原則ê實踐有伊ê困難;
另外是斷詞ê判斷需要訓練,咱ê語文教育對斷詞ê訓練是無夠ê;這對相關計畫ê執行lóng是必須愛面對ê大問題;
教育部針對台語ê羅馬字書寫,有制訂連字符ê規範,這對台語斷詞ê空課有一寡幫贊;總是咱發現,人名ê部份,台語kah名拆做兩個詞,華語是共姓kah名合做夥,互相並無一致;
另外,表示輕聲抑是隨前變調ê “--”,連字符連接êpêng,有時仔是一個詞 (A-bêng--a),有時仔是兩個詞 (chia̍h --chi̍t chhùi)。實務上,這對技術處理ê人來講,除非語料內底藏一寡標記,若無,無法度決定到底是一個詞抑是兩個詞,m̄-koh對整理資料ê人來講,behchia ê標記是真困難,尤其語料量大、資源有限ê時陣,這koh-khah是大困難。

(b)  文類ê決定,語料ê比例:
最後ê文類kah計畫一開始所定ê文類並無仝款。開始蒐集著一寡語料,提出來討論了後,發現是按怎某一寡文本無內底,為著beh khah全面,開始調整文類。調整文類ê時,有ê文本ùi某一個文類徙去另外一個文類。
語料庫蒐集ê空課,lóng一定會著文類、體裁ê問題,以英文做例,無仝語料庫,分類無一定仝款。
啥物是適合台語ê文類分類?目前可能抑無明確ê答案,必須愛透過進一步ê考察抑是計算,chiah有新ê想法。
文類一旦定出來了後,為著beh符合台語書寫現實抑是台語使用現實,每一個文類beh佔語料外choē比例,koh是值得討論ê大問題。這部份,專家ê意見真無一致。
因為文類計畫執行ê時修改幾遍,定案了後koh討論語料佔各文類ê比例,致使為著beh符合這個比例,愛放棄一寡已經整理好ê文本,抑是繼續補充其它ê文本。這是這個計畫並無規定ê時間內(一冬)順利完成上主要ê原因。

(c)   漢字使用ê問題:
民間漢字使用ê情形,若斟酌入去深究,真正是大問題。一方面逐家寫法真無一致,有ê是仝一份文本,寫法無一致;另外一方面,造字是真費氣ê代誌,為著beh表示這個漢字書寫現實,加開足choē冤枉時間。
咱受華語ê影響真大,所以「chhit-thô」有人寫做「遊戲」、「」有人會寫做「沒」。咱可能會認為,會寫出「遊戲」,表示伊ê台語受著華語影響,講boē出端tiah ê台語;實際ê情形應該是,台語猶原真端tiahm̄-koh台文受華文ê影響,寫boē出端tiah ê台文。畢竟現時咱受華文教育ê影響太大,換一個角度看,是因為堅持beh用漢字所產生ê問題:華文、台文膏膏纏花boē清。
甚至有人in」寫做「他們」,因為羅馬字文本kah漢羅文本必須愛一音節一音節對起來,chiah會當正常運作,所以這款情形,阮只好漢字ê部份改做「in」。

 5. 結論kah未來方向

台灣所有ê本土語言內底,雖然得著官方ê資源是上少êm̄-koh台語是文字化發展了上有活力ê,一方面,這表示台語文字化beh成功ê機會真大;另外一方面,愈有活力,表示書寫愈多元,假使無政策背後推sak,標準化ê過程有可能拖真長。M̄-koh,標準化制訂ê過程,無應該是少數人門關起來討論tú-soah,伊應該關照著過去ê書寫現實,制訂ê結果應該接受社會大眾ê檢驗kah試用。

論真講起來,台語書寫ê規範教育部是先訂標準,chiah倒頭來做調查,另外,所訂ê標準mā hō͘人感覺是以漢字做中心。總是,這擺ê字詞頻調查是一個好ê起點。

咱會當做ê kohchoē,包括:

  • 擴大語料ê規模,做koh-khah全面ê調查;
  • Ùi調查結果倒頭來討論已經公佈ê七百字詞,甚至是台灣閩南語常用詞辭典萬外條詞條ê漢字用法是是妥當;
  • Ùi實際書寫ê漢羅合用現象,認真思考常用字詞敢一定愛用怪漢字;
  • 思考調查ê結果beh按怎運用台語教學頂面;
  • 針對台語分詞規範做khah詳細ê討論,kah華語分詞標準無仝ê所在,需要做khah深入ê討論,愛建立符合台語分詞ê辭典;
  • 利用調查ê成果,進一步鼓勵台灣人gia̍h筆書寫家己ê語言。

參考資料

Biber, Douglas, Susan Conrad and Randi Reppen, 1998, Corpus Linguistics : Investigating Language Structure and Use, New York : Cambridge University

中央研究院, 現代漢語標記語料庫, http://dbo.sinica.edu.tw/ SinicaCorpus/

中央研究院詞庫小組, 1998, Accumulated Word Frequency in CKIP Corpus, 台北

教育部, 2007, 臺灣閩南語羅馬字拼音方案連字符使用規則http://www.edu.tw/files/site_content/M0001/lanrule.pdf

教育部, 2008, 教育部台灣閩南語常用詞辭典, http://twblg.dict.edu.tw/ tw/index.htm

莊德明, 謝清俊, 2005, 漢字構形資料庫的建置與應用, 漢字與全球化國際學術研討會, 台北

楊允言, 2005, 台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計, 國科會結案報告

 

arrow
arrow
    全站熱搜

    ungian 發表在 痞客邦 留言(0) 人氣()