台語文數位典藏以台語文記憶系統做例

Tâi-gú-bûn sò͘-ūi tián-chông -- í Tâi-gú-bûn kì-e̍k hē-thóng chòe lē

 

楊允言 Iûⁿ Ún-giân

大漢技術學院資訊管理系

 

 

摘要

雖然咱hiah-nī拚勢tihsak台語文khang-khèm̄-koh社會上一般人對台語文êpat猶原chiâⁿ有限。另外一方面,過去chōe-chōe台語文豐富ê資料,因為政權ê變換kah無重視,chia ê資料並無好chhē著。

電腦時代,提供台語文保存kah推廣一個khahê機會,phah破時間、空間ê制限。台語文是是有法度復興,kah咱是是有好好運用這個平台有chiâⁿê關係。

本文beh ùi數位典藏ê觀點來討論台語文ê保存kah推廣,介紹現有ê台語文相關數位典藏,並且以筆者目前當tih進行ê台語文記憶系統做例,說明這個系統建立ê理念kah實際運作ê情形,已經無版權問題,iah是作者/編者授權同意ê台語文書刊ê影像上網,說明技術方面ê做法、功能、目標,kah未來ê khang-khè

 

關鍵詞:台語文、記憶、影像處理、數位典藏

 

 

Tiah-iàu

Sui-jiân lán hiah-nī piàⁿ-sè tih thui-sak Tâi-gú-bûn khang-khè, m̄-koh siā-hōe siōng it-poaⁿ lâng tùi Tâi-gú-bûn ê jīn-pat iû-gôan chiâⁿ iú-hān. Lēng-gōa chi̍t hong-bīn, kè-khì chōe-chōe Tâi-gú-bûn hong-hù ê chu-liāu, mā in-ūi chèng-kôan ê piàn-ōaⁿ kah bô tiōng-sī, chia ê chu-liāu pēng bô hó chhē--tio̍h.

Tiān-náu sî-tāi, thê-kiong Tâi-gú-bûn pó-chûn kah thui-kóng chi̍t-ê khah hó ê ki-hōe, phah-phòa sî-kan, khong-kan ê hān-chè. Tâi-gú-bûn sī m̄ sī ū hoat-tō͘ ho̍k-heng, kah lán sī m̄ sī ū hó-hó-á ūn-iōng chit-ê pîⁿ-tâi ū chiâⁿ tōa ê koan-hē.

Pún-bûn beh ùi sò͘-ūi tián-chông ê koan-tiám lâi thó-lūn Tâi-gú-bûn ê pó-chûn kah thui-kóng, kài-siāu hiān-iú ê Tâi-gú-bûn siong-koan sò͘-ūi tián-chông, pēng-chhiáⁿ í chok-chiá pit-chiá tng tih chìn-hêng ê Tâi-gú-bûn kì-e̍k hē-thóng chò lē, soat-bêng chit-ê hē-thóng kiàn-li̍p ê lí-liām kah si̍t-chè ūn-chok ê chêng-hêng, kā í-keng bô pán-kôan būn-tôe, iah-sī chok-chiá/pian-chiá siū-kôan tông-ì ê Tâi-gú-bûn su-khan ê iáⁿ-siōng chiūⁿ-bāng, soat-bêng ki-su̍t hong-bīn ê chò-hoat, kong-lêng, bo̍k-phiau, kah bī-lâi ê khang-khè.

Koan-kiān-sû : Tâi-gú-bûn, kì-e̍k, iáⁿ-siōng chhú-lí, sò͘-ūi tián-chông

 

1.    話頭:數位典藏 Ōe-thâu: Sò͘-ūi tián-chông

17世紀,英siōngê博物館,博物對傳承人文明扮演真重要ê角色

17 sè-kí, Eng-kok siat-li̍p siōng chá ê phok-bu̍t-kóan, phok-bu̍t-kóan tùi thôan-sêng jîn-lūi bûn-bêng, pān-ián chin tiōng-iàu ê kak-sek.

電腦科技êkah網路基礎ê建立hō͘tàng利用數位ê方式寄khǹg文明累積ê成果。

Tiān-náu kho-ki ê chìn-tián, kah bāng-lō͘ ki-chhó͘ siat-si ê kiàn-li̍p, hō͘ jîn-lūi ē-tàng lī-iōng sò͘-ūi ê hong-sek kià-khǹg bûn-bêng lúi-chek ê sêng-kó.

數位典是指有保存價值ê,透過數位化ê科技技來保存kah用。換另外一句話講,數位典是網路頂ê博物

͘-ūi tián-chông tō sī chí kā ū pó-chûn kè-ta̍t ê chu-liāu, thàu-kè sò͘-ūi-hòa ê kho-ki ki-su̍t lâi pó-chûn kah èng-iōng. Ōaⁿ lēng-gōa chi̍t kù ōe kóng, sò͘-ūi tián-chông tō sī bāng-lō͘ téng ê phok-bu̍t-kóan.

數位典藏ê相關計畫,siōngê是美國國家圖書館1990sak ê「美國記憶先導計畫」。建國kan-na 兩百外冬ê美國會tàng做,台灣有koh-khahê歷史,有真chōe豐富、有特色ê資源,koh有真chāi ê電腦科技相關技術做bak-khù,咱有真充分ê理由來做數位典藏。

͘-ūi tián-chông ê siong-koan kè-ōe, siōng chá--ê sī Bí-kok Kok-ka Tô͘-su-kóan 1990 nî sak ê “Bí-kok Kì-e̍k Sian-tō Kè-ōe”. Kiàn-kok kan-na nn̄g-pah gōa tang ê Bí-kok ē-tàng chòe, Tâi-ôan ū koh-khah kú ê le̍k-sú, mā ū chin chōe hong-hù, ū te̍k-sek ê chu-gôan, koh ū chin chāi ê tiān-náu kho-ki siong-koan ki-su̍t chòe bak-khù, lán ū chin chhiong-hun ê lí-iû lâi chòe sò͘-ūi tián-chông.

國家級ê數位典藏,台灣ùi 1998年開始做,2002年整合做「數位典藏國家型科技計畫」,五年做一期,到2006年年底結束,2007年繼續執行第二期ê五年計畫,最近 開始tih規劃永續經營方面ê問題。

Kok-ka-kip ê sò͘-ūi tián-chông, Tâi-ôan ùi 1998 nî khai-sí chòe, 2002 nî chéng-ha̍p chòe “Sò͘-ūi Tián-chông Kok-ka-hêng Kho-ki kè-ōe”, gō͘ nî chòe chi̍t kî, kàu 2006 nî nî-tóe kiat-sok, 2007 nî kè-sio̍k chip-hêng tē jī kî ê gō͘ nî kè-ōe, chòe-kūn mā  khai-sí tih kui-ōe éng-sio̍k keng-êng hong-bīn ê būn-tôe

計畫ê內容包山包海,m̄-koh,我認為siōng重要ê意義是,這個計畫台灣真chōe有特色ê資料,包括物種資源、早期ê影像等等,透過一個整合ê平台,放送hō͘全世界。

Kè-ōe ê lōe-iông pau soaⁿ pau hái, m̄-koh, góa jīn-ūi siōng tiōng-iàu ê ì-gī sī, chit-ê kè-ōe kā Tâi-ôan chin chōe ū te̍k-sek ê chu-liāu, pau-khoah bu̍t-chióng chu-gôan, chá-kî ê iáⁿ-siōng téng-téng, thàu-kè chi̍t-ê chéng-ha̍p ê pîⁿ-tâi, hòng-sàng hō͘ chôan sè-kài.

Web 2.0 ê時代,強調一般大眾共同參與ê精神,所以khah闊面ê數位典藏,並無限定政府單位。一個民間團體iah是個人,只要有值得保存ê資料,sái設立一個網站來做典藏ê khang-khè

Web 2.0 ê sî-tāi, kiông-tiāu it-poaⁿ tāi-chiòng kiōng-tông chham-ú ê cheng-sîn, só͘-í khah khoah-bīn ê sò͘-ūi tián-chông, pēng bô hān-tiāⁿ tī chèng-hú tan-ūi. Chi̍t-ê bîn-kan thôan-thé iah-sī kò-jîn, chí-iàu ū ta̍t-tit pó-chûn ê chu-liāu, mā ē-sái siat-li̍p chi̍t-ê bāng-chām lâi chò tián-chông ê khang-khè.

 

2.    台語文相關數位典藏 Tâi-gú-bûn siong-koan sò͘-ūi tián-chông

台語(Hō-ló話)有幾種稱呼,國民黨政府佔台灣了後,這個語言叫做「閩南語」,目前國際上,語言代碼是「nan」,這個語言(包括方言kah語言變體)有4,600外萬使用人口,主要分佈台灣、新加坡、馬來西亞、汶萊、中國、泰國、菲律賓kah印尼八個國家。其中,台灣有70%以上ê使用人口,是siōng kôan ê比例。台灣若beh tī國際社會上khiā起,台語絕對是其中一個重要ê特色。

Tâi-gú (Hō-ló ōe) ū kúi-lō chióng chheng-ho͘, Kok-bîn-tóng chèng-hú chiàm Tâi-ôan liáu-āu, kā chit-ê gú-giân kiò-chòe “Bân-lâm-gú”, bo̍k-chiân tī kok-chè siōng, gú-giân tāi-bé sī “nan”, chit-ê gú-giân (pau-khoah hong-giân kah gú-giân piàn-thé) ū 4,600 gōa bān sú-iōng jîn-kháu, chú-iàu hun-pò͘ tī Tâi-ôan, Sin-ka-pho, Má-lâi-se-a , Bûn-lâi , Tiong-kok, Thài-kok, Hui-lu̍t-pin kah Ìn-nî poeh ê kok-ka. Kî-tiong, Tâi-ôan ū 70% í-siōng ê sú-iōng jîn-kháu, sī siōng kôan ê pí-lē. Tâi-ôan nā beh tī kok-chè siā-hōe siōng khiā-khí, Tâi-gú cho̍at-tùi sī kî-tiong chi̍t-ê tiōng-iàu ê te̍k-sek.

問題是,台灣ê官方語言是華語,koh加上進前錯誤ê語言政策,hō͘chōe台灣人看輕家己ê母語,認為講台語khah無水準iah是無hiah重要,甘願hō͘ gín-á學英語。

Būn-tôe sī, Tâi-ôan ê koaⁿ-hong gú-giân sī Hôa-gú, koh ka-siōng chìn-chêng chhò-gō͘ ê gú-giân chèng-chhek, hō͘ chin chōe Tâi-ôan-lâng khòaⁿ-khin ka-kī ê bú-gú, jīn-ūi kóng Tâi-gú khah bô chúi-chún iah-sī bô hiah tiōng-iàu, kam-gōan hō͘ gín-á o̍h Eng-gú.

另外,書寫台語口語ê文字,有將近兩百冬ê歷史,包括羅馬字kah漢字兩種主要文字。可惜大部分ê台灣人無啥會曉讀台語文,台語文ê書刊是小眾,若是lām tī以華文為主ê書店內底,差不多是看bōe著。Koh因為書寫無一致,hō͘力量koh-khah分散。

Lēng-gōa, su-siá Tâi-gú kháu-gú ê bûn-jī, mā ū chiong-kūn nn̄g pah tang ê le̍k-sú, pau-khoah Lô-má-jī kah Hàn-jī nn̄g chióng chú-iàu bûn-jī. Khó-sioh tōa-pō͘-hūn ê Tâi-ôan-lâng bô siáⁿ ē-hiáng tha̍k Tâi-gú-bûn, Tâi-gú-bûn ê su-khan sī sió-chiòng, nā sī lām tī í Hôa-bûn ûi-chú ê chu-tiàm lāi-tóe, chha-put-to sī khòaⁿ bōe tio̍h. Koh in-ūi su-siá bô it-tì, hō͘ le̍k-liōng koh-khah hun-sòaⁿ.

咱若beh做台語復振,台語文絕對是重要關鍵,m̄-koh tō親像頂面所講ê,一般台灣ê書店無法度提供咱ê需求。若是透過網路平台,來傳播chia ê資源,顛倒khah有可能。

Lán nā beh chò Tâi-gú hok-chìn, Tâi-gú-bûn cho̍at-tùi sī tiōng-iàu koan-kiān, m̄-koh tō chhin-chhiūⁿ téng-bīn só͘ kóng--ê, it-poaⁿ Tâi-ôan ê chu-tiàm bô hoat-tō͘ thê-kiong lán ê su-kiû. Nā-sī thàu-kè bāng-lō͘ pîⁿ-tâi, lâi thôan-pò chia ê chu-gôan, tian-tò khah ū khó-lêng.

一般台語文相關網站,sái算是台語文數位典藏ê基本資源。以下列出目前我認為khah重要ê台語文相關網站:

It-poaⁿ Tâi-gú-bûn siong-koan bāng- chām, tō ē-sái sǹg sī Tâi-gú-bûn sò͘-ūi tián- chông ê ki-pún chu-gôan. Í-hā lia̍t-chhut bo̍k- chiân góa jīn-ūi khah tiōng-iàu ê Tâi-gú-bûn siong-koan bāng-chām:

·        台語信望愛網站  http://taigi.fhl.net/

·        台語網網上論壇  http://groups.google.com/group/taigu

·        白話字台語文ê網站 http://iug.csie.dahan.edu.tw

台語文數位典藏,一般講ê主要是針對台語文書刊做對象,包括kā chia ê資料做影像ê保存,iah是進一步kā phah字,thang做其它ê應用。台語文相關數位典藏ê網站,目前主要有以下幾個:

Tâi-gú-bûn sò͘-ūi tián-chông, it-poaⁿ kóng--ê chú-iàu sī chiam-tùi Tâi-gú-bûn su-khan chòe tùi-siòng, pau-khoah kā chia ê chu-liāu chòe iáⁿ-siōng ê pó-chûn, iah sī chìn-chi̍t-pō͘ kā phah-jī, thang chòe kî-thaⁿ ê èng-iōng. Tâi-gú-bûn siong-koan sò͘-ūi tián-chông ê bāng-chām, bo̍k-chiân chú-iàu ū í-hā kúi-ê:

·        閩南語典藏 http:// southernmin.sinica.edu.tw

這是數位典藏國家型科技計畫第一期內底ê中央研究院機構計畫:語言典藏計畫ê子計畫之一,主要做歌仔冊「陳三五娘」四個版本ê整理,可惜因為版權問題無好勢,soah無法度開放一般民眾使用;第二期擴充做閩客語典藏,並且當tih進行,網址tī http:// gigiantianchong.likulaw.info/,主要beh kā《基督要理》、《英廈辭典》、《廈英大辭典》、《內外科看護學》khah早期ê《台灣教會公報》,scan上網,並且phah字建檔、做語法標記;計畫主持人包括鄭錦全、何大安等等;

Che sī sò͘-ūi tián-chông kok-ka-hêng kho-ki kè-ōe tē it kî lāi-tóe ê Tiong-iong Gián-kiù-īⁿ ki-kò͘ kè-ōe : gú-giân tián-chông kè-ōe ê chú-kè-ōe chi it, chú-iàu chòe koa-á-chhah “Tân-saⁿ-gō͘-niû” sì-ê pán-pún ê chéng-lí, khó-siok in-ūi pán-kôan būn-tôe bô hó-sè, soah bô hoat-tō͘ khai-hòng it-poaⁿ bîn-chiòng sú-iōng; tē jī kî khok-chhiong chòe Bān-kheh-gú tián-chông, pēng-chhiáⁿ tng tih chìn-hêng, bāng-chí tī http:// gigiantianchong.likulaw.info/, chú-iàu beh kā “Ki-tok Iàu-lí”, “Eng-hā Sû-tián”, “Ē-eng Tōa-sû-tián”, “Lāi- gōa-kho Khàn-hō͘-ha̍k” khah chá-kî ê “Tâi-ôan Kàu-hōe Kong-pò”, scan chiūⁿ-bāng, pēng- chhiáⁿ phah-jī kiàn-tóng, chò gú-hoat phiau-kì; kè-ōe chú-chhî-jîn pau-khoah Tēⁿ Gím-chôan, Hô Tāi-an téng-téng;

·        台語文數位典藏資料庫(第二階段) http://www2.nmtl.gov.tw/dadwt/

備站tī http://iug.csie. dahan.edu.tw/nmtl/dadwt/,這是台灣文學館ê計畫,整合成大台灣文學系呂興昌kah台大資訊系高成炎2001~2005ê計畫成果,kā chia ê phah字好ê全羅、漢羅(各258萬音節)一段一段對齊ê文本,經過人工校對,透過網站平台呈現,koh有加添語音合成ê聲音檔案;計畫主持人是楊允言;

Pī-chām tī http://iug.csie.dahan.edu.tw/ nmtl/dadwt/, che sī Tâi-ôan Bûn-ha̍k- kóan ê kè-ōe, chéng-ha̍p Sêng-tāi Tâi-ôan Bûn-ha̍k- hē Lī Heng-chhiong kah Tâi-tāi Chu-sìn-hē Ko Sêng-iām 2001~2005 nî ê kè-ōe sêng-kó, kā chia ê phah-jī hó ê Chôan-lô, Hàn-lô (kok 258 bān im-chat) chi̍t-tōaⁿ chi̍t-tōaⁿ tùi-chôe ê bûn-pún, keng-kè lâng-kang kàu-tùi, thàu-kè bāng-chām pîⁿ-tâi têng-hiān, koh ū ke-thiⁿ gú-im ha̍p-sêng ê siaⁿ-im tóng-àn; kè-ōe chú-chhî-jîn sī Iûⁿ Ún-giân;

·        台語及客語現代文學專題網站 http://140.116.10.241/NCKUTaiWeb/View/index.aspx

這是文建會2007年委託成大台灣文學系執行ê計畫,收錄51位作家ê 精選作品,數量大約有100 外萬音節;計畫主持人是蔣為文;

Che sī Bûn-kiàn-hōe 2007 nî úi-thok Sêng-tāi Tâi-ôan Bûn-ha̍k-hē chip-hêng ê kè-ōe, siu-lio̍k 51 ūi chok-ka ê cheng-sóan chok-phín, sò͘-liōng tāi-iok ū 100  gōa bān im-chat; kè-ōe chú-chhî-jîn sī Chiúⁿ Ûi-bûn;

·        台灣白話字文獻資料館 http://140.122.80.250/pojbh/script/index.php

這是數位典藏國家型計畫公開徵選計畫之一,師大台文所執行,主要針對《台灣教會公報》做scanphah字整理,目前繼續tih執行第二冬ê計畫;計畫主持人是李勤岸;

Che sī sò͘-ūi tián-chông kok-ka-hêng kè-ōe kong-khai teng-sóan kè-ōe chi it, Su-tāi Tâi-bûn-só͘ chip-hêng, chú-iàu chiam-tùi “Tâi-ôan Kàu-hōe Kong-pò” chòe scan, phah-jī chéng-lí, bo̍k-chiân kè-sio̍k tih chip-hêng tē jī tang ê kè-ōe; kè-ōe chú-chhî-jîn sī Lí Khîn-hōaⁿ;

除了以上所介紹êkoh有一kóa相關ê台語文數位典藏網站,包括:

Tû-liáu í-siōng só͘ kài-siāu--ê, koh ū chi̍t-kóa siong-koan ê Tâi-gú-bûn sò͘-ūi tián-chông bāng-chām, pau-khoah:

·        聰美紀念基金會將《台文通訊》第25~142scan上網;[1]

·        鄭詩宗將《內外科看護學》phah字上網;[2]

·        台語信望愛ê珍本聖經數位典藏,無限定scan台語êm̄-koh有幾本台語ê[3]

·        台中圖書館ê日文舊籍數位典藏,scan兩千外本書刊,其中至少有二十幾本kah台灣本土語言有關;[4]

·        TGB台灣學生語文促進會êTGB通訊》電子檔;[5]

·        鄭良偉策劃ê《大學台語文選》電子檔。[6]

·        Chhong-bí Kì-liām Ki-kim-hōe chiong “Tâi-bûn Thong-sìn” tē 25~142 kî scan chiūⁿ-bāng;

·        Tēⁿ Si-chong chiong “Lāi-gōa-kho Khàn- hō͘-ha̍k” phah-jī chiūⁿ-bāng;

·        Tâi-gú Sìn Bōng Ài ê tin-pún Sèng-keng sò͘-ūi tián-chông, bô hān-tiāⁿ scan Tâi-gú ê, m̄-koh ū kúi-lō pún Tâi-gú ê;

·        Tâi-tiong Tô͘-su-kóan ê Ji̍t-bûn kū-chek sò͘-ūi tián-chông, scan nn̄g chheng gōa pún su-khan, kî-tiong chì-chió ū jī-cha̍p kúi pún kah Tâi-ôan pún-thó͘ gú-giân iú-koan;

·        TGB Tâi-ôan Ha̍k-seng Gú-bûn Chhiok- chìn-hōe ê “TGB Thong-sìn” tiān-chú- tóng;

·        Tēⁿ Liôn-úi chhek-ōe ê “Tāi-ha̍k Tâi-gú Bûn-sóan” tiān-chú-tóng.

 

3.     台語文記憶設立ê過程 Tâi-gú-bûn kì-e̍k siat-li̍p ê kè-têng

台語文記憶系統ê構想,是tī 2006年年底,我執行台灣文學館「台語文數位典藏資料庫(第二階段)tih-beh到一段落ê時,我tih思考beh按怎用現有ê基礎,hō͘台灣文學館繼續撥經費支持台語相關研究計畫。

Tâi-gú-bûn kì-e̍k hē-thóng ê kò-sióng, sī tī 2006 nî nî-tóe, góa chip-hêng Tâi-ôan Bûn-ha̍k-kóan “Tâi-gú-bûn sò͘-ūi tián-chông chu-liāu-khò͘ (tē jī kai-tōaⁿ) tih-beh kàu chi̍t tōaⁿ-lo̍h ê sî, góa tih su-khó beh án-chóaⁿ ēng hiān-iú ê ki-chhó͘, hō͘ Tâi-ôan Bûn-ha̍k-kóan kè-sio̍k poah keng-hùi chi-chhî Tâi-gú siong- koan gián-kiù kè-ōe.

頭先,我認為看著phahphahê電子檔案,kah看著原本ê書刊,感覺是無kāngê,若是beh繼續做,除了phah字,希望會tàng呈現書刊原底ê影像。

Thâu-seng, góa jīn-ūi khòaⁿ-tio̍h phah-jī phah hó ê tiān-chú tóng-àn, kah khòaⁿ-tio̍h gôan-pún ê su-khan, kám-kak sī bô kāng-khóan--ê, nā-sī beh kè-sio̍k chòe, tû-liáu phah-jī, mā hi-bōng ē-tàng têng-hiān su-khan gôan-tóe ê iáⁿ-siōng.

我無希望呂興昌教授用四冬(2001~2004ê時間蒐集著ê千外本白話字台語文相關書刊,按呢hōng台文館ê倉庫內底。若是台文館支持這個計畫,會tàng揀出內底一kóa書刊,台文館方面thang來優先處理。

Góa bô hi-bōng Lī Heng-chhiong kàu-siū ēng sì tang (2001~2004) ê sî-kan so͘-chi̍p tio̍h ê chheng gōa pún pe̍h-ōe-jī Tâi-gú-bûn siong-koan su-khan, tō án-ne hōng só tī Tâi-bûn-kóan ê chhng-khò͘ lāi-tóe. Nā-sī Tâi-bûn-kóan chi-chhî chit-ê kè-ōe, ē-tàng kéng chhut lāi-tóe chi̍t-kóa su-khan, Tâi-bûn-kóan hong-bīn thang lâi iu-sian chhú-lí.

可惜這個構想並無得著回應。大約hit個時陣,國家圖書館各縣市文化局展示in數位典藏ê成果,其中一項是「台灣記憶」,這個系統整理日本時代明信片ê影像。因為按呢,我用「台語文記憶」做主題。

Khó-sioh chit-ê kò͘-sióng pēng bô tit-tio̍h hôe-èng. Tāi-iok hit-ê sî-chūn, Kok-ka Tô͘-su-kóan tī kok kōan-chhī bûn-hòa-kio̍k tián-sī in sò͘-ūi tián-chông ê sêng-kó, kî-tiong chi̍t-hāng sī “Tâi-ôan kì-e̍k”, chit-ê hē-thóng chéng-lí Ji̍t-pún sî-tāi bêng-sìn-phìⁿ ê iáⁿ-siōng. In-ūi án-ne, góa iōng “Tâi-gú-bûn kì-e̍k” chòe chú-tôe.

我主動kah國家圖書館聯絡,希望in考慮將「台語文記憶」列入「台灣記憶」系統下面ê一項,撥經費來整理台語文ê書刊。

Góa chú-tōng kah Kok-ka Tô͘-su-kóan liân-lo̍k, hi-bōng in khó-lū chiong “Tâi-gú- bûn kì-e̍k” lia̍t-ji̍p “Tâi-ôan kì-e̍k” hē-thóng ē-bīn ê chi̍t-hāng, poah keng-hùi lâi chéng-lí Tâi-gú-bûn ê su-khan.

國家圖書館表示in有趣味,所以我特別kah in約時間,去國家圖書館向閱覽組組長kah組員報告這個計畫。M̄-koh,我所掌握ê台語文書刊,大部分是影印本,in認為若是原本,無典藏ê價值。

Kok-ka Tô͘-su-kóan piáu-sī in ū chhù-bī, só͘-í góa te̍k-pia̍t kah in iok sî-kan, khì Kok-ka Tô͘-su-kóan hiòng O̍at-lám-cho͘ cho͘-tiúⁿ kah cho͘-gôan pò-kò chit-ê kè-ōe. M̄-koh, góa só͘ chiáng-ak ê Tâi-gú-bûn su-khan, tōa-pō͘-hūn sī iáⁿ-ìn-pún, in jīn-ūi nā m̄-sī góan-pún, tō bô tián-chông ê kè-ta̍t.

這個回答hō͘我真失志。看著台文館倉庫內底ê台語文書刊,koh愛外久chiah thang hō͘人注意著。後來我想,無錢有無錢ê做法,無論如何,應該hō͘ chia ê資料量早上網hō͘人看著。

Chit-ê hôe-tap hō͘ góa chin sit-chì. Khòaⁿ-tio̍h Tâi-bûn-kóan chhng-khò͘ lāi-tóe ê Tâi-gú-bûn su-khan, m̄ chai koh ài gōa kú chiah thang hō͘ lâng chù-ì--tio̍h. Āu-lâi góa siūⁿ, bô chîⁿ ū bô chîⁿ ê chò-hoat, bô-lūn jû-hô, èng-kai hō͘ chia ê chu-liāu liōng-chá chiūⁿ-bāng hō͘ lâng khòaⁿ--tio̍h.

所以,無經費ê支持之下,我先ùi我家己書櫥頂ê資料開始scan,koh ùi台大圖書館借著一kóa白話字ê書刊(kan-natàng tī內底看、影印),然後設立一個功能真簡單ê網站,ùi 20076月開始正式上線。

͘-í, tī bô keng-hùi ê chi-chhî chi hā, góa seng ùi góa ka-kī chu-tû téng ê chu-liāu khai-sí scan, koh ùi Tâi-tāi Tô͘-su-kóan chioh-tio̍h chi̍t-kóa pe̍h-ōe-jī ê su-khan (kan-na ē-tàng tī lāi-tóe khòaⁿ, iáⁿ-ìn), jiân-āu siat-li̍p chi̍t-ê kong-lêng chin kán-tan ê bāng-chām, ùi 2007 nî 6 go̍eh khai-sí chèng-sek chiūⁿ-sòaⁿ.

建立台語文記憶網站,需要夠額ê網頁空間。資料蒐集需要開bōeê時間;scan ê部分,若是烏白ê請影印店用至少300 dpi ê解析度scanPDF格式檔案,而且需要書拆開,若是彩色ê,請工讀生scan會比請影印店khah省錢,m̄-koh需要注意ê是,每一頁大細愛一致。Scan的圖形檔案,最後lóngtàng轉做JPG iahPNG格式檔案上網。

Kiàn-li̍p Tâi-gú-bûn kì-e̍k bāng-chām, su-iàu kàu-gia̍h ê bāng-ia̍h khong-kan. Chu-liāu so͘-chi̍p su-iàu khai bōe chió ê sî-kan; scan ê pō͘-hūn, nā-sī o͘-pe̍h--ê, tō chhiáⁿ iáⁿ-ìn-tiàmiōng chì-chió 300 dpi ê kái-sek-tō͘ scan chò PDF keh-sek tóng-àn, jî-chhiáⁿ su-iàu kā chu thiah-khui, nā sī chhái-sek--ê, chhiáⁿ kang-tho̍k-seng scan ē pí chhiáⁿ iáⁿ-ìn-tiàm khah séng-chîⁿ, m̄-koh su-iàu chù-ì--ê sī, múi chi̍t ia̍h tōa-sè ài it-tì. Scan ê tô͘-hêng tóng-àn, chōe-āu lóng ē-tàng chóan-chò JPG iah sī PNG keh-sek tóng-àn chiūⁿ-bāng.

實際ê經驗,ùi蒐集到scan、轉檔上網,平均一頁ê成本是5 kho͘以上。

Si̍t-chè ê keng-giām, ùi so͘-chi̍p kàu scan, chóan-tóng chiūⁿ-bāng, pêng-kun chi̍t ia̍h ê sêng-pún sī 5 kho͘ í-siōng.

後來,這個計畫tī 2008年得著大漢技術學院60,000 kho͘ ê經費支持。

Āu-lâi, chit-ê kè-ōe tī 2008 nî tit-tio̍h Tāi-hàn Ki-su̍t Ha̍k-īⁿ 60,000 kho͘ ê keng-hùi chi-chhî.

 

4.     台語文記憶系統ê工作流程、功能kah技術 Tâi-gú-bûn kì-e̍k hē-thóng ê kang-chok liû-thêng, kong-lêng kah ki-su̍t

台語文記憶系統ê網址tī http://iug.csie.dahan.edu.tw/memory/TGB

Tâi-gú-bûn kì-e̍k hē-thóng ê bāng-chí tī http://iug.csie.dahan.edu.tw/memory/TGB .

這個系統,關係資料蒐集整理ê部分,工作流程是:

Chit-ê hē-thóng, koan-hē chu-liāu so͘-chi̍p chéng-lí ê pō͘-hūn, kang-chok liû-thêng sī :

(1)   蒐集資料(家己ê書櫥、圖書館、朋友);

(2)   烏白ê書刊交影印店拆開scan,彩色ê請工讀生一頁一頁scan,解析度用300 dpi以上;

(3)   影像轉做JPG iahPNG格式檔案;ùi PDF格式轉換ê時陣,頁碼會照實際情形補適當ê “0”[7] 所以請工讀生處理ê影像,圖形檔案號名方式愛一致,補適當ê “0”,方便後壁ê處理;

(4)   圖形檔案khǹg tī對應ê目錄內底;

(5)   資料庫檔案內底輸入這本書刊ê後設資料(metadata),包括書刊名、作/編者、出版者、年代、文字類別、檔案格式(JPG iahPNG);

(1)  So͘-chi̍p chu-liāu (ka-kī ê chu-tû, tô͘-su-kóan, pêng-iú);

(2)  O͘-pe̍h--ê su-khan kau iáⁿ-ìn-tiàm thiah-khui scan, chhái-sek--ê chhiáⁿ kang-tho̍k-seng chi̍t-ia̍h chi̍t-ia̍h scan, kái-sek-tō͘ iōng 300 dpi í-siōng

(3)  Iáⁿ-siōng chóan chòe JPG iah-sī PNG keh-sek tóng-àn; ùi PDF keh-sek chóan-ōaⁿ ê sî-chūn, ia̍h-bé ē chiàu si̍t-chè ê chêng-hêng pó͘ sek-tòng ê “0”, só͘-í chhiáⁿ kang-tho̍k-seng chhú-lí ê iáⁿ-siōng, tô͘-hêng tóng-àn hō-miâ hong-sek mā ài it-tì, pó͘ sek-tòng ê “0”, hong-piān āu-piah ê chhú-lí;

(4)  Kā tô͘-hêng tóng-àn khǹg tī tùi-èng ê bo̍k-lio̍k lāi-tóe;

(5)  Tī chu-liāu-khò͘ tóng-àn lāi-tóe su-ji̍p chit pún su-khan ê hiō-siat chu-liāu (metadata), pau-khoah su-khan-miâ, chok / pian-chiá, chhut-pán-chiá, nî-tāi, bûn-jī lūi-pia̍t, tóng-àn keh-sek (JPG iah-sī PNG);

台語文記憶系統ê web平台是Windows 2003 Server kah IIS 6ASP程式,後壁是Access資料庫。後設資料ê部分,因為書刊包含台語羅馬字,採用數字表示調號,顯示ê時陣chiah透過轉換程式數字改做調符。

Tâi-gú-bûn kì-e̍k hē-thóng ê web pîⁿ-tâi sī Windows 2003 Server kah IIS 6, ASP têng-sek, āu-piah sī Access chu-liāu-khò͘. Hiō-siat chu-liāu ê pō͘-hūn, in-ūi su-khan pau-hâm Tâi-gú Lô-má-jī, chhái-iōng sò͘-jī piáu-sī tiāu-hō, hián-sī ê sî-chūn chiah thàu-kè chóan-ōaⁿ têng-sek kā sò͘-jī kái chòe tiāu-hû.

書刊ê數量會愈來愈chōe,相對愈需要查詢系統ê協助。「檢索查詢」ê部分,會tàng用書刊名、作/編者、出版者、年份等等ê欄位來查詢,sái用文字形式來查詢,分白話字、漢羅、漢字、假名、其它五類。

Su-khan ê sò͘-liōng ē jú lâi jú chōe, siong-tùi jú su-iàu chhâ-sûn hē-thóng ê hia̍p-chō͘. “Kiám-sek chhâ-sûn” ê pō͘-hūn, ē-tàng iōng su-khan miâ, chok / pian-chiá, chhut-pán-chiá, nî-hūn téng-téng ê nôa-ūi lâi chhâ-sûn, mā ē-sái iōng bûn-jī hêng-sek lâi chhâ-sûn, pun pe̍h-ōe-jī, Hàn-lô, Hàn-jī, Kana, kî-tha gō͘ lūi.

ê使用者可能無特別beh查詢ê書刊,所以系統提供「隨機選閱」ê功能,利用亂數(random number)自動揀一份書刊hō͘使用者看。

Ū ê sú-iōng-chiá khó-lêng bô te̍k-pia̍t beh chhâ-sûn ê su-khan, só͘-í hē-thóng mā thê-kiong “sûi-ki sóan-o̍at” ê kong-lêng, lī-iōng lōan-sò͘ (random number) chū-tōng kéng chi̍t-hūn su-khan hō͘ sú-iōng-chiá khòaⁿ.

少部分書刊有限制瀏覽ê頁數,主要原因是版權問題,有ê是資料提供者ê要求。技術上,利用程式來控制。

Chió pō͘-hūn su-khan ū hān-chè liû-lám ê ia̍h-sò͘, chú-iàu gôan-in sī pán-kôan būn-tôe, ū ê sī chu-liāu thê-kiong-chiá ê iau-kiû. Ki-su̍t siōng, lī-iōng têng-sek lâi khòng-chè.

使用者每點選一份書刊、一個頁面,系統lóng記錄起來。主畫面頂面會列出有幾份書刊資料,倒pêng會列出系統上線幾工,使用者lóng總點選幾頁次,平均一工hōng點選幾頁次,lóng是系統自動計算ê

Sú-iōng-chiá múi tiám-sóan chi̍t-hūn su-khan, chi̍t-ê ia̍h-bīn, hē-thóng lóng ē kā kì-lio̍k --khí-lâi. Chú ōe-bīn téng-bīn ē lia̍t-chhut ū kúi-hūn su-khan chu-liāu, tò-pêng ē lia̍t-chhut hē-thóng chiūⁿ-sòaⁿ kúi-kang, sú-iōng-chiá lóng-chóng tiám-sóan kúi ia̍h-chhù, pêng-kun chi̍t-kang hōng tiám-sóan kúi ia̍h-chhù, lóng-sī hē-thóng chū-tōng kè-sǹg --ê.

 

5.    結論、問題kah展望 Kiat-lūn, būn-tôe kah tián-bōng

2008/12/29為止,已經上網567本、27,245ê台語文書刊(包括三本客語ê),使用者點選超過127萬頁次,平均一工2,200外頁次,這說明這個系統有存在ê必要。

Kàu 2008/12/29 ûi-chí, í-keng chiūⁿ- bāng 567 pún, 27,245 ia̍h ê Tâi-gú-bûn su-khan ( pau-khoah saⁿ-pún Kheh-gú --ê ) , sú-iōng- chiá tiám-sóan chhiau-kè 127 bān ia̍h-chhù, pêng-kun chi̍t-kang 2,200 gōa ia̍h-chhù, che soat-bêng chit-ê hē-thóng ū chûn-chāi ê pit-iàu.

本文主要介紹一個一開始無得著任何研究經費支持ê台語文數位典藏系統,來說明只要咱有心,kan-na有一sut-á資源,tàng做出bōe bái ê成果。

Pún-bûn chú-iàu kài-siāu chi̍t-ê chi̍t-khai-sí bô tit-tio̍h jīn-hô gián-kìu keng-hùi chi-chhî ê Tâi-gú-bûn sò͘-ūi tián-chông hē-thóng, lâi soat-bêng chí-iàu lán ū sim, tō sǹg kan-na ū chi̍t-sut-á chu-gôan, mā ē-tàng chòe chhut bōe bái ê sêng-kó.

一份珍貴ê台語文資料,設使kan-na khǹg tī家己ê書櫥內底,會tàng發揮ê功效chiâⁿ有限,若是已經無版權問題iahkhah早期ê資料,因為oh chhēkhǹg tī網站頂面顛倒有機會hō͘ koh-khah chōe人來使用,促成台語文相關研究ê發展。

Chi̍t hūn tin-kùi ê Tâi-gú-bûn chu-liāu, siat-sú kan-na khǹg tī ka-kī ê chu-tû lāi-tóe, ē-tàng hoat-hui ê kong-hāu chiâⁿ iú-hān, nā-sī í-keng bô pán-kôan būn-tôe iah-sī khah chá-kî ê chu-liāu, in-ūi oh chhē, khǹg tī bāng-chām téng-bīn tian-tò ū ki-hōe hō͘ koh-khah chōe lâng lâi sú-iōng, chhiok- sêng Tâi-gú-bûn siong-koan gián-kiù ê hoat-tián.

希望作/編者願意授權提供伊ê作品,kā chia ê資料當做台灣人ê公共財。我相信,絕大多數ê人,做台語文khang-khè是為著經濟利益,是為著台灣ê文化利益。

Lán mā hi-bāng chok / pian-chiá gōan-ì siū-kôan thê-kiong i ê chok-phín, kā chia ê chu-liāu tòng-chòe Tâi-ôan-lâng ê kong- kiōng-châi. Góa siong-sìn, cho̍at tōa-to-sò͘ ê lâng, chò Tâi-gú-bûn khang-khè pēng m̄-sī ūi-tio̍h keng-chè lī-ek, sī ūi-tio̍h Tâi-ôan ê bûn-hòa lī-ek.

因為資源chiâⁿ有限,咱愛承認,台語文記憶系統iah-koh有真chōe不足ê所在,包括:

In-ūi chu-gôan chiâⁿ iú-hān, lán mā ài sêng-jīn, Tâi-gú-bûn kì-e̍k hē-thóng iah-koh ū chin chōe put-chiok ê só͘-chāi, pau-khoah:

·        為著減省經費,無完全遵照數位典藏ê相關規範來處理影像;

·        系統ê查詢功能iah無真完整;

·       

·        Ūi-tio̍h kiám-séng keng-hùi, bô ôan- chôan chun-chiàu sò͘-ūi tián-chông ê siong-koan kui-hōan lâi chhú-lí iáⁿ- siōng;

·        Hē-thóng ê chhâ-sûn kong-lêng iah bô chin ôan-chéng;

·       

台語文記憶系統behê khang-khè當然iah未結束,因為iah-kohchōe-chōe ê台語文書刊無包含內底。這個系統kohbehê,包括:

Tâi-gú-bûn kì-e̍k hē-thóng beh chòe ê khang-khè tong-jiân iah-bē kiat-sok, in-ūi iah-koh ū chōe-chōe ê Tâi-gú-bûn su-khan bô pau-hâm tī lāi-tóe. Chit-ê hē-thóng koh siūⁿ beh chòe--ê, pau-khoah:

·        繼續蒐集台語文書刊資料,歡迎逐家提供;

·        Kè-sio̍k so͘-chi̍p Tâi-gú-bûn su-khan chu-liāu, mā hoan-gêng ta̍k-ke thê-kiong;

·        改進頂面講著ê欠點;

·        Kái-chìn téng-bīn kóng--tio̍h ê khiàm- tiám;

·        處理版權問題;

·        Chhú-lí pán-kôan būn-tôe;

·        引進iah是利用類似Google books ê OCR檢索技術,提供影像資料ê全文檢索;

·        Ín-chìn iah-sī lī-iōng lūi-sū Google books ê OCR kiám-sek ki-su̍t, thê-kiong iáⁿ-siōng chu-liāu ê chôan-bûn kiám-sek;

·        利用Ajax[8]技術,hō͘影像ê縮小、放大、sóa位好操作,hō͘使用者瀏覽koh-khah利便;

·        Lī-iōng Ajax ki-su̍t, hō͘ iáⁿ-siōng ê sok-sió, hòng-tōa, sóa-ūi hó chhau-chok, hō͘ sú-iōng-chiá liû-lám koh-khah lī-piān;

·        詳細定義台語文書刊數位典藏ê後設資料;

·        Siông-sè tēng-gī Tâi-gú-bûn su-khan sò͘-ūi tián-chông ê hiō-siat chu-liāu;

·        頁數khah chōe ê書刊愛另外整理目錄(索引),thang ùi目錄連結到對應ê頁數,方便使用者查詢;

·        Ia̍h-sò͘ khah chōe ê su-khan ài lēng-gōa chéng-lí bo̍k-lo̍k(sek-ín), thang ùi bo̍k-lo̍k liân-kiat kàu tùi-èng ê ia̍h-sò͘, hong-piān sú-iōng-chiá chhâ-sûn;

·        若是有khah充足ê經費,將chia ê資料phah字建立電子檔,thang做進一步ê運用。

·        Nā sī ū khah chhiong-hun ê keng-hùi, chiong chia ê chu-liāu phah-jī kiàn-li̍p tiān-chú-tóng, thang chò chìn-chi̍t-pō͘ ê ūn-iōng.

Ǹgchia ê phah拚,thang hō͘台語文運動kah台語文相關研究koh-khah發展。

Ǹg-bāng chia ê phah-piàⁿ, thang hō͘ Tâi-gú-bûn ūn-tōng kah Tâi-gú-bûn siong-koan gián-kiù koh-khah hoat-tián.

 

感謝 Kám-siā

本計畫接受大漢技術學院新台票6kho͘ ê補助,計畫編號是「97教補款研字第9700007號」,特別tiàm chia表示感謝。

Pún kè-ōe chiap-siū Tāi-hàn Ki-su̍t Ha̍k-īⁿ Sin-tâi-phiò 6 bān kho͘ ê pó͘-chō͘, kè-ōe pian-hō sī “97教補款研字第9700007”, te̍k-pia̍t tiàm chia piáu-sī kám-siā.

 

 


參考書目 Chham-khó su-bo̍k

[Chhoa &] 蔡永橙、黃國倫、邱志義等,2007,《數位典藏技術導論》,台北:國立台灣大學

[Iun] 楊允言,2007,〈台語白話文學ê全新表現──台語文數位典藏資料庫計畫簡介〉,《台灣文學館通訊》第15p20-22,台南:國家台灣文學館

[Iun &] Iun Un-gian& Henry H. Tan-Ten,〈A Survey of Media and Data Processing Development for Written Taiwanese〉,Accepted by International Journal of the Sociology of Language, Special Issue on Taiwanese

[Li] 呂美親2008〈天書e台語白話字文獻數位典藏〉《數位島嶼電子報》22http://content.ndap.org.tw/main/epaper_detail.php?doc_id=1168&epaper_id=42 (2008/9/30 lia̍h ê)

[Raymond] Raymond G. Gordon, Jr., ed., 2005 Ethnologue : Languages of the world, Texas : SIL International

[Tan] 陳威志,2008,〈跟世界接軌的方式:「台灣白話字」〉,《數位島嶼電子報》32期,http://content.ndap.org.tw/index/?p=825 (2008/9/30 lia̍h ê)

 

 

相關網站(照羅馬字發音排) Siong-koan bāng-chām

閩客語典藏二期網站http://gigiantianchong.likulaw.info/ (2008/9/30 lia̍h ê)

閩南語典藏 http://southernmin.sinica.edu.tw (2008/9/30 lia̍h ê)

美國記憶 http://memory.loc.gov/ammem/index.html (2008/9/30 lia̍h ê)

Google圖書搜尋 http://books.google.com.tw/ (2008/9/30 lia̍h ê)

日文舊籍數位典藏http://jdlib.ntl.gov.tw/ (2008/9/30 lia̍h ê)

內外科看護學http://lgkkhanhouhak.blogspot.com/ (2008/9/30 lia̍h ê)

數位典藏國家型科技計畫 http://www.ndap.org.tw/ (2008/9/30 lia̍h ê)

台文通訊http://chhongbi.org/index2.html (2008/9/30 lia̍h ê)

台語網 http://groups.google.com/group/taigu (2008/9/30 lia̍h ê)

台語文記憶系統 http://iug.csie.dahan.edu.tw/memory/TGB/mowt.asp (2008/12/29 lia̍h ê)

台語文數位典藏資料庫(第二階段) http://www2.nmtl.gov.tw/dadwt/ (2008/7/30 lia̍h ê) http://iug.csie.dahan.edu.tw/nmtl/dadwt/ (2008/9/30 lia̍h ê)

TGB通訊http://taioanchouhap.myweb.hinet.net/0_TGB.htm (2008/9/30 lia̍h ê)

台語及客語現代文學專題網站 http://140.116.10.241/NCKUTaiWeb/View/index.aspx (2008/9/30 lia̍h ê)

台語信望愛網站 http://taigi.fhl.net/ (2008/9/30 lia̍h ê)

大學台語文選http://taigu.eic.nctu.edu.tw/education_db/taibun/index.htm (2008/6/30 lia̍h ê)

台灣記憶 http://memory.ncl.edu.tw/ (2008/9/30 lia̍h ê)

台灣白話字文獻資料館 http://140.122.80.250/pojbh/script/index.php (2008/9/30 lia̍h ê)

珍本聖經數位典藏http://bible.fhl.net/new/ob.html (2008/9/30 lia̍h ê)

 


 


1 台語文記憶系統畫面

 

2 檢索查詢畫面

 

3 台語文記憶系統內容實例



[1] http://chhongbi.org/index2.html

[2] http://lgkkhanhouhak.blogspot.com/

[3] http://bible.fhl.net/new/ob.html

[4] http://jdlib.ntl.gov.tw/

[5] http://taioanchouhap.myweb.hinet.net/0_TGB.htm

[6] http://taigu.eic.nctu.edu.tw/education_db/taibun/index.htm

[7]設使PDF檔名是“TGBKE.pdf”,有50頁,beh ùi PDF格式轉換做PNG格式,轉換後ê檔名是 “TGBKE_頁面_01.png” “TGBKE_頁面_02.png” “TGBKE_頁面_50.png”1~9 ê頭前會補一個“0”,若是有200頁,1~9頭前會補兩個“0”10~99頭前會補一個“0”

[8] Asynchronous JavaScript And XML

 

 

ungian 發表在 痞客邦 留言(1) 人氣()