big5 ( 大五碼 ) , utf8 ( 統一碼)

開發”佛梅電子大藏經”不經不覺已超過十多二十年的光境, 回想當年還是視窗98年代, 當時的中文是用台灣大五碼 ( big5 ) 作為主導, 而大五碼只有約一萬三千多個中文字, 隨便選一部經嘗試, 不消一會便發現有很多古代漢字文字沒有辦法輸入.另一方面, 道平法師除了要求把佛經文字電腦化外更要把佛經以原來的風格展示出來. 這真是一個大問題 !

雖然經過十多年的時間, 電腦的技術一日千里, 文字編碼由大五碼轉成utf8 (是unicode-統一碼的其中種)作為主導. 在視窗2000/XP版本後 utf8 編碼把基本中文字增加到2萬多 (視窗7 更增加到超過十萬字). 我初次接觸 utf8 時有很大的冀望, 滿心以為可以用一個字碼表便可處理漢文佛經的編輯工作, 但經過詳細研究後, 發現 utf8 只是針對日常文書處理, 把繁簡體統一收錄,加上日本的平假名及上一些地方俚語甚至粗言穢語 (是為了警員錄口供之用). 但是對漢字古籍處理可說是沒有任何突破, 但是 utf8 是現時最流行的編碼, 而大五碼也開始慢慢淡出它的重要性, 把大五碼的佛經轉成 utf8 編碼保存下來已是必需的, 而且轉碼後也可減少造字的數字. 把大五碼轉成utf8編碼相對來說是一個比較簡易工作, 視窗 2000/XP 之後的版本後已有轉換功能. 但是從前造字表是沒有辦法自動轉換, 例如之前我們用 “^1FE53” 代表”犇”字, 在 utf8 中”犇”字內碼是 “7287”. 所以要用人手再製作另一個對應表做第2次轉換. 但是有很多古字在 utf8編碼中還是沒有收錄的. 初步估計也超個一萬個古字沒有收錄在視窗的 utf8 中…..   問題尚未解決……