「視点」2002.9

 一千年の責任


 薬師寺の西塔は、凍れる音楽として有名な東搭を模して1981年に再建された。西塔を見て、気がつくことがある。屋根の傾斜が小さい。東搭に較べると、なにか天に向かってそりかえっているようにもみえる。東搭にならったなら、同じ傾斜にした方が綺麗なのにと誰でも思う。それに対して、建てた宮大工は平然と言った。

「いや、なに、千年もすれば、同じになります」

 搭の本体からぐんとはりだした屋根は、木に支えられている。木は瓦の重みで年々しなっていく。そして千年。同じ角度となって落ち着くというのだ。

 最近、古文書や戦前の法文献など旧漢字を使うデータベースの作成を依頼されることがある。人類の遺産であるさまざまな文献資料をコンピュータの中に取り込んでいこうとする作業は、20世紀末から加速度的に拡がりだした。東アジア漢字文化圏では大多数の歴史資料が漢字で書かれているわけで、旧漢字文献をデータベースとすることの意味ははかりしれない。こうした歴史資料にいたる、ありとあらゆる資料が、コンピュータの高い検索能力の対象となることは、今後のネットワーク社会の大きな強みだろう。

 しかし、初期の「コンピュータに向くからコンピュータにいれる」のではなく、「コンピュータに向こうが、向くまいが、必要だからコンピュータにいれておく」という時代になって苦労も増えてきている。コンピュータは英語のために作られたと言っていい。コンピュータを日本語で扱うということ自身に、どだい無理がある。

 コンピュータと旧漢字は難物だ。その取り扱いについては方法がいくつかあるが、一番、一般的なのは新漢字にみんな置き換えてしまうことだろう。法文献のようなものはこれで充分だ。戦前と戦後を通じて文献検索を行うとき、文献と文獻が違ってしまったのでは、面倒この上ない。これは文献に統一した上でデータベースにするのが合理的だろう。

 が、このやり方では直ちに限界が露呈する。たとえば、人名はどうする。斎藤氏と齋藤氏は同一人物だろうか。齋藤氏は「斉藤」とデータベース上で書かれたらあるいは激怒するかもしれない。ましてや、中国語の古典文献をデータベースにするとき、新漢字やJIS漢字(第一第二水準)だけで、データペースを作るなど不可能だ。それではと、多くの漢字を取り扱うことのできるコード体系を選択することになるのだが、これが一筋縄ではいかない。

 データベース作成のさい、どのコードを選ぶかは将来の利便性を甚だしく規定する。いったん、あるコードで作られてしまったら、それを変換するのは至難だ。JIS内ですら、バージョンによって規定する漢字が違う現在、膨大な異体字を含む旧漢字のすべてを規定するコードなどないからだ。千年後とは言わないまでも、百年後一体どんなコード体系が主流となっているかがわかれば、そのコードに即して書けばいいのだが、それは誰も知ることはない。特定のコード体系(たとえば、ユニコード)に熱狂的な信者はいるにしても、彼らの政治的主張と将来の実際の運用はまったく別物だろう。  とりあえず、現在は共通認識として使えるコードがないので、諸橋徹司の大漢和辞典(日本に限らず、世界最大級の漢和辞典。清朝の康煕字典より収録字数は多い)の検字番号をいれて<>でくくっておく。あるいは、そこにインライングラフィックスとして文字そのものを画像として貼り込んでしまう。前者はそのままでは字が見えないし、後者では検索が不可能だ。どちらにしてもデータベースとしては致命的な欠陥を抱えていることになる(諸橋の大漢和方式の方は、ブラウザ上で表示するシステムはある)。欠陥を抱えてはいても、百年後、二百年後の研究者に「こんな欠陥だらけのデータベースをつくりやがって」と毒づかれるよりはましということなのだろうか。

 研究者が現在の利便性よりも将来の整合性を重用視するのは、それだけ責任が重いからだ。漢字情報に限ったことではないが、後世からみれば、現在作られているデータベースは極めて基幹的な物となる。今後作られていく物がどのように保存されていくかはわからないが、現在データベースとして作られている物は、どのような分野にせよ「古典」である。おそらく「古典」である以上、一千年後もその価値はそれほど減じるまい。

 もちろん、データそのものの形式や検索システムは大いに変容してしまうだろう。だいたい、千年後に人類が存続しているかどうかの保証もない。千年後を考えることなど、無意味と言われるかも知れない。しかし、印刷屋の立場から言わせてもらえるならば、コンピュータ関係者の時間認識は短すぎる。コンピュータの動作がミリセカンドを相手にしているからだろうが、データということの永続性、重要性に気がついていない。

 コンピュータ以前の紙媒体やさらにそれ以前の羊皮紙媒体の保存性は数百年、数千年を超越する。なにより内容自体が印刷物となって影響力を持ち続けている事実には驚嘆せざるを得ない。旧約聖書は二千年以上さかのぼるし、仏教教典は、インドの原本から何度も複写や翻訳を重ねながら現代の日本に伝えられている。ギリシャの哲学書も何千年も読み継がれている。プラトンは自分の書いた物が二五〇〇年も残るとは思ってもいなかっただろう。

 なにより今は、紙文明からネットワーク文明への歴史上かつてない転換点なのだ。歴史の転換点において、あやまった決断から、現在まで混乱が及んでいる例は枚挙にいとまがない。ことコンピュータ史にかぎってみても、歴史が規定する混乱は数多い。当初のアスキーコードやJIS漢字コードが当時のコンピュータシステムの能力や互換性にもとづいたために、現在では非常に使いずらい物となっていたのが一例だ。メートル法全盛の今、たまたまコンピュータが発明されたのがアメリカだったために、コンピュータの世界ではヤードポンド法が支配しているのもそうだろう。われわれのデータベースは、今、たとえばヤードポンド法で作ってしまっていないだろうか。

 繰り返す。21世紀初頭のデータベース製作は責任が重い。いったん作られてしまえば、よほどの不備がない限り、それは使われ続けるだろう。たとえ、少々の瑕疵があっても、使わざるを得ないのだ。瑕疵があるとわかっていても、実際にできてしまっている以上、簡単には作り直しのための予算がつかないだろう。そのうちその瑕疵は歴史の彼方に忘れ去られ、それは、正しい物として権威となり、一千年、ドグマとして君臨し続けるということになるかもしれない。一千年後そのデータベースの瑕疵を発見した研究者はなんといって、嘆くことだろうか。

 今、作られている多くのデータベースは、それこそ、すべてのベースとなる。今あるデータベースを元にして新しいデータが付け加えられて発展し、そのデータベースを組み合わせてあらたなデータベースが作られていく。その一箇所にでも間違いが、その一箇所にでも設計ミスがあれば、それは、そのまま発展し拡大していくだろう。それだけ責任の重い地点にいるのだ。であればこそ、慎重すぎるぐらい、慎重に、正確さには念をいれて、作らねばならない。

 数十年前につくられたサブルーチンの一箇所のバグが社会に大混乱をひきおこす。それは西暦2000年前後、われわれはさんざんに経験した。そして、今つくられるデータべースの一箇所のあやまりは、数百年後数千年後どんなかたちで、人類社会に報復してくるかもわからないのだ。

初出:科学技術振興機構発行「情報管理」

メニュー画面へ戻る