33. 日本語は日本語のままで — OCLCのCJKシステム

2008/02/27 egamiday 未分類

　OCLCでCJK（中国語・日本語・韓国語の総称）データの取扱いが始まったのは、1986年のことです。それまではアルファベット（ラテン文字）しか取り扱えなかったOCLCの書誌データベースにも、それ以降徐々にCJKデータが登録されるようになり、そのためのシステムも進化し続けてきました。
　2008年2月現在、WorldCatに収録されている日本語資料の書誌レコードは約248万件、そのうち日本語・日本文字データを含むのは約220万件。OCLCの業務用目録システムであるConnexion Clientでも、一般公開されているWebデータベースのWorldCatでも、日本語・日本文字は入力されたままに表示されていますし、検索も可能です。

　日本語書誌の例
　http://worldcat.org/oclc/123166424

　OCLCで過去約25年にわたってCJKシステムの構築に携わってこられた小鷹久子さんにお話をうかがう機会を得ました。

　日本で病院図書館の開設に携わった小鷹さんは、オハイオ州立大学で日本語図書の整理を担当しておられた際、日本語図書についての書誌データが原綴（元の言語のままでのデータ表記）でないことに疑問を感じておられたそうです。そして、1983年にRLG（Research Library Group：アメリカの研究図書館によるグループで、2006年OCLCに統合）がRLIN（RLGの書誌目録データベース）をCJK対応したという発表を聞き、OCLCでも必ずこのCJK取扱いが大きな問題となるはずだと考え、OCLCに移り、以降CJKシステム構築の中心メンバーとして開発・改良に携わってこられました。
　当時、RLINで使われていた目録用端末では、キーボード上に漢字の部首などが並びそれを組み合わせて入力するという、CJK専用の機器が使われていましたが、1986年にOCLCが提供開始した目録用端末は、標準の端末にCJK文字を取り扱うためのECIボードを組み込み、アルファベットのキーボードのままでヨミなどからCJK文字が入力可能、というものでした。標準の目録用端末をそのまま使えるという利点はあったものの、やはり専用ボードを要するためコストが高く、当初は10館ほどの東アジア研究図書館のみによる試用からスタートしました。
　その後、図書館全体のデータベース化が進み、どの図書館でもCJK資料の処理だけをいつまでも先延ばししておくわけにはいかなくなったこと。ハーバード・イェンチン図書館などの大規模館が参加するようになったこと。CJKワープロ機能など、ユーザ館のニーズに応えるシステムをOCLCで開発していったことなどから、次第にCJKレコードの規模も参加館も増えるようになってきたとのことです。

　1991年、初めてWindows端末を見せられた小鷹さんは、Windows対応の目録システムに着手し始めました。CJK言語とWindowsシステム、ともにグラフィカルであるという共通点から、CJKがWindows対応システム開発の実験台となったようです。OCLCにCJK User Groupが発足したのもちょうどこの年でした。1992年、CJKPlusというWindows用アプリケーションが開発されましたが、当時はまだWindows自体が普及しておらず、その使い方からCJKユーザに伝えていく、といった段取りもあったそうです。またその間、CJKユーザの協力と要望を受けながら、カード目録印刷機能、オンラインCJK辞書、オンラインヘルプなどが開発されていきました。
　1998年に発表された「OCLC Access suite」は、それまでのような目録専用端末を使うことなく、Windows機にインストールすることで利用できる目録システムアプリケーションソフトでした。参加メンバーであれば無料で受け取れるこのソフトには、CJK目録取扱い用ソフトやCJK書誌データをローカルで表示できるソフトもデフォルトで含まれており、これによりCJKユーザだけが別途費用を負担したりシステムを追加したりということが不要になりました。
　その後、ホストシステムの改造に伴い、2002年からConnexionという目録作成システムが用いられています。そのWidows型のプログラムに移行したCJK機能では、文字入力にMS-IMEが採用されています。これは、どの図書館でも少ない端末で複数の言語を取り扱う必要があるという現状を鑑み、Windows機であればどの言語でも取扱いができるように、とのことからだそうです。

　1995年、早稲田大学が日本語書誌レコードを一括して提供し、以降計3回の一括提供、2004年からは月1回の定期的な提供が行なわれています。2007年1月までに早稲田大学からOCLCに提供された書誌レコードは約75万件に及んでいます。そのデータの変換・転送には、日本側代理店である紀伊国屋書店が携わったとのことでした。その紀伊国屋書店は現在、米国のいくつかの東アジア図書館に対して、図書現物の納品とともに書誌レコードを作成・提供するというサービスも行なっているようです。1996年にはハーバード・イェンチン図書館のカード目録による遡及入力がOCLCへの依頼という形で行われています。RLINとの書誌レコード交換により、TRCや慶応大学による日本語書誌レコードも収録されてきましたが、2007年にRLINのCJKレコードがすべて収録されて以降は、TRCからの定期的な書誌レコード提供も開始されています。いずれも、日米では書誌の作成要領や内容が異なるために編集を必要としますが、各図書館での業務軽減に大きく貢献していると言えるでしょう。
　OCLCの日本語書誌レコードは、同じ番号を持つMARCフィールドを2つ設け、一方に日本文字データ、もう一方にローマ字化されたアルファベットデータを記述するという形をとってきました。最近では、国際化・多言語サポートの広がりに伴い、この規制も緩和されてきています。また、RLINでは日本文字による書名などは単語ごとに分かち書きされていましたが、OCLCでは分かち書きがなされていません。現在の目録用システムであるConnexionではCJK文字1文字づつを”単語”とみなし、例えば「日本史学会誌」であれば「史学」でも「学会」でも「会誌」でも検索することが可能になっています。
　ただ、文字の取扱いには若干の問題が残ってもいます。例えば「江戸」という言葉を日本文字で検索しても書誌レコードはヒットしません。「戸」という字について、日本文字で一般的な「戸」（上の棒が横一直線）ではなく、上の棒が左肩下がりの「戸」が使用されているためです。これは、ALA内のグループによって、JACKPHY（日本語、アラビア語、中国語、韓国語、ヘブライ語）文字についてはUnicode文字すべてを使うのではなく、従来用いられていたMARC-8と呼ばれる文字集合のみを用いる、というルールが決められたことによるそうです。したがってMARC-8内に含まれていない日本文字の「戸」は使用されないことになります。OCLCのデータベース自体はUnicodeに対応していますが、記述に際して採用される漢字には制限がある、ということのようです。

　OCLCのCJKシステムの発展は、参加館である各東アジア研究図書館のライブラリアン・カタロガー、早稲田大学・紀伊国屋書店などの日本側参加館・代理店やそのカタロガー、OCLC内外のシステム開発者・ライブラリアンなど、たくさんの人々によるコラボレーションの賜物である、と言えるでしょう。
　また、小鷹さんのお話の中で、「書誌とは、現物に行き着くためのものであるから、現物を見ていない人が、書誌を見ただけでその現物を思い描くことができるように記述されなければならない。そのためには、規則に従って事実を記すというだけではなく、そこにどんな情報を収めるべきかについて考えなければならない。書誌作成はアート＆サイエンスである。」というお言葉が、とても印象的でした。