本記事は生成AIと共同で執筆しています。事実関係は可能な範囲で公式ドキュメント等と照合していますが、誤りが含まれている可能性があります。重要な判断を行う前にご自身でも一次情報をご確認ください。
対象:人文学・歴史学・図書館情報学などで、Wordで書いた原稿をTEI/XMLにしてみたい方。プログラミングの知識は不要です。
TEI Tools は、Microsoft Word(.docx)文書を TEI/XML に変換したり、手元の TEI/XML ファイルを可視化したりできる、ブラウザだけで動くツールです。東洋文庫が公開しており、ライセンスは MIT、ソースコードも公開されています。
背景
TEI(Text Encoding Initiative) は、人文学のテキストをデジタルで構造化するための国際標準です。図書館・博物館・学術研究で広く使われていますが、TEI/XML を一から手書きするにはマークアップの知識が必要で、最初のハードルが高いのが実情です。
そこで使われるのが、Word 文書から TEI/XML への変換ツールです。代表的なものに TEI Garage(旧 OxGarage)があります。TEI Tools は、この TEI Garage の変換 API を呼び出しつつ、変換と確認に機能を絞った、シンプルなブラウザツールです。ビルドも不要で、docs/ 以下を静的配信するだけで動きます。
2つの機能
トップページには 2 つのカードが並びます。左が「DOCX → TEI 変換」、右が「TEI/XML ビューワ」です。

それぞれ順に見ていきます。
DOCX → TEI 変換
変換ページでは、Word 文書をドラッグ&ドロップするか、クリックしてファイルを選びます。ツール内にサンプルの .docx が内蔵されているので、自分のファイルがなくてもすぐ試せます。

ファイルを選ぶと、グレーアウトしていた「変換する」ボタンが有効になります。ボタンを押すと、ファイルが TEI Garage の API に送信され、数秒で TEI/XML に変換されます。
変換は外部の TEI Garage API に依存します。サンプル .docx での実測では HTTP 200 で約 2 秒、6 KB ほどの TEI/XML が返ってきました。ネットワーク状況によって時間は前後します。
変換結果を見る
変換結果には 2 つのタブがあります。
XML タブ
XML タブでは、変換された TEI/XML が構文ハイライト付きで表示されます。タグ・属性・テキストが色分けされ、ルート要素が <TEI> から始まる TEI 文書になっていることが確認できます。

プレビュータブ
プレビュータブに切り替えると、CETEIcean というライブラリが TEI/XML を読みやすいレイアウトに整形して表示します。CETEIcean は TEI 要素を tei-* というカスタム HTML 要素に変換し、CSS で見た目を与える仕組みです。

<note> などの注釈にマウスを重ねると、内容がポップアップで表示されます。脚注付きの文書でも、本文を追いながら注を確認できます。
結果を持ち出す
変換結果は、結果領域の右上にある 2 つのボタンで手元に持ち出せます。
- コピー: TEI/XML をまるごとクリップボードにコピーします。エディタにそのまま貼り付けられます。
- ダウンロード: 結果を
.xmlファイルとして保存します。ファイル名は元の Word 文書の名前が引き継がれます。
TEI/XML ビューワ
もう一つの機能が、TEI/XML ビューワです。すでに手元にある TEI/XML ファイルをアップロードして可視化できます。こちらにもサンプルの TEI/XML が内蔵されています。

表示の仕組みは変換ページと共通で、構文ハイライトの XML タブと CETEIcean プレビューの 2 タブで内容を確認できます。変換した TEI/XML を手で編集したあと、表示が崩れていないか確かめる、といった使い方ができます。
言語切替とダークモード
ヘッダーのボタンで、UI まわりの設定を変更できます。
- 言語ボタン: 画面表示を日本語と英語で切り替えます。ボタンやラベルがまとめて切り替わります。
- テーマボタン: 表示テーマを Auto → Light → Dark の順で切り替えます。設定はブラウザに記憶されます。

使うときの注意点
ツール内の説明にも明記されていますが、TEI/XML にはきわめて多くのタグがあり、どのタグをどう使うかはプロジェクトごとに異なります。そのため、TEI Garage による変換結果をそのまま研究プロジェクトで使えるとは限らず、用途に応じてタグの変更・追加といった調整が別途必要になる場合があります。
同じ理由で、ビューワも TEI Garage 由来の TEI/XML を主に想定しています。タグ体系の異なる TEI/XML では、表示が一部崩れることがあります。
それでも、「まず変換ツールでたたき台を作り、ビューワで確認する」という流れを、インストールなしで手早く試せる点は、TEI/XML に触れる最初の一歩として有用です。
まとめ
TEI Tools は、Word 文書から TEI への変換と、TEI/XML の可視化を、ブラウザだけで完結できるツールです。サーバの用意もインストールも不要で、サンプルファイルが内蔵されているため、TEI/XML に馴染みがない方でもすぐに変換結果を体験できます。
動画版(生成AIによる自動生成): 本記事の操作をデモ動画にまとめています。Playwright による自動操作と Azure TTS のナレーションで構成しており、自動生成のため内容に誤りが含まれる可能性があります。正確な情報は記事本文をご参照ください。
参考リンク
- TEI Tools デモ: https://toyo-bunko.github.io/tei-tools/
- TEI Tools リポジトリ: https://github.com/toyo-bunko/tei-tools
- TEI Garage: https://teigarage.tei-c.org/
- CETEIcean: https://github.com/TEIC/CETEIcean
- Text Encoding Initiative: https://tei-c.org/


コメント
…