ホーム 記事一覧 ブック DH週間トピックス 検索 このサイトについて
English

TEI XMLのスタンドオフ注釈をインライン化する際の落とし穴とDOM操作による解決

デジタル延喜式は、延長5年(927年)に完成した律令の施行細則集『延喜式』を TEI (Text Encoding Initiative) XML で符号化し、Web上で閲覧・検索できるようにするプロジェクトです。国立歴史民俗博物館を中心に、校訂文・現代語訳・英訳を TEI でマークアップし、Nuxt.js(Vue.js)ベースのビューアで公開しています。 この開発の中で、TEI XML のスタンドオフ(standoff)注釈をインライン注釈に変換する処理において、XML の文書構造が崩壊するバグに遭遇しました。本記事では、その原因と DOM 操作ベースの解決策を記録します。 スタンドオフ注釈とは TEI XML では、テキスト中の校異(variant readings)を記録する方法として、スタンドオフ方式がよく使われます。デジタル延喜式では、複数の写本間のテキストの異同を <app> 要素で記録しており、テキスト中に <anchor> 要素で範囲を示し、対応する <app> 要素を別の場所に置く構造になっています。 <p> 前テキスト <anchor xml:id="app001"/> 校異対象のテキスト <anchor xml:id="app001e"/> 後テキスト </p> <!-- 別の場所に校異情報 --> <app from="#app001" to="#app001e"> <lem>校異対象のテキスト</lem> <rdg wit="#写本A">異なるテキスト</rdg> </app> この方式は、XML のネスト制約を回避できる利点があります。校異の範囲が要素境界をまたぐ場合(overlapping hierarchy)でも、anchor はどこにでも置けるためです。 インライン化の理由 XML ツリーと UI コンポーネントツリーの対応 デジタル延喜式のビューアは Vue.js で構築しています。Vue.js や React のようなコンポーネントベースのフレームワークでは、UI はツリー構造で記述されます。TEI XML もツリー構造なので、XML の各要素を UI コンポーネントに 1:1 でマッピングする再帰レンダリングが自然なアプローチになります。 <!-- TEI.vue: XML要素を再帰的にコンポーネントにマッピング --> <template> <component v-for="child in element.children" :is="getComponent(child.tagName)" :element="child" /> </template> この設計では、<app> 要素がテキスト中にインラインで存在すれば、ツリーの走査だけでレンダリングできます。 ...

Universal Viewer 4.xの「Unknown content type」エラーとローカルホスティングによる対処

Universal Viewer 4.xの「Unknown content type」エラーとローカルホスティングによる対処

発生した問題 Nuxt 3プロジェクトでIIIFマニフェストの画像を表示するために、Universal Viewer(UV)をiframeで埋め込んでいました。従来は外部の https://universalviewer.io/uv.html を参照していましたが、ある時点からビューアが表示されなくなりました。 ブラウザのコンソールには以下のエラーが出力されます。 SES Removing unpermitted intrinsics UV.js:2 Unknown content type 原因の調査 universalviewer.ioのリダイレクト まず確認したところ、universalviewer.io は universalviewer.dev にリダイレクトされるようになっていました。 <meta http-equiv="refresh" content="0; url=https://universalviewer.dev/uv.html"> リダイレクト先の universalviewer.dev/uv.html でも同じ「Unknown content type」エラーが発生します。公式サイト自体で問題が再現する状態でした。 埋め込み用HTMLの初期化方式の違い UV 4.xには2つのHTMLファイルが同梱されています。 uv.html:iframe埋め込み用。IIIFURLAdapter(true)(embeddedモード)で初期化 index.html:デモページ。IIIFURLAdapter()(通常モード)で初期化し、iiifManifestIdを明示的に渡す uv.htmlの埋め込みモードでは、IIIF Presentation API 2.0のマニフェストを読み込んだ際にコンテンツタイプの判定に失敗し、「Unknown content type」が発生するようです。 一方、デモページ(index.html)と同じ初期化方式を使うと正常に動作します。Netlifyにデプロイされた uv-v4.netlify.app で確認できました。 https://uv-v4.netlify.app/#?manifest=https://kokusho.nijl.ac.jp/biblio/200017711/manifest&cv=80 URLパラメータの形式 もうひとつの違いは、URLパラメータの渡し方です。 uv.html(埋め込み用):?manifest=...#?cv=...(クエリパラメータ+ハッシュ) index.html(デモ用):#?manifest=...&cv=...(ハッシュパラメータのみ) 動作する方式はハッシュパラメータのみで完結する形式でした。 対処方法 1. UV 4.2.1をローカルに配置 npmパッケージからUV 4.2.1の必要ファイルを public/uv/ に配置しました。 npm pack universalviewer@4.2.1 tar xzf universalviewer-4.2.1.tgz 最終的に必要なファイルは以下の4点です。 public/uv/ ├── umd/ # UV本体 + チャンクJS(約190ファイル) ├── uv.css # スタイルシート ├── uv.html # 埋め込みページ(カスタム版) └── uv-iiif-config.json # IIIF設定 cjs/、esm/、デモ用のindex.htmlやコレクションJSONは不要です。 ...

デジタル源氏物語 動画字幕プロジェクト:IIIF v3マニフェストによる多言語字幕の公開

デジタル源氏物語 動画字幕プロジェクト:IIIF v3マニフェストによる多言語字幕の公開

デジタル源氏物語の機能紹介動画に、日本語・英語の二言語字幕を付与し、IIIF v3マニフェストとして公開するプロジェクトを作成しました。 Demo: https://nakamura196.github.io/genji-movie/ GitHub: https://github.com/nakamura196/genji-movie 対象動画 以下の3本の機能紹介動画に字幕を付与しています。 動画 時間 内容 画像とテキストを一緒にみる 2:42 TEI & IIIFを活用したParallel Text Viewerの使い方 AI画像検索(改訂版) 4:19 くずし字OCRと類似度計算による写本画像の横断検索 パタパタ顔比較 1:38 vdiff.jsによる源氏百人一首の挿絵比較ツール 多言語字幕 各動画に日本語・英語のWebVTT字幕ファイルを用意しています。字幕は1文単位で分割されており、読みやすさを重視しています。 VTTファイルはそのままYouTubeの字幕としてもアップロードできます。 IIIF v3マニフェスト 各動画にIIIF Presentation API 3.0準拠のマニフェストファイルを作成しています。動画はpaintingのAnnotation、字幕はsupplementingのAnnotationとして記述しています。 { "annotations": [{ "type": "AnnotationPage", "items": [ { "type": "Annotation", "motivation": "supplementing", "label": { "ja": ["日本語"] }, "body": { "id": "https://example.com/ja.vtt", "type": "Text", "format": "text/vtt", "language": "ja" } }, { "type": "Annotation", "motivation": "supplementing", "label": { "en": ["English"] }, "body": { "id": "https://example.com/en.vtt", "type": "Text", "format": "text/vtt", "language": "en" } } ] }] } 複数のIIIF対応ビューアで表示可能 IIIF v3マニフェストを採用しているため、以下のIIIF対応ビューアで直接表示できます。 ビューア 動画再生 字幕表示 言語切替 備考 Player(本プロジェクト) ○ ○ ○ Web Speech APIによる読み上げ機能付き RAMP ○ ○ ○ AV資料に最も強い Theseus ○ ○ ○ IIIF対応の汎用ビューア Clover ○ ○ △ Samvera/Northwestern開発 Universal Viewer ○ △ - v4でAV対応改善 各ビューアへのリンクは、デモページの各動画カードに用意されています。 ...

CATMA:テキストアノテーション・分析プラットフォームの活用ガイド

CATMA:テキストアノテーション・分析プラットフォームの活用ガイド

はじめに デジタル・ヒューマニティーズ(DH)の研究において、テキスト分析は最も基本的かつ重要な手法の一つです。文学作品や歴史文書の構造的な分析を行うには、テキストに体系的なアノテーション(注釈付け)を施し、それを定量的に分析できる環境が必要です。 CATMA(Computer Assisted Text Markup and Analysis)は、ハンブルク大学の forTextLab が開発したWebベースのテキストアノテーション・分析プラットフォームです。プログラミングの知識がなくても、直感的な操作でテキストにタグを付け、分析を行うことができます。 CATMAの主な特徴 1. カスタムタグセット CATMAの最大の特長は、研究者が自由にタグセット(Tagset)を定義できることです。既存のマークアップ体系に縛られることなく、自分の研究目的に合わせたアノテーションスキーマを設計できます。 例えば、文学研究であれば「語り手の視点」「比喩表現」「登場人物の感情」といった独自のカテゴリを作成し、テキスト中の該当箇所にタグを付与できます。タグには階層構造を持たせることも可能で、大分類から小分類まで体系的に整理できます。 2. 協調作業への対応 CATMAはWebベースのプラットフォームであるため、複数の研究者が同じプロジェクトで共同作業を行えます。各研究者が独立してアノテーションを行い、それらを比較・統合することで、アノテーションの一致度(Inter-Annotator Agreement)を評価することも可能です。 これは特に、主観的な解釈が入りやすい人文学のテキスト分析において重要な機能です。複数の視点からのアノテーションを比較することで、分析の信頼性を高めることができます。 3. テキスト分析機能 アノテーションを施したテキストに対して、CATMAは様々な分析機能を提供します。 頻度分析: タグの出現頻度を集計し、テキスト全体の傾向を把握 分布分析: タグがテキスト内のどの位置に出現するかを視覚化 KWIC(Key Word in Context): 特定のキーワードやタグの前後の文脈を一覧表示 クエリ機能: 複数のタグやキーワードを組み合わせた高度な検索 4. GitLabベースのプロジェクト管理 CATMAの内部ではGitLabを利用してプロジェクトデータを管理しています。これにより、アノテーションの変更履歴が自動的に記録され、過去のバージョンに戻すことも可能です。研究のプロセスを透明に保つことができ、再現性の高い研究を実現できます。 実際の活用例 文学研究への応用 近代文学のナラティブ分析にCATMAを使用する例を考えてみましょう。小説テキストをアップロードし、「直接話法」「間接話法」「自由間接話法」といったタグセットを作成します。テキスト中の該当箇所にタグを付けていくことで、作品全体における語りの手法の分布を定量的に把握できます。 歴史文書の分析 歴史的な書簡や公文書の分析にも活用できます。「人名」「地名」「日付」「出来事」といったエンティティタグを定義し、文書中の情報を構造化することで、人物間の関係性や出来事の時系列を整理できます。 コーパス言語学 大量のテキストデータに対して一貫したアノテーションを施すことで、言語学的な分析の基盤を構築できます。品詞タグや統語構造のタグを適用し、言語使用のパターンを分析するといった使い方が可能です。 始め方 CATMAはWebブラウザからアクセスして利用できます。 CATMA公式サイトにアクセスし、アカウントを作成 新しいプロジェクトを作成し、分析対象のテキストをアップロード タグセットを定義(既存のテンプレートを利用することも可能) テキスト上でアノテーション作業を開始 分析機能を使ってデータを可視化・集計 注意点とヒント テキストはプレーンテキスト形式(UTF-8)でアップロードするのが最も安定します 大規模なテキストを扱う場合は、適切な単位に分割してからアップロードすることを推奨します タグセットの設計は分析結果に大きく影響するため、事前に十分な検討を行うことが重要です 共同作業を行う場合は、タグ付けのガイドラインを事前に作成しておくと、アノテーションの一貫性が向上します まとめ CATMAは、プログラミングスキルを必要とせずに高度なテキストアノテーションと分析を実現できる強力なツールです。カスタマイズ可能なタグセット、協調作業への対応、GitLabベースのバージョン管理など、研究者のニーズに応える機能が充実しています。テキスト分析をDH研究に取り入れたい方にとって、最適な出発点となるでしょう。

Datawrapper:研究者・ジャーナリストのためのデータ可視化ツール

Datawrapper:研究者・ジャーナリストのためのデータ可視化ツール

はじめに デジタルヒューマニティーズ(DH)の研究において、データの可視化は分析結果を伝えるうえで欠かせない手段です。しかし、D3.jsやPythonのMatplotlibなどを用いた本格的な可視化には、プログラミングの知識が必要になります。 Datawrapper は、コーディング不要でプロフェッショナルなチャート・地図・表を作成できるツールです。ジャーナリストや研究者を主な対象としており、The Washington PostやThe Guardianなどの大手メディアでも採用されています。 Datawrapperの主な特徴 20種類以上のチャートタイプ Datawrapperは棒グラフ、折れ線グラフ、散布図といった基本的なチャートから、ドーナツチャート、エリアチャート、レンジプロットなど多様な可視化形式をサポートしています。データの性質に合わせて最適な表現方法を選択できます。 コロプレスマップ 地理データの可視化にも対応しています。コロプレスマップ(階級区分図)やシンボルマップを作成でき、世界各国や各地域の地図テンプレートが用意されています。DHの文脈では、文化財の分布や歴史的な人口推移の地図表現などに活用できます。 レスポンシブ&アクセシブル 作成したビジュアライゼーションは自動的にレスポンシブデザインとなり、スマートフォンやタブレットでも適切に表示されます。また、スクリーンリーダーへの対応やキーボードナビゲーションなど、アクセシビリティにも配慮されています。 簡単なデータ入力 CSVやExcelファイルの直接アップロードに加え、Google Sheetsとの連携にも対応しています。データをペーストするだけで自動的にパースされるため、手軽に利用を始められます。 DH研究での活用例 テキストマイニング結果の可視化 文学作品のテキストマイニングで得られた語彙頻度や共起関係のデータを、棒グラフやヒートマップとして可視化できます。時代ごとの語彙変化を折れ線グラフで表現するなど、分析結果の直感的な理解を助けます。 歴史地理データの地図表現 歴史的な貿易ルート、文化的影響の伝播、遺跡の分布など、地理情報を含むデータをインタラクティブな地図として表現できます。Datawrapperのマップ機能は、GISソフトウェアほどの高度な機能はありませんが、プレゼンテーションや論文用の地図作成には十分な機能を備えています。 アンケート・調査結果の共有 DH関連のアンケート調査やデジタルアーカイブの利用統計を、見やすいグラフや表として公開できます。埋め込みコードを取得してWebサイトに配置するだけで、インタラクティブなビジュアライゼーションを共有可能です。 基本的な使い方 データの準備: CSVやスプレッドシートにデータを整理します チャートタイプの選択: 目的に合ったチャートタイプを選びます データのアップロード: ファイルをアップロードするか、データを直接ペーストします カスタマイズ: 色、フォント、ラベル、注釈などを調整します 公開・埋め込み: 完成したビジュアライゼーションを公開し、埋め込みコードを取得します 料金プラン Datawrapperには無料プランが用意されており、月に10件までのチャートを作成できます。研究機関や教育機関向けの割引プランも提供されています。無料プランでも基本的なチャートタイプと機能は利用可能で、個人研究やプロトタイピングには十分です。 他のツールとの比較 特徴 Datawrapper Tableau Public Google Charts コーディング不要 ○ ○ × レスポンシブ ○ △ ○ アクセシビリティ ○ △ △ 地図機能 ○ ○ ○ 無料プラン ○ ○ ○ まとめ Datawrapperは、プログラミングの知識がなくても高品質なデータ可視化を実現できるツールです。DH研究においては、分析結果のプレゼンテーションやWebでの公開において特に威力を発揮します。レスポンシブでアクセシブルなビジュアライゼーションを手軽に作成したい研究者やジャーナリストにおすすめです。 参考リンク Datawrapper 公式サイト Datawrapper Academy(チュートリアル) Datawrapper ブログ

Flourish:インタラクティブなデータストーリーテリングプラットフォーム

Flourish:インタラクティブなデータストーリーテリングプラットフォーム

はじめに データ可視化は、情報を伝えるための強力な手段です。しかし、静的なグラフだけでは、時系列の変化や複雑なストーリーを効果的に伝えることが難しい場合があります。 Flourish は、アニメーションやインタラクションを活用したデータストーリーテリングを実現するプラットフォームです。レースチャート(バーチャートレース)やアニメーション地図など、動きのある可視化を簡単に作成できます。BBCやGoogle、世界銀行などの組織でも採用されており、無料プランも用意されています。 Flourishの主な特徴 30以上のテンプレート Flourishは30種類以上のビジュアライゼーションテンプレートを提供しています。棒グラフや折れ線グラフなどの基本チャートに加え、以下のような特徴的なテンプレートがあります。 バーチャートレース: 時系列データのランキング変動をアニメーションで表現 アニメーション地図: 地理データの時間的変化を動的に可視化 インタラクティブストーリー: スライド形式でデータを段階的に説明 ネットワーク図: ノードとエッジの関係性を可視化 サンキーダイアグラム: フローの流れを表現 3Dマップ: 立体的な地図表現 データストーリーテリング Flourishの「Story」機能を使うと、複数のビジュアライゼーションをスライドのように組み合わせて、データを段階的に説明するストーリーを作成できます。プレゼンテーションや記事の中で、読者を段階的にデータの理解へと導けます。 コーディング不要 すべてのビジュアライゼーションは、ブラウザ上のGUIで作成できます。データをスプレッドシート形式で入力・アップロードし、テンプレートを選択してカスタマイズするだけです。プログラミングの知識は一切不要です。 埋め込みと共有 作成したビジュアライゼーションは、iframeで任意のWebサイトに埋め込めます。また、直接リンクでの共有やSNSでの共有にも対応しています。 DH研究での活用例 歴史データのアニメーション可視化 バーチャートレースを使って、歴史的なデータの推移をアニメーションで表現できます。例えば、各時代の都市人口ランキングの変遷や、貿易額の推移などを動的に可視化することで、歴史の流れを直感的に理解できます。 文化的ネットワークの可視化 ネットワーク図テンプレートを使って、著者間の引用関係、文化的影響の伝播、知識人のネットワークなどを可視化できます。ノードの大きさやエッジの太さでデータの重みを表現でき、インタラクティブに探索できます。 デジタル展示のストーリーテリング 博物館や図書館のデジタル展示において、Flourishのストーリー機能を活用して、コレクションのデータを段階的に紹介する展示コンテンツを作成できます。来館者がスクロールやクリックで展示を探索するインタラクティブな体験を提供します。 テキスト分析結果のプレゼンテーション テキストマイニングや自然言語処理の分析結果を、多彩なチャートやアニメーションで効果的にプレゼンテーションできます。学会発表やワークショップでのインパクトのある発表資料を作成できます。 基本的な使い方 テンプレートの選択: 目的に合ったテンプレートを選びます データの入力: スプレッドシート形式でデータを入力するか、CSVファイルをアップロードします カスタマイズ: 色、フォント、ラベル、アニメーション速度などを調整します プレビュー: 作成したビジュアライゼーションをプレビューで確認します 公開: 公開してURLを取得するか、埋め込みコードを生成します 料金プラン Flourishには無料のPublicプランがあり、公開プロジェクトを無制限に作成できます。ただし、無料プランで作成したビジュアライゼーションはすべて公開されます。非公開のプロジェクトを作成するには有料プランが必要です。 Datawrapperとの違い 特徴 Flourish Datawrapper アニメーション ○ × ストーリーテリング ○ × テンプレート数 30+ 20+ レスポンシブ ○ ○ アクセシビリティ △ ○ 無料プラン ○(公開のみ) ○(月10件) Flourishはアニメーションやストーリーテリングに強みがあり、Datawrapperはアクセシビリティやシンプルさに優れています。目的に応じて使い分けるのが効果的です。 ...

FromThePage:クラウドソーシングで歴史文書を翻刻する

FromThePage:クラウドソーシングで歴史文書を翻刻する

はじめに FromThePage(フロム・ザ・ページ)は、歴史的文書のクラウドソーシング翻刻(トランスクリプション)に特化したウェブプラットフォームです。ボランティアの協力を得て、手書き文書や活字資料をテキストデータに変換する作業を効率的に管理できます。 米国議会図書館(Library of Congress)やスミソニアン協会(Smithsonian Institution)をはじめとする世界中の図書館・博物館・文書館で採用されており、デジタル・ヒューマニティーズ(DH)における文書デジタル化の中核ツールとなっています。 FromThePageの主な機能 クラウドソーシング翻刻 FromThePageの最大の特徴は、大規模な翻刻プロジェクトをクラウドソーシングで実施できる点です。 翻刻ワークフロー:翻刻→レビュー→承認の段階的なワークフロー リッチテキストエディタ:MarkdownやWikiマークアップに対応 バージョン管理:すべての編集履歴を保持 ボランティア管理:翻刻者の貢献度追跡、バッジシステム IIIF対応 FromThePageは、IIIF(International Image Interoperability Framework)に完全対応しています。 # IIIFマニフェストのインポート例 https://example.org/iiif/manifest/12345 IIIFマニフェストのインポート:外部のIIIF対応リポジトリから画像を直接取り込み Mirador統合:IIIF画像ビューアMiradorとのシームレスな連携 IIIF Content Search API:翻刻テキストをIIIF検索APIで公開 IIIFマニフェストのエクスポート:翻刻済みテキストを含むマニフェストの出力 構造化データ入力 単純な翻刻だけでなく、構造化されたデータの入力にも対応しています。 機能 説明 フィールドベース翻刻 カスタムフォームで構造化データを収集 メタデータ入力 文書のメタデータをフィールドごとに記録 スプレッドシート翻刻 表形式データの翻刻に特化 マークアップ翻刻 TEI-XMLなどのマークアップ付き翻刻 OCR連携 手動翻刻だけでなく、OCR(光学文字認識)との連携機能も備えています。 OCR前処理:OCRの出力結果を翻刻の初期テキストとして利用 OCR修正ワークフロー:ボランティアがOCR結果を修正 HTR対応:手書き文字認識(Handwritten Text Recognition)との連携 導入事例 米国議会図書館 Library of Congressは、By the People(旧Transcribe)プロジェクトでFromThePageを活用し、数万件の歴史的文書をボランティアの力で翻刻しています。大統領の手紙、南北戦争の記録、女性参政権運動の文書など、多様な資料が対象です。 スミソニアン協会 Smithsonian Transcription Centerでは、FromThePageを基盤に、博物館コレクションの翻刻プロジェクトを運営しています。自然史標本のラベル、日記、フィールドノートなどが翻刻されています。 その他の機関 ハンティントン図書館:中世写本の翻刻 テキサス州立図書館:歴史的法律文書の翻刻 各大学図書館:特殊コレクションのデジタル化 技術的な特徴 エクスポート形式 翻刻結果は、さまざまな形式でエクスポートできます。 TEI-XML:人文学テキストの標準的なマークアップ形式 Plain Text:プレーンテキスト HTML:ウェブ公開用 CSV:構造化データの表形式出力 IIIF Manifest:IIIF対応ビューアでの表示用 ALTO XML:ページレイアウト情報付きテキスト API # FromThePage APIの利用例 curl -H "Accept: application/json" \ https://fromthepage.com/api/v1/collections RESTful APIにより、翻刻データのプログラムによる取得が可能です。 ...

Gephi Lite:ブラウザで使えるネットワーク可視化ツール

Gephi Lite:ブラウザで使えるネットワーク可視化ツール

TL;DR Gephi Lite は、ネットワーク可視化ツールとして定評のあるGephiのブラウザ版である。インストール不要で、GEXFファイルを読み込むだけでForceAtlas2レイアウト、コミュニティ検出、各種統計量の計算が可能である。人物関係、引用ネットワーク、共起ネットワークなど、DH研究で頻出するネットワーク分析に最適なツールである。 Gephi Liteとは Gephiは2008年に公開されたオープンソースのネットワーク可視化・分析ソフトウェアであり、「ネットワークのPhotoshop」とも呼ばれるほど広く利用されている。Gephi Liteはそのブラウザ版として開発され、デスクトップアプリのインストールなしにネットワーク分析を行えるようになった。 主な特徴は以下の通りである。 ブラウザで動作:WebGLを活用し、大規模ネットワークもスムーズに描画 ForceAtlas2レイアウト:Gephiの代表的なレイアウトアルゴリズムをブラウザ上で実行可能 コミュニティ検出:Louvain法によるコミュニティ(クラスタ)の自動検出 統計量の計算:次数中心性、媒介中心性、PageRankなどのネットワーク指標を算出 GEXF対応:Gephiのネイティブ形式であるGEXFファイルの読み込み・書き出しに対応 使い方 1. データの準備 ネットワークデータをGEXF形式で準備する。GEXFはXMLベースのグラフ記述フォーマットで、ノード(頂点)とエッジ(辺)の情報を含む。Pythonのnetworkxライブラリなどでプログラマティックに生成することも可能である。 <?xml version="1.0" encoding="UTF-8"?> <gexf xmlns="http://gexf.net/1.3"> <graph defaultedgetype="undirected"> <nodes> <node id="1" label="Person A"/> <node id="2" label="Person B"/> </nodes> <edges> <edge source="1" target="2" weight="3"/> </edges> </graph> </gexf> 2. ファイルの読み込み Gephi Lite にアクセスし、GEXFファイルをアップロードする。読み込みが完了すると、ネットワークが画面上に表示される。 3. レイアウトの適用 ForceAtlas2を実行すると、ノード間の引力と斥力に基づいて自動的にレイアウトが最適化される。関連性の高いノード同士が近くに配置され、ネットワークの構造が視覚的に明確になる。 4. 分析と可視化 ノードサイズ:次数やPageRankに基づいてノードサイズを変更し、重要なノードを強調 ノード色:コミュニティ検出の結果に基づいて色分けし、クラスタ構造を明示 フィルタリング:次数やウェイトに基づくフィルタで、重要な関係のみを表示 DH研究における活用例 書簡ネットワーク分析 歴史的な人物間の書簡データから、差出人・受取人をノード、書簡をエッジとしたネットワークを構築できる。中心性の高い人物を特定することで、知的交流のハブとなった人物を発見できる。 引用ネットワーク分析 学術論文の引用関係をネットワークとして可視化し、研究分野の構造や影響力のある論文を特定できる。コミュニティ検出により、研究のサブフィールドの境界を明らかにすることもできる。 共起ネットワーク分析 テキストデータから抽出した共起関係をネットワークとして表現し、概念間の関係性を分析できる。Voyant Toolsなどで生成した共起データをGEXF形式に変換して読み込むことも可能である。 地理的ネットワーク 交易路や移動経路を地名ノードと経路エッジで表現し、歴史的な交通・物流ネットワークの構造を分析できる。 デスクトップ版Gephiとの比較 特徴 Gephi Lite Gephi(デスクトップ) インストール 不要 Java環境必要 大規模ネットワーク 中規模まで 大規模対応 プラグイン なし 豊富 レイアウト ForceAtlas2 多数対応 エクスポート GEXF、PNG GEXF、PDF、SVGなど 共有 URLで可能 ファイル共有 Gephi Liteは手軽さと共有のしやすさが魅力であるが、100万ノード超のような大規模ネットワークや高度なプラグイン機能が必要な場合はデスクトップ版が適している。 ...

Hypothes.is:W3C準拠のオープンソースWebアノテーションツール

Hypothes.is:W3C準拠のオープンソースWebアノテーションツール

はじめに テキストの精読と注釈付けは、人文学研究における基本的な営みです。デジタル時代において、この営みをWebの文脈で実現するツールが求められています。 Hypothes.is は、あらゆるWebページにハイライトやコメントを付けられるオープンソースのアノテーションツールです。W3C Web Annotation標準に準拠しており、教育・研究・ジャーナリズムなど幅広い分野で利用されています。BSDライセンスで公開されています。 Hypothes.isの主な特徴 W3C Web Annotation標準への準拠 Hypothes.isは、W3C(World Wide Web Consortium)が策定したWeb Annotation標準に準拠しています。これにより、アノテーションデータの相互運用性が確保され、他のツールやプラットフォームとのデータ交換が可能です。 あらゆるWebページへの注釈 ブラウザ拡張機能やブックマークレットを使って、任意のWebページにハイライトやコメントを追加できます。PDFファイルへのアノテーションにも対応しています。注釈はHypothes.isのサーバーに保存され、同じURLを閲覧する他のユーザーと共有できます。 グループ機能 プライベートグループを作成し、メンバー間でアノテーションを共有できます。ゼミや研究グループでの共同読解に最適です。公開・グループ限定・個人のみの3段階の公開範囲を設定できます。 オープンソースとAPI Hypothes.isはオープンソースプロジェクトであり、ソースコードがGitHubで公開されています。APIも提供されており、アノテーションデータのプログラマティックな取得・操作が可能です。 DH研究での活用例 共同テキスト読解 文学作品やhistorical documentsのデジタルテキストに対して、研究グループのメンバーがそれぞれ注釈を付け、議論できます。異なる解釈や気づきを共有することで、テキストの多角的な理解が深まります。 デジタルソースの批判的分析 Webで公開されている一次資料やデジタルアーカイブのコンテンツに対して、批判的な注釈を付けられます。資料の信頼性評価や文脈の補足など、研究上の知見をソース上に直接記録できます。 教育でのアクティブリーディング 大学の授業において、学生が教材のWebページやPDFに注釈を付けながら読む「アクティブリーディング」を促進できます。教員は学生の注釈を確認し、理解度の把握やフィードバックに活用できます。 学術論文へのオープンアノテーション オープンアクセスの学術論文に対して、研究コミュニティがオープンにコメントや質問を付けるピアレビューの仕組みとして活用されています。従来の査読プロセスを補完する新しい学術コミュニケーションの形です。 基本的な使い方 アカウント作成: hypothes.is でアカウントを作成します ブラウザ拡張機能のインストール: Chrome拡張機能をインストールするか、ブックマークレットを追加します Webページの閲覧: 注釈を付けたいページを開き、Hypothes.isを有効にします テキストの選択: ハイライトしたいテキストを選択し、注釈やハイライトを追加します 共有: 公開範囲を設定し、注釈を保存・共有します LMS連携 Hypothes.isは、主要なLMS(Learning Management System)との連携に対応しています。 Canvas: LTI連携による統合 Moodle: プラグインによる統合 Blackboard: LTI連携 これにより、教育機関のeラーニング環境にシームレスにアノテーション機能を組み込めます。 APIの活用 Hypothes.isのAPIを使うことで、アノテーションデータを活用した高度な分析が可能です。 GET https://api.hypothes.is/api/search?url=https://example.com 特定のURLに付けられたすべてのアノテーションを取得し、テキストマイニングやネットワーク分析に活用できます。Pythonなどのスクリプト言語から簡単にアクセスでき、大量のアノテーションデータの分析も可能です。 まとめ Hypothes.isは、Webをアノテーションのレイヤーで拡張するオープンソースツールです。W3C標準への準拠によりデータの相互運用性が確保され、教育から研究まで幅広い用途に対応します。DH研究において、テキストの共同読解やデジタルソースの分析に欠かせないツールです。 参考リンク Hypothes.is 公式サイト Hypothes.is API ドキュメント W3C Web Annotation

Internet Archive:世界最大のデジタルアーカイブを活用する

Internet Archive:世界最大のデジタルアーカイブを活用する

はじめに Internet Archive(インターネット・アーカイブ)は、1996年にBrewster Kahle(ブリュースター・ケール)によって設立された非営利団体が運営する、世界最大のデジタルアーカイブです。「すべての知識への普遍的なアクセス」をミッションに掲げ、ウェブページ、書籍、音声、映像、ソフトウェアなど、数百億件を超えるデジタル資料を無料で公開しています。 デジタル・ヒューマニティーズ(DH)の研究者にとって、Internet Archiveは一次資料へのアクセス、ウェブの歴史的変遷の分析、大規模なテキストコーパスの構築など、多様な研究活動を支える重要な基盤です。 Wayback Machine Internet Archiveの代表的なサービスであるWayback Machineは、1996年以降のウェブページのスナップショットを保存しており、現在8,000億ページ以上のアーカイブを保持しています。 主な機能 URL検索:特定のURLの過去のスナップショットを時系列で閲覧 カレンダービュー:年月日を指定して、その時点でのウェブページを表示 Save Page Now:任意のウェブページを即座にアーカイブに保存 CDX API:プログラムからアーカイブデータにアクセスするためのAPI DH研究では、ウェブサイトの変遷を追跡したり、消失したウェブコンテンツを復元したりする際にWayback Machineが活用されます。例えば、デジタルメディア研究やウェブ考古学の分野で重要なツールとなっています。 Open Library Open Libraryは、Internet Archiveが運営するオープンな図書カタログプロジェクトです。2,000万件以上の書誌レコードを保持し、そのうち数百万冊はオンラインで全文を閲覧できます。 特徴 Controlled Digital Lending(CDL):デジタル化された書籍を図書館のように貸出管理 全文検索:デジタル化された書籍の本文を横断的に検索 API:書誌データをJSON形式で取得可能 Open Libraryのカバー画像API:ISBNから書籍のカバー画像を取得 人文学研究において、著作権の切れた歴史的文献や学術書にアクセスする際に有用です。 コレクションとメディアアーカイブ Internet Archiveは書籍以外にも、多様なメディアコレクションを提供しています。 主なコレクション コレクション 内容 規模 Audio Archive 音楽、ポッドキャスト、ラジオ番組 1,500万件以上 Moving Image Archive 映画、テレビ番組、ニュース映像 700万件以上 Software Archive 歴史的なソフトウェア、ゲーム 80万件以上 Image Archive 写真、イラスト、地図 400万件以上 これらのコレクションは、メディア研究、文化史、デジタルアート研究などのDHプロジェクトで幅広く利用されています。 APIとプログラムによるアクセス Internet Archiveは、研究者向けにさまざまなAPIを提供しています。 主なAPI # Internet Archive Python ライブラリの使用例 import internetarchive # アイテムのメタデータを取得 item = internetarchive.get_item('example_item_id') print(item.metadata) # 検索 results = internetarchive.search_items('subject:japanese AND mediatype:texts') for result in results: print(result['identifier']) Search API:メタデータによるアイテム検索 Metadata API:個別アイテムの詳細メタデータ取得 Wayback CDX API:ウェブアーカイブのインデックス検索 S3-like API:アイテムのアップロード・ダウンロード Pythonライブラリ internetarchive を使えば、大規模なデータ収集や分析を効率的に行うことができます。 ...

Kepler.gl:大規模地理空間データを美しく可視化するオープンソースツール

Kepler.gl:大規模地理空間データを美しく可視化するオープンソースツール

はじめに 地理空間データの可視化は、デジタルヒューマニティーズ(DH)の研究において重要な手法の一つです。歴史的な出来事の分布、文化遺産の所在地、人口動態の変遷など、空間的な情報を視覚的に表現することで、新たな知見を得ることができます。 本記事では、Uber が開発したオープンソースの地理空間データ可視化ツール Kepler.gl を紹介します。 Kepler.gl とは Kepler.gl は、大規模な地理空間データセットを直感的かつ美しく可視化するために設計された Web ベースのツールです。2018 年に Uber のビジュアライゼーションチームによってオープンソースとして公開されました。MIT ライセンスで提供されており、誰でも自由に利用・改変が可能です。 WebGL を基盤とした描画エンジンにより、数百万ポイント規模のデータでもスムーズにレンダリングできる点が大きな特徴です。 主な機能 ヒートマップ データポイントの密度を色の濃淡で表現するヒートマップは、大量のデータの分布傾向を把握するのに適しています。例えば、歴史的な文書の発行地をヒートマップで表示することで、文化活動の集中地域を一目で確認できます。 3D マップ 高さ方向を使ったデータ表現も可能です。地域ごとの数量データを 3D の柱として表示するヘキサゴンビンや、建物の高さを反映した 3D 地図を作成できます。 時系列アニメーション タイムスタンプを持つデータをアニメーションとして再生できます。時間の経過に伴うデータの変化を動的に可視化することで、歴史的な事象の推移を直感的に理解できます。 多様なレイヤータイプ ポイント、アーク(弧)、ライン、ポリゴンなど、多彩なレイヤータイプをサポートしています。移動経路や貿易ルートの可視化にはアークレイヤーが、地域区分の表示にはポリゴンレイヤーが適しています。 対応データ形式 Kepler.gl は以下のデータ形式に対応しています。 CSV — 緯度・経度カラムを含む表形式データ GeoJSON — 地理空間データの標準フォーマット JSON — カスタムデータ形式 ブラウザ上にファイルをドラッグ&ドロップするだけで読み込めるため、プログラミングの知識がなくても利用を開始できます。 DH における活用例 歴史地図の作成 古地図のデータや歴史的イベントの発生地点をプロットし、時系列アニメーションで変遷を追うことができます。例えば、江戸時代の宿場町の分布や、近代化の過程での鉄道路線の拡大を可視化できます。 文化遺産のマッピング 博物館・図書館・文書館のコレクションに含まれる地理情報を可視化し、文化遺産の空間的な分布を分析できます。IIIF マニフェストに含まれるメタデータから座標を抽出し、Kepler.gl で表示するといったワークフローも考えられます。 テキストマイニングとの連携 テキストから抽出された地名を座標に変換(ジオコーディング)し、Kepler.gl で可視化することで、文学作品や歴史文書に登場する地名の空間的な関係を分析できます。 導入方法 Kepler.gl はブラウザ上で直接利用できる Web アプリ版(kepler.gl)が提供されています。データのアップロードから可視化、設定の保存までをブラウザ内で完結できます。 より高度な利用には、React コンポーネントとして自身のアプリケーションに組み込むことも可能です。npm パッケージとして提供されており、Jupyter Notebook 用のプラグインも存在します。 npm install kepler.gl まとめ Kepler.gl は、大規模な地理空間データを直感的に可視化できるパワフルなツールです。プログラミングの知識がなくてもブラウザ上で利用でき、CSV や GeoJSON を読み込むだけで美しいマップを作成できます。DH 研究における空間分析の入口として、ぜひ活用してみてください。 ...

Observable:D3.js作者が作ったデータ可視化ノートブック

Observable:D3.js作者が作ったデータ可視化ノートブック

はじめに Observable(オブザーバブル)は、D3.jsの作者であるMike Bostock(マイク・ボストック)が開発した、JavaScriptベースのデータ分析・可視化ノートブックプラットフォームです。ブラウザ上でリアクティブなコードを記述し、インタラクティブなデータ可視化をすぐに作成できる環境を提供します。 デジタル・ヒューマニティーズ(DH)の分野では、研究データの探索的分析やインタラクティブな可視化の作成において、Observableが強力なツールとして注目されています。 Observableの特徴 リアクティブノートブック Observableのノートブックは、Jupyter Notebookに似た概念ですが、JavaScriptベースでリアクティブな実行モデルを採用しています。 リアクティブ実行:セルの値が変更されると、依存するセルが自動的に再実行される 即時プレビュー:コードを書くとリアルタイムで結果が表示される セル間の依存関係:変数を通じてセル間でデータを共有 インポート機能:他のノートブックからセルを再利用可能 // Observableのセル例 viewof year = Inputs.range([1900, 2025], {step: 1, value: 2000}) Observable Plot Observable Plotは、Observableチームが開発した高レベルの可視化ライブラリです。D3.jsの強力な機能を、より簡潔なAPIで利用できます。 // Observable Plotによるデータ可視化 Plot.plot({ marks: [ Plot.barY(data, {x: "category", y: "count", fill: "type"}), Plot.ruleY([0]) ], color: {legend: true} }) 主な特徴まとめ 特徴 説明 言語 JavaScript / TypeScript 可視化 Observable Plot, D3.js統合 データ入力 CSV, JSON, SQLite, API コラボレーション チーム共有、コメント機能 公開 ノートブックの公開・埋め込み ライセンス ISC License Observable Framework 2024年にリリースされたObservable Frameworkは、データアプリケーションを構築するための静的サイトジェネレーターです。 特徴 データローダー:Python、R、SQL、JavaScriptなど任意の言語でデータを前処理 Markdownベース:MarkdownファイルにJavaScriptコードを埋め込み 静的ビルド:ビルド時にデータを処理し、高速な静的サイトを生成 セルフホスティング:自分のサーバーやCDNにデプロイ可能 # Observable Frameworkの例 const data = await FileAttachment("data/research_data.csv").csv({typed: true}); Plot.plot({ marks: [Plot.dot(data, {x: "year", y: "value", stroke: "category"})] }) DHにおける活用方法 1. テキスト分析の可視化 文学作品の語彙分析、単語頻度の時系列変化、テキスト間の類似度マッピングなどを、インタラクティブな可視化として作成できます。 ...

Omeka:デジタルコレクションとオンライン展示のためのプラットフォーム

Omeka:デジタルコレクションとオンライン展示のためのプラットフォーム

TL;DR Omeka は、図書館・博物館・大学などの文化機関向けに設計されたオープンソースのWebプラットフォームである。デジタルコレクションの管理とオンライン展示の構築に特化しており、Omeka S(Linked Data対応の最新版)とOmeka Classic(シンプルな旧版)の2つのバージョンが存在する。GPLライセンスで提供されている。 Omekaとは OmekaはRoy Rosenzweig Center for History and New Media(RRCHNM、ジョージ・メイソン大学)が開発したWebパブリッシングプラットフォームである。「展示する」を意味するスワヒリ語に由来する名前の通り、デジタル資料の公開と展示に最適化されている。 世界中の数千の文化機関で採用されており、スミソニアン協会、米国議会図書館、フランス国立図書館などの大規模機関でも利用実績がある。 Omeka SとOmeka Classicの違い Omeka S(推奨) Linked Data対応:Dublin Core、Schema.org、FOAFなどのRDFボキャブラリーをネイティブサポート マルチサイト管理:一つのインストールで複数の独立したサイトを運用可能 モジュール式:必要な機能をモジュールとして追加できる拡張性の高いアーキテクチャ IIIF対応:IIIF Image API/Presentation APIとの統合が可能 API ファースト:RESTful APIを標準搭載し、外部システムとの連携が容易 Omeka Classic シンプルな構成:セットアップが簡単で、小規模プロジェクトに適している 豊富なプラグイン:長い歴史に基づく多数のプラグインが利用可能 テーマ:デザインテーマの切り替えが容易 新規プロジェクトではOmeka Sの利用が推奨される。 主要機能 アイテム管理 デジタル資料(画像、文書、音声、動画など)をアイテムとして登録し、Dublin Coreなどのメタデータスキーマに基づいて詳細な記述情報を付与できる。 オンライン展示 登録したアイテムを使って、テーマ別のオンライン展示(Exhibition)を構築できる。ストーリーラインに沿って資料を配置し、解説テキストを添えることで、学術的な文脈を伴ったデジタル展示が実現する。 コレクション管理 アイテムをコレクション(資料群)に分類し、階層的に管理できる。各コレクションにも独自のメタデータを付与可能である。 検索とブラウジング ファセット検索やタグブラウジングにより、利用者は直感的にコレクションを探索できる。全文検索機能も備えている。 セットアップ Omeka Sのインストールには、LAMP環境(Linux、Apache、MySQL、PHP)が必要である。 # 基本的な要件 # - PHP 7.4以上 # - MySQL 5.7以上 / MariaDB 10.2以上 # - Apache(mod_rewrite有効) # Composerでインストール composer create-project omeka/omeka-s また、Omeka.netではホスティングサービスも提供されており、サーバー管理なしで利用を開始することもできる。 ...

Palladio:人文学データの可視化プラットフォーム活用ガイド

Palladio:人文学データの可視化プラットフォーム活用ガイド

はじめに 歴史研究や人文学の研究において、人物の移動経路、書簡のネットワーク、出来事の時系列といったデータを視覚的に表現することは、新たな知見を得るための重要な手段です。しかし、GISソフトウェアやプログラミングによるデータ可視化は、多くの人文学研究者にとってハードルが高いものでした。 Palladio は、スタンフォード大学の Humanities+Design Lab が開発した、Webブラウザ上で動作するデータ可視化プラットフォームです。CSVファイルをアップロードするだけで、地図、グラフ、テーブル、タイムラインといった多角的なビューでデータを探索できます。 Palladioの主な機能 1. Map(地図ビュー) 座標データ(緯度・経度)を含むデータセットを読み込むと、ポイントデータやフローデータを地図上に表示できます。例えば、歴史上の人物の出生地と活動地を結ぶ線を描画したり、特定の時代における都市間の交易ルートを可視化したりすることが可能です。 ポイントのサイズを数値データに連動させたり、カテゴリごとに色分けしたりすることもできます。 2. Graph(ネットワークビュー) データ内の関係性をネットワークグラフとして表示します。例えば、書簡の送り手と受け手の関係をネットワークとして可視化することで、知識人のコミュニケーションパターンを分析できます。 ノードのサイズは接続数に応じて変化し、中心的な人物や組織を直感的に把握できます。 3. Table(テーブルビュー) データをテーブル形式で表示し、フィルタリングや並び替えを行えます。他のビューと連動しているため、地図上で特定の地域を選択した際に、その地域に関連するデータだけをテーブルに表示するといった操作が可能です。 4. Timeline(タイムラインビュー) 時間情報を持つデータを時系列で表示します。特定の期間にデータが集中しているかどうかを視覚的に確認でき、時代ごとの傾向を把握するのに役立ちます。 5. Faceted Filter(ファセットフィルター) すべてのビューに共通して、ファセットフィルターを適用できます。カテゴリや時間範囲でデータを絞り込み、特定の条件に合致するサブセットだけを表示することで、詳細な分析が可能になります。 データの準備 Palladioで利用するデータはCSV形式で準備します。以下のような列構成が典型的です。 名前,出生地,出生地緯度,出生地経度,活動地,活動地緯度,活動地経度,時代,分野 地図ビューを利用するには緯度・経度のデータが必要です。住所や地名から座標を取得するジオコーディングは、事前に別のツール(OpenCageやGoogle Geocoding APIなど)で行っておく必要があります。 実際の活用例 書簡ネットワークの分析 18世紀ヨーロッパの知識人の書簡データ(差出人、受取人、日付、場所)をPalladioに読み込むと、以下のような分析が可能になります。 地図ビュー: 書簡の発送地と受取地を線で結び、知的交流の地理的パターンを可視化 グラフビュー: 差出人と受取人のネットワークを表示し、中心的な人物を特定 タイムライン: 書簡の送受信頻度の時系列変化を確認 フィルター: 特定の期間や地域に絞って分析 歴史的移動の追跡 移民や難民の移動データ、探検家の旅程データなどを地図ビューで表示し、出発地と目的地の関係を俯瞰的に把握できます。 文化資源のマッピング 美術館のコレクションデータ(作品名、作者、制作地、制作年など)を読み込み、制作地の分布や作者間のネットワークを分析するといった活用も考えられます。 使い方の流れ Palladio公式サイトにアクセス 「Start」をクリックしてアプリケーションを起動 CSVファイルをドラッグ&ドロップまたはテキストを貼り付け データの型(テキスト、数値、座標、日付)を確認・設定 Map / Graph / Table / Timeline の各ビューでデータを探索 ファセットフィルターで条件を絞り込みながら分析 注意点 Palladioはデータの可視化・探索に特化しており、可視化結果の画像エクスポート機能は限定的です 大規模データ(数万行以上)ではブラウザのパフォーマンスが低下する場合があります データはブラウザ上で処理されるため、サーバーにアップロードされることはありません(プライバシーの観点で安心です) セッションを閉じるとデータは消えるため、プロジェクトの保存(JSON形式でエクスポート)を忘れないようにしましょう まとめ Palladioは、プログラミング不要で人文学データを多角的に可視化できる優れたツールです。CSV形式のデータさえ準備できれば、地図・ネットワーク・テーブル・タイムラインの各ビューを使って直感的にデータを探索できます。研究の初期段階でデータの全体像を把握したい場合や、パターンを発見したい場合に特に有効です。

RAWGraphs:ノーコードでデータを美しく可視化するDHツール

RAWGraphs:ノーコードでデータを美しく可視化するDHツール

TL;DR RAWGraphs はブラウザ上で動作するオープンソースのデータ可視化ツールである。CSV/TSVファイルをドラッグ&ドロップするだけで、30種類以上のチャートタイプからデータを可視化でき、SVGやPNG形式でエクスポートできる。プログラミング不要で、デジタル・ヒューマニティーズ(DH)研究におけるデータ分析の入口として最適なツールである。 RAWGraphsとは RAWGraphsは、イタリアのミラノ工科大学(Politecnico di Milano)の DensityDesign Lab が開発したオープンソースプロジェクトである。Apache 2.0ライセンスで公開されており、誰でも無料で利用できる。 主な特徴は以下の通りである。 完全ブラウザベース:インストール不要で、Webブラウザさえあれば即座に利用開始できる データプライバシー:データはサーバーに送信されず、すべてクライアントサイドで処理される 30種類以上のチャート:一般的な棒グラフや散布図に加え、Alluvial Diagram、Bumpchart、Sunburstなど高度なビジュアライゼーションにも対応 D3.jsベース:内部的にD3.jsを使用しており、生成されるSVGは高品質 使い方 RAWGraphsの利用は4ステップで完結する。 1. データの読み込み RAWGraphsの公式サイトにアクセスし、CSV/TSVファイルをドラッグ&ドロップするか、テキストエリアに直接ペーストする。Googleスプレッドシートからの読み込みや、JSONデータにも対応している。サンプルデータセットも用意されており、初めての利用でもすぐに試すことができる。 2. チャートタイプの選択 データの性質に応じて、適切なチャートタイプを選択する。カテゴリ別に整理されており、「Hierarchy」「Time Series」「Distributions」「Correlations」「Networks」などから目的に合ったものを選べる。 3. マッピング設定 データの各列をチャートの視覚要素(X軸、Y軸、色、サイズなど)にドラッグ&ドロップでマッピングする。この直感的な操作が RAWGraphs の最大の魅力である。 4. エクスポート 完成したビジュアライゼーションをSVG、PNG、またはJSON形式でダウンロードする。SVG形式であれば、Adobe IllustratorやInkscapeでさらに編集を加えることもできる。 DH研究における活用例 書誌データの可視化 図書館のOPACデータや書誌データベースから取得したCSVデータを使い、出版年代ごとの分野別出版数をStreamgraphやStacked Area Chartで可視化できる。時代ごとの学術トレンドの変遷を一目で把握するのに有効である。 歴史的ネットワークの可視化 手紙の差出人と受取人のデータから、Alluvial Diagramを作成すれば、知識人ネットワークの構造を視覚的に示すことができる。例えば、江戸時代の儒学者間の書簡ネットワークなどを分析する際に役立つ。 テキスト分析結果の表示 形態素解析やトピックモデリングの結果をCSV形式で出力し、RAWGraphsでTreemapやCircle Packingとして可視化すれば、テキストコーパスの語彙構造を直感的に理解できる。 文化財データの分析 博物館や美術館の所蔵品メタデータ(年代、地域、素材、技法など)を多次元的に可視化し、コレクションの特性を分析できる。Parallel Coordinatesを使えば、複数の属性を同時に比較できる。 他ツールとの比較 特徴 RAWGraphs Tableau Public Google Charts 料金 無料(OSS) 無料(制限あり) 無料 インストール 不要 要デスクトップアプリ 不要(API) プログラミング 不要 不要 JavaScript必要 チャート種類 30+ 非常に多い 30+ データプライバシー クライアント処理 クラウド クラウド カスタマイズ性 SVG編集可 高い コードで制御 RAWGraphsは「手軽にデータを可視化したいが、プログラミングは避けたい」という研究者に最も適している。より高度なインタラクティブ可視化が必要な場合はTableau PublicやD3.jsの直接利用を検討するとよい。 ...

ReplayWeb.page:ブラウザで動作するWebアーカイブ再生ツール

ReplayWeb.page:ブラウザで動作するWebアーカイブ再生ツール

はじめに デジタルヒューマニティーズにおいて、Webコンテンツの保存と再現は重要な課題です。Webサイトは日々更新・消滅しており、研究対象としてのWebページを長期的に保存する仕組みが必要です。 ReplayWeb.page は、Webrecorderプロジェクトが開発したブラウザベースのWebアーカイブ再生ツールです。WARC(Web ARChive)やWACZ(Web Archive Collection Zipped)形式のアーカイブファイルを、ブラウザ上でそのまま閲覧できます。 ReplayWeb.pageの主な特徴 クライアントサイド処理 最大の特徴は、Service Workerを活用したクライアントサイド処理です。従来のWebアーカイブ再生ツール(Wayback Machineなど)はサーバーサイドでの処理が必要でしたが、ReplayWeb.pageではブラウザ内ですべての処理が完結します。これにより、サーバーの構築・運用が不要になります。 WARC/WACZ形式のサポート 国際標準であるWARC形式と、Webrecorderが提案するWACZ形式の両方に対応しています。WACZ形式はWARCファイルをZIP圧縮し、インデックスやメタデータを含めたパッケージ形式で、効率的なランダムアクセスが可能です。 多様なデータソースからの読み込み ローカルファイル、URL、Google Drive、Dropbox、S3など、さまざまなソースからアーカイブファイルを読み込めます。HTTPレンジリクエストに対応しているため、大きなアーカイブファイルでも全体をダウンロードせずに部分的にアクセスできます。 埋め込み対応 <replay-web-page> カスタムエレメントを使って、任意のWebページにアーカイブの再生ウィジェットを埋め込めます。研究成果の公開やデジタル展示に活用できます。 DH研究での活用例 Webサイトの長期保存 研究対象のWebサイトをWARC/WACZ形式で保存し、将来にわたって参照可能な状態を維持できます。リンク切れや改変を心配することなく、特定時点のWebコンテンツを正確に再現できます。 デジタル展示の構築 博物館や図書館のデジタル展示において、過去のWebサイトをそのまま再現する展示を構築できます。ReplayWeb.pageの埋め込み機能を使えば、展示用Webサイト内にアーカイブされたコンテンツをシームレスに組み込めます。 ソーシャルメディアの保存 ソーシャルメディア上の投稿やスレッドなど、消滅しやすいコンテンツを保存・再現するのに適しています。Webrecorderのキャプチャツール(ArchiveWeb.page)と組み合わせることで、キャプチャから再生までの一連のワークフローを構築できます。 基本的な使い方 アーカイブの準備: ArchiveWeb.pageやwget、Browsertrixなどでページをキャプチャし、WARC/WACZファイルを作成します ReplayWeb.pageにアクセス: replayweb.page をブラウザで開きます ファイルの読み込み: ローカルファイルを選択するか、URLを指定してアーカイブを読み込みます ブラウジング: 保存されたWebページをオリジナルと同様にブラウジングできます 関連ツール Webrecorderプロジェクトは、ReplayWeb.page以外にも以下のツールを提供しています。 ArchiveWeb.page: ブラウザ拡張機能でWebページをキャプチャ Browsertrix: 大規模なWebクローリングとアーカイブの自動化 py-wacz: PythonでWACZファイルを操作するライブラリ 技術的な仕組み ReplayWeb.pageはService Workerを使って、アーカイブされたHTTPレスポンスをインターセプトし、ブラウザに提供します。ユーザーがアーカイブ内のURLにアクセスすると、Service WorkerがWARC/WACZファイルから該当するレスポンスを取得し、元のサーバーにリクエストを送ることなく、保存されたコンテンツを返します。 この仕組みにより、JavaScriptやCSSを含む動的なWebページも、保存時の状態のまま正確に再現できます。 まとめ ReplayWeb.pageは、Webアーカイブの再生をブラウザだけで完結させる革新的なツールです。サーバー不要で動作する手軽さと、標準的なWARC/WACZ形式への対応により、DH研究におけるWebコンテンツの保存・再現・共有の課題を解決します。デジタル保存に関心のある研究者にとって、必須のツールといえるでしょう。 参考リンク ReplayWeb.page Webrecorder プロジェクト WACZ 仕様

StoryMapJS:地図ベースのストーリーテリングツール活用ガイド

StoryMapJS:地図ベースのストーリーテリングツール活用ガイド

はじめに 歴史的な旅路、探検の記録、文化遺産の分布など、「場所」と結びついた物語を伝えるには、地図を使ったストーリーテリングが効果的です。地図上のポイントを順に辿りながら、各地点にまつわるテキストや画像を表示することで、読者は空間的な文脈を理解しながら物語に没入できます。 StoryMapJS は、ノースウェスタン大学の Knight Lab が開発した、地図ベースのストーリーテリングツールです。スライド形式のインターフェースで、地図上のポイントを巡るインタラクティブな物語を作成できます。ライセンスは MPL-2.0 で、無料で利用可能です。 StoryMapJSの特徴 1. スライドベースのナビゲーション StoryMapJSでは、各ポイント(場所)を一つのスライドとして構成します。読者がスライドを進めると、地図がアニメーション付きで次のポイントまで移動します。この滑らかな遷移により、物語の流れと地理的な移動が視覚的に結びつきます。 2. 直感的なオーサリングツール Knight Labが提供するWebベースのエディタを使えば、プログラミング不要でStoryMapを作成できます。地図上でポイントをクリックし、テキストと画像を追加するだけで完成します。 3. Gigapixel(ギガピクセル)モード StoryMapJSのユニークな機能の一つが、Gigapixelモードです。通常の地図の代わりに、高解像度の画像(絵画、古地図、設計図など)を「地図」として使用できます。画像上の特定の箇所にポイントを配置し、拡大しながら詳細を解説するという使い方が可能です。 これは美術作品の分析や、歴史的地図の解説に非常に有効です。 4. 多様なメディア対応 各スライドには、画像、YouTube動画、Vimeo動画、Twitter、Flickr、Wikipediaなど、さまざまなメディアを埋め込むことができます。 作成手順 オンラインエディタを使う方法 StoryMapJS公式サイトにアクセス 「Make a StoryMap」をクリックし、Googleアカウントでログイン タイトルスライドを作成 「Add Slide」で新しいポイントを追加 地図上の位置を指定し、テキストとメディアを入力 すべてのポイントを追加したら「Share」から公開URL・埋め込みコードを取得 JSON形式で作る方法 より高度なカスタマイズが必要な場合は、JSON形式でデータを定義し、JavaScriptライブラリを使って表示することも可能です。自分のサーバーでホスティングする場合はこちらの方法が適しています。 活用例 歴史的旅路の追体験 松尾芭蕉の「奥の細道」のルートをStoryMapで再現する例を考えてみましょう。江戸から出発し、日光、那須、松島、平泉、出羽三山、象潟、金沢、大垣と巡る旅路を地図上にプロットします。各地点のスライドには、該当する俳句の本文と現代語訳、現地の写真、関連する歴史的背景を添えることで、文学作品の空間的理解を深めるリソースが完成します。 文化遺産のマッピング 世界遺産や国宝建築物の分布を地図上に示し、各スポットの写真と解説を添えることで、文化遺産のデジタルガイドを作成できます。 移民・移動の記録 歴史的な移民の経路を追跡し、出発地での状況、経由地での出来事、定住地での生活といった物語を地理的文脈の中で語ることができます。 研究フィールドワークの報告 考古学や民族学のフィールドワークにおいて、調査地点を地図上にプロットし、各地点での発見や観察結果をスライドで報告するという使い方も考えられます。 Gigapixelモードの活用 美術作品の分析: 大型絵画の各部分を拡大しながら、描写技法や象徴的なモチーフを解説 歴史的地図の解読: 古地図の特定の区域を拡大し、地名や建造物を現代と比較 建築図面の解説: 歴史的建造物の設計図上で、構造的特徴を順に解説 カスタマイズ 地図タイルの変更 デフォルトの地図スタイルのほか、OpenStreetMapやStamenなどの地図タイルを選択できます。歴史的なテーマには、アンティーク調の地図タイルが雰囲気に合うでしょう。 言語設定 インターフェースの言語を変更できます。日本語にも対応しており、ナビゲーションボタンなどが日本語で表示されます。 注意点 オンラインエディタで作成したStoryMapはGoogleドライブに保存されます 画像は外部URLで指定する必要があり、ローカルファイルの直接アップロードには制限があります Gigapixelモードを使うには、画像をタイル化するツール(Zoomifyなど)で事前に処理する必要があります モバイル端末では、画面サイズの制約からスライドの見え方が変わることがあります TimelineJSとの組み合わせ StoryMapJSは同じKnight Labが開発したTimelineJSと組み合わせることで、時間と空間の両軸でストーリーを語ることができます。タイムラインで時系列の概要を示し、StoryMapで地理的な詳細を補足するといった使い方が効果的です。 まとめ StoryMapJSは、地図上のポイントを辿りながらストーリーを語るインタラクティブコンテンツを、簡単に作成できるツールです。スライドベースの直感的なナビゲーション、アニメーション付きの地図遷移、そしてGigapixelモードという独自機能により、DH研究の成果発信から教育コンテンツの制作まで、幅広く活用できます。

Taguette:無料で使えるオープンソース質的データ分析ツール

Taguette:無料で使えるオープンソース質的データ分析ツール

はじめに 質的データ分析(QDA: Qualitative Data Analysis)は、インタビュー記録、フィールドノート、歴史文書などのテキストデータにタグやコードを付与し、パターンやテーマを見出す研究手法です。従来、NVivo や ATLAS.ti といった商用ソフトウェアが広く利用されてきましたが、高額なライセンス費用が研究者や学生にとって障壁となることがありました。 本記事では、NVivo や ATLAS.ti の代替として注目されている無料のオープンソース質的データ分析ツール Taguette を紹介します。 Taguette とは Taguette は、テキストデータの質的分析を行うためのオープンソースツールです。BSD ライセンスで公開されており、完全無料で利用できます。ニューヨーク大学の研究者によって開発され、学術研究の民主化を目的としています。 Web ブラウザ上で動作するシンプルなインターフェースを特徴とし、プログラミングの知識がなくても直感的に使い始めることができます。 主な機能 テキストのタグ付け・コーディング Taguette のコア機能は、テキストの選択範囲にタグ(コード)を付与することです。文書を読みながら重要な箇所を選択し、あらかじめ定義したタグや新しいタグを割り当てます。タグは階層的に管理でき、カテゴリごとに整理できます。 ハイライト表示 タグ付けされたテキストはハイライト表示され、どの部分にどのタグが付けられているかを視覚的に確認できます。複数のタグが同一テキストに付けられている場合も、一目で把握できます。 エクスポート機能 分析結果をさまざまな形式でエクスポートできます。 HTML — ブラウザで閲覧可能な形式 CSV — 表計算ソフトやデータ分析ツールで利用可能 XLSX — Excel 形式 DOCX — Word 形式 コード付きドキュメント — タグごとにまとめられたテキスト抽出 プロジェクト管理 複数のドキュメントをプロジェクトとしてまとめて管理できます。同じタグセットを複数の文書に適用し、横断的な分析を行うことが可能です。 コラボレーション Web ベースのインターフェースにより、複数の研究者が同じプロジェクトで共同作業できます。サーバーにインストールすることで、チームでの利用も容易です。 対応ファイル形式 Taguette は以下の形式のドキュメントを読み込めます。 PDF DOCX(Word) HTML TXT(プレーンテキスト) EPUB ODT(OpenDocument) Markdown 導入方法 Taguette はいくつかの方法で利用できます。 オンライン版 app.taguette.org にアクセスするだけで、インストール不要で利用を開始できます。 ローカルインストール Python 環境があれば、pip でインストールできます。 ...

TEI Publisher:TEI XMLデジタルエディション出版プラットフォーム

TEI Publisher:TEI XMLデジタルエディション出版プラットフォーム

はじめに TEI(Text Encoding Initiative)は、人文学のテキストをデジタル化する際の国際標準として広く採用されている XML マークアップ言語です。古典籍、書簡、碑文、辞書など、さまざまなテキスト資料を構造化された形式で記述できます。 しかし、TEI XML で符号化されたテキストを、読みやすい形で Web 上に公開するには、相応の技術的知識が必要です。本記事では、TEI XML のデジタルエディションを簡単に出版できるプラットフォーム TEI Publisher を紹介します。 TEI Publisher とは TEI Publisher は、eXist-db XML データベース上で動作するデジタルエディション出版プラットフォームです。TEI XML で符号化されたテキストを、カスタマイズ可能な美しい Web ページとして公開できます。 e-editiones コミュニティによって開発・メンテナンスされており、オープンソースとして公開されています。学術的なテキスト出版のためのワンストップソリューションを目指しています。 主な機能 カスタマイズ可能な表示 ODD(One Document Does it all)仕様に基づく処理モデルにより、TEI XML の各要素をどのように表示するかを柔軟に定義できます。XSLT を直接書く必要はなく、GUI ベースのエディタで表示ルールを設定できます。 ファクシミリ表示 原本のデジタル画像(ファクシミリ)とテキストの翻刻を並べて表示できます。IIIF Image API にも対応しており、高解像度画像のズーム表示が可能です。テキストの特定箇所と画像の対応する領域をリンクさせることもできます。 全文検索 eXist-db の全文検索エンジンにより、テキスト全体を高速に検索できます。Lucene ベースのインデックスにより、大量のテキストでも即座に結果を返します。ファセット検索やハイライト表示にも対応しています。 REST API テキストデータやメタデータにプログラムからアクセスするための REST API が提供されています。外部のアプリケーションやツールとの連携が容易で、データの再利用を促進します。 レスポンシブデザイン 生成される Web ページはレスポンシブデザインに対応しており、PC、タブレット、スマートフォンなど、さまざまなデバイスで適切に表示されます。 多言語・多文字体系対応 ラテン文字はもちろん、アラビア文字、漢字、デーヴァナーガリーなど、多様な文字体系に対応しています。右から左に書く言語(RTL)もサポートしています。 導入方法 TEI Publisher は eXist-db 上で動作します。Docker を使った導入が推奨されています。 docker run -p 8080:8080 existdb/teipublisher:latest 起動後、ブラウザで http://localhost:8080/exist/apps/tei-publisher/ にアクセスすると、TEI Publisher のインターフェースが表示されます。サンプルのテキストが含まれているため、すぐに機能を試すことができます。 ...

TimelineJS:スプレッドシートで作るインタラクティブ年表ガイド

TimelineJS:スプレッドシートで作るインタラクティブ年表ガイド

はじめに 歴史的な出来事の流れや、プロジェクトの進行過程を分かりやすく伝えるには、年表(タイムライン)が最も効果的な手段の一つです。しかし、見栄えの良いインタラクティブな年表を作成するには、通常はプログラミングの知識が必要とされます。 TimelineJS は、ノースウェスタン大学の Knight Lab が開発したオープンソースのタイムライン作成ツールです。Google スプレッドシートにデータを入力するだけで、美しいインタラクティブな年表を自動生成できます。ライセンスは MPL-2.0 で、無料で利用可能です。 TimelineJSの特徴 1. プログラミング不要 TimelineJSの最大の魅力は、コードを一切書かずにタイムラインを作成できることです。Knight Labが提供するGoogleスプレッドシートのテンプレートにデータを入力し、公開設定を行うだけで完成します。 2. メディアの統合 各イベントには、画像、動画、音声、ツイート、Wikipedia記事など、さまざまなメディアを埋め込むことができます。URLを指定するだけで自動的にメディアが表示されるため、視覚的にリッチなタイムラインを簡単に作れます。 対応メディアの例: 画像(JPEG、PNG、GIF) YouTube / Vimeo の動画 SoundCloud の音声 Twitter のツイート Wikipedia の記事 Google Map の地図 Flickr の写真 3. 美しいデザイン 生成されるタイムラインは、モダンなデザインで視覚的に洗練されています。レスポンシブ対応のため、PCでもスマートフォンでも快適に閲覧できます。スライド間のアニメーション遷移も滑らかです。 4. 多言語対応 TimelineJSは60以上の言語に対応しており、日本語でのインターフェース表示も可能です。日付フォーマットも各言語に合わせて自動調整されます。 作成手順 ステップ1:テンプレートの準備 TimelineJS公式サイトにアクセス 「Make a Timeline」セクションの「Get the Spreadsheet Template」をクリック Google スプレッドシートのテンプレートが開くので、コピーを作成 ステップ2:データの入力 スプレッドシートの各列にデータを入力します。主要な列は以下の通りです。 列名 説明 例 Year 年 1868 Month 月(任意) 1 Day 日(任意) 3 Headline イベントのタイトル 明治維新 Text 説明文 日本の近代化の始まり… Media メディアURL https://example.com/image.jpg Media Credit メディアのクレジット 国立国会図書館 最初の行(Title slide)はタイムライン全体のタイトルスライドになります。 ...