ホーム 記事一覧 ブック DH週間トピックス 検索 このサイトについて
English
LoRAによる書名からのNDC(日本十進分類法)自動分類の試み

LoRAによる書名からのNDC(日本十進分類法)自動分類の試み

ノートブック: Google Colab で開く / GitHub TL;DR 国立国会図書館サーチAPI(SRU)を用いて617件の書誌データを収集 llm-jp-3-1.8b に LoRA(全パラメータの0.67%)を適用し、書名からNDC第1次区分への分類を学習 学習前 22.0% → 学習後 78.0%(+56ポイント) LoRAはドメイン知識の注入ではなく、タスク遂行のための振る舞いを獲得させる手法 NDC(日本十進分類法)とは 日本の図書館で広く使われている書籍の分類体系です。すべての本に0〜9の第1次区分(類目)が割り当てられます。 NDC ジャンル 0 総記(百科事典・情報学など) 1 哲学・宗教 2 歴史・地理 3 社会科学(法律・経済・教育) 4 自然科学(数学・物理・医学) 5 技術・工学 6 産業(農業・商業・運輸) 7 芸術・スポーツ 8 言語 9 文学 図書館において資料の整理(目録作成)時にNDCコードを付与する作業は、主題分析の専門的知識を要する業務です。書名のみから大まかな分類を自動推定できるモデルがあれば、分類作業の初期スクリーニングとして有用です。 LoRAとは何か LoRA(Low-Rank Adaptation)は、大規模言語モデルを効率的にファインチューニングするための手法です。 通常のファインチューニングではモデルの全パラメータ(18億個など)を更新しますが、LoRAでは元のモデルを凍結し、Attention層に小さな「アダプター」行列を挿入してそこだけを学習させます。 モデル本体 (18億パラメータ) → 凍結(更新対象外) ↓ LoRAアダプター (数百万パラメータ) → 学習対象 今回の設定では全パラメータの約0.67%(12,582,912 / 1,880,197,120)だけを学習対象にしています。これにより、GPUメモリの消費を抑えつつ、タスク特化の性能を得ることができます。 Step 1. 国立国会図書館サーチAPIからデータ取得 国立国会図書館サーチのSRU APIは誰でも無料で利用可能です。各NDCカテゴリから最大80件ずつ取得し、タイトル文字数(3〜80文字)によるフィルタリング後に合計617件の書誌データを収集しました。カテゴリごとの取得件数は以下の通りで、均等ではありません。 NDC カテゴリ 取得件数 0 総記 65件 1 哲学 67件 2 歴史 73件 3 社会科学 59件 4 自然科学 52件 5 技術・工学 63件 6 産業 65件 7 芸術・スポーツ 57件 8 言語 67件 9 文学 49件 なお、APIの特性上、取得される書誌には書名が極めて短いものや内容が判別しにくいものも含まれるため、学習データの品質には一定のノイズが存在します。 ...

Voyant Tools:ブラウザで完結するテキスト分析プラットフォーム

Voyant Tools:ブラウザで完結するテキスト分析プラットフォーム

TL;DR Voyant Tools はブラウザ上で動作するテキスト分析プラットフォームである。テキストデータをペーストまたはアップロードするだけで、ワードクラウド、KWIC(Key Word In Context)、共起分析、トピックモデリング、TF-IDFなど多彩な分析を即座に実行できる。日本語の形態素解析にも対応しており、DHにおけるテキストマイニングの標準的なツールとして広く利用されている。 Voyant Toolsとは Voyant Toolsは、Stéfan SinclairとGeoffrey Rockwellによって開発されたオープンソースのテキスト分析環境である。2003年の初版から20年以上の歴史を持ち、DH分野で最も広く使われているテキスト分析ツールの一つである。 主な特徴は以下の通りである。 完全ブラウザベース:voyant-tools.org にアクセスするだけで利用開始できる 24種類以上のツール:ワードクラウド、頻度分析、KWIC、共起ネットワーク、トレンドグラフなど 多言語対応:英語はもちろん、日本語・中国語・韓国語など多言語テキストを分析可能 コーパス共有:分析結果をURLで共有でき、再現性の高い研究が可能 API提供:プログラマティックなアクセスも可能 主要な分析機能 Cirrus(ワードクラウド) テキスト内の高頻度語をワードクラウドとして可視化する。ストップワード(除外語)のカスタマイズにより、分析対象言語に応じた適切なフィルタリングが可能である。 KWIC(コンコーダンス) 特定のキーワードが文脈の中でどのように使われているかを一覧表示する。前後の文脈を確認しながら、用語の使用パターンを分析できる。 Trends(頻度推移) 文書全体を通じた語句の出現頻度の変化を折れ線グラフで表示する。複数の語句を同時に追跡でき、テキスト内のテーマの推移を分析できる。 Links(共起ネットワーク) 単語間の共起関係をネットワークグラフとして可視化する。どの語が頻繁に一緒に使われているかを構造的に把握できる。 Topics(トピックモデリング) LDAベースのトピックモデリングにより、テキストコーパスに含まれる潜在的なトピックを自動的に抽出する。 使い方 基本的なワークフロー Voyant Tools にアクセスする テキストを入力エリアにペーストするか、ファイル(TXT、PDF、HTML、XMLなど)をアップロードする 「Reveal」ボタンをクリックすると、複数の分析パネルが同時に表示される 各パネルの設定を調整し、分析を深める エクスポートボタンから画像やデータをダウンロードする 日本語テキストの分析 Voyant Toolsは日本語の形態素解析に対応しており、日本語テキストの分析が可能である。テキストをアップロードする際に言語設定を「Japanese」に指定すると、適切な分節化が行われる。ただし、専門用語や固有名詞の分節精度には限界があるため、結果を確認しながら分析を進めることが推奨される。 DH研究における活用例 文学作品の比較分析 複数の文学作品をコーパスとして読み込み、作品間の語彙の違いや共通する表現パターンを分析できる。例えば、夏目漱石の前期と後期の作品で使用語彙がどのように変化したかを定量的に示すことができる。 歴史文書の分析 新聞記事のデジタルアーカイブを対象に、特定の社会問題に関する言説の変遷を時系列で追跡できる。TrendsツールとKWICを組み合わせることで、量的分析と質的分析を同時に行える。 学術論文のサーベイ 研究分野の論文アブストラクトを大量に集めてトピックモデリングを適用すれば、分野全体の研究動向を把握できる。 他ツールとの比較 特徴 Voyant Tools AntConc KH Coder 動作環境 ブラウザ デスクトップ デスクトップ 日本語対応 あり 限定的 充実 可視化 豊富 基本的 豊富 プログラミング 不要 不要 不要 共有機能 URL共有 なし なし まとめ Voyant Toolsは、テキスト分析の専門知識やプログラミングスキルがなくても、豊富な分析機能を手軽に利用できる強力なプラットフォームである。特にDH研究の入門段階で、テキストデータの概要を素早く把握するのに最適である。URLベースのコーパス共有機能により、研究の再現性も確保できる。 ...