自然言語処理

LoRAによる書名からのNDC（日本十進分類法）自動分類の試み

ノートブック: Google Colab で開く / GitHub TL;DR 国立国会図書館サーチAPI（SRU）を用いて617件の書誌データを収集 llm-jp-3-1.8b に LoRA（全パラメータの0.67%）を適用し、書名からNDC第1次区分への分類を学習学習前 22.0% → 学習後 78.0%（+56ポイント） LoRAはドメイン知識の注入ではなく、タスク遂行のための振る舞いを獲得させる手法 NDC（日本十進分類法）とは日本の図書館で広く使われている書籍の分類体系です。すべての本に0〜9の第1次区分（類目）が割り当てられます。 NDC ジャンル 0 総記（百科事典・情報学など） 1 哲学・宗教 2 歴史・地理 3 社会科学（法律・経済・教育） 4 自然科学（数学・物理・医学） 5 技術・工学 6 産業（農業・商業・運輸） 7 芸術・スポーツ 8 言語 9 文学図書館において資料の整理（目録作成）時にNDCコードを付与する作業は、主題分析の専門的知識を要する業務です。書名のみから大まかな分類を自動推定できるモデルがあれば、分類作業の初期スクリーニングとして有用です。 LoRAとは何か LoRA（Low-Rank Adaptation）は、大規模言語モデルを効率的にファインチューニングするための手法です。通常のファインチューニングではモデルの全パラメータ（18億個など）を更新しますが、LoRAでは元のモデルを凍結し、Attention層に小さな「アダプター」行列を挿入してそこだけを学習させます。モデル本体 (18億パラメータ) → 凍結（更新対象外） ↓ LoRAアダプター (数百万パラメータ) → 学習対象今回の設定では全パラメータの約0.67%（12,582,912 / 1,880,197,120）だけを学習対象にしています。これにより、GPUメモリの消費を抑えつつ、タスク特化の性能を得ることができます。 Step 1. 国立国会図書館サーチAPIからデータ取得国立国会図書館サーチのSRU APIは誰でも無料で利用可能です。各NDCカテゴリから最大80件ずつ取得し、タイトル文字数（3〜80文字）によるフィルタリング後に合計617件の書誌データを収集しました。カテゴリごとの取得件数は以下の通りで、均等ではありません。 NDC カテゴリ取得件数 0 総記 65件 1 哲学 67件 2 歴史 73件 3 社会科学 59件 4 自然科学 52件 5 技術・工学 63件 6 産業 65件 7 芸術・スポーツ 57件 8 言語 67件 9 文学 49件なお、APIの特性上、取得される書誌には書名が極めて短いものや内容が判別しにくいものも含まれるため、学習データの品質には一定のノイズが存在します。 ...

2026年3月19日 · 3 分 · Nakamura

Voyant Tools：ブラウザで完結するテキスト分析プラットフォーム

TL;DR Voyant Tools はブラウザ上で動作するテキスト分析プラットフォームである。テキストデータをペーストまたはアップロードするだけで、ワードクラウド、KWIC（Key Word In Context）、共起分析、トピックモデリング、TF-IDFなど多彩な分析を即座に実行できる。日本語の形態素解析にも対応しており、DHにおけるテキストマイニングの標準的なツールとして広く利用されている。 Voyant Toolsとは Voyant Toolsは、Stéfan SinclairとGeoffrey Rockwellによって開発されたオープンソースのテキスト分析環境である。2003年の初版から20年以上の歴史を持ち、DH分野で最も広く使われているテキスト分析ツールの一つである。主な特徴は以下の通りである。完全ブラウザベース：voyant-tools.org にアクセスするだけで利用開始できる 24種類以上のツール：ワードクラウド、頻度分析、KWIC、共起ネットワーク、トレンドグラフなど多言語対応：英語はもちろん、日本語・中国語・韓国語など多言語テキストを分析可能コーパス共有：分析結果をURLで共有でき、再現性の高い研究が可能 API提供：プログラマティックなアクセスも可能主要な分析機能 Cirrus（ワードクラウド）テキスト内の高頻度語をワードクラウドとして可視化する。ストップワード（除外語）のカスタマイズにより、分析対象言語に応じた適切なフィルタリングが可能である。 KWIC（コンコーダンス）特定のキーワードが文脈の中でどのように使われているかを一覧表示する。前後の文脈を確認しながら、用語の使用パターンを分析できる。 Trends（頻度推移）文書全体を通じた語句の出現頻度の変化を折れ線グラフで表示する。複数の語句を同時に追跡でき、テキスト内のテーマの推移を分析できる。 Links（共起ネットワーク）単語間の共起関係をネットワークグラフとして可視化する。どの語が頻繁に一緒に使われているかを構造的に把握できる。 Topics（トピックモデリング） LDAベースのトピックモデリングにより、テキストコーパスに含まれる潜在的なトピックを自動的に抽出する。使い方基本的なワークフロー Voyant Tools にアクセスするテキストを入力エリアにペーストするか、ファイル（TXT、PDF、HTML、XMLなど）をアップロードする「Reveal」ボタンをクリックすると、複数の分析パネルが同時に表示される各パネルの設定を調整し、分析を深めるエクスポートボタンから画像やデータをダウンロードする日本語テキストの分析 Voyant Toolsは日本語の形態素解析に対応しており、日本語テキストの分析が可能である。テキストをアップロードする際に言語設定を「Japanese」に指定すると、適切な分節化が行われる。ただし、専門用語や固有名詞の分節精度には限界があるため、結果を確認しながら分析を進めることが推奨される。 DH研究における活用例文学作品の比較分析複数の文学作品をコーパスとして読み込み、作品間の語彙の違いや共通する表現パターンを分析できる。例えば、夏目漱石の前期と後期の作品で使用語彙がどのように変化したかを定量的に示すことができる。歴史文書の分析新聞記事のデジタルアーカイブを対象に、特定の社会問題に関する言説の変遷を時系列で追跡できる。TrendsツールとKWICを組み合わせることで、量的分析と質的分析を同時に行える。学術論文のサーベイ研究分野の論文アブストラクトを大量に集めてトピックモデリングを適用すれば、分野全体の研究動向を把握できる。他ツールとの比較特徴 Voyant Tools AntConc KH Coder 動作環境ブラウザデスクトップデスクトップ日本語対応あり限定的充実可視化豊富基本的豊富プログラミング不要不要不要共有機能 URL共有なしなしまとめ Voyant Toolsは、テキスト分析の専門知識やプログラミングスキルがなくても、豊富な分析機能を手軽に利用できる強力なプラットフォームである。特にDH研究の入門段階で、テキストデータの概要を素早く把握するのに最適である。URLベースのコーパス共有機能により、研究の再現性も確保できる。 ...

2026年3月15日 · 1 分 · Nakamura