ElevenLabs v2 と v3 の日本語朗読品質比較 — 自分の声を学習させた合成音声による A/B 検証
ElevenLabs の Voice Cloning と v3 モデルを使い、自分の声を学習させた合成音声で日本語の技術記事を朗読させる実験を行いました。同一原稿で v2 / v3 を比較した A/B サンプルと、運用上の観察を記録します。
ElevenLabs の Voice Cloning と v3 モデルを使い、自分の声を学習させた合成音声で日本語の技術記事を朗読させる実験を行いました。同一原稿で v2 / v3 を比較した A/B サンプルと、運用上の観察を記録します。
mdx.jp の A100 40GB x2 サーバで LLM-jp-4-32b-a3b-thinking 公式版を動かし、Transformers の OOM から vLLM サーブへ切り替えた記録
MacBook Pro M4 Max 128GBでLLM-jp-4 8Bをローカル実行し、OllamaのOpenAI互換APIから利用した際の構成と実測をまとめる
古典籍OCRアプリKotenOCRのAndroid版をFlutterで開発し、Kotlin Nativeへ移行した記録。パフォーマンスベンチマーク、API修正による18倍高速化、AI開発でのフレームワーク選定について。
Geminiを使って3つのiOSアプリアイコンをフラットデザインからモダンiOS風(グラデーション+ソフトグロー)にリデザインした実践記録。プロンプトの改善過程と、生成後のトリミング処理も紹介します。
Gemini・DALL-E・Midjourney等のAI画像生成ツールで、Apple HIGに準拠したiOSアプリアイコンを生成するための再利用可能なプロンプトテンプレートです。
IIIF Image APIに対応した高解像度画像をARKitで床面に実寸配置し、カメラ距離に応じてタイルを動的に読み込むiOSアプリ「IIIF AR」の開発についての記録です。

Claude Codeの並列エージェント機能を使い、882本の技術ブログ記事から2キャラクター掛け合い解説動画を自動生成。利用制限の上位2%に到達した実体験レポート。

IIIF画像の一部領域にAI生成動画を重ねて表示する「IIIF Animated Viewer」の開発過程を紹介します。

GitHub File History Analyzerの紹介:ファイル編集履歴をAIで分析するツール

GCP: AI Platform Notebooksの作成時のエラー対応

GCP Vertex AIの特徴量(featurestore)の削除方法