ローカル生成AIで子ども図鑑を作ってみた ― 無限の可能性を感じた瞬間

生成AIでこども動物図鑑を作ってみた HowTo

はじめに

生成AIがローカルでも手軽に使えるようになった今、私たちはいったい何にそれを役立てれば良いのか?
そんな疑問の答えを探るうちに、ひとつの小さな「体験」を作ってみることにしました。

今回作ったのは、生成AIによる子ども向けの動物図鑑です。
ぜひこちらからご覧ください:

動物図鑑 ~英語名と発音の学習~

Gemma は ChatGPT ほどフレンドリーではないけれど…

ローカルで LLM(大規模言語モデル)が動かせるようになったことで、可能性は大きく広がりました。
ただ、たとえば Gemma は無料でも動作しますが、ChatGPTのような対話の「こなれ感」はまだ足りません。

そんな Gemma を、今回は 図鑑の解説文生成に活用してみました。

Stable Diffusion の「クセ」を理解する良い教材に

画像は Stable Diffusion を使って生成しました。

やってみて分かったのは、これはとても良い「教材」になるということです。

  • 足や指がたくさん生えてくる問題
  • 構図が安定しない問題

例えばこのイヌ、何の気なしに見ていると気づきませんが、足が5本生成されちゃってる..。

こうした生成AIならではのトラブルに直面しながらも、連続自動生成+選別のアプローチでなんとかクリア。
「数撃ちゃ当たる」という精神が自然と身につきました。

技術構成について

今回の子ども図鑑は、すべて生成AIとブラウザの標準機能のみで構築しました。

使った主な技術は次の通りです:

  • 画像生成Stable Diffusion
    → 動物ごとのイメージ画像を一括生成。構図や精度の問題はありましたが、連続生成+選別のアプローチで対応しました。Fooocus API 使用です。
  • 解説文生成Google の LLM「Gemma 3(4B モデル)」
    → 各動物の解説文は、2025年5月に公開された最新の Gemma 3(4B モデル)をローカルで稼働させ、自動生成しています。出来立てホヤホヤのやつですね。個人的には最軽量モデルの1Bでもかなり気に入るレベルでしたが、APIには非対応でした。
    軽量かつ高速なモデルでありつつ、教育用途の説明文程度であれば十分な品質を出してくれました。ただし LLMの「それっぽい嘘」を防ぐため、人力チェックは必須でした。
  • 音声読み上げWebブラウザ標準の Speech Synthesis API
    → 英語発音はこれで十分な品質。追加ライブラリ不要で簡便に使えるため、今回のような教育用途にもとても適しています。

このように、ローカルで動かせる生成AI+ブラウザ標準APIだけで、実用的なコンテンツが作れる時代になっています。
今後さらに工夫すれば、もっと高度なインタラクティブ教材や学習ツールにも応用が効きそうです

簡単にできたと思ったが、人力チェックは意外と大変

正直、もっと簡単に作れると思っていました
しかし LLMのハルシネーション問題は想像以上に厄介。

LLMは「分からない」とは言ってくれません。それらしいウソを平然と紛れ込ませてくる。
そのため、すべての文章に人力でチェックを入れる羽目になりました。具体的に、図鑑用途では「〇〇科」などはあぶない印象です。27Bモデルを選択したら改善するかもしれませんが、私のグラボはGTX1060なので…(笑

画像も約110の生成に対して、要手動再生成は13で正誤率は10%程度でした。対象ワード以外を共通プロンプトで横着したことの弊害もあるでしょうが、かなりの割合です。

画像側の選別と合わせて、やはり人間の手は欠かせないというのが今回の学びです。

苦労はあったが、役立つ形にできたことの喜び

一方で、生成AIが役に立つ形にまで到達できたことは純粋にうれしい体験でもありました。

最近は AI音声生成が流行していますが、実際に試してみて驚いたのは:

👉 Webブラウザ搭載の Speech Synthesis API が、いまだに非常に有用なこと。
👉 特に英語の発音は、簡便さ・品質ともに 比類なき実用レベル

英語学習教材作成にも十分通用するレベルだと再認識しました(主に PC の Chrome 使用時)。
Webブラウザ標準の Speech Synthesis API は、環境によって音質や発音精度が大きく異なります。

特に iPhone 環境では注意が必要です。iPhone 上の Safari や Chrome(内部的には同じ WebKit エンジンを使用)では、デフォルトで日本語音声モデルが優先される仕様になっているため、英語を発音させても「ジャングリッシュ」になりがちです。

PC の Chrome や Android の Chrome では、英語 voice(en-US)が正しく選ばれやすく、発音品質も良好なため、英語学習用途ではそちらの環境での利用を推奨します。少ないサンプルでの経験では、Xperia XZ3 + Android10 のおねーちゃんの声が素敵でした。

このあたりの挙動の違いも、実際に試してみて改めて発見が多い点でした。

また、最近の子どもたちは まず動画を見たがる傾向が強い。
この図鑑はむしろ動画のインデックス的に使ってもらえるとうれしいですね。Youtubeは英語の学習素材の宝庫ですから。

生成AIが身近になった今、どう活用するか?

生成AIが本当に身近な存在になった現在、何に使っていくべきなのかはまだ迷うところです。

でも、今回の小さな体験を通して、久しぶりに「無限の可能性」という言葉を実感する瞬間がありました。

これまでのPC性能向上は「速さの向上」にすぎませんでした。
でも今は 「AIという知性」が身近になったことで、PCの意味が変わろうとしています

AIが東大理三の試験に合格する時代、久しぶりにまた自分のハードウェアも更新したくなる気分になりました。

おわりに

生成AIは、まだまだ道半ばの技術です。
しかし、工夫次第で実用的なツールや楽しい体験を作れる時代になったというのは間違いありません。

次はどんな活用ができるか?
そんなワクワクを感じながら、また新しいチャレンジをしていきたいと思います。