はじめに
前回、RTX3060 + CUDA 環境で 4時間の会議音声を約10分で文字起こしできることを確認した。
Whisper Small の精度については、公開ベンチマークでは WER 8.59%と報告されている。
ローカル文字起こしは、もはや実用域に入っている。
では、最近話題の軽量エンジン「Moonshine Voice」はどうなのか。
今回は日本語実測をもとに、Whisperとの立ち位置の違いを整理する。
日本語文字起こしの実測比較
同一素材での比較。以下は上記ドキュメント内に記載の数値。
- Whisper Small(CUDA): WER 8.59%
- Moonshine Japanese Base: WER 13.62%
体感とも一致する。
前回、Whisperで文字起こしの同一素材を用いてテストした。
結果は上記記事と比較してみて欲しい。
(moon) PS D:\moonshine\moon> python ./test_moon.py
=== RESULT ===
[0.22s] ただ今から本日の会議を開きます
[2.66s] 日程第1、議案第76号から、議案第84号までに対する質??
[10.08s] 質疑の通告がありますので、順次発言を許します。
[32.83s] おはようございます。
[37.44s] それでは議案第81号、春日部市重度心身障害者医療費助成に関する条例の一部改正について。
[46.40s] 質疑を行わせていただきます
[49.02s] 重度心身障害者医療費助成制度は障害者とその家族の経済的負担を軽減するため医
[58.59s] 受診した場合の医療
[61.18s] 県と市町村が助成する制度だと思っております。
[65.12s] 現在の春日部市というか埼玉県での精神保健福祉手帳保持者の対象者は1級保持者のみとなっております。
[74.69s] って
[75.81s] 精神病床への入院費は対象外となっておりま
[80.54s] これは。
[81.31s] 実は身体障害や知的障害の手帳保持者と比較をしますと女性対象が狭くなりま
[89.09s] 3障害の中で同等でない状況となっている事実がご?
[94.37s] 障害者への医療費助成や支援
[97.98s] 本来はどこの地域で暮らしていても同じ状況であることが必然だと私自身は強く思っ
[105.28s] が、残念ながら現状では違っておりまして、これは国が積極的に動いていただくことが必須であると??
[114.94s] 精神障害者が社会復帰するた
[118.37s] 医療機関での通院を継続していくことでの病状の安定化が何よりも重要であり。
[125.89s] 適正な医療を続ける
[128.35s] 病状の悪化を防ぐとともに
[130.94s] 安定した社会生活や社会復帰をすることができてくると思っており
[136.13s] しかし。
[136.93s] それには経済的な問題が大き
[140.00s] 障害者総合支援法により精神科医療には上限が設定されておりますけれ
[146.98s] 例えば。
[147.87s] それ以外の病気になった場合などは経済的負担が本当に大きくなってしまい、しか
[154.94s] 多くの場合は、ご家族で支えているのが現状だと思っております。
[159.90s] そんな中で当事者の皆様は精神障害を抱え
[164.58s] 「何かと」。
[165.79s] なんとか自分の人生を生きたい。
[168.58s] できるなら人の役に立ちたいと願っている
[171.94s] これまで。
[172.86s] 埼玉県議会でも。
[174.66s] 「全開一致で」。
[176.77s] この10℃。
[179.71s] 心身障害者医療??
[182.40s] 拡充を。
[183.87s] 求め。
[185.34s] 実は。
[187.26s] 採決もされておるような状況がご
[191.90s] そんな中。
[193.47s] 本年の4月ごろ。
[196.42s] 大野埼玉県知事から、今回の重度心身障害者医療費助成制度の埼玉県での拡充が発表されたと
[205.57s] そこで。
[206.53s] まずは。
[207.33s] 「本事業の」。
[208.80s] 概要と春日部市においての対象人数について伺ってまいります。
[214.37s] なお、対象ニーズにつきましては
[216.96s] 実は。
[217.76s] 今回の核人は何か?
[220.03s] 精神保健福祉手帳の2級保持者全員というわけではないようなので、そのへんを踏まえての人
[234.75s] 答弁を求めます、戸張副支部
=== TIME ===
25.067 sec
特に長文の安定性や助詞の整合性、文章としての自然さでは、Whisperが一段上に見える。
一方で、Whisperで正しく取れなかった政策名や固有名詞がMoonshineでは正確に認識される場面もあった。
「大野埼玉県知事」を正しく認識した点には正直驚かされた。
ただし、リアルタイム処理を前提とする設計のためか、語尾や文末が荒れる傾向は見られる。
リアルタイム処理時には、
(moon) PS D:\moonshine\moon> python -m moonshine_voice.mic_transcriber --language ja
Using a model released under the non-commercial Moonshine Community License. See https://www.moonshine.ai/license for details.
Listening to the microphone, press Ctrl+C to stop...
こ の 話 の 友 人 は チ ャ ッMicTranscriber: input overflow
Speaker #0: 私 の 友 人 は チ ャ ッ ト G P
MicTranscriber: input overflow
Speaker #0: 彼は、「?
Speaker #0: 慎重な性格である
Speaker #0: いつも。
Speaker #0: 小難しいことを言っています
のような逐次崩れも発生した。
議事録用途では、現時点で王者は変わらない。
それでもMoonshineが注目される理由
Moonshineが話題になる最大の理由は、CPUのみで動くリアルタイム処理性能にある。
GPUを前提とせず、それでも即時応答する。この設計思想は明確だ。
しかし、ここで整理しておきたい。
前回検証したRTX3060 + CUDA 環境では、4時間の会議音声を約10分で処理できた。
これは実時間の約25倍速に相当する。
大量録音データを高速に文字起こしする用途では、この差は決定的だ。
ざっくりRTFを出すと:
Moonshine( Base Japanese, CPU / core i7 8700 )
235秒 ÷ 25秒 ≒ 9.4倍速
RTF ≒ 0.11
Faster-Whisper( small, CUDA RTX3060 VRAM 12GB )
全体RTF ≒ 0.04
→ 約25倍速
MoonshineはGPUスケールを前提としていない。
大健闘だが、設計思想そのものが異なる。
Whisperは「バッチ処理で一気に仕上げるモデル」。
Moonshineは「逐次処理で即時に反応するエンジン」。
精度の問題だけではない。
大量文字起こし市場では、処理スループットそのものが勝負を決める。
その意味で、GPU加速を前提としたWhisperは依然として圧倒的に有利だ。
Moonshineが戦っているのは別の領域である。
Janglish問題と設計思想
日本人英語で試すと面白い差が出る。
Whisperは驚くほど寛容。
多少崩れた発音でも意図を汲んでくれる。
一方Moonshineはかなり厳格だ。
私のJanglishでは歯が立たないケースが多発。
Red
Blue
Cancel
こんな単純な単語ですら通らないケースがある。
これは欠点か?
議事録用途ではマイナス。
だが音声UI用途では「誤発火を防ぐ設計」とも解釈できる。
音声で機器を制御する世界では、曖昧さは事故になる。
ここに戦っている戦場の違いが見える。
ライセンスと日本市場
もう一つ重要なのがライセンス。
英語以外はMITではないため、
日本語用途での本格導入はハードルが高い。
日本語議事録 × ローカル運用 × 商用利用
この条件では現状Whisperが圧倒的に扱いやすい。
結論:世代交代ではなく分岐進化
MoonshineはWhisperキラーではない。
だが、
Whisperが「文章化」を極めている間に、
Moonshineは「音声UI」という別系統に進化している。
議事録ならWhisper。
軽量リアルタイム音声トリガーならMoonshine。
競合ではなく役割分担。
世代交代ではなく、分岐進化。
それが今回の整理だ。



