ローカルASRの選び方 ─ 文字起こしはどれが最適か?Whisper・Moonshine・Qwen比較の結論、「Subtitle Editでいい」

ローカルASRの選び方 ─ 文字起こしはどれが最適か?Whisper・Moonshine・Qwen比較の結論、「Subtitle Editでいい」 TECH

全部試した。
WhisperもMoonshine VoiceもQwenもTranscribeも触った。

結論を先に言う。
普通の人はSubtitle Editでいい。


なぜASRは「比較しても意味がない」のか

ASRは、もう“精度で勝負するフェーズ”ではない。

どのモデルも、実用ラインは超えている。
議事録も起こせるし、内容も十分に読める。

差が出るのはそこじゃない。

差が出るのは、

  • 前処理
  • 後処理
  • 実行環境
  • 手間

つまり、“作業コスト”だ。

ここを無視して「どれが一番賢いか」を語っても、現実では役に立たない。


各モデルの“触感”

ここではベンチマークは出さない。
実際に触ったときの“感触”だけを書く。

Whisper

安定している。
精度も高く、長時間音声でも破綻しにくい。

ただし、素の状態では“道具”としては不完全だ。

  • chunk分割が必要
  • ffmpeg前提
  • 後処理は自前

強いが、そのままでは使いにくい



Moonshine

軽い。
CPUで動くという時点で、存在価値がある。

リアルタイム用途では確実に強い。

ただし、

  • 文末が崩れる
  • 句読点が弱い
  • 長文は荒れる

“速さ”の代わりに“整形”を失っている



Qwen3-ASR

軽量で導入しやすい。
触るハードルが低いのは魅力。

ただし、

  • 句点が少ない
  • 意味のズレが出る
  • 出力が粗い

面白いが、まだ“実務の主役”ではない



Cohere Transcribe

文章としての完成度は最も高い。

正直、読ませるなら一番きれい。

ただし、

  • 環境構築が重い
  • Hugging Faceの制約
  • 誰でも触れるわけではない

“使える人には強い”が、“万人向けではない”



現実 ─ 人はコマンドを叩かない

ここがすべてだ。

  • ffmpeg?やらない
  • chunk分割?やらない
  • Python環境?作らない

普通の人は、そこに時間を使わない。

やりたいのは“文字起こし”であって、
環境構築ではない。

この時点で、答えはほぼ決まっている。


Subtitle Editが“勝ってしまう理由”

Subtitle EditでWhisper文字起こしを実行した字幕一覧とテキスト編集画面(日本語議事録データ)
Whisperによる文字起こし結果をそのまま一覧・編集できる。タイムコード付きで議事録として実用レベル。
そのままWordやTXTに書き出せるため、議事録作成の手間が大幅に削減される
Subtitle Editの編集ツールメニュー(字幕結合・整形・エラー修正などの機能一覧)
字幕の結合・整形・誤り修正までワンクリック。後処理を含めて“完成された道具”になっている。

Subtitle Editは、全部やってくれる。

  • 動画・音声をドラッグするだけ
  • 長時間音声対応
  • Whisperのインストール
  • 前後処理
  • タイムコード整理
  • 行の結合・整形
  • 誤変換の一括置換
  • SRT / TXT / Word / PDF出力
  • 翻訳まで対応
  • テロップ付き動画の生成
  • YouTubeの注釈

つまり、

「文字起こしという作業」が、そのまま完結する。

モデル単体ではなく、“道具として完成している”。



※現在、Subtitle Editはv5.0系が開発中であり、さらなる機能強化が進んでいる(2026年4月時点)

GitHub - SubtitleEdit/subtitleedit: the subtitle editor 🙂
the subtitle editor :). Contribute to SubtitleEdit/subtitleedit development by creating an account on GitHub.

結論 ─ 技術ではなく“道具”で選べ

Whisperは強い。
Moonshineも面白い。
Qwenも伸びる。

でも、それは“部品”の話だ。

実際に使うのは“道具”だ。

そして今、

その道具として最も完成しているのが、Subtitle Editだ。


昔は、CMakeを叩いてWhisperを動かしていた。
今は、動画をドラッグしている。

それで十分だ。


コラム─AI文字起こしは万能ではない

文字起こしは便利だ。
実際、ここまで紹介してきたように、ローカルでも十分に実用になる。

ただし、過信は禁物だ。

  • 誤変換は必ず発生する
  • 固有名詞は崩れる
  • 文脈の解釈は不完全

特に、

  • 会議議事録
  • 契約に関わる記録
  • 対外的な文章

こういった用途では、人の確認が前提になる。



AIは“下書き”としては優秀だ。
しかし、“責任を持つ文章”にはならない。