ローカルASRの選び方 ─ 文字起こしはどれが最適か？Whisper・Moonshine・Qwen比較の結論、「Subtitle Editでいい」

全部試した。
WhisperもMoonshine VoiceもQwenもTranscribeも触った。

結論を先に言う。
普通の人はSubtitle Editでいい。

なぜASRは「比較しても意味がない」のか
各モデルの“触感”
現実 ─ 人はコマンドを叩かない
Subtitle Editが“勝ってしまう理由”
結論 ─ 技術ではなく“道具”で選べ
コラム─AI文字起こしは万能ではない

なぜASRは「比較しても意味がない」のか

ASRは、もう“精度で勝負するフェーズ”ではない。

どのモデルも、実用ラインは超えている。
議事録も起こせるし、内容も十分に読める。

差が出るのはそこじゃない。

差が出るのは、

前処理
後処理
実行環境
手間

つまり、“作業コスト”だ。

ここを無視して「どれが一番賢いか」を語っても、現実では役に立たない。

各モデルの“触感”

ここではベンチマークは出さない。
実際に触ったときの“感触”だけを書く。

Whisper

安定している。
精度も高く、長時間音声でも破綻しにくい。

ただし、素の状態では“道具”としては不完全だ。

chunk分割が必要
ffmpeg前提
後処理は自前

強いが、そのままでは使いにくい

Moonshine

軽い。
CPUで動くという時点で、存在価値がある。

リアルタイム用途では確実に強い。

ただし、

文末が崩れる
句読点が弱い
長文は荒れる

“速さ”の代わりに“整形”を失っている

Qwen3-ASR

軽量で導入しやすい。
触るハードルが低いのは魅力。

ただし、

句点が少ない
意味のズレが出る
出力が粗い

面白いが、まだ“実務の主役”ではない

Cohere Transcribe

文章としての完成度は最も高い。

正直、読ませるなら一番きれい。

ただし、

環境構築が重い
Hugging Faceの制約
誰でも触れるわけではない

“使える人には強い”が、“万人向けではない”

現実 ─ 人はコマンドを叩かない

ここがすべてだ。

ffmpeg？やらない
chunk分割？やらない
Python環境？作らない

普通の人は、そこに時間を使わない。

やりたいのは“文字起こし”であって、
環境構築ではない。

この時点で、答えはほぼ決まっている。

Subtitle Editが“勝ってしまう理由”

Subtitle EditでWhisper文字起こしを実行した字幕一覧とテキスト編集画面（日本語議事録データ） — Whisperによる文字起こし結果をそのまま一覧・編集できる。タイムコード付きで議事録として実用レベル。
そのままWordやTXTに書き出せるため、議事録作成の手間が大幅に削減される

Subtitle Editの編集ツールメニュー（字幕結合・整形・エラー修正などの機能一覧） — 字幕の結合・整形・誤り修正までワンクリック。後処理を含めて“完成された道具”になっている。

Subtitle Editは、全部やってくれる。

動画・音声をドラッグするだけ
長時間音声対応
Whisperのインストール
前後処理
タイムコード整理
行の結合・整形
誤変換の一括置換
SRT / TXT / Word / PDF出力
翻訳まで対応
テロップ付き動画の生成
YouTubeの注釈

つまり、

「文字起こしという作業」が、そのまま完結する。

モデル単体ではなく、“道具として完成している”。

※現在、Subtitle Editはv5.0系が開発中であり、さらなる機能強化が進んでいる（2026年4月時点）

GitHub - SubtitleEdit/subtitleedit: the subtitle editor 🙂

the subtitle editor :). Contribute to SubtitleEdit/subtitleedit development by creating an account on GitHub.

結論 ─ 技術ではなく“道具”で選べ

Whisperは強い。
Moonshineも面白い。
Qwenも伸びる。

でも、それは“部品”の話だ。

実際に使うのは“道具”だ。

そして今、

その道具として最も完成しているのが、Subtitle Editだ。

昔は、CMakeを叩いてWhisperを動かしていた。
今は、動画をドラッグしている。

それで十分だ。

コラム─AI文字起こしは万能ではない

文字起こしは便利だ。
実際、ここまで紹介してきたように、ローカルでも十分に実用になる。

ただし、過信は禁物だ。

誤変換は必ず発生する
固有名詞は崩れる
文脈の解釈は不完全

特に、

会議議事録
契約に関わる記録
対外的な文章

こういった用途では、人の確認が前提になる。

AIは“下書き”としては優秀だ。
しかし、“責任を持つ文章”にはならない。