全部試した。
WhisperもMoonshine VoiceもQwenもTranscribeも触った。
結論を先に言う。
普通の人はSubtitle Editでいい。
なぜASRは「比較しても意味がない」のか
ASRは、もう“精度で勝負するフェーズ”ではない。
どのモデルも、実用ラインは超えている。
議事録も起こせるし、内容も十分に読める。
差が出るのはそこじゃない。
差が出るのは、
- 前処理
- 後処理
- 実行環境
- 手間
つまり、“作業コスト”だ。
ここを無視して「どれが一番賢いか」を語っても、現実では役に立たない。
各モデルの“触感”
ここではベンチマークは出さない。
実際に触ったときの“感触”だけを書く。
Whisper
安定している。
精度も高く、長時間音声でも破綻しにくい。
ただし、素の状態では“道具”としては不完全だ。
- chunk分割が必要
- ffmpeg前提
- 後処理は自前
強いが、そのままでは使いにくい
Moonshine
軽い。
CPUで動くという時点で、存在価値がある。
リアルタイム用途では確実に強い。
ただし、
- 文末が崩れる
- 句読点が弱い
- 長文は荒れる
“速さ”の代わりに“整形”を失っている
Qwen3-ASR
軽量で導入しやすい。
触るハードルが低いのは魅力。
ただし、
- 句点が少ない
- 意味のズレが出る
- 出力が粗い
面白いが、まだ“実務の主役”ではない
Cohere Transcribe
文章としての完成度は最も高い。
正直、読ませるなら一番きれい。
ただし、
- 環境構築が重い
- Hugging Faceの制約
- 誰でも触れるわけではない
“使える人には強い”が、“万人向けではない”
現実 ─ 人はコマンドを叩かない
ここがすべてだ。
- ffmpeg?やらない
- chunk分割?やらない
- Python環境?作らない
普通の人は、そこに時間を使わない。
やりたいのは“文字起こし”であって、
環境構築ではない。
この時点で、答えはほぼ決まっている。
Subtitle Editが“勝ってしまう理由”

そのままWordやTXTに書き出せるため、議事録作成の手間が大幅に削減される

Subtitle Editは、全部やってくれる。
- 動画・音声をドラッグするだけ
- 長時間音声対応
- Whisperのインストール
- 前後処理
- タイムコード整理
- 行の結合・整形
- 誤変換の一括置換
- SRT / TXT / Word / PDF出力
- 翻訳まで対応
- テロップ付き動画の生成
- YouTubeの注釈
つまり、
「文字起こしという作業」が、そのまま完結する。
モデル単体ではなく、“道具として完成している”。
※現在、Subtitle Editはv5.0系が開発中であり、さらなる機能強化が進んでいる(2026年4月時点)
結論 ─ 技術ではなく“道具”で選べ
Whisperは強い。
Moonshineも面白い。
Qwenも伸びる。
でも、それは“部品”の話だ。
実際に使うのは“道具”だ。
そして今、
その道具として最も完成しているのが、Subtitle Editだ。
昔は、CMakeを叩いてWhisperを動かしていた。
今は、動画をドラッグしている。
それで十分だ。
コラム─AI文字起こしは万能ではない
文字起こしは便利だ。
実際、ここまで紹介してきたように、ローカルでも十分に実用になる。
ただし、過信は禁物だ。
- 誤変換は必ず発生する
- 固有名詞は崩れる
- 文脈の解釈は不完全
特に、
- 会議議事録
- 契約に関わる記録
- 対外的な文章
こういった用途では、人の確認が前提になる。
AIは“下書き”としては優秀だ。
しかし、“責任を持つ文章”にはならない。








