無料で長時間音声を高精度文字起こし──Subtitle Edit(Whisper)で誰でも議事録作成術

無料で長時間音声を高精度文字起こし──Subtitle Edit(Whisper)で誰でも議事録作成術 HowTo

前回の記事では、Whisper と Python を使い、Chunk処理とGPUで力技の長時間音声文字起こしに挑戦した。
RTX3060 を積んだ環境で4時間の議会録音を約10分で処理できたのは面白い成果だったが、正直セットアップは人にすすめにくい。

しかし──
実は同じことをもっと簡単に、しかも無料で、ソフト一本だけでできる方法が存在する。

それが今回紹介する Subtitle Edit(以下 SE)+ Whisperモデル だ。

Nikse.dk

① Subtitle Edit が再注目される理由

Subtitle Edit自体は古くからある字幕ツールだが、近年Whisperモデルが統合されたことで用途が一気に広がった。

ハードルが下がった理由はこれだけで説明できる:

Whisperを自分でインストールしなくていい。
モデル選んでボタン押すだけ。

さらに、

  • 長時間音声対応
  • CPUでも十分動く
  • CUDAにも対応
  • Output形式が豊富
  • 自動句読点・整形補助付き
  • オフライン動作
  • 文字起こし->翻訳までを一括サポート

これにより、

「専門知識がある人の遊び」
    ↓
「一般ユーザーでも扱える実用ツール」

へ変化した。


② Whisper系文字起こしの実用比較

同じWhisperでも「環境」と「目的」で適正が違う。
まとめるとこうなる:

方法予算難易度精度長時間対応向いてる用途
Whisper + Python(ローカル)無料中級者向け研究・自動化
Subtitle Edit + Whisper無料最も簡単○〜◎議事録・講義・会議録
Notta・Otter.ai有料(月額)初心者OK共同編集・クラウド共有
Teams/Google企業課金依存簡単企業内限定

「無料で長時間処理したい」なら SE が現時点の最適解。


③ 実際の操作ステップ

今回も、映像素材には春日部市議会の公式アーカイブ映像を使用。


Step 1.音声・動画データを読み込む

対応形式は動画(mp4 / mov / mkv)でも音声(wav / mp3)でもOK。
長時間ファイルでも止まらない。

 Subtitle Editで動画ファイルをOpen


👉 動画ファイルをドロップ(または”開く”)


Step 2.Whisperモデルを選択

モデルは tiny → base → small → medium → large とあるが、体感:

  • 会議録・議会・説明会 → small 以上推奨
  • 雑談・ひとり語り → base でも可

対象言語は”Japanese”。

 Subtitle Editで文字起こし。
Whisperモデル選択画面 [ビデオ → Audio to Text(Whisper) から開ける]
今回は、[large-v3-turbo] でテストした。

👉 Whisperモデル選択画面 [ビデオ → Audio to Text(Whisper) から開ける]


Step 3.変換を実行 → 自動整形

“Genarate”ボタンを押したら、オーディオの抽出がはじまり、数分待てばテキスト化が完了。
この時点ですでに「句読点あり」「段落付き」「余計なノイズ除外」の状態になる。

 Subtitle Editで文字起こし。
Audio to Text(Whisper) 進行中の画面。
udio to Text(Whisper) 進行中の画面
 Subtitle Editで文字起こし完了。
タイムテーブルに沿って、文字が起こされている。
Subtitle Editで文字起こし完了。タイムテーブルに沿って、文字が起こされている。

④ 精度検証(リアル誤変換例)

今回も対象は議会音声(約4時間)。前回のPython+Whisper手動処理と比較すると、Subtitle Edit版は明らかに誤変換数が減りました。

代表例:

誤変換正しい語句
精神病床への入院費は対障害対象外

固有名詞や制度名称など、音声が似ている語は依然として取りこぼしがありますが、文脈がある一般語句や助詞の処理精度は向上していました。


なぜ精度が上がったのか?(推測)

Whisperモデル自体は同じでも、Subtitle Edit側が以下の改良をしている可能性があります:

  • 前処理(ノイズ除去)の最適化
  • 文脈推定アルゴリズムの改善
  • モデルの実装最適化(句読点補正・未知語推定処理)
  • 内部辞書の更新 & Whisper出力補正のロジック修正

特に今回、前回ミスが多かった接続詞・語尾・医療系表現の認識が改善しており、
「機械がただ聞いた字を出す」段階から、
「音声を“文章として”理解しようとする挙動」に近づいている印象です。


結論:精度は上がった。でも、人力チェックは必須。

一方、依然、誤変換の課題は残存。

誤変換正しい語句
全会一致で、この10度、心身障害者医療費助成制度この重度

Subtitle Editは優秀です。
しかし、行政文書・制度名称・固有名詞が絡む議事録では、

AIの出力をそのまま公開するのは危険。

最適な姿勢は変わりません:

AIに9割やらせ、最後の1割は人間が確認する。

これが現時点での、最も現実的で、ストレスが少ないやり方です。


便利すぎた編集機能

  • ✔ タイムコード削除
  • ✔ 行ごとの短文 → 自動長文結合
  • ✔ 誤変換ワード一括置換
  • ✔ Word / TXT / SRT / PDF 出力
  • 文字起こしした字幕入り動画もすぐ生成
Subtitle Editのテキスト編集ツール
Subtitle Editの出力フォーマットの一部
Subtitle Editで出力した字幕入り動画
Subtitle Editで出力した字幕入り動画

どんな用途に向くか

  • 学校・講義の書き起こし
  • PTA / 町内会 / マンション管理組合
  • 自治体議事録
  • YouTube字幕
  • 取材・対談・インタビュー
  • 超ロングな文字起こし
  • 人間による精緻な補正作業
  • 門外不出の情報を扱う

特に情報漏洩が気になるケースならSEがベスト。


課題・注意点(期待値コントロール)

  • 話者識別は弱い
  • 専門語・地名・固有名詞は要修正
  • 「要約機能」はない(今は文字化に特化)

それでも“手作業0→確認作業だけ”に変わるのは大きい。


まとめ

Whisperを動かすための環境づくりが武器だった時代は終わった。
今は、Subtitle Editの「ボタン一つ」で誰でも実用レベルの議事録が作れる。

編集者・議員・広報・町内会・講義・研究──
用途は広く、無料でここまでできるのは普通に驚異。

最近は、クラウドサービスでも相当無料で使えるサービスがある。
例えば、soundwise.ai では、4時間の音声を一括で扱うことは出来なかった。

Free Forever AI Audio Video Transcription Tool - Soundwise.ai
Free forever AI audio & video transcription service, supports 90+ languages, 99.8% accuracy. Convert audio and video to ...

4時間という長尺音声を気軽に扱うのに、Subtilte Edit はお気楽で有力な選択肢だ。
あなたも、いますぐ無料で試せるのだから..。