無料で長時間音声を高精度文字起こし──Subtitle Edit（Whisper）で誰でも議事録作成術

HowTo

2025.11.252025.12.13

前回の記事では、Whisper と Python を使い、Chunk処理とGPUで力技の長時間音声文字起こしに挑戦した。
RTX3060 を積んだ環境で4時間の議会録音を約10分で処理できたのは面白い成果だったが、正直セットアップは人にすすめにくい。

しかし──
実は同じことをもっと簡単に、しかも無料で、ソフト一本だけでできる方法が存在する。

それが今回紹介する Subtitle Edit（以下 SE）＋ Whisperモデル だ。

目次

① Subtitle Edit が再注目される理由
② Whisper系文字起こしの実用比較
③ 実際の操作ステップ
④ 精度検証（リアル誤変換例）
1. なぜ精度が上がったのか？（推測）
2. 結論：精度は上がった。でも、人力チェックは必須。
便利すぎた編集機能
どんな用途に向くか
課題・注意点（期待値コントロール）
まとめ

① Subtitle Edit が再注目される理由

Subtitle Edit自体は古くからある字幕ツールだが、近年Whisperモデルが統合されたことで用途が一気に広がった。

ハードルが下がった理由はこれだけで説明できる：

Whisperを自分でインストールしなくていい。
モデル選んでボタン押すだけ。

さらに、

長時間音声対応
CPUでも十分動く
CUDAにも対応
Output形式が豊富
自動句読点・整形補助付き
オフライン動作
文字起こし-＞翻訳までを一括サポート

これにより、

「専門知識がある人の遊び」
　　　　↓
「一般ユーザーでも扱える実用ツール」

へ変化した。

② Whisper系文字起こしの実用比較

同じWhisperでも「環境」と「目的」で適正が違う。
まとめるとこうなる：

方法	予算	難易度	精度	長時間対応	向いてる用途
Whisper + Python（ローカル）	無料	中級者向け	◎	◎	研究・自動化
Subtitle Edit + Whisper	無料	最も簡単	○〜◎	◎	議事録・講義・会議録
Notta・Otter.ai	有料（月額）	初心者OK	◎	◎	共同編集・クラウド共有
Teams/Google	企業課金依存	簡単	○	△	企業内限定

「無料で長時間処理したい」なら SE が現時点の最適解。

③ 実際の操作ステップ

今回も、映像素材には春日部市議会の公式アーカイブ映像を使用。

Step 1．音声・動画データを読み込む

対応形式は動画（mp4 / mov / mkv）でも音声（wav / mp3）でもOK。
長時間ファイルでも止まらない。

Subtitle Editで動画ファイルをOpen

👉 動画ファイルをドロップ（または”開く”）

Step 2．Whisperモデルを選択

モデルは tiny → base → small → medium → large とあるが、体感：

会議録・議会・説明会 → small 以上推奨
雑談・ひとり語り → base でも可

対象言語は”Japanese”。

Subtitle Editで文字起こし。
Whisperモデル選択画面 [ビデオ → Audio to Text(Whisper) から開ける] — 今回は、[large-v3-turbo] でテストした。

👉 Whisperモデル選択画面 [ビデオ → Audio to Text(Whisper) から開ける]

Step 3．変換を実行 → 自動整形

“Genarate”ボタンを押したら、オーディオの抽出がはじまり、数分待てばテキスト化が完了。
この時点ですでに「句読点あり」「段落付き」「余計なノイズ除外」の状態になる。

Subtitle Editで文字起こし。
Audio to Text(Whisper) 進行中の画面。 — udio to Text(Whisper) 進行中の画面

Subtitle Editで文字起こし完了。
タイムテーブルに沿って、文字が起こされている。 — Subtitle Editで文字起こし完了。タイムテーブルに沿って、文字が起こされている。

④ 精度検証（リアル誤変換例）

今回も対象は議会音声（約4時間）。前回のPython＋Whisper手動処理と比較すると、Subtitle Edit版は明らかに誤変換数が減りました。

代表例：

誤変換	正しい語句
精神病床への入院費は対障害	→ 対象外

固有名詞や制度名称など、音声が似ている語は依然として取りこぼしがありますが、文脈がある一般語句や助詞の処理精度は向上していました。

なぜ精度が上がったのか？（推測）

Whisperモデル自体は同じでも、Subtitle Edit側が以下の改良をしている可能性があります：

前処理（ノイズ除去）の最適化
文脈推定アルゴリズムの改善
モデルの実装最適化（句読点補正・未知語推定処理）
内部辞書の更新 & Whisper出力補正のロジック修正

特に今回、前回ミスが多かった接続詞・語尾・医療系表現の認識が改善しており、
「機械がただ聞いた字を出す」段階から、
「音声を“文章として”理解しようとする挙動」に近づいている印象です。

結論：精度は上がった。でも、人力チェックは必須。

一方、依然、誤変換の課題は残存。

誤変換	正しい語句
全会一致で、この10度、心身障害者医療費助成制度	→ この重度

Subtitle Editは優秀です。
しかし、行政文書・制度名称・固有名詞が絡む議事録では、

AIの出力をそのまま公開するのは危険。

最適な姿勢は変わりません：

AIに9割やらせ、最後の1割は人間が確認する。

これが現時点での、最も現実的で、ストレスが少ないやり方です。

便利すぎた編集機能

✔ タイムコード削除
✔ 行ごとの短文 → 自動長文結合
✔ 誤変換ワード一括置換
✔ Word / TXT / SRT / PDF 出力
文字起こしした字幕入り動画もすぐ生成

Subtitle Editのテキスト編集ツール

Subtitle Editの出力フォーマットの一部

Subtitle Editで出力した字幕入り動画

どんな用途に向くか

学校・講義の書き起こし
PTA / 町内会 / マンション管理組合
自治体議事録
YouTube字幕
取材・対談・インタビュー
超ロングな文字起こし
人間による精緻な補正作業
門外不出の情報を扱う

特に情報漏洩が気になるケースならSEがベスト。

課題・注意点（期待値コントロール）

話者識別は弱い
専門語・地名・固有名詞は要修正
「要約機能」はない（今は文字化に特化）

それでも“手作業0→確認作業だけ”に変わるのは大きい。

まとめ

Whisperを動かすための環境づくりが武器だった時代は終わった。
今は、Subtitle Editの「ボタン一つ」で誰でも実用レベルの議事録が作れる。

編集者・議員・広報・町内会・講義・研究──
用途は広く、無料でここまでできるのは普通に驚異。

最近は、クラウドサービスでも相当無料で使えるサービスがある。
例えば、soundwise.ai では、4時間の音声を一括で扱うことは出来なかった。

Free Forever AI Audio Video Transcription Tool - Soundwise.ai

Free forever AI audio & video transcription service, supports 90+ languages, 99.8% accuracy. Convert audio and video to ...

4時間という長尺音声を気軽に扱うのに、Subtilte Edit はお気楽で有力な選択肢だ。
あなたも、いますぐ無料で試せるのだから..。