Whisper

TECH

Whisper最強時代の裏で生まれた“音声UI用エンジン” ― Moonshine Voiceを読む

2022年のWhisperが切り開いた音声認識の実用化。その裏で登場したMoonshine Voiceは“音声UI用エンジン”という別系統の進化だ。ベンチマークと公式資料から両者の役割分担を読み解く。
HowTo

Subtitle Edit + LM Studio + Qwen3で字幕翻訳してみた。結論:用途が違う。

Whisper・LM Studio・Qwen3を組み合わせて字幕翻訳を実験。DeepLより遅いが、完全ローカルで処理できる価値がある。用途と結果をまとめたレビュー。関西弁の英日翻訳も。
HowTo

無料で長時間音声を高精度文字起こし──Subtitle Edit(Whisper)で誰でも議事録作成術

前回の記事では、Whisper と Python を使い、Chunk処理とGPUで力技の長時間音声文字起こしに挑戦した。RTX3060 を積んだ環境で4時間の議会録音を約10分で処理できたのは面白い成果だったが、正直セットアップは人にすすめ...
HowTo

RTX3060 + CUDA × Whisper ─ 4時間会議をチャンク分割で10分文字起こし

RTX3060とCUDAを用いて、オープンソースWhisperをローカルGPUで実行。4時間の会議録音をわずか10分で文字起こしできた事例を紹介します。クラウド依存せず、情報漏洩リスクを避けながら高速かつ低コストに活用できる実践レポートです。