Cohere Transcribeは速いのか? ─ Whisper・Moonshineとローカル実測で検証、日本語ASRの現実

Cohere Transcribeは速いのか? ─ Whisper・Moonshineとローカル実測で検証、日本語ASRの現実 TECH

Cohereが公開した新しい音声認識モデル「Transcribe」は、“高精度・高速”を掲げている。
では、それはローカル環境でも同じなのか。
Whisper、Moonshineと同じ素材を対象に、日本語音声でその実力を検証した

Cohere Transcribeとは何か

Cohere Transcribe: state-of-the-art speech recognition
Unmatched accuracy and speed. Transcribe converts your business’ audio data into precise text for search, analytics, and...

Cohereが公開した「Transcribe」は、会議の文字起こしや顧客サポート分析といった業務用途を想定した自動音声認識(ASR)モデルだ。
“高精度・高速”を掲げ、実運用での利用を前提に設計されている点が特徴となる。

モデルはHugging Face上で公開されており、英語を中心に複数言語へ対応。ベンチマークでは単語誤り率(WER)で高いスコアを記録し、Whisper系モデルと並ぶ、あるいはそれを上回る性能が報告されている。

構成はConformerベースのエンコーダーとTransformerデコーダーを組み合わせたハイブリッド型で、約20億パラメータと比較的コンパクトに収まっている。このため、民生用GPUでも動作可能とされ、クラウドに依存せずローカル環境での運用も視野に入る。

ただし、公開されているとはいえ完全なオープンアクセスではなく、利用には事前のアクセス申請が必要となる。この点は後述するが、実際に触ろうとすると最初に直面するポイントでもある。

今回は、この「高精度・高速」という主張が、ローカル環境・日本語音声という条件でも成立するのかを検証していく。

Python環境構築とハマりポイント

仮想環境

python -m venv asr-test
asr-test\Scripts\activate
pip install --upgrade pip

必須ライブラリ Cohere Transcribe用

pip install transformers accelerate torchaudio

落とし穴:gated repo

👉 403は環境ミスではない

  • Hugging Faceの認証が必要
  • CLIログインしててもダメ
  • ブラウザで「Request access」が必要

Cohere TranscribeはHugging Face上で公開されているが、誰でも使えるわけではない。利用には事前のアクセス申請が必要で、これを通していないと403で完全に止まる。

知っている人には常識の範囲。


ffmpeg必須

素材MP3を処理するのに必要。

  • インストールするだけじゃダメ
  • bin をPATHに入れる必要あり

音声ファイルを直接指定する場合、内部でffmpegが呼ばれる。PATHが通っていないと即エラーになる。


librosa依存

一発で止まる。

Cohere Transcribeはlibrosa依存があり、未インストールだとFeatureExtractorで停止する。


最大のハマり:GPUが見えていない

これが今回の“ボス”。

👉 状態

CUDA: False

👉 原因

  • PyTorchがCPU版

👉 本質

GPUが搭載されていても、PyTorchがCUDA対応でなければ一切使われない。


PyTorchインストールの罠

👉 問題

  • pipが止まったように見える
  • 実際は2.4GBダウンロード中

👉 本質

CUDA版PyTorchは数GB級のため、無言で長時間ダウンロードされる。停止ではない。


inferenceが“無言で進む”問題

pipeline実行中は進捗表示がなく、推論中でも止まっているように見える。


Cohere Transcribeは「モデル性能」以前に「環境構築」で躓く可能性が高い。特にHugging Faceのアクセス制御とCUDA対応のPyTorchは、事前に理解していないと確実に詰まる。


実行環境

  • Intel i7 8700
  • RTX 3060(12GB)
  • Python 3.10
  • CUDA対応PyTorch
  • transformers
CohereLabs/cohere-transcribe-03-2026 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

検証条件

  • 同一音声(chunk_000.mp3)
  • 同一GPU環境
  • 単発推論
  • ローカル実行

使用したコード

tansformers.py

from transformers import pipeline
import torch
import time

print("CUDA:", torch.cuda.is_available())
print("Device:", torch.cuda.get_device_name(0) if torch.cuda.is_available() else "CPU")

print("start")
t0 = time.time()

print("loading pipeline...")
pipe = pipeline(
    "automatic-speech-recognition",
    model="CohereLabs/cohere-transcribe-03-2026",
    device=0 if torch.cuda.is_available() else -1,
    dtype=torch.float16 if torch.cuda.is_available() else torch.float32
)

print(f"pipeline loaded: {time.time() - t0:.1f}s")

t1 = time.time()
print("running inference...")
result = pipe(
    "chunk_000.mp3",
    chunk_length_s=20,
    batch_size=1
)

print(f"inference done: {time.time() - t1:.1f}s")
print(result["text"])

素材と処理フロー

実験素材には過去検証でも用いた、春日部市議会 令和7年9月定例会 議案質疑(1日目) の公式アーカイブ動画を用いました。

chunk_000.mp3

検証対象は冒頭のchunkのみ。
素材生成などについては、以下の記事を参照。


各モデルの出力結果

Cohere Transcribe

 ただいまから本日の会議を開きます。日程第1、議案第76号から議案第84号までに対する質疑を行います。質疑の通告がありますので、順次発言を許します。最初に19番、鈴木和敏議員。  19番鈴木一敏議員。  それでは議案第81号春日部市重度心身障害者医療費助成に関する条例の一部改正について。  中部市重度心身障害者医療費助成に関する条例の一部改正について質疑を行わせていただきます。重度心身障害者医療費助成制度は、障害者とその家族の経済的負担を軽減するため、医療機関を受診した場合の  医療機関を受診した場合の医療費の一部を県と市町村が助成する制度だと思っております。現在の春日部市というか、ま、埼玉県での精神保健福祉手帳保持者の対象者は、  というか、ま、埼玉県での精神保健福祉手帳保持者の対象者は、一級保持者のみとなっておりまして、精神病床への入院費は対象外となっております。これは、実は身体障害や知的障害の手帳保持者と比較をします。  これは、実は身体障害や知的障害の手帳保持者と比較をしますと、女性対象が狭く、三障害の中で同等でない状況となっている事実がございます。障害者への医療費助成や支援については、本来はどこの地域  障害者への医療費助成や支援については、本来はどこの地域で暮らしていても同じ状況であることが必然であると私自身は強く思っております。が、残念ながら現状では違っておりまして、これは国が積極的に動いていただくことが必須であると感じている一人です。  現状では違っておりまして、これは国が積極的に動いていただくことが必須であると感じている一人でございます。精神障害者が社会復帰するためには、医療機関での通院を継続していくことでの病状の安定化が何よりも重要であり、適正  入院を継続していくことでの病状の安定化が何よりも重要であり、適正な医療を続けることで、病状の悪化を防ぐとともに、安定した社会生活や社会復帰をすることができてくると思っております。しかし、それには経済的な問題が大きく、  しかしそれには経済的な問題が大きく障害者総合支援法により精神科医療には上限が設定されておりますけれども例えばそれ以外の病気になった場合などは経済的負担が本当に大きくなっております。  でも、例えば、それ以外の病気になった場合などは、経済的負担が本当に大きくなってしまい、しかも、多くの場合は、ご家族で支えているのが現状だと思っております。そんな中で、当事者の皆様は、精神障害を抱えながらも、何かと、なんとか、  そんな中で当事者の皆様は精神障害を抱えながらも何かと何とか自分の人生を生きたい、できるなら人の役に立ちたいと願っていると思っております。これまで埼玉県議会でも全会一致でこの重度  埼玉県議会でも全会一致で、この重度、心身障害者医療費助成制度の拡充を求め、実は採決もされておるような状況がございました。  そんな中、本年の4月ごろ、大野埼玉県知事から、今回の重度心身障害者医療費助成制度の埼玉県での拡充が発表されたところでございます。そこで、  そこで、まずは、本事業の概要と、かすかめ市においての対象人数について伺ってまいります。なお、対象人数につきましては、実は、今回の拡充においては何か、  なお、対象人数につきましては、実は今回の確認をおいては何か、精神保健福祉手帳の2級保持者全員というわけではないようなので、そのへんを踏まえての人数を伺ってまいります。  以上1回目です。

Moonshine (Base Japanese)

=== RESULT ===
[0.22s] ただ今から本日の会議を開きます
[2.66s] 日程第1、議案第76号から、議案第84号までに対する質??
[10.08s] 質疑の通告がありますので、順次発言を許します。
[32.83s] おはようございます。
[37.44s] それでは議案第81号、春日部市重度心身障害者医療費助成に関する条例の一部改正について。
[46.40s] 質疑を行わせていただきます
[49.02s] 重度心身障害者医療費助成制度は障害者とその家族の経済的負担を軽減するため医
[58.59s] 受診した場合の医療
[61.18s] 県と市町村が助成する制度だと思っております。
[65.12s] 現在の春日部市というか埼玉県での精神保健福祉手帳保持者の対象者は1級保持者のみとなっております。
[74.69s] って
[75.81s] 精神病床への入院費は対象外となっておりま
[80.54s] これは。
[81.31s] 実は身体障害や知的障害の手帳保持者と比較をしますと女性対象が狭くなりま
[89.09s] 3障害の中で同等でない状況となっている事実がご?
[94.37s] 障害者への医療費助成や支援
[97.98s] 本来はどこの地域で暮らしていても同じ状況であることが必然だと私自身は強く思っ
[105.28s] が、残念ながら現状では違っておりまして、これは国が積極的に動いていただくことが必須であると??
[114.94s] 精神障害者が社会復帰するた
[118.37s] 医療機関での通院を継続していくことでの病状の安定化が何よりも重要であり。
[125.89s] 適正な医療を続ける
[128.35s] 病状の悪化を防ぐとともに
[130.94s] 安定した社会生活や社会復帰をすることができてくると思っており
[136.13s] しかし。
[136.93s] それには経済的な問題が大き
[140.00s] 障害者総合支援法により精神科医療には上限が設定されておりますけれ
[146.98s] 例えば。
[147.87s] それ以外の病気になった場合などは経済的負担が本当に大きくなってしまい、しか
[154.94s] 多くの場合は、ご家族で支えているのが現状だと思っております。
[159.90s] そんな中で当事者の皆様は精神障害を抱え
[164.58s] 「何かと」。
[165.79s] なんとか自分の人生を生きたい。
[168.58s] できるなら人の役に立ちたいと願っている
[171.94s] これまで。
[172.86s] 埼玉県議会でも。
[174.66s] 「全開一致で」。
[176.77s] この10℃。
[179.71s] 心身障害者医療??
[182.40s] 拡充を。
[183.87s] 求め。
[185.34s] 実は。
[187.26s] 採決もされておるような状況がご
[191.90s] そんな中。
[193.47s] 本年の4月ごろ。
[196.42s] 大野埼玉県知事から、今回の重度心身障害者医療費助成制度の埼玉県での拡充が発表されたと
[205.57s] そこで。
[206.53s] まずは。
[207.33s] 「本事業の」。
[208.80s] 概要と春日部市においての対象人数について伺ってまいります。
[214.37s] なお、対象ニーズにつきましては
[216.96s] 実は。
[217.76s] 今回の核人は何か?
[220.03s] 精神保健福祉手帳の2級保持者全員というわけではないようなので、そのへんを踏まえての人
[234.75s] 答弁を求めます、戸張副支部

Fast Whisper (small)

ただいまから本日の会議を開きます。日程第1、議案第76号から議案第84号までに対する質疑を行います。
質疑の通告がありますので、順次発言を許します。最初に19番、鈴木和都市議員。
議席番号19番、鈴木和都市でございます。おはようございます。
それでは議案第81号、かすかべ市十度新進障害者医療費助成に関する条例の一部改正について質疑を行わせていただきます。
十度新進障害者医療費助成制度は、障害者とその家族の経済的負担を軽減するため医療機関を受信した場合の医療費の一部を県と市町村が助成する制度だと思っております。
現在のかすかべ市というか、埼玉県での精神保険福祉手帳保持者の対象者は一級保持者のみとなっておりまして、精神病床への入院費は対障害となっております。
これは実は身体障害や知的障害の手帳保持者と比較をしますと、女性対象が狭く、3障害の中で同等でない状況となっている事実がございます。
障害者への医療費助成や支援については、本来はどこの地域で暮らしていても同じ状況であることが必然であると私自身は強く思っております。
が、残念ながら現状では違っておりまして、これは国が積極的に動いていただくことが必須であると感じている一人でございます。
精神障害者が社会復帰するためには、医療機関での通院を継続していくことでの病状の安定化が何よりも重要であり、適正な医療を続けることで、病状の悪化を防ぐとともに安定した社会生活や社会復帰をすることができてくると思っております。
しかし、それには経済的な問題が大きく、障害者総合支援法により精神化医療には上限が設定されておりますけれども、
例えばそれ以外の病気になった場合などは経済的負担が本当に大きくなってしまい、しかも多くの場合はご家族で支えているのが現状だと思っております。
そんな中で、当事者の皆様は精神障害を抱えながらも何かと、何とか自分の人生を生きたい、できるなら人の役に達したいと願っていると思っております。
これまで、埼玉県議会でも前回一致でこの十度、
新身障害者医療費女性制度の拡充を求め、実は採決もされておるような状況がございました。
そんな中、本年の4月ごろ、王の埼玉県知事から今回の十度、新身障害者医療費女性制度の埼玉県での拡充が発表されたところでございます。
そこで、まずは本事業の概要と仮面子においての対象人数について伺っております。
なお、対象人数につきましては、実は今回の確診をおいては何か精神保険福祉長の二級保持者全員というわけではないようなので、
その辺を踏まえての人数を伺っております。
以上一回目です。
答弁を求めます。
とまり福祉部長。

各モデルの出力評価 ─ 日本語ASRの“現実”

今回の結果は、単なる精度比較ではなく、
「どこで使えるか」まで含めて明確に差が出た

※誤変換や違和感の正体は、ご自身の目で確認して欲しい。

Cohere Transcribe ─ “文章として成立する”が、完璧ではない

まず最も印象的なのは、文章の流れが自然に繋がっていることだ。
句読点の配置、文の構造、全体の読みやすさは3モデル中トップ。

実際、出力はそのまま議事録として読めるレベルに近い。

ただし、細かく見ると問題もある。

  • 固有名詞の揺れ(例:鈴木和敏 → 鈴木一敏)
  • 重複フレーズ(同一文の繰り返し)
  • 一部の誤変換(春日部市 → 中部市 など)
  • 最終フレーズの取りこぼし

つまり、

“人間が読む前提の文章生成”は強いが、厳密性はまだ甘い

この特性は、いかにも業務用途(検索・分析向け)モデルらしい。


Moonshine ─ リアルタイム志向の限界がそのまま出る

Moonshineは明確にキャラが違う。

  • タイムスタンプ付き
  • 短文分割
  • リアルタイム処理前提

この構造の時点で、用途はほぼ確定している。

ライブ字幕・リアルタイム補助用途

ただし、今回のような“議事録用途”には向かないだろう。

  • 文が途中で切れる
  • 認識が不安定(「??」など)
  • 意味単位でのまとまりが弱い

結果として、

「聞き取り補助」には強いが、「記録」には向かない

ここは設計思想そのものの違い。


Fast Whisper (small) ─ 安定の“実務ライン”

Whisper系は、やはり基準になる。

  • 文としては成立
  • 全体構造も破綻しない
  • 大崩れしない安定性

ただし、誤変換ははっきり存在する。

  • 和都市(和敏)
  • 十度新進障害者(重度心身障害者)
  • 女性制度(助成制度)

つまり、

“意味は追えるが、正確ではない”

この絶妙な位置。


総評 ─ 速さよりも“何に使うか”で勝負が決まる

今回の結果を一言でまとめるとこうなる。

  • Cohere:文章品質が高い(編集前提なら最強候補)
  • Moonshine:リアルタイム用途特化(用途が完全に別)
  • Whisper:バランス型(とりあえず使える)

ここで重要なのは、

精度や速度の優劣ではなく、“用途適合”がすべて

という点だ。


この検証で見えたこと

今回の検証で面白いのは、

ASRはもう「どれが優秀か」を語る段階ではない

ということだ。

すでに分岐している。

  • リアルタイム系(Moonshine)
  • 文章生成系(Cohere)
  • 汎用安定系(Whisper)

つまり、

“用途別に選ぶ時代”に入っている

補章 ─ 速度評価(今回の実測)

精度とは別に、今回の検証で見逃せないのが処理速度だ。

ASRは最終的に「どれだけ早く使えるか」が現場価値になる。
ここでは、同一条件での単発推論時間を整理する。


■ 実測結果(chunk_000 / RTX3060)

  • Cohere Transcribe:RTF ≒ 0.11
  • Moonshine(CPU):RTF ≒ 0.11
  • Faster-Whisper(small / CUDA):RTF ≒ 0.04

RTF = Real-Time Factor(リアルタイム係数)
「処理にかかった時間 ÷ 音声の長さ」
値が小さいほどよい

今回の結果で興味深いのは、

CohereとMoonshineがほぼ同タイムだった点だ。


■ Cohere Transcribe ─ 「速いモデル」ではあるが、「速く使えるモデル」ではない

Cohereは約25秒で完走しているが、体感としては少し違う。

  • 推論中の進捗表示なし
  • GPUが効いているか分かりにくい
  • 無言で処理が進む

結果として、

「止まっているのでは?」という不安が発生する

速度そのものよりも、UXが課題。


■ Moonshine ─ 設計通りの速度

Moonshineはリアルタイム志向の設計通り、

処理が“速い”というより、“遅延がない”感覚

タイムスタンプ付き出力の構造もあり、
ストリーム処理との相性が明らかに良い。
CPU処理ということを考慮すれば、驚異的。

バッチ処理で比較すると不利になる”のは当然


■ Whisper ─ 実はまだ強い

Whisper(特にsmall系)は、

  • CUDA最適化が成熟している
  • 実行の安定性が高い

という理由で、

“速さのブレが少ない”

ここが地味に強い。


速度評価まとめ

今回の検証から見えるのは、

速度だけでは優劣は決まらない

という当たり前で重要な事実だ。

  • Cohere:処理は速いが、体感UXに課題
  • Moonshine:リアルタイム用途で真価を発揮
  • Whisper:安定した実行速度

速度は「用途の一部」でしかない

リアルタイムか、バッチ処理か、
編集前提か、そのまま使うのか。

それによって“速さの意味”は変わる。

結論 ─ “どれが優秀か”ではなく、“誰が使うか”で決まる

今回の検証で分かったのはシンプルだ。

ASRは性能比較で選ぶ時代ではない

では何で選ぶのか。

判断軸はすでに3つに分解されている。

・リアルタイムで使うのか(Moonshine)
・文章として仕上げるのか(Cohere)
・とりあえず動かすのか(Whisper)

この時点で、“どれが優秀か”という問い自体が意味を失っている。

ASRは性能比較ではなく、「作業フローの一部」として選ぶ段階に入っている。


■ Cohere Transcribe

  • 文章としての完成度は最も高い
  • ただし導入ハードルが高い(Hugging Face前提・gated)

“触れる人”には強いが、“誰でも使える”わけではない

さらに踏み込めば、

“速い”と言われているが、GPU前提で見れば突出しているわけではない


■ Moonshine

  • リアルタイム用途では明確に強い
  • しかしライセンスに制約あり(日本語用途で実運用は要注意)

用途はハマるが、導入の自由度が低い

今回の結果は象徴的で、

CPU処理でCohereと同タイム

これは、比較条件次第で評価が大きく変わることも示している。


■ Whisper

  • 精度は中庸だが実用ラインはクリア
  • 最大の強みはエコシステム

多くのアプリケーションツールから
モデル選択 → ボタン1つで実行

👉 “インストール不要で使える”環境がすでに整っている


最終判断

結論はこれ。

“日本語文字起こしは、まだWhisperでいい”

ではなぜWhisperなのか。

精度で勝っているわけではない。
速度で突出しているわけでもない。

それでもWhisperになる理由は一つ。

「導入・運用・実行」すべてが破綻しない唯一の選択肢だからだ。

  • 導入が簡単
  • 日本語でも問題なく動く
  • 商用利用も扱いやすい
  • ツールが豊富

そして何より、

“今すぐ使える”


この領域の現在地

今回の検証で見えたのは、

技術はすでに十分、問題は運用側に移っている

ということだ。

  • 精度はどれも実用ラインに到達
  • 速度も大きな差はない

残るのは、

  • 導入できるか
  • 維持できるか
  • 現場に乗るか

最も優秀なモデルは、“現場に乗るモデル”だ