Qwen3-ASR 1.7Bで日本語文字起こしは実用になるのか ─ ローカルASRを検証

Qwen3-ASR 1.7Bは実用になるのか ─ ローカルASRを単体検証 TECH
Qwen3-ASRは“導入のしやすさ”が特徴のローカルASR

ローカルで動く音声認識(ASR)の選択肢が増えてきた。
Whisperを軸にしつつ、MoonshineやCohere Transcribeなど、方向性の違うモデルが出揃ってきている。

その中で、少し毛色の違う存在が Qwen3-ASR 1.7B だ。

pipで導入できる手軽さと、比較的軽量なサイズ。
“触れるASR”として気になる存在ではあるが、実際に使えるのか。

今回は比較は行わず、単体で評価する。


Qwen3-ASR 1.7Bとは何か

Qwen/Qwen3-ASR-1.7B · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

Qwenシリーズの音声認識モデルで、1.7Bという比較的軽量なサイズに収まっている。

特徴として分かりやすいのは以下の2点。

  • pipでインストールできる
  • 公式APIが用意されている

Whisperのような“事実上のデファクト”にはまだ及ばないが、
導入のしやすさという意味ではかなり現実的なラインにいるモデルだ。


実行環境

  • Intel i7 8700
  • RTX 3060(12GB)
  • Python 3.10
  • CUDA対応PyTorch
  • transformers

検証条件

  • 使用素材:地方議会の会議音声(日本語)
  • 実行環境:ローカルGPU(RTX3060)
  • 評価観点:
    • 誤変換
    • 文の自然さ
    • 情報の欠落

素材と処理フロー

実験素材には過去検証でも用いた、春日部市議会 令和7年9月定例会 議案質疑(1日目) の公式アーカイブ動画を用いました。

chunk_000.mp3

出力結果

Qwen3-ASR 1.7B で文字起こしのテスト結果。ただいまから本日の会議を開きます。日程第1議案第76号から議案第84号までに対する質疑を行います。質疑の通告がありますので順次質疑を許します。最初に19番鈴木和夫議員。議席番号19番鈴木和夫でございます。おはようございます。それでは議案第81号加須部氏重度精神障害者医療費助成に関する条例の一部改正について質疑を行わせていただきます。重度精神障害者医療費助成制度は障害者とその家族の経済的負担を軽減するため医療機関を受診した場合の医療費の一部を県と市町村が助成する制度となっております(助成する精度だと思っております)。現在の加須部氏(春日部市)というか埼玉県での精神保険福祉手帳保持者の対象者は一級保持者のみとなっておりますので精神病床への入院費は対象外となっております。これは実は身体障害や精神障害の手帳保持者と比較しますと女性対象(助成対象)が狭く残障害(三障害)の中で同等でない状況となっている実がございます。障害者の医療費助成や支援についても本来はどこの地域で暮らしていても同じ状況であることが必須であると私自身は強く思っておりますが残念ながら現状では違っておりますのでこれは国が積極的にご議題のことが必須であると感じている次と(ところ)でございます。精神障害者が社会復帰するためには医療機関での通院を継続していることでの病床(病状)の安定化が何よりも重要であり適正な医療続けることで病床の圧倒不正具(病状の悪化を防ぐ)とともに安定した社会生活や社会復帰をすることができてくると思っております。しかしそれには経済的な問題が大きく障害者総合支援法により精神介療には上限が設定されていますけれども例えばそれ以外の病気になった場合などは経済的負担が本当に大きくなってしまいしかも多くの場合はご家族で支えているが現状だと思っております。そんな中で当事者の皆様は精神障害を抱えながら何かと何とか自分の人生を生きたいできるならその役に立ちたいと願っていると思っております。これまで埼玉県議会でも前回一(全会一致)でこの重度精神障害者医療費助成制度の拡充を求め実は採決もされておりました。そんな中本年の4月頃の(大野)埼玉県知事から今回の重度精神障害者医療費助成制度の埼玉県での拡充が発表されたところでございます。そこでまずは本質疑(本事業)の概要と加須部氏(春日部市)に置いての対象人数について伺ってまいります。なお対象人数につきましては実は各分科(今回の)の拡充について何か精神保険福祉手帳の二級保持者全員というわけだ内容(ではないよう)なのでその辺を踏まえての人数を伺ってまいります。以上一回です。東弁(答弁)の求めます。渡邊(とまり)副支部長。
Qwen3-ASR 1.7B で文字起こしのテスト結果。

出力の特徴とクセ

ここからが本題。

単体評価として見たとき、Qwen3-ASRにははっきりした“性格”がある。


句点が少ない(かなり目立つ)

まず一番気になるのがこれ。

文がほとんど区切られず、長く連結される。
結果として、読みやすさはあまり高くない。

一般的な「整った文字起こし」と比べると、

  • 文の区切りが弱い
  • 呼吸の位置が分かりにくい

👉 “読みやすい文章”ではなく、“整形されていないテキスト”

これは明確にモデルの出力特性と言っていい。


圧縮(端折り)が入る

もう一つ大きいのがこれ。

出力されたテキストは、元の発話より明らかに短い。
体感で20%前後は削られている。

  • 言い淀み
  • 重複表現
  • 冗長な言い回し

こういった部分が削られている。

一見するとスッキリしているが、

👉 これは“忠実な文字起こし”ではない

👉 軽い要約が混ざった挙動

と見るべき。


意味がズレるケースがある

ここは注意点として外せない。

いくつか具体例を挙げる。

  • 女性対象 → 本来は「助成対象
  • 病床 → 本来は「病状
  • 東弁 → 本来は「答弁
  • 前回一 → 本来は「全会一致
  • 加須部氏 → 本来は「春日部市

単なる誤変換ではなく、

意味そのものが変わるタイプのズレ

が発生している。

このタイプは後処理で気づきにくく、
そのまま使うと内容が歪むリスクがある。


ドメイン語に弱い

議事録特有の語彙にも弱さが出る。

例えば:

  • 三障害(身体・知的・精神)
  • 医療制度系の用語
  • 行政用語

このあたりは文脈で補完されず、崩れるケースが見られる。

専門領域の音声にはやや不向き


使ってみて感じたこと

導入は正直かなり楽だった。

pip install qwen-asr

これで一通り揃うのは大きい。

  • 環境構築の再現性が高い
  • 依存関係で詰まりにくい
  • とりあえず動かせる

この点は強い。

ただし出力については別の話になる。

そのまま使える品質ではない

必ず人力チェックが必要

これはQwenに限った話ではないが、
Qwenは特に“意味のズレ”が混ざるため、見逃しにくい。


このモデルはどこで使うべきか

用途として合っているのはこのあたり。

  • 音声の粗いテキスト化
  • 下書き生成
  • 軽量環境での利用

逆に、

  • 正確な議事録
  • 法的文書
  • 公開前提の文章

こういった用途には、そのままでは使いづらい。

“素材を作るモデル”であって、“完成させるモデル”ではない


結論

Qwen3-ASR 1.7Bは、

使えるASRではある

ただし、

任せられるASRではない

導入のしやすさは大きな魅力だが、
出力は必ず確認が必要になる。


補足

ASRはもう「どれが一番精度が高いか」で選ぶ時代ではない。

  • 導入のしやすさ
  • 運用のしやすさ
  • 出力の性質

このあたりで評価が分かれていく。

Qwen3-ASRはその中で、

“現場に持ち込める軽量ASR”

としてのポジションにいるモデルだ。