Hermes-4 実力検証 ─ 日本語・数学・コーディングでGemma/GPT-ossと比較

Hermes-4 実力検証 ─ 日本語・数学・コーディングでGemma/GPT-ossと比較 TECH

Hermes-4とは何か ─ Nous Researchの最新オープンソースLLM

Hermes-4 は、米国の研究グループ Nous Research が開発した大規模言語モデル(LLM)であり、2025年に登場した Hermesシリーズの最新世代にあたります。公開と同時にオープンソースとして Hugging Face 上にモデルが並び、研究者やエンジニアが自由に試せる環境が整っています。

Hermes-4 の大きな特徴は、以下の3点に集約されます。

  • ハイブリッド推論能力
    Hermes-4 は回答の一部に <think> タグを含め、思考過程を内部に保持しながら出力できるのが特徴です。これは OpenAI GPT-5 系の「Reasoning Effort」モードに近い挙動で、複雑な問題に取り組む際により正確さを狙う仕組みです。
  • 高い数学性能
    公開ベンチマークによれば、Hermes-4 14B モデルは
    • MATH-500:96.3%
    • AIME’24:81.9%
      と、既存の多くのオープンモデルを上回るスコアを記録しています。特に整数方程式や証明タスクの正答率は際立っており、「数学が得意なLLM」として注目されています。
  • 柔軟な出力制御
    RefusalBench における「拒否率」が 57.1% と低く、比較的「何でも答える」傾向が強いモデルです。安全性重視の商用LLMに比べて、研究用途や技術検証には扱いやすいという声があります。

Hermes-4 シリーズは現在、

  • 14B(軽量で個人環境向け)
  • 70B(研究機関・大規模サーバー向け)
  • 405B(超大型、まだ限られた環境でのみ利用可能)
    という3つのサイズがラインナップされています。

日本語圏ではまだ触りのオーバービュー記事しかなく(例:アーキタイプの紹介記事)、実際の性能評価を含めた検証レポートは少数です。そのため今回の比較記事は「Hermes-4 の実像を伝えるフレッシュな一次情報」として価値が高いと言えるでしょう。

実験に使用したモデル

  • Hermes-4-14B-GGUF Q4_K_S(NousResearch)
  • Gemma-3n-e4b-it(Google)
  • GPT-oss-20B(OpenAI、Reasoning Effort Low 設定)

※検証は LM Studio 上でモデルをロードして実行しました。

LM Studio の Model Search の Hermes-4-14B-GGUF 説明画面
LM Studio の Model Search の Hermes-4-14B-GGUF 説明画面

日本語能力テスト ─ Hermes-4の実力は?

Hermes-4 は英語圏の研究者コミュニティで高い評価を受けていますが、日本語圏の利用者にとっては「日本語がどの程度使えるのか」が最も気になるポイントです。ここでは実際に日本語での質問を投げ、Gemma-3 や GPT-oss と比較しながら、その能力を検証しました。


文法・意味の区別テスト

まず「傘を持っていく」状況を比較するシンプルな設問を出しました。

質問
「雨が降りそうだから傘を持っていく」と「雨が降っているから傘を持っていく」の違いを説明せよ。

Hermes-4 の回答

  • 「降りそう」は未来の予測、「降っている」は現在進行の事実。
  • ニュアンスの区別はできているが、説明に少し冗長さが目立つ。

評価
日本語として破綻はなく、意味の区別も適切。ただし表現がやや不自然で「翻訳調」の印象が残る。


ことわざテスト

次に、意味が似て非なる日本語のことわざを比較させました。

質問
「馬の耳に念仏」と「猫に小判」の違いを説明せよ。

Hermes-4 の回答

  • 「馬の耳に念仏」=相手に話が全く伝わらない状況。
  • 「猫に小判」=価値が理解されない対象に無駄なものを与える状況。
  • それぞれの使い分け例文も提示。

評価
意味の差を正しく説明でき、出力は実用に耐えうる。ただし「猫の耳に小判」と誤って記述する場面もあり、微妙な日本語運用の粗さが見える。


文学的読解テスト

夏目漱石『こころ』の一節を与えて、設問に回答させました。

質問
「Kが悩んでいた理由は何ですか?」

Hermes-4 の回答

  • 「愛と信仰の間で葛藤していたこと」と解釈し、妥当な回答を提示。
  • ただし、回答の最後で勝手に「Q2:先生の態度は何を示していますか?」と新しい設問を生成してしまった。

評価
文学的文脈を読む力はあるが、タスクに忠実ではなく「余計なお節介」が出る挙動が目立った。


日本語性能の総合評価

  • 正確さ:意味理解はできるが、誤字や不自然な表現あり。
  • 自然さ:翻訳調が強く、母語話者のような自然さは欠ける。
  • 安定性:設問に忠実に答えられず、勝手に次の設問を作ることがある。

結論
Hermes-4 の日本語能力は「使えるレベルにはあるが、業務用途では推奨できない」。日本語文章生成を重視するなら Gemma-3 や GPT 系の方が現時点では上回ると言える。

数学テスト ─ Hermes-4の真価

Hermes-4 の開発チームが特に強調しているのが「数学に強い」点です。公開ベンチマークでも、MATH-500 や AIME で高スコアを叩き出しており、既存のオープンLLMを凌駕する水準にあります。ここでは実際に整数方程式や不定方程式を解かせ、その性能を比較しました。


線形ディオファント方程式

まずは典型的な不定方程式を与えました。

問題
Solve in Z: 26x + 39y = 13.
形式指定: (x, y) = (… + 3k, … − 2k), k ∈ Z

Hermes-4 の回答

  • 正解パターンを即座に提示。
  • ただし「(-3/2 − (3/2)k, 1/3 + (2/3)k)」のような分数混じりの解も一度生成し、挙動は安定せず。

Gemma-3 の回答

  • 瞬時に正しい解パターンを生成。
  • 出力はシンプルで無駄がなく、トークン消費も少ない。

GPT-oss-20B の回答

  • 正しい解を出せたが、内部で reasoning effort を走らせるため体感スピードは遅い(約8秒)。
  • 出力前に「Thinking…」のつぶやきが入り、処理の重さが目立った。

評価
Hermes-4 は「解ける」ことは確認できたが、Gemma-3 より冗長で、GPT-oss より遅くはないが安定性に欠ける印象。


実数証明問題

次に「√2 が無理数であることを証明せよ」と指示。

Hermes-4 の回答

  • 背理法を軸に、10種類以上のアプローチを列挙。
  • 文章量は膨大で約3,500トークンを消費。
  • 内容は正しいが冗長すぎ、現実利用では扱いにくい。

評価
「多角的に証明を展開する」点は強みだが、指示に対してオーバーキル気味。研究や教育補助では有益だが、普段使いには不向き。


総合評価

  • Hermes-4:数学タスクでの発想力と網羅性は圧倒的。ただし「余計に語る」傾向が強く、トークン消費が非常に多い。
  • Gemma-3:速度・簡潔さで優秀。必要最低限の答えをすぐ出す点で、日常利用には最も適している。
  • GPT-oss:正確さは高いがレスポンスが遅く、体感ストレスが大きい。

結論
Hermes-4 は「数学を網羅的に展開できるモデル」として特筆すべき存在。ただし計算の速さや簡潔さを求める用途では Gemma-3 に軍配が上がる。

コーディングテスト ─ FizzBuzzと実装スタイルの比較

プログラミングにおける基礎課題として定番の FizzBuzz を題材に、Hermes-4 / Gemma-3 / GPT-oss の3モデルを比較しました。
条件は「JavaScriptで 1〜100 の数を順に出力し、3の倍数なら Fizz、5の倍数なら Buzz、両方の倍数なら FizzBuzz を表示せよ」です。


Hermes-4 の出力

const fizzBuzz = () => {
  for (let i = 1; i <= 100; i++) {
    if (i % 15 === 0) console.log('FizzBuzz');
    else if (i % 3 === 0) console.log('Fizz');
    else if (i % 5 === 0) console.log('Buzz');
    else console.log(i);
  }
}

fizzBuzz();
  • 最もシンプルかつ典型的な実装。
  • 冗長性はなく、即戦力コードとして利用可能。
  • トークン消費:171(軽め)。

Gemma-3 の出力

for (let i = 1; i <= 100; i++) {
  let output = "";
  if (i % 3 === 0) {
    output += "Fizz";
  }
  if (i % 5 === 0) {
    output += "Buzz";
  }

  if (output === "") {
    console.log(i);
  } else {
    console.log(output);
  }
}
  • 文字列結合で処理を分ける「可読性重視」のスタイル。
  • 分岐条件が整理されており、バリエーションとしては優秀。
  • 出力は瞬時、ただしトークン消費は Hermes より多め(458)。

GPT-oss の出力

for (let i = 1; i <= 100; i++) {
  if (i % 15 === 0) console.log('FizzBuzz');
  else if (i % 3 === 0) console.log('Fizz');
  else if (i % 5 === 0) console.log('Buzz');
  else console.log(i);
}
  • Hermes とほぼ同じシンプル実装。
  • 出力前に “Thought for a brief moment” と reasoning モードが入り、実行速度はやや遅い。
  • トークン消費:124(Hermesより軽量だが体感スピードは劣る)。

総合評価

  • Hermes-4:典型的かつ堅実なコードを即座に生成。トークン効率も良く、コーディング用途では安定。
  • Gemma-3:スタイルの柔軟性が高く、やや verbose だが読みやすさでは優位。
  • GPT-oss:コード自体は正解だが、レスポンスが遅いのが難点。

結論
Hermes-4 は「無難で即使えるコード」を出す点で合格点。Gemma-3 は「人間が読んで修正しやすいコード」、GPT-oss は「考えすぎて遅いが正確性は高い」といった特徴が見えた。

総合比較と所感 ─ Hermes-4の立ち位置

今回のテストで、Hermes-4・Gemma-3・GPT-oss を「日本語能力」「数学推論」「文学読解」「コーディング」という4つの観点で比較しました。そこから見えてきた特徴を整理します。


日本語能力

  • Hermes-4:意味は通るが、不自然な表現や誤用が目立つ。日本語での自然な応答は苦手。
  • Gemma-3:短文で簡潔に回答、日本語の扱いも比較的スムーズ。
  • GPT-oss:安定しているが、冗長に説明しがち。

日本語用途では Hermes-4 は不向き。Gemma-3 の方が安定感あり。


数学推論

  • Hermes-4:数式問題に強く、Diophantine 方程式も正しく解けた。ただし長い思考過程でトークン消費が大きい。
  • Gemma-3:正解を瞬時に出すが、トークン使用量が多めでコンテキスト圧迫が懸念。
  • GPT-oss:正確性は高いが、reasoning モードが入ってレスポンスが遅い。

Hermes-4 は数学系に特化した強みがあり、学生や研究者には有用。


文学読解

  • Hermes-4:「こころ」テストで質問を誤解し、勝手に次の問題を提示するなど不安定。
  • Gemma-3:短いが質問意図に沿った回答。
  • GPT-oss:丁寧だが説明過多。

Hermes-4 は文学的文脈を理解する力が弱く、解釈問題には不向き。


コーディング

  • Hermes-4:シンプルかつ正解のコードを瞬時に生成。即戦力として利用可能。
  • Gemma-3:やや verbose だが可読性の高い実装。
  • GPT-oss:コードは正しいが出力速度が遅く、実用感に欠ける。

Hermes-4 はプログラミング用途では十分戦える。


全体の所感

Hermes-4 は 「数学・ロジック・コーディング」特化型の軽量LLM と言える。
一方で、日本語や文学のように 解釈やニュアンスが重要な領域では弱み が目立った。

まとめると:

  • 数学・ロジック系 → Hermes-4 の独壇場
  • 日本語・文学系 → Gemma-3 に軍配
  • コーディング系 → Hermes-4 と Gemma-3 が拮抗
  • GPT-oss → 正確だがレスポンス遅延が最大の弱点

結論

Hermes-4 は「日本語での会話AI」としては推奨できないが、数学やプログラミングの実験台としては十分面白い存在である。日本語記事として Hermes-4 の実像を伝える価値は高く、今がフレッシュな旬のトピックである。