Hermes-4 実力検証 ─ 日本語・数学・コーディングでGemma/GPT-ossと比較

Hermes-4とは何か ─ Nous Researchの最新オープンソースLLM

Hermes-4 は、米国の研究グループ Nous Research が開発した大規模言語モデル（LLM）であり、2025年に登場した Hermesシリーズの最新世代にあたります。公開と同時にオープンソースとして Hugging Face 上にモデルが並び、研究者やエンジニアが自由に試せる環境が整っています。

Hermes-4 の大きな特徴は、以下の3点に集約されます。

ハイブリッド推論能力
Hermes-4 は回答の一部に <think> タグを含め、思考過程を内部に保持しながら出力できるのが特徴です。これは OpenAI GPT-5 系の「Reasoning Effort」モードに近い挙動で、複雑な問題に取り組む際により正確さを狙う仕組みです。
高い数学性能
公開ベンチマークによれば、Hermes-4 14B モデルは
- MATH-500：96.3%
- AIME’24：81.9%
  と、既存の多くのオープンモデルを上回るスコアを記録しています。特に整数方程式や証明タスクの正答率は際立っており、「数学が得意なLLM」として注目されています。
柔軟な出力制御
RefusalBench における「拒否率」が 57.1% と低く、比較的「何でも答える」傾向が強いモデルです。安全性重視の商用LLMに比べて、研究用途や技術検証には扱いやすいという声があります。

Hermes-4 シリーズは現在、

14B（軽量で個人環境向け）
70B（研究機関・大規模サーバー向け）
405B（超大型、まだ限られた環境でのみ利用可能）
という3つのサイズがラインナップされています。

日本語圏ではまだ触りのオーバービュー記事しかなく（例：アーキタイプの紹介記事）、実際の性能評価を含めた検証レポートは少数です。そのため今回の比較記事は「Hermes-4 の実像を伝えるフレッシュな一次情報」として価値が高いと言えるでしょう。

実験に使用したモデル

Hermes-4-14B-GGUF Q4_K_S（NousResearch）
Gemma-3n-e4b-it（Google）
GPT-oss-20B（OpenAI、Reasoning Effort Low 設定）

※検証は LM Studio 上でモデルをロードして実行しました。

LM Studio の Model Search の Hermes-4-14B-GGUF 説明画面

日本語能力テスト ─ Hermes-4の実力は？

Hermes-4 は英語圏の研究者コミュニティで高い評価を受けていますが、日本語圏の利用者にとっては「日本語がどの程度使えるのか」が最も気になるポイントです。ここでは実際に日本語での質問を投げ、Gemma-3 や GPT-oss と比較しながら、その能力を検証しました。

文法・意味の区別テスト

まず「傘を持っていく」状況を比較するシンプルな設問を出しました。

質問
「雨が降りそうだから傘を持っていく」と「雨が降っているから傘を持っていく」の違いを説明せよ。

Hermes-4 の回答

「降りそう」は未来の予測、「降っている」は現在進行の事実。
ニュアンスの区別はできているが、説明に少し冗長さが目立つ。

評価
日本語として破綻はなく、意味の区別も適切。ただし表現がやや不自然で「翻訳調」の印象が残る。

ことわざテスト

次に、意味が似て非なる日本語のことわざを比較させました。

質問
「馬の耳に念仏」と「猫に小判」の違いを説明せよ。

Hermes-4 の回答

「馬の耳に念仏」＝相手に話が全く伝わらない状況。
「猫に小判」＝価値が理解されない対象に無駄なものを与える状況。
それぞれの使い分け例文も提示。

評価
意味の差を正しく説明でき、出力は実用に耐えうる。ただし「猫の耳に小判」と誤って記述する場面もあり、微妙な日本語運用の粗さが見える。

文学的読解テスト

夏目漱石『こころ』の一節を与えて、設問に回答させました。

質問
「Kが悩んでいた理由は何ですか？」

Hermes-4 の回答

「愛と信仰の間で葛藤していたこと」と解釈し、妥当な回答を提示。
ただし、回答の最後で勝手に「Q2：先生の態度は何を示していますか？」と新しい設問を生成してしまった。

評価
文学的文脈を読む力はあるが、タスクに忠実ではなく「余計なお節介」が出る挙動が目立った。

日本語性能の総合評価

正確さ：意味理解はできるが、誤字や不自然な表現あり。
自然さ：翻訳調が強く、母語話者のような自然さは欠ける。
安定性：設問に忠実に答えられず、勝手に次の設問を作ることがある。

結論
Hermes-4 の日本語能力は「使えるレベルにはあるが、業務用途では推奨できない」。日本語文章生成を重視するなら Gemma-3 や GPT 系の方が現時点では上回ると言える。

数学テスト ─ Hermes-4の真価

Hermes-4 の開発チームが特に強調しているのが「数学に強い」点です。公開ベンチマークでも、MATH-500 や AIME で高スコアを叩き出しており、既存のオープンLLMを凌駕する水準にあります。ここでは実際に整数方程式や不定方程式を解かせ、その性能を比較しました。

線形ディオファント方程式

まずは典型的な不定方程式を与えました。

問題
Solve in Z: 26x + 39y = 13.
形式指定: (x, y) = (… + 3k, … − 2k), k ∈ Z

Hermes-4 の回答

正解パターンを即座に提示。
ただし「(-3/2 − (3/2)k, 1/3 + (2/3)k)」のような分数混じりの解も一度生成し、挙動は安定せず。

Gemma-3 の回答

瞬時に正しい解パターンを生成。
出力はシンプルで無駄がなく、トークン消費も少ない。

GPT-oss-20B の回答

正しい解を出せたが、内部で reasoning effort を走らせるため体感スピードは遅い（約8秒）。
出力前に「Thinking…」のつぶやきが入り、処理の重さが目立った。

評価
Hermes-4 は「解ける」ことは確認できたが、Gemma-3 より冗長で、GPT-oss より遅くはないが安定性に欠ける印象。

実数証明問題

次に「√2 が無理数であることを証明せよ」と指示。

Hermes-4 の回答

背理法を軸に、10種類以上のアプローチを列挙。
文章量は膨大で約3,500トークンを消費。
内容は正しいが冗長すぎ、現実利用では扱いにくい。

評価
「多角的に証明を展開する」点は強みだが、指示に対してオーバーキル気味。研究や教育補助では有益だが、普段使いには不向き。

総合評価

Hermes-4：数学タスクでの発想力と網羅性は圧倒的。ただし「余計に語る」傾向が強く、トークン消費が非常に多い。
Gemma-3：速度・簡潔さで優秀。必要最低限の答えをすぐ出す点で、日常利用には最も適している。
GPT-oss：正確さは高いがレスポンスが遅く、体感ストレスが大きい。

結論
Hermes-4 は「数学を網羅的に展開できるモデル」として特筆すべき存在。ただし計算の速さや簡潔さを求める用途では Gemma-3 に軍配が上がる。

コーディングテスト ─ FizzBuzzと実装スタイルの比較

プログラミングにおける基礎課題として定番の FizzBuzz を題材に、Hermes-4 / Gemma-3 / GPT-oss の3モデルを比較しました。
条件は「JavaScriptで 1〜100 の数を順に出力し、3の倍数なら Fizz、5の倍数なら Buzz、両方の倍数なら FizzBuzz を表示せよ」です。

Hermes-4 の出力

const fizzBuzz = () => {
  for (let i = 1; i <= 100; i++) {
    if (i % 15 === 0) console.log('FizzBuzz');
    else if (i % 3 === 0) console.log('Fizz');
    else if (i % 5 === 0) console.log('Buzz');
    else console.log(i);
  }
}

fizzBuzz();

最もシンプルかつ典型的な実装。
冗長性はなく、即戦力コードとして利用可能。
トークン消費：171（軽め）。

Gemma-3 の出力

for (let i = 1; i <= 100; i++) {
  let output = "";
  if (i % 3 === 0) {
    output += "Fizz";
  }
  if (i % 5 === 0) {
    output += "Buzz";
  }

  if (output === "") {
    console.log(i);
  } else {
    console.log(output);
  }
}

文字列結合で処理を分ける「可読性重視」のスタイル。
分岐条件が整理されており、バリエーションとしては優秀。
出力は瞬時、ただしトークン消費は Hermes より多め（458）。

GPT-oss の出力

for (let i = 1; i <= 100; i++) {
  if (i % 15 === 0) console.log('FizzBuzz');
  else if (i % 3 === 0) console.log('Fizz');
  else if (i % 5 === 0) console.log('Buzz');
  else console.log(i);
}

Hermes とほぼ同じシンプル実装。
出力前に “Thought for a brief moment” と reasoning モードが入り、実行速度はやや遅い。
トークン消費：124（Hermesより軽量だが体感スピードは劣る）。

総合評価

Hermes-4：典型的かつ堅実なコードを即座に生成。トークン効率も良く、コーディング用途では安定。
Gemma-3：スタイルの柔軟性が高く、やや verbose だが読みやすさでは優位。
GPT-oss：コード自体は正解だが、レスポンスが遅いのが難点。

結論
Hermes-4 は「無難で即使えるコード」を出す点で合格点。Gemma-3 は「人間が読んで修正しやすいコード」、GPT-oss は「考えすぎて遅いが正確性は高い」といった特徴が見えた。

総合比較と所感 ─ Hermes-4の立ち位置

今回のテストで、Hermes-4・Gemma-3・GPT-oss を「日本語能力」「数学推論」「文学読解」「コーディング」という4つの観点で比較しました。そこから見えてきた特徴を整理します。

日本語能力

Hermes-4：意味は通るが、不自然な表現や誤用が目立つ。日本語での自然な応答は苦手。
Gemma-3：短文で簡潔に回答、日本語の扱いも比較的スムーズ。
GPT-oss：安定しているが、冗長に説明しがち。

→ 日本語用途では Hermes-4 は不向き。Gemma-3 の方が安定感あり。

数学推論

Hermes-4：数式問題に強く、Diophantine 方程式も正しく解けた。ただし長い思考過程でトークン消費が大きい。
Gemma-3：正解を瞬時に出すが、トークン使用量が多めでコンテキスト圧迫が懸念。
GPT-oss：正確性は高いが、reasoning モードが入ってレスポンスが遅い。

→ Hermes-4 は数学系に特化した強みがあり、学生や研究者には有用。

文学読解

Hermes-4：「こころ」テストで質問を誤解し、勝手に次の問題を提示するなど不安定。
Gemma-3：短いが質問意図に沿った回答。
GPT-oss：丁寧だが説明過多。

→ Hermes-4 は文学的文脈を理解する力が弱く、解釈問題には不向き。

コーディング

Hermes-4：シンプルかつ正解のコードを瞬時に生成。即戦力として利用可能。
Gemma-3：やや verbose だが可読性の高い実装。
GPT-oss：コードは正しいが出力速度が遅く、実用感に欠ける。

→ Hermes-4 はプログラミング用途では十分戦える。

全体の所感

Hermes-4 は 「数学・ロジック・コーディング」特化型の軽量LLM と言える。
一方で、日本語や文学のように 解釈やニュアンスが重要な領域では弱み が目立った。

まとめると：

数学・ロジック系 → Hermes-4 の独壇場
日本語・文学系 → Gemma-3 に軍配
コーディング系 → Hermes-4 と Gemma-3 が拮抗
GPT-oss → 正確だがレスポンス遅延が最大の弱点

結論

Hermes-4 は「日本語での会話AI」としては推奨できないが、数学やプログラミングの実験台としては十分面白い存在である。日本語記事として Hermes-4 の実像を伝える価値は高く、今がフレッシュな旬のトピックである。