Reasoning Effortの真価を問う:gpt-oss(LM Studio)は“迷い”を描けるか?― スマホゲーのガチャをめぐるAIの思考比較実験

Reasoning Effortの真価を問う:gpt-ossは“迷い”を描けるか? HowTo

はじめに — Reasoning Effort に“人間らしさ”は宿るのか?

OSS系の大規模言語モデル(LLM)も、いよいよ「思考の質」を問われる段階に入ってきた。
OpenAIが提供する gpt-oss-20b は、その代表格といえるモデルのひとつだ。

本モデルをローカル環境で動かすツール「LM Studio」では、推論プロセスの挙動を制御する設定項目として Reasoning Effort(推論努力)というトグルが存在する。Low、Medium、Highの3段階で、より深い思考を促すとされているが――果たしてそれは本当に機能しているのだろうか?

前回の記事では、この Reasoning Effort に対するシンプルな検証を行った。
あえて難易度の低い推理問題を与え、Low/Medium/High それぞれの回答を比較したが、その結果は必ずしも明確な差を感じられるものではなかった。推論の過程において、条件整理や根拠の提示が不十分なケースも多く、「このトグルは“飾り”なのでは?」という疑念さえ残ったのが正直なところだ。

だが、今回は視点を変えてみることにした。

シンプルな論理問題ではなく、人間の“迷い”や“心理”が絡む意思決定問題を題材とすることで、Reasoning Effort の真価が浮き彫りになるのではないか?

そう考え、今回はスマートフォンゲームにおける「SSRガチャを回すべきかどうか?」という、現実のプレイヤーであれば誰しも悩みがちなシチュエーションを設定し、gpt-oss-20b に判断を仰いでみた。もちろん、Low/Medium/High の各推論レベルで、同一プロンプトに対してそれぞれ独立に応答させている。

果たして Reasoning Effort の設定は、“考え方の深さ”を本当に変えるのか?
本記事ではその検証結果を共有しながら、モデルの挙動の違いを丁寧に掘り下げていく。のではないかという狙いがあります。

実験設定 — ガチャを回すべきか? プレイヤー心理を問う

今回の検証では、「あまりにもリアルで悩ましい」問いを gpt-oss に投げかけた。

テーマは、スマホゲームにおける期間限定ガチャ

── それは、プレイヤーが必ず一度は遭遇する、運と判断力の綱引きだ。
「推しキャラが出ている。欲しい。けれど、石が足りない。次のガチャも気になる……」

この“迷い”をそのままプロンプトに落とし込み、gpt-oss に「あなた自身が迷っているプレイヤーだと思って考えてください」と指示した。
AIはこのような“人間的な判断タスク”において、Reasoning Effort の違いをどのように表現するのだろうか?


📝 実際に使用したプロンプト

あなたはスマホゲームのプレイヤーです。
期間限定で「SSRキャラ(排出率3%)」がピックアップされたガチャが開催されています。
あなたの石は 900個(30連分)
天井(確定入手)は300連
SSRキャラは 推しで、強力な性能
次の新ガチャ情報はまだ不明
ガチャの開催は 残り3日

あなたはこのガチャを回すべきでしょうか?
自分が判断に迷っているプレイヤーだと思って、思考の過程を示しつつ結論を出してください。


🔧 検証の条件

  • 使用モデルopenai/gpt-oss-20b
  • 実行環境:LM Studio(ローカル動作)
  • Reasoning Effort 設定:Low / Medium / High
  • 同一プロンプト・初期状態から個別に実行(推論は独立)

今回の目的は、「思考の正しさ」を測ることではない。
大切なのは、“どれだけ考えているように見えるか”、そして“人間のような迷いを表現できているか”である。

Low/Medium/High で何が変わるのか?
それは単に出力の長さや語彙の違いではなく、「悩む姿勢の濃さ」に現れてくるはずだ。

次章では、各出力を比較しながらその違いを観察していく。

出力比較 — 回す?回さない?gpt-ossの“迷い方”を見よ

同じプロンプト、同じモデル。
違うのは Reasoning Effort(推論努力) の設定だけ。

たったそれだけで、gpt-oss の出力はここまで変わるのか?
ここでは Low/Medium/High の各レベルで出力された回答の特徴を、具体的な抜粋とともに比較してみよう。


🔍 出力の比較:要約表

観点LowMediumHigh
結論の速さ早い(即決)やや慎重条件分岐しつつ誘導
論理の深さ表面的な期待値計算機会損失や心理に触れる不確実性・心理バイアス・戦略を複層的に展開
感情の扱いほぼ無し「焦り」「後悔」に触れる「損失回避」「プレイヤーの気分価値」など心理的動因を明示化
シナリオ分岐無し(常に「回すべき」)「まず回す」「結果で追加判断」の2段階「必要度」「確率の不確実性」に応じて複数戦略を提示
判断の委ね方AIが断言するプレイヤーの判断に余地を残すフレームを示しつつ「最後はあなた次第」と締める
実行的アドバイス無し(単に推す)アクションプランを提示(回す→次の判断)10連・20連分割投資や見送り戦略も含めた柔軟な提案

Low:数字で即断、迷いなし

「期待値は0.9 SSR。失敗しても石の損失は限定的。推しキャラ・強力性能を確実に手に入れたいなら、回す方がリスク・コスト面で有利です。はい、回すべき。

最も“合理的”に見えて、実は人間らしさが希薄
確率と期待値を計算し、淡々とリスクとリターンを天秤にかけるだけの出力は、表面的なロジックに終始しており、「迷っているプレイヤー」としての感情の揺れはほとんど感じられない。


Medium:感情と戦略を内包し始める

「推しキャラを手に入れたいという価値観と確率・時間制限から見ると、リスクより利益が大きい。失敗しても他のイベントで再挑戦できるので、今すぐ回すのが合理的。」

Mediumでは、数値に加えて「後悔したくない」「機会損失が怖い」といった人間心理が登場し始める。
また「最初に30連を打ち、その後で残りの石の使い道を決める」といった
段階的なアクションプランも提案され、単なる判断ではなく“判断の仕方”を教える段階に入っている。


High:思考の複層化と判断フレームの提示

「必須度が ★★★★☆ なら30回全部使う。★★★☆☆なら分割して試す。★★☆☆☆なら今回は見送り。最終的な判断はあなた次第です。

Highの出力では、冒頭で問いの意味を再定義し、数値だけでなく不確実性・心理的圧力・今後のシナリオの可能性まで検討範囲が広がる。
最も注目すべきは、「心理的バイアス(損失回避)」や「プレイヤーの感情価値」といった人間的な要素を言語化し、かつ多様なプレイスタイルを尊重した分岐を提示している点。

単に「正解を教える」のではなく、判断のフレームワークそのものを構築し、読者に委ねる――まさに“考える力”の発露と言える。


考える姿勢の違いが、Reasoning Effort の差を生む

この比較から見えてくるのは、Reasoning Effort の設定が単に出力量や語彙の多寡にとどまらず、「どうやって考えるか」というスタイルそのものに影響を及ぼしているという事実だ。

Lowは「速いが浅い」。
Highは「遅いが深い」。

そしてその“深さ”とは、問いを問い直し、自分を疑い、相手に委ねることのできる余白の広さなのかもしれない。

考察 — Reasoning Effort がもたらす“思考の深み”とは?

一見、出力の分量や表現の丁寧さの違いにしか見えない Reasoning Effort 設定。
だが今回の比較を通して明らかになったのは、それが単なる装飾ではなく、思考のプロセスそのものを構造的に変化させるトグルだということだ。


違いは「何を考えるか」ではなく「どう考えるか」

同じ情報──確率、石の数、SSRの価値。
それをもとにして出す答えは、単に「回す or 回さない」しかないはずだ。

しかし、Reasoning Effort を上げることで、モデルは以下のような“内的作業”を増やしていく

推論の段階LowMediumHigh
問題の再定義×
プレイヤー心理の考慮×
判断基準の分岐×
感情と合理性の葛藤描写×
判断の委譲×◎(読者へ投げる)

Highでは、単にデータを並べて計算するだけではなく、「どんな立場のプレイヤーか?」という前提を精査し、性格や価値観に応じた判断フレームを提供するという、「思考のメタ構造」まで踏み込んでいた。

これは、単なる言語モデルが「助言者」から「意思決定の伴走者」へと進化しようとしている兆候でもある。


Highが示す“人間らしさ”とは何か?

特に注目したいのは、High の出力における以下のような点だ:

  • 問いの再構成:「“回すかどうか”より、“なぜ迷っているのか”をまず問う」
  • 心理的バイアスの認識:「損失回避」「後悔したくない気持ち」をトリガーと認識する
  • 複数の選択肢の提示:「全ツッパ」「分割投資」「見送り」などのリスク戦略
  • 読者への判断の委ね:「こう考えたが、あなたはどう思いますか?」という対話の姿勢

これらはすべて、人間が他者に相談するときのプロセスに近い。
つまり、Highは“考えているように見える”だけでなく、“一緒に悩んでくれている”ように見えるのだ。


万能ではない。しかし「迷い」を描けるのはHighだけ

もちろん、Highの出力にも限界はある。

  • 処理時間は長く、出力も冗長になりがち
  • 結論が曖昧になり、読者の背中を押しきれない場合もある
  • 常に正解を出すわけではなく、むしろ“余地”を残す方向に進む

だがこれは、人間の相談相手でも同じこと。
明快な答えを即断する者よりも、「一緒に迷ってくれる存在」の方が信頼されることもある

その意味で、Reasoning Effort=High は、AIを「検索エンジンの延長線」から「熟考する対話者」へと一歩進めるモードなのかもしれない。

おわりに — Reasoning Effortは“推論の粒度”を変えるスイッチだった

前回の検証では、Reasoning Effort に大きな意味を見出すことはできなかった。
出力の違いは微妙で、「この設定は見せかけのオプションではないか」と疑う気持ちすらあった。

だが今回、人間の迷いが絡む“判断のグレーゾーン”をテーマに据えたことで、違いははっきりと表れた

Lowは、単純で速く、ある種“ドライ”な合理性。
Mediumは、そこに感情や機会損失の視点が加わった“戦略的な判断”。
そしてHighは、“迷い”そのものを描き出し、判断のプロセスごと提示する、対話的な推論パートナーのようだった。


Reasoning Effort の正体は、「問いの深掘り度」

結局のところ、この設定が変えていたのは「出力の長さ」でも「語彙の豊かさ」でもない。
変わっていたのは、「問いに対して、どこまで深く潜って考えるか」という姿勢の深度だった。

それは、OSSモデルに対して初めて「人間のような考え方をさせるトグル」が用意された、という意味でもある。


OSSモデルは“使い方次第”で思考の質が変わる

今回の検証を通じて得られた最大の気づきは、「モデルの性能以前に、どのモードで、どう問いを投げるかが重要だ」ということだ。

Reasoning Effort をHighにすることで、モデルが本来持っていた思考能力がようやく表に出てきた。
OSSモデルは、初期設定のままでは本気を出さない。ユーザーの“問いかけ方”が、潜在力を引き出す鍵になる。


次は、もっと厄介な“人間の問い”へ

今回はゲーム内の“ガチャ問題”という比較的身近なテーマだったが、Highモードの思考能力が本領を発揮するのはむしろ、倫理・価値観・ジレンマといった、「正解のない問い」だろう。

次回はもっと踏み込んだテーマ――たとえば、

  • 「AIに人生相談をしてもいいのか?」
  • 「大切な人の命と公共の利益、どちらを選ぶべきか?」
  • 「芸術の価値は誰が決めるのか?」

……そんな“人間の矛盾”を孕んだ問いで、Reasoning Effort の真価を改めて探ってみたい。


本記事が、OSSモデルを使いこなす上での「見えないスイッチ」の存在に気づくきっかけになれば幸いである。
そして、“考えるOSSモデル”との対話を、あなた自身の手でさらに深めてほしい。

補足:実験環境とログ情報

■ 使用モデル

  • モデル名:openai/gpt-oss-20b
  • モデルサイズ:20B(200億パラメータ)
  • 実行方式:ローカル実行(LM Studio 経由)

■ 実行環境

項目内容
実行ツールLM Studio
バージョンv0.3.22
Reasoning Effort 設定Low / Medium / High(3段階)
GPURTX 3060(12GB)
CPUcore i7 8700
メモリ32GB RAM
推論方式それぞれの推論を独立プロンプト・コンテキストなしで実行
トークナイザーChatML形式(LM Studioの自動設定に準拠)

■ 各 Reasoning Effort 実行ログ(一部)

項目LowMediumHigh
処理時間(推論)約 31.9 秒約 39.1 秒約 347.0 秒
出力トークン数約 1486 tokens約 1810 tokens約 3470 tokens
出力速度約 4.92 tok/sec約 3.97 tok/sec約 2.82 tok/sec
開始までの待機時間10.5 秒82 秒6分46秒(実測)

■ 注意点

  • 出力結果は 2025年8月上旬に取得したものであり、今後のモデル更新により挙動が変化する可能性があります。
  • 推論時間や出力量は 実行PCの性能や LM Studio の設定に強く依存します。
  • トークン数・時間などのメトリクスは、LM Studio のログに基づき取得したものです。