「Reasoning Effort」を3段階で検証してみた～gpt-ossは“思考の深さ”を変えられるか？

この記事は第2ステップです。
・OpenAI発！gpt-oss-20bをRTX3060で動かして正体を暴いた話

第1章：LM Studioの“隠し設定”に気づいた日
1. Reasoning Effort：Low / Medium / High
第2章：「日本で最も電力を消費する都道府県」を3段階で問う
第3章：Lowはスピーディな即答屋だった
第4章：Mediumにして“ちょうどいい解説”が生まれた
第5章：Highは思索深いが、古い地図で語りすぎた
第6章：思考の“深さ”は選べるが、真の知性とは違う
補章：では、次はどこへ向かうのか？
1. そして、視線の先には GPT-5 の影

第1章：LM Studioの“隠し設定”に気づいた日

AIと真剣に向き合う者にとって、「設定」こそが知性の輪郭を決める。
LM Studio──ローカル環境でLLMを動かすことができるこの便利なツールには、見過ごされがちな「隠し味」が潜んでいた。

チャット入力欄のすぐ下。
いくつか並んだシンプルなトグルボタンの中に、それはあった。

Reasoning Effort：Low / Medium / High

この設定名に、筆者は最初軽い興味しか持たなかった。
だが、何度か切り替えながら使用するうちに、モデルの出力傾向が確かに変化していることに気づく。
──文章の長さが違う。
──構成が違う。
──推論の筋道そのものが変わっている。

それはまるで、同じ人間が話しているのに、性格だけがすり替わったかのような奇妙な体験だった。

LM Studioに読み込んだモデルは、gpt-oss-20b。
RTX3060というミドルレンジGPUでも安定動作が可能なこのOSS系LLMは、巷で「軽いのにそこそこ賢い」と評判だ。
だが、この「Reasoning Effort」というスライダーこそ、本当の意味での“賢さのチューニング”を可能にするスイッチではないか？

筆者は、そう確信するに至った。

この章は、その確信が生まれた出発点にすぎない。
次章からは、実際のプロンプトと出力結果をもとに、「Reasoning Effort」の3段階が持つ性格と限界を、徹底的に比較・検証していく。

──答える深さは、変えられるのか？
──変わるのは“思考”か、それとも“文体”か？

すべては、一つの問いから始まる。

「日本で最も電力消費が多い都道府県はどこか？その理由を複数の視点から考察せよ」

第2章：「日本で最も電力を消費する都道府県」を3段階で問う

LLMの“知性”とは何か。
その一端を垣間見るためには、思考を要する問いをぶつけるのが最も手っ取り早い。

今回、筆者が選んだ設問は以下の通り：

「日本で最も電力消費の多い都道府県はどこか？その理由を複数の視点から考察せよ」

この問いは単なる一問一答ではない。
事実の裏付け、数値データの扱い、因果関係の整理、そして視点の多角性が求められる。

まさに、「Reasoning Effort」の違いによって応答の構成や“思考の深さ”がどう変わるのかを観察するにはうってつけのテーマだった。

検証環境

モデル：gpt-oss-20b
実行環境：LM Studio（GPU: RTX3060 / 12GB）
推論モード：Reasoning Effort を Low / Medium / High の3段階に切替
その他の設定：すべてデフォルト（rag-v1: ON、js-code-sandbox: OFF）

各モードごとに、出力トークン数／応答速度／構成／記述スタイルを記録・分析した。
以下はその概要である：

⏱ トークン数と出力速度の比較

モード	トークン数	出力速度（tok/sec）	First Token Time
Low	988	13.12	4.67秒
Medium	1540	10.30	3.63秒
High	2790	6.63	3.54秒

トークン数は High で約3倍に達し、文章の情報密度と量が明らかに異なる。
ただし、First Token の出力開始時間には大きな差は見られなかった。
つまり、モデルの“初動”にはEffort設定がほとんど影響を与えないが、出力全体の速度と量にははっきりと差が出ることが分かる。

⚖ では、その内容にどれほどの違いがあるのか？

Low：要点だけを即座に伝える「箇条書き＋表」スタイル
Medium：構成が整った「ミニレポート」調。分析と整理が両立
High：政策・未来予測まで含む「評論文」スタイル。だが情報の賞味期限に懸念あり

次章から、それぞれの出力にじっくりと目を通しながら、モデルがどのように“考えたふり”をしているかを観察していく。

第3章：Lowはスピーディな即答屋だった

Reasoning Effort を「Low」に設定して生成された出力は、実にわかりやすかった。
表形式で簡潔に要因を整理し、数値を交えた箇条書きで説得力を持たせつつも、余計な感情表現や推論の広がりはない。まるで、社内のパワポ資料を元に箇条書きを整えたような即答ぶりだった。

出力の構造と特徴

トークン数：988
出力速度：13.12 tok/sec
First Tokenまで：4.67秒
構成要素：
- 東京都の電力消費がトップであると即答
- 要因を5つの視点に分けて表形式で提示
- 他県との消費量比較あり（大阪・愛知など）
- 結論と今後の改善点を簡潔に述べて終了

内容の傾向

観点	特徴
文章量	最小限に抑えられている（約1,000トークン）
構成	明快。序論→表→結論というテンプレ通り
推論の深さ	「AだからB」の1段階止まり
比較性	他都道府県の消費量と並べて見せることで数字のインパクトを演出
トーン	中立的で淡々。感情や主張の色合いは一切なし

💬 一部抜粋（要約）

東京都の電力消費は全国平均の約10倍。
経済活動、人口密度、オフィス需要、交通インフラ、季節要因が重なり合っている。
他県と比べてスマートグリッド導入やエネルギー効率化が急務。

所感：これは「Chatモードの素早い返答」に最適

Lowモードの魅力は、スピードと要点重視の即応力にある。
詳細を求めなければ、ビジネスミーティングで使える程度の“それっぽい情報”がサクッと得られる。

だが裏を返せば、深掘りは一切してこない。
なぜその要因が影響するのか、因果の背後にある構造や、制度的背景への洞察などはまったくない。

一言でいえば、「AIが書いたっぽいが、AIにしか書けないわけでもない」
そんな程度の完成度である。

第4章：Mediumにして“ちょうどいい解説”が生まれた

Reasoning Effort を Medium に設定した途端、出力の質ががらりと変わった。
Lowのような即答スタイルではなく、丁寧な段落構成と視点の整理、そして定量データに基づく比較分析が自然と盛り込まれていた。

この段階にして、ようやく「これは使える」と思わせる実用的なレポート形式に仕上がってくる。

出力の構造と特徴

トークン数：1540
出力速度：10.30 tok/sec
First Tokenまで：3.63秒
構成要素：
- 地域別電力量（東京都、大阪府、神奈川県）を明示
- 各要因を6つの視点に分けて解説
- 「住宅 vs 工場」など用途別比較あり
- 再生可能エネルギー・ピーク需要に関する補足も挿入
- 最後に簡潔な政策提言を提示

出力の完成度（Lowとの比較）

観点	Low	Medium
構成の整然さ	表と要点	表＋段落＋展開
データの深さ	数字提示のみ	地域差・比率・背景付き
因果関係の明示	単層	二段階以上の説明あり
視点数	5視点	6〜7視点（補足付き）
未来視点	ほぼなし	ごく一部含む（技術改善・制度）
トーン	箇条書き調	説明調（落ち着いた文章）

一部抜粋（要約）

東京都の電力消費の主因は、人口密度・産業集積・都市熱島効果の三要素にある。
再生可能エネルギーの導入により消費電力量が増える構造も見逃せない。
効率化のためには、LED・省エネ家電・冷却技術の革新が不可欠。

所感：Mediumこそ“実用に耐える”出力スタイル

Mediumモードは、知識・構成・言葉選びのバランスが最も取れている。
事実に基づく記述を中心に、過剰な想像もなく、推論は控えめ。
それでいて要因を丁寧に整理し、読者に「納得できる説明」を提示する。

ちょっとしたレポート・資料・提案書として転用するには、このMediumが最適解といえる。

あえて言えば、「AIが書いたっぽさ」が最も消えていたのがこのMediumだった。

筆者はこの出力を読んだとき、gpt-ossでもここまでいけるのかと少し驚いた。
それは単なるトークンの増加ではなく、思考の形跡を感じさせる構成力があったからだ。

だが次章では、さらに深い“知的な語り口”を見せるHighモードへと進む。
その語りは果たして本物か、それとも知っているフリか。

第5章：Highは思索深いが、古い地図で語りすぎた

Reasoning Effort を「High」に設定した瞬間、モデルの応答は一気に重厚さを増す。
まるで論説委員か政策アナリストにでもなったかのように、東京都の電力消費を多面的に分析し、制度や将来展望にまで踏み込んでくる。

確かに、推論の階層は深く、構成は緻密だ。
だが同時に、筆者はある種の“危うさ”を感じた。

出力の構造と特徴

トークン数：2790
出力速度：6.63 tok/sec
First Tokenまで：3.54秒
構成要素：
- 東京都の消費が全国の10〜12%であることを明示
- 原因を7つの視点に分類し、それぞれ詳細に解説
- 各視点に「補足」や「ただし書き」が付随
- 将来的な動向や技術革新への展望が含まれる
- 出典や統計資料への言及も追加

内容の傾向

観点	特徴
構成	項目分解＋詳細な段落＋補足説明つき
因果構造	A→B→C…という多段的思考の様子あり
視点の数と粒度	7つ＋派生補足（EV充電・省エネ制度など）
未来言及	多い（リモートワーク・EV普及・再エネ展望）
トーン	知識人調・論評スタイル・“わかった顔”で語る
情報の賞味期限	2023年止まり。今とはズレた予測が多い

一部抜粋（要約）

リモートワーク拡大でオフィス需要は今後減少し、EVインフラの拡充によって家庭部門の電力需要はさらに上昇する見込み。
再生可能エネルギー導入と省エネ施策の加速により、今後は電力消費構造の変化が予想される。

所感：思索の深さが「知性」ではないと気づかされる

Highモードの出力は、まるで一流メディアの寄稿文のような仕上がりだった。
だが、それは「過去の知識を立派に組み立ててみせた」結果であって、今の状況に正確に応答しているとは限らない。

リモートワークは2024年以降むしろ縮小傾向
EVは補助金打ち切りと販売鈍化で失速中
再エネはむしろ地方での反対が顕著に

Highモードは、EOK（End Of Knowledge）を超えた“空気”をまとって語るが、それはあくまで2023年時点のものであり、2025年を生きる私たちにはやや古びて映る。2023年当時の希望的な“政策カタログ”をそのまま引用しているような印象。

高度な知識を並べ立てたところで、それが“今”とつながっていなければ、
それはただの過去の亡霊が語る立派な嘘だ。

モデルに罪はない。
だが、「思考の深さ＝信頼性」ではないという冷静な判断力こそ、AIと向き合ううえで求められる素養なのだと実感させられる出力だった。

第6章：思考の“深さ”は選べるが、真の知性とは違う

Reasoning Effort。
それは、LLMに「どのくらい深く考えろ」と命じるための調味料のようなものだ。

今回の検証で見えてきたのは、この設定が出力の量・質・構成・態度に明確な影響を与えるという事実だ。
確かに、このスライダーをいじることで、同じ問いに対して「事実だけを伝える簡潔な答え」から「未来を語る知識人風の評論文」まで、語り口を変えさせることができる。

だが、それは“知性”ではなかった。

モデルは推論の段階を切り替えることができる。
だが、その“深さ”とは、あくまで言語的な構成の階層にすぎず、
現実と向き合う柔軟さや、知識の新陳代謝とはまったく別のものだった。

Highは雄弁だったが、言っていることは「2023年の政策パンフレット」だった
Mediumは使えたが、それは過去の蓄積から安全圏で構成されたものにすぎない
Lowは速かったが、それは切り貼りでしかなかった

このように、Reasoning Effort は “どんな文章にしたいか” を選ぶ道具ではあっても、
“正しいことを言わせる”ための道具ではない。

使いこなすとは、騙されずに見抜くこと

多くの人がLLMに「もっと深く考えて」と願う。
そのために Temperature を調整し、Prompt Engineering を駆使し、Reasoning Effort を High にする。

だが、AIは考えていない。
ただ、「考えているように見える文」を書いているだけだ。

思考の深さは、見かけだけで作れる。
でも、真の知性は「間違いを見抜く力」に宿る。

この事実を理解して使えるかどうか。
それが、生成AI時代のユーザーに課されたリテラシーなのだ。

ここまでのまとめ（再掲）

モード	出力量	推論の深さ	文体	実用性
Low	少ない	浅い（即答型）	箇条書き・表	△（速報・要点）
Medium	中程度	程よい（解説型）	説明文・構成明瞭	◎（レポート向き）
High	多い	深い（評論型）	論説文・未来予測	▲（慎重な扱いが必要）

この章をもって、「Reasoning Effortとは何か？」の実証的な探究は一区切りとなる。
だが、LM Studioの下にはまだいくつもの謎のスイッチが潜んでいる。

rag-v1 とは何か？本当に外部情報を参照しているのか？
js-code-sandbox はJavaScriptの“埋め込み実行”に関係するのか？

それらの機能は、次の探索対象として、私たちを待っている。

補章：では、次はどこへ向かうのか？

Reasoning Effort を巡る探究は、一旦の終わりを迎えた。
だが、LM Studioにはまだ手つかずの設定が存在する。

実はこの Reasoning Effort は、OpenAI の o‑series モデル（例：o3‑mini や o4‑mini）が公式にサポートしている制御機構であり、LM Studio はそれを模倣したUIを提供しているに過ぎない。例えば OpenAI の o3‑mini は ‘low／medium／high’ という推論エフォート設定で精度が変化し、特に STEM やコーディングタスクで性能向上が確認されている。

rag-v1
→ Retrieval Augmented Generation の略とされるが、ローカルLLMに「何をどう参照させているのか」は謎のままだ。
仮にRAG的な“ごっこモード”だとすれば、それは幻覚生成を強化するだけかもしれない。
js-code-sandbox
→ JavaScriptのコードを評価・実行している可能性があるが、出力にどこまで反映されるのかは不明。
Math.js的な挙動を期待する向きもあるが、果たしてその目はあるのか。

これらは、次なる検証の候補としてリストアップしておく価値がある。
「使える・使えない」の評価だけでなく、“どうしてそうなるのか”を構造的に暴く記事へとつなげていきたい。