Power Sampling:強化学習なしでLLMの推論能力を引き出す
OpenAIのo1やDeepSeek-R1が登場して以来、「強化学習(RL)でLLMの推論能力をブーストする」が業界の主流になっている。事前学習したモデルに対してGRPOやRLHFで追加学習を行い、Chain-of-Thoughtによる論理的思考を獲得させる、というアプローチだ。
ところが、AI研究者のHaitham Bou Ammar氏が2026年1月末にMediumで公開した記事「We didn’t train the model, it started reasoning better anyway」は、この常識にアンチテーゼを投げかけている。
主張はシンプルだ。RLはLLMに新しい推論能力を「教えている」のではなく、元々持っていた能力を「引き出しやすくしている」だけではないか? そしてもしそうなら、高コストなRLを行わなくても、推論時のサンプリング戦略を工夫するだけで同等の性能が得られるのではないか。
RLは何をしているのか
ベースモデル(事前学習済みモデル)は、Web上の膨大なテキストから学習している。その中には当然、論理的な推論を含む文章も含まれる。つまり「正しい推論ルート」はモデルの中に潜在的に存在している。
ただし問題がある。「正しい推論ルート」の確率と「無難だが浅い回答ルート」の確率が拮抗していて、通常のサンプリングでは後者が選ばれやすい。Web上には深い思考よりも普通の会話の方が圧倒的に多いから、モデルも「普通の言葉」を出しがちになる。
RLが行っているのは、この確率分布を操作して「正しい推論ルート」の確率を引き上げること。新しい回路を作っているのではなく、既存の確率分布をシャープにしているだけだ——というのがBou Ammar氏らの仮説。
Power Samplingの仕組み
この仮説から導かれるのが**Power Sampling(べき乗サンプリング)**という手法。
RLが最終的に到達する理想的な確率分布は、ベースモデルの確率分布を数学的に「べき乗」したもの(Power Distribution)に近似できる、という理論に基づいている。
通常のサンプリングでは、次のトークンを選ぶとき、モデルが出力する確率分布からそのまま選ぶ。Power Samplingでは、この確率分布の「格差」を人工的に広げてから選ぶ。
イメージとしてはこうなる:
| 正解ルート | 無難ルート | その他 | |
|---|---|---|---|
| 通常のサンプリング | 30% | 25% | 45% |
| Power Sampling適用後 | 80% | 15% | ~0% |
元々のモデルが持っていた「わずかな確信の差」を、計算で圧倒的な差に変換する。画像処理でコントラストを上げる操作に近い。
重要なのは、これが「出現頻度が高い言葉を選んでいるだけ」という単純な話ではない点。モデルが各トークンに対して持っている微弱な「正解シグナル」を増幅している。温度パラメータの調整とは違い、分布全体の形状をRLの到達点に近づけるように変形させる。
検証結果
Bou Ammar氏らはこの仮説を実験で裏付けている。
比較対象:
- ベースモデル + Power Sampling(学習なし、サンプリング戦略のみ変更)
- RL学習済みモデル(GRPOで事後学習済み)
ベンチマーク:
- MATH500(数学の難問データセット)
- GPQA(専門家レベルの高度な質問応答)
結果: 学習を一切行っていないベースモデルにPower Samplingを適用しただけで、RL学習済みモデルの性能と一致、一部では上回った。
もしRLが新しい論理的思考能力をゼロから教えているのであれば、この結果はありえない。学習なしのモデルがサンプリングの工夫だけで同等になったということは、「正しい推論ルートは元々モデルの中に存在しており、RLは単にそのルートを選ぶ確率を高めていただけ」という主張を裏付けている。
直感の増幅器として
面白い見方がある。
認知科学でいうシステム1(直感、高速・無意識)とシステム2(熟考、低速・論理的)の枠組みで考えると、通常は「直感は間違えやすく、論理的思考がそれを正す」と思われている。
しかしLLMの場合、ベースモデルは最初の段階で正解への微弱なシグナルを既に持っている。これが「AIの直感」にあたる。問題は、Web上の膨大な「普通の文章」から来るノイズに埋もれて、この直感がかき消されてしまうこと。
Power Samplingがやっているのは、このノイズを計算で除去して、モデルの直感だけを純粋に取り出す操作だ。「お前はもともと答えを知っている、余計な迷いを捨てろ」と強制するアルゴリズム、と言ってもいい。
「賢くなった」のではなく、「迷わなくなった」というのが実態に近い。
実務へのインパクト
この話は学術的な議論にとどまらない。
RL学習コストの削減。 DeepSeek-R1やo1のような推論能力を得るには、莫大な計算リソースでのRL学習が必要だった。推論時のサンプリング変更だけで同等の性能が出るなら、GPUクラスタで何週間も追加学習させる必要がなくなる。資金力のない組織にとっては大きい。
ローカルLLMへの応用。 モデル自体を再学習させるのではなく、推論エンジンのアルゴリズムを改良するアプローチなので、手元のローカルモデル(Llama、Qwenなど)に対しても、推論戦略の変更だけで性能を引き上げられる。「ハードウェアの制約で再学習は無理だが、推論の工夫ならできる」という層には有効。
推論時計算へのシフト。 AI業界のトレンドは「学習(Training)」から「推論(Inference)」に価値が移りつつある。事前に賢くしておくのではなく、回答を生成する瞬間に計算資源を投入して深く考えさせる方向。今回の手法はその具体的な実装の一つ。
現在のThinkingモード(Claudeの拡張思考、o1のThinkなど)は、RL学習済みの専用モデルを呼び出している。しかしPower Samplingの発想が正しければ、将来的には通常のモデルにサンプリング戦略を適用するだけで、同等のThinkingが実現できるかもしれない。
残る疑問
ただし、この研究にはまだオープンな疑問がある。
ベンチマーク(MATH500、GPQA)での性能一致は示されたが、より複雑で多段階の推論タスク——たとえば長いコード生成や、前提条件が曖昧な実世界の問題——でも同様に機能するかは未検証だ。ベンチマークスコアの一致が、実用上の推論品質の一致を意味するとは限らない。
また、Power Samplingの計算コスト自体がRLのそれと比較してどの程度なのか、推論時のレイテンシにどう影響するかといった実装面の検討も必要になる。
それでも、「RLは新しい能力を与えているのではなく、既存の能力を引き出しているだけ」という視点は、今後のLLM開発の方向性を考える上で見逃せない。モデルの学習方法だけでなく、「どう推論させるか」という推論戦略の設計がますます重要になっていく。