技術 約8分で読めます

NVIDIA NIMが100モデル超のホスト推論を無料公開、OpenAI互換でOpenClawやCursorから直接叩ける

いけさん目次

X(旧Twitter)で「なぜ誰もこれについて話していないんだ?」という煽りつきの投稿が回っていた。
NVIDIAが build.nvidia.com で約80モデルのホスト推論を完全無料で出している、という内容で、サンプルとして MiniMax M2.7、GLM 5.1、Kimi 2.5、DeepSeek 3.2、GPT-OSS-120B、Sarvam-M などが挙がっていた。

セットアップは数行で済み、しかも OpenAI API 互換だから OpenClaw や OpenCode、Zed IDE、Hermes agent、Cursor IDE にそのまま挿せる、という触れ込みだ。
気になったので NIM 周りを調べ直して、どこまでが「タダで使えて」「どこから現実が来るか」を整理した。

NIM が出している無料推論 API の正体

NVIDIA は2024年から NIM(NVIDIA Inference Microservices)というブランドで、推論コンテナとホスト推論 API の両方を提供している。
今回話題になっている build.nvidia.com は、そのうちの「ホスト推論カタログ」のほうにあたる。

ポータルにアクセスして NVIDIA Developer Program に登録すると、nvapi- で始まる API キーを発行できる。
このキーで https://integrate.api.nvidia.com/v1 を叩くと、カタログに並んでいるモデルがそのまま OpenAI Chat Completions API 互換で返ってくる。

カタログに並んでいるモデルは2026年4月時点で100種類以上あり、ジャンル横断でかなり幅広い。
元投稿の「約80」はサインアップ時点で個人ユーザーから直接叩ける汎用LLM枠の数感で、Embedding や ASR、シミュレーション系まで含めると軽く100を超える。

領域主なモデル例
LLM(汎用)NVIDIA Nemotron系、Meta Llama 3/4系、Mistral系、Google Gemma系
LLM(中国系)DeepSeek-V3.2、Moonshot Kimi-K2.5、Zhipu GLM-5系、MiniMax-M2.5/M2.7
LLM(オープン研究)OpenAI GPT-OSS-20B/120B、Sarvam-M(インド向け多言語)
マルチモーダルNemotron Nano VL、Llama 3.2-Vision、各種VLM
スピーチNemotron-ASR、Riva、Parakeet系のASR/TTS
Embedding/RetrieverNV-EmbedQA、Reranker、NV-EmbedCode
生物・物理シミュBioNeMo関連(タンパク質、ゲノム)、Cosmos系のWorld Model

「タダで使える80〜100モデル」という主張自体は誇張ではない。
MiniMax M2.7 は実際に build.nvidia.com/minimaxai/minimax-m2.7 に独立したエンドポイントが用意されていて、公式コードスニペットがそのまま OpenAI SDK スタイルで配布されている。

最小限のセットアップ

OpenAI Python SDK でそのまま動く。base_urlapi_key を NVIDIA に向けるだけだ。

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://integrate.api.nvidia.com/v1",
    api_key=os.environ["NVIDIA_API_KEY"],  # build.nvidia.com で発行した nvapi-...
)

response = client.chat.completions.create(
    model="minimaxai/minimax-m2.7",
    messages=[{"role": "user", "content": "宇宙の終わりを300字でまとめて"}],
    temperature=0.6,
    max_tokens=1024,
    stream=False,
)

print(response.choices[0].message.content)

JS/TS でも同様で、openai パッケージや LangChain、LlamaIndex の OpenAI 互換クライアントなら、ほぼ全てが baseURL の差し替えだけで動く。

model の指定は <provider>/<model-name> の形が基本になっている。
minimaxai/minimax-m2.7zhipuai/glm-5.1moonshotai/kimi-k2.5deepseek-ai/deepseek-v3.2openai/gpt-oss-120bsarvamai/sarvam-m といった具合に名前空間が切られている。

「無料」の内訳(クレジット制とレート制限)

ここが「ただし……」の部分。

項目
サインアップ時の付与クレジット1,000 推論クレジット
申請で増やせる上限5,000 クレジット程度
レート制限モデルあたり 約 40 リクエスト/分
エンタープライズ枠90 日間の AI Enterprise トライアル(自前ホスト用)

「クレジット」はトークン消費ベースで、モデルのサイズや種類で1リクエストあたりの消費量が変わる。
Nemotron Nano のような軽量モデルなら長く遊べるが、Kimi K2.5 や GLM-5.1 のような巨大モデルだと意外とすぐに溶ける。

40 req/min はあくまで個人プロトタイピング向けの数字で、これでチャットボットを本番運用するのはまず無理。
Developer Forum でも「上限引き上げ申請」が定常的に流れていて、フェアユース前提の枠だと考えたほうがいい。

そして本質的に、これは NVIDIA の「営業導線」だ。

flowchart LR
    A["build.nvidia.com<br/>ホスト推論で試す"] --> B["気に入ったモデルの<br/>NIM コンテナを<br/>自分の DGX/Hopper/Blackwell に<br/>落として動かす"]
    B --> C["本番では<br/>NVIDIA AI Enterprise を契約<br/>サポート付き運用"]
    style A fill:#1e3a8a,color:#fff
    style C fill:#166534,color:#fff

ホスト推論はあくまで入口で、最終的に NVIDIA のハードウェアとライセンスを売るためのフリーミアム設計になっている。

OpenClaw / OpenCode / Cursor / Zed への接続

OpenAI 互換だから、エージェントハーネス側が「OpenAI 互換エンドポイントを差せる」設計になっていれば、たいてい繋がる。

OpenClaw 系

OpenClaw は元々 Anthropic 系をターゲットにした実装が多いが、OPENAI_BASE_URLOPENAI_API_KEY を読むモードを持つフォークも増えてきている。
Anthropic がサブスク経由のサードパーティ利用を締め出したあと、コード生成バックエンドを Anthropic 以外に逃がしたいユーザーが NVIDIA NIM や OpenRouter に切り替える動きが出ていて、その流れの一部になっている。

ただし NIM 上のオープンモデルが Claude Sonnet 4.6 / Opus 4.7 と同じ精度で動くわけではない。
コード生成の長期タスクなら GLM-5.1 や Kimi K2.5 のようなLong-Horizon タスクに強いモデルを選ぶ、補完中心なら DeepSeek-V3.2 系を選ぶ、といった現実的な使い分けになる。

OpenCode

OSS コーディングエージェントの OpenCode は、もともと OpenAI 互換プロバイダ設定を ~/.config/opencode/config.json に書ける。
NVIDIA NIM を1ブロックで追加できるので相性がいい。

ただし OpenCode は3月に Anthropic からOAuth 連携の除去を法的に要求された経緯がある。
公式 SDK に近づきすぎず、オープンモデルでバックエンドを多様化する戦略に寄っていて、NIM のような OpenAI 互換ホストはむしろ追い風になっている。

Cursor

Cursor 3 は Agent-First の IDE に振り切ったが、Models 設定から OpenAI 互換 base URL を直接指定できる。
ここに https://integrate.api.nvidia.com/v1nvapi-... を入れれば、エディタ内の補完・チャット・エージェント実行のバックエンドを NIM 上のモデルに切り替えられる。

40 req/min の制約は Cursor の自動補完だと一瞬で食い切るので、補完は別プロバイダ、エージェント実行のときだけ NIM、のような使い分けが現実的になる。

Zed IDE / Hermes agent

Zed も assistant.providers に OpenAI 互換プロバイダを足せる。
Hermes agent のような汎用ツール呼び出しエージェントも、OpenAI Chat Completions ベースで作られていればそのまま挿せる。

NIM の Function Calling サポートはモデルによって質に差がある。
Nemotron 系と GPT-OSS 系は OpenAI Tools 形式に比較的素直に追従するが、MoonshotAI 系は独自タグ寄りなので、ハーネス側のプロンプトテンプレートを少し触る必要がある場面が出る。

似たフリーミアム LLM API との位置づけ

NVIDIA NIM は初めての無料 OpenAI 互換 LLM API ではない。
日本語圏でもさくらの AI Engine が月3,000リクエストの無料枠で Kimi-K2.5 や gpt-oss-120b を提供しているし、AWS は Bedrock のMantle エンジン経由で DeepSeek や Mistral を OpenAI 互換 API として提供している
NIM はこの系譜にハイパースケーラ目線で乗ったサービスだ。

提供元エンドポイント無料枠強み
NVIDIA NIMintegrate.api.nvidia.com/v11,000〜5,000推論クレジット、40 req/minモデル数が圧倒的(100超)、自前NIMコンテナへの移行導線
さくらのAI EngineOpenAI互換月3,000リクエスト国内完結、閉域ネットワーク対応
Amazon Bedrock MantleOpenAI互換AWS のクレジット枠次第IAM・Projects API・他AWSサービス連携
OpenRouterOpenAI互換プロバイダ別の無料モデルありプロバイダ抽象化、フォールバック

選ぶ基準はだいたいこうなる。

  • とにかく試したいモデルが多い → NIM
  • 国内データに縛りがある → さくら
  • 既に AWS 上にプロダクションがある → Bedrock Mantle
  • 単一 API で複数プロバイダを切り替えたい → OpenRouter

「今すぐロックインして構築を始めろ」は本当か

X の元投稿は「無料の推論だ、今すぐロックインして構築を始めろ、anon。後で感謝しろよ」という煽り口調で締めている。
フリーランチ感は確かにあるが、運用前提で考えると以下を踏まえる必要がある。

  • 本番運用はクレジット切れで死ぬ。プロトタイプ → 自前 NIM → AI Enterprise の動線にいずれ乗ることになる
  • モデル名が頻繁に変わる。MiniMax M2.5 → M2.7、Kimi K2 → K2.5 → K2.6 のように推奨モデルは数か月単位で入れ替わる。model 文字列を環境変数化しておかないと痛い目を見る
  • rate limit は一方的に変わる。Developer Forum でも「上限引き上げ申請」が定常的に流れていて、フェアユース前提の枠だ
  • オープンウェイトでも安全フィルタは NVIDIA 側にある。生のモデル挙動と NIM 経由の挙動は完全には一致しない

それを踏まえてもなお、「100モデル超を1つの API キーで叩ける環境がタダで手に入る」という状況自体は素直に強力だ。
新しいモデルが出るたびにいちいちクラウドアカウントを開きに行かなくていい、というのは雑な実験には本当に効く。


雑にひと言だけ添えておくと、X で「誰も話してない」とよく言われるサービスの大半は元から存在していて、エージェントハーネス側が OpenAI 互換 base URL を素直に受け取る作りに揃ってきたから、いまになって「使える」と認識されただけだったりする。
NIM もまさにその一例だ。