さくらのAI Engineで月3,000回無料のLLM APIが使える
さくらインターネットが提供している「さくらのAI Engine」は、国内データセンター完結型のLLM推論API基盤。OpenAI API互換で、月3,000リクエストまで無料で使える。2026年3月にはMoonshot AIの1兆パラメータモデル「Kimi-K2.5」もパブリックプレビューとして追加された。
さくらのAI Engineとは
2025年9月に一般提供が開始されたサービスで、APIを叩くだけでLLMの推論やRAG(検索拡張生成)を実行できる。
| 特徴 | 内容 |
|---|---|
| OpenAI API互換 | 既存のOpenAI SDKやツールからエンドポイントを差し替えるだけで利用可能 |
| 国内完結 | すべてのデータ処理が日本国内のサーバーで行われる。顧客データは学習に利用されない |
| 閉域ネットワーク対応 | VPN、LGWAN、専有ネットワークにも対応。自治体・金融機関でも導入しやすい |
| 無料枠 | テキスト生成は月3,000リクエスト、音声文字起こしは月50リクエスト、Embeddingsは月10,000リクエストまで無料 |
「データを海外に出せない」要件がある企業にとって、OpenAI APIやClaude APIの代替として現実的な選択肢になる。
利用可能なモデル
2026年3月時点で利用できるモデル。
Chat Completions(テキスト生成)
| モデル | 開発元 | Input | Output | 備考 |
|---|---|---|---|---|
| gpt-oss-120b | OpenAI(オープンソース版) | 0.15円/万トークン | 0.75円/万トークン | 無料枠対象 |
| Qwen3-Coder-480B-A35B-Instruct-FP8 | Alibaba Cloud | 0.3円/万トークン | 2.5円/万トークン | コーディング特化 |
| Qwen3-Coder-30B-A3B-Instruct | Alibaba Cloud | 0.15円/万トークン | 0.75円/万トークン | 軽量版 |
| llm-jp-3.1-8x13b-instruct4 | LLM-jp | 0.15円/万トークン | 0.75円/万トークン | 国産MoEモデル |
| PLaMo 2.0-31B | Preferred Networks | 個別問い合わせ | 個別問い合わせ | 国産 |
| cotomi v3 | NEC | 個別問い合わせ | 個別問い合わせ | 国産 |
パブリックプレビュー(マルチモーダル)
| モデル | 開発元 | Input | Output |
|---|---|---|---|
| preview/Kimi-K2.5 | Moonshot AI | 0.6円/万トークン | 3.0円/万トークン |
| preview/Qwen3-VL-30B-A3B-Instruct | Alibaba Cloud | — | — |
| preview/Phi-4-multimodal-instruct | Microsoft | — | — |
その他
| サービス | モデル | 料金 | 無料枠 |
|---|---|---|---|
| 音声文字起こし | whisper-large-v3-turbo | 0.5円/60秒 | 月50リクエスト |
| Embeddings | multilingual-e5-large | 2円/万トークン | 月10,000リクエスト |
| 音声合成 | VOICEVOX(ずんだもん、東北ずん子など) | 3円/10,000モーラ | 月50リクエスト |
| RAG | — | 3円/100チャンク | — |
料金プラン
プランは2つ。
基盤モデル無償プラン
無料枠内でのみ利用するプラン。枠を超えるとレート制限(リクエストが遅延・拒否される)がかかる。クレジットカード登録は必要だが、無料枠内なら課金されない。
従量課金プラン
無料枠を超えた分が従量課金になるプラン。上の料金表の単価で課金される。gpt-oss-120bで110リクエスト・入力160万トークン・出力14万トークンを使って約138円という報告もあり、個人開発の範囲ならかなり安い。
Kimi-K2.5がパブリックプレビューで追加
2026年3月17日、Moonshot AI(中国)が開発した「Kimi-K2.5」がさくらのAI Engineに追加された。
Kimi-K2.5のスペック
| 項目 | 値 |
|---|---|
| 総パラメータ数 | 1兆(1T) |
| アクティブパラメータ数 | 約320億(32B) |
| アーキテクチャ | Mixture-of-Experts(MoE) |
| エキスパート数 | 384(トークンあたり8個を選択、共有1個) |
| レイヤー数 | 61(Dense 1層含む) |
| Attention Hidden次元 | 7,168 |
| MoE Hidden次元(per expert) | 2,048 |
| Attentionヘッド数 | 64 |
| 注意機構 | MLA(Multi-head Latent Attention) |
| ビジョンエンコーダ | MoonViT(4億パラメータ、画像・動画入力対応) |
| 学習データ | 約15兆トークン(テキスト+画像の混合データ) |
| 語彙サイズ | 160,000 |
| 活性化関数 | SwiGLU |
| ナレッジカットオフ | 2024年4月基準、10月までの時事は部分的にカバー |
MoEアーキテクチャは全パラメータのうち一部だけを各推論で使う仕組みで、1兆パラメータの知識量を持ちつつ32Bモデル相当の計算コストで動作する。
何ができるか
- ドキュメント理解(画像からのテキスト抽出・要約)
- コード生成(HTML/JavaScript、Java Swingなど。ただしGLM-5のほうが得意という評価も)
- 画像キャプション生成
- マルチモーダルQ&A(画像付き質問への回答)
パブリックプレビューなので安定性や応答品質は保証されず、予告なくサービス終了や仕様変更がありうる。
利用開始の手順
graph TD
A[さくらインターネット<br/>会員ID作成] --> B[さくらのクラウド<br/>プロジェクト作成]
B --> C[クレジットカード登録]
C --> D[コントロールパネルから<br/>AI Engine有効化]
D --> E[APIトークン発行]
E --> F[APIリクエスト送信]
OpenAI SDK互換なので、Pythonならこれだけで動く。
from openai import OpenAI
client = OpenAI(
base_url="https://ai-engine.sakura.ad.jp/v1",
api_key="YOUR_API_TOKEN",
)
response = client.chat.completions.create(
model="gpt-oss-120b",
messages=[{"role": "user", "content": "さくらのAI Engineについて教えて"}],
)
print(response.choices[0].message.content)
XcodeのCoding IntelligenceやMCPサーバー経由でのAIエージェント構築にも使えるという事例が出てきている。
誰向けのサービスか
海外クラウドにデータを送れない企業・自治体にとっては、国内完結という点で現実的な選択肢になる。個人開発者なら月3,000リクエスト無料でプロトタイプや個人プロジェクトに試せる。OpenAI APIからの移行もエンドポイント差し替えだけで済むため、移行コストが低い。
GPT-4oやClaude Sonnetと比べると性能面では劣る場面もあるが、国内完結・低コスト・OpenAI互換という組み合わせは他にない。特に無料枠の月3,000リクエストは、ちょっとしたチャットボットや社内ツールなら十分実用的な量。
Kimi-K2.5の制限事項
検索プラグインは使えない
Kimi公式プラットフォーム(kimi.moonshot.cn)ではWeb検索プラグインが利用でき、リアルタイムの情報を取得しながら回答を生成できる。一方、さくらのAI Engineで提供されるKimi-K2.5は素のモデルAPIのみの提供で、検索プラグインやツール呼び出しには対応していない。
つまり、さくら経由で使う場合はナレッジカットオフ(2024年4月)以降の情報には答えられない。最新情報が必要な用途にはKimi公式のほうが向いている。RAG機能を使って自前でドキュメントを食わせるという回避策はあるが、Web検索の代替にはならない。
コンテンツフィルタリング(検閲)
中国発のLLMで気になるのがコンテンツフィルタリングの扱い。Kimi-K2.5はMoonshot AI(中国・北京)が開発しているため、元モデル自体に中国の規制に準拠したフィルタリングが組み込まれている。天安門事件や台湾の政治的地位、チベット問題といった中国政府にとってセンシティブなトピックでは、回答を拒否したり当たり障りのない返答に誘導される傾向がある。
さくらのAI Engine経由で利用した場合、このフィルタリングがどうなるか。さくら側が独自のフィルタリングレイヤーを追加しているかは公式には明言されていないが、基本的にはモデル本体に組み込まれたフィルタリングがそのまま反映される。さくらがモデルの重みを変更して検閲を緩和するようなことはしていないため、本家Kimiと同等のフィルタリングが適用されると考えてよい。
これはKimi-K2.5に限った話ではなく、中国発のオープンモデル全般に共通する特性。Qwen系列にも同様の傾向がある。政治的にセンシティブなトピックを扱うアプリケーションには不向きだが、技術的な質問やビジネス用途であれば実用上問題になることは少ない。