技術 約6分で読めます

さくらのAI Engineで月3,000回無料のLLM APIが使える

さくらインターネットが提供している「さくらのAI Engine」は、国内データセンター完結型のLLM推論API基盤。OpenAI API互換で、月3,000リクエストまで無料で使える。2026年3月にはMoonshot AIの1兆パラメータモデル「Kimi-K2.5」もパブリックプレビューとして追加された。

さくらのAI Engineとは

2025年9月に一般提供が開始されたサービスで、APIを叩くだけでLLMの推論やRAG(検索拡張生成)を実行できる。

特徴内容
OpenAI API互換既存のOpenAI SDKやツールからエンドポイントを差し替えるだけで利用可能
国内完結すべてのデータ処理が日本国内のサーバーで行われる。顧客データは学習に利用されない
閉域ネットワーク対応VPN、LGWAN、専有ネットワークにも対応。自治体・金融機関でも導入しやすい
無料枠テキスト生成は月3,000リクエスト、音声文字起こしは月50リクエスト、Embeddingsは月10,000リクエストまで無料

「データを海外に出せない」要件がある企業にとって、OpenAI APIやClaude APIの代替として現実的な選択肢になる。

利用可能なモデル

2026年3月時点で利用できるモデル。

Chat Completions(テキスト生成)

モデル開発元InputOutput備考
gpt-oss-120bOpenAI(オープンソース版)0.15円/万トークン0.75円/万トークン無料枠対象
Qwen3-Coder-480B-A35B-Instruct-FP8Alibaba Cloud0.3円/万トークン2.5円/万トークンコーディング特化
Qwen3-Coder-30B-A3B-InstructAlibaba Cloud0.15円/万トークン0.75円/万トークン軽量版
llm-jp-3.1-8x13b-instruct4LLM-jp0.15円/万トークン0.75円/万トークン国産MoEモデル
PLaMo 2.0-31BPreferred Networks個別問い合わせ個別問い合わせ国産
cotomi v3NEC個別問い合わせ個別問い合わせ国産

パブリックプレビュー(マルチモーダル)

モデル開発元InputOutput
preview/Kimi-K2.5Moonshot AI0.6円/万トークン3.0円/万トークン
preview/Qwen3-VL-30B-A3B-InstructAlibaba Cloud
preview/Phi-4-multimodal-instructMicrosoft

その他

サービスモデル料金無料枠
音声文字起こしwhisper-large-v3-turbo0.5円/60秒月50リクエスト
Embeddingsmultilingual-e5-large2円/万トークン月10,000リクエスト
音声合成VOICEVOX(ずんだもん、東北ずん子など)3円/10,000モーラ月50リクエスト
RAG3円/100チャンク

料金プラン

プランは2つ。

基盤モデル無償プラン

無料枠内でのみ利用するプラン。枠を超えるとレート制限(リクエストが遅延・拒否される)がかかる。クレジットカード登録は必要だが、無料枠内なら課金されない。

従量課金プラン

無料枠を超えた分が従量課金になるプラン。上の料金表の単価で課金される。gpt-oss-120bで110リクエスト・入力160万トークン・出力14万トークンを使って約138円という報告もあり、個人開発の範囲ならかなり安い。

Kimi-K2.5がパブリックプレビューで追加

2026年3月17日、Moonshot AI(中国)が開発した「Kimi-K2.5」がさくらのAI Engineに追加された。

Kimi-K2.5のスペック

項目
総パラメータ数1兆(1T)
アクティブパラメータ数約320億(32B)
アーキテクチャMixture-of-Experts(MoE)
エキスパート数384(トークンあたり8個を選択、共有1個)
レイヤー数61(Dense 1層含む)
Attention Hidden次元7,168
MoE Hidden次元(per expert)2,048
Attentionヘッド数64
注意機構MLA(Multi-head Latent Attention)
ビジョンエンコーダMoonViT(4億パラメータ、画像・動画入力対応)
学習データ約15兆トークン(テキスト+画像の混合データ)
語彙サイズ160,000
活性化関数SwiGLU
ナレッジカットオフ2024年4月基準、10月までの時事は部分的にカバー

MoEアーキテクチャは全パラメータのうち一部だけを各推論で使う仕組みで、1兆パラメータの知識量を持ちつつ32Bモデル相当の計算コストで動作する。

何ができるか

  • ドキュメント理解(画像からのテキスト抽出・要約)
  • コード生成(HTML/JavaScript、Java Swingなど。ただしGLM-5のほうが得意という評価も)
  • 画像キャプション生成
  • マルチモーダルQ&A(画像付き質問への回答)

パブリックプレビューなので安定性や応答品質は保証されず、予告なくサービス終了や仕様変更がありうる。

利用開始の手順

graph TD
    A[さくらインターネット<br/>会員ID作成] --> B[さくらのクラウド<br/>プロジェクト作成]
    B --> C[クレジットカード登録]
    C --> D[コントロールパネルから<br/>AI Engine有効化]
    D --> E[APIトークン発行]
    E --> F[APIリクエスト送信]

OpenAI SDK互換なので、Pythonならこれだけで動く。

from openai import OpenAI

client = OpenAI(
    base_url="https://ai-engine.sakura.ad.jp/v1",
    api_key="YOUR_API_TOKEN",
)

response = client.chat.completions.create(
    model="gpt-oss-120b",
    messages=[{"role": "user", "content": "さくらのAI Engineについて教えて"}],
)
print(response.choices[0].message.content)

XcodeのCoding IntelligenceやMCPサーバー経由でのAIエージェント構築にも使えるという事例が出てきている。

誰向けのサービスか

海外クラウドにデータを送れない企業・自治体にとっては、国内完結という点で現実的な選択肢になる。個人開発者なら月3,000リクエスト無料でプロトタイプや個人プロジェクトに試せる。OpenAI APIからの移行もエンドポイント差し替えだけで済むため、移行コストが低い。

GPT-4oやClaude Sonnetと比べると性能面では劣る場面もあるが、国内完結・低コスト・OpenAI互換という組み合わせは他にない。特に無料枠の月3,000リクエストは、ちょっとしたチャットボットや社内ツールなら十分実用的な量。

Kimi-K2.5の制限事項

検索プラグインは使えない

Kimi公式プラットフォーム(kimi.moonshot.cn)ではWeb検索プラグインが利用でき、リアルタイムの情報を取得しながら回答を生成できる。一方、さくらのAI Engineで提供されるKimi-K2.5は素のモデルAPIのみの提供で、検索プラグインやツール呼び出しには対応していない。

つまり、さくら経由で使う場合はナレッジカットオフ(2024年4月)以降の情報には答えられない。最新情報が必要な用途にはKimi公式のほうが向いている。RAG機能を使って自前でドキュメントを食わせるという回避策はあるが、Web検索の代替にはならない。

コンテンツフィルタリング(検閲)

中国発のLLMで気になるのがコンテンツフィルタリングの扱い。Kimi-K2.5はMoonshot AI(中国・北京)が開発しているため、元モデル自体に中国の規制に準拠したフィルタリングが組み込まれている。天安門事件や台湾の政治的地位、チベット問題といった中国政府にとってセンシティブなトピックでは、回答を拒否したり当たり障りのない返答に誘導される傾向がある。

さくらのAI Engine経由で利用した場合、このフィルタリングがどうなるか。さくら側が独自のフィルタリングレイヤーを追加しているかは公式には明言されていないが、基本的にはモデル本体に組み込まれたフィルタリングがそのまま反映される。さくらがモデルの重みを変更して検閲を緩和するようなことはしていないため、本家Kimiと同等のフィルタリングが適用されると考えてよい。

これはKimi-K2.5に限った話ではなく、中国発のオープンモデル全般に共通する特性。Qwen系列にも同様の傾向がある。政治的にセンシティブなトピックを扱うアプリケーションには不向きだが、技術的な質問やビジネス用途であれば実用上問題になることは少ない。