#LLM

94 件の記事

技術 2026年4月23日(木) 更新約8分

NVIDIA NIMが100モデル超のホスト推論を無料公開、OpenAI互換でOpenClawやCursorから直接叩ける

NVIDIAがbuild.nvidia.comで提供する無料推論API「NIM」は、MiniMax M2.7やGLM-5、Kimi K2.5、DeepSeek、GPT-OSS、Sarvam-Mなど100モデル超を扱える。integrate.api.nvidia.com/v1のOpenAI互換エンドポイントなのでOpenClawやOpenCode、Zed、Cursorから直接呼べる。

NVIDIA LLM API OpenAI AI Coding OpenClaw

技術 2026年4月23日(木) 約18分

open-notebookをDockerもクラウドAPIも使わずM1 Maxで動かしてqwen3.6:35bに自分の記事を読ませた

NotebookLMクローンのopen-notebookはデフォルトがDocker前提＋クラウドAPI前提。SurrealDBをネイティブで入れて4プロセスをtmuxで立ち上げ、Ollamaのqwen3.6:35bとbge-m3だけでRAGを回した。自分が今朝書いたQwen3.6比較記事を食わせたら、正しい数値で答えた。

AI LLM ローカルLLM Ollama Qwen Apple Silicon RAG OSS 実験

技術 2026年4月23日(木) 約12分

Qwen3.6-27B DenseとQwen3.6-35B-A3B MoEをM1 Maxで比べたらMLXがOllamaの2倍速だった

Qwen3.6-27BをOllama/MLX両方で試したらOllamaはVLプロジェクタ付きGGUFをロードできず、MLXでは11 tok/sで動いた。ついでに35B-A3BをMLXで動かしたらOllama GGUFの2倍速。BBSを両モデルに作らせて意図汲み取りの差も見た。

LLM ローカルLLM Qwen Ollama MLX Apple Silicon MoE 実験

技術 2026年4月23日(木) 約6分

AIの記事を読むための数学入門、全5本シリーズのまとめ

AIやLLMの記事に出てくる数学記号を『解けるのではなく読めるように』整理した全5本シリーズのハブ。数式・ベクトル/行列・確率統計・微分・勾配降下と逆伝播を、どの順番で読むとラクかも添えて並べる。

AI LLM 機械学習数式入門

技術 2026年4月23日(木) 約26分

AIの学習を動かしている勾配降下と逆伝播、ここだけ読めれば怖くない

勾配降下、SGD・Adam、逆伝播、勾配消失・残差接続、学習率スケジュールあたりを「何をまとめてやっているか」の視点で整理。解けるようになるのではなく、学習ログやモデルカードの数字を読めるようになることが目的。

AI LLM 機械学習数式入門

技術 2026年4月23日(木) 約21分

AIの記事でよく出る微分、ここだけ読めれば怖くない

AIやLLMの記事に出てくる微分まわりの記号を、解けるようになるためではなく読めるようになるために絞って整理。d/dx、e、連鎖律、偏微分、勾配までを「何をやっているか」の視点で読む。

AI LLM 機械学習数式入門

技術 2026年4月22日(水) 約22分

AIの記事でよく出る確率と統計、ここだけ読めれば怖くない

AIやLLMの記事に出てくる確率・統計まわりの記号を、解けるようになるためではなく読めるようになるために絞って整理。条件付き確率、交差エントロピー、パープレキシティ、temperatureあたりまでを「何をまとめてやっているか」の視点で読む。

AI LLM 機械学習数式入門

技術 2026年4月22日(水) 約17分

AIの記事でよく出るベクトルと行列、ここだけ読めれば怖くない

AIやLLMの記事に出てくるベクトルと行列を、計算できるようになるためではなく読めるようになるために絞って整理。内積と行列積は拾い、行列式や固有値は省略する。

AI LLM 機械学習数式入門

技術 2026年4月21日(火) 約10分

AIの記事でよく見る数式、ここだけ読めば怖くない

AIやLLM、画像生成の解説で見かける数式を、解けるようになるためではなく読めるようになるために整理。重み付きの足し算、S字カーブ、確率、学習の修正だけに絞って追う。

AI LLM 機械学習数式入門

技術 2026年4月21日(火) 更新約9分

Qwen3.6-35B-A3BをOllamaでM1 Max 64GBに流したら思考が13倍に膨らんだ

Ollama 0.20.6でQwen3.6-35B-A3Bを試した記録。Gated DeltaNet対応済みで生成速度はQwen3.5と同じ27 tok/s、ただし思考トークンは13倍。マルチターン・ペルソナ・NSFW三段階の挙動もまとめた。

LLM ローカルLLM Qwen Ollama Apple Silicon MoE 実験

技術 2026年4月21日(火) 更新約11分

Qwen3.6-Max-PreviewとKimi K2.6がほぼ同時リリース、フラッグシップ級コーディングモデルを並べて比較

AlibabaのQwen3.6-Max-PreviewとMoonshot AIのKimi K2.6が4月20〜21日に相次いで登場した。スペック、ベンチマーク、提供形態、エージェント関連機能を横並びで比較し、2つのフラッグシップの位置付けを整理した。

LLM Qwen Kimi Moonshot AI MoE エージェントコーディング

技術 2026年4月19日(日) 約12分

WebAssemblyとMetalでゼロコピーGPU推論をApple Siliconに実装する

mmap→MTLBuffer(bytesNoCopy)→Wasmtime MemoryCreatorの3段チェーンで、WasmリニアメモリとGPUバッファの物理アドレスを一致させる実装。M1上でLlama 3.2 1Bを9ms/tokenで動かした。

WebAssembly Metal AppleSilicon MLX Wasmtime LLM