技術 2026年4月25日(土) 約10分 SwiftLMで非Qwen系MoEのLing-flash-2.0 MXFP4をM1 Max 64GBで動かす Ant Group系列のinclusionAIが公開したLing-flash-2.0(bailing_moe、100B A6.1B、MXFP4量子化)をSwiftLMで食わせてみた記録。mlx-swift-lmのbailing_moe対応状況の確認から起動までを追う。 Apple Silicon LLM MLX ローカルLLM Swift SwiftLM MoE MXFP4 Ant Group 実験
技術 2026年4月24日(金) 約12分 SwiftLMをM1 Max 64GBで動かしてOllama/MLX-lmと比べてみた Swift製LLM推論サーバーSwiftLMをM1 Max 64GBで実際にビルド・起動して、Qwen3.6-35B-A3Bと122B-A10Bの挙動を確認。BST・簡易BBS・かなちゃんペルソナの3系統で既存のOllama・MLX-lm検証と突き合わせた。 Apple Silicon LLM MLX ローカルLLM Swift SwiftLM MoE 実験
技術 2026年4月24日(金) 更新 約14分 Tencent Hy3-previewとAnt Ling-2.6-flashが同週公開、中華系オープンMoEが295Bと104Bで別方向に走る 2026年4月22日にAnt LingがLing-2.6-flash(104B/7.4B active)を、翌23日にTencent HunyuanがHy3-preview(295B/21B active)をそれぞれオープンウェイトで公開した。片やDeepSeek-V3やGLM-4.5と同じフロンティア帯を狙う重量級、片やトークン効率7倍を打ち出す高効率エージェント特化型で、同じ週に出てきた中華系MoEでも方向性がはっきり分かれている。 LLM 中華系AI MoE オープンモデル AIエージェント ローカルLLM OpenRouter
技術 2026年4月23日(木) 約18分 open-notebookをDockerもクラウドAPIも使わずM1 Maxで動かしてqwen3.6:35bに自分の記事を読ませた NotebookLMクローンのopen-notebookはデフォルトがDocker前提+クラウドAPI前提。SurrealDBをネイティブで入れて4プロセスをtmuxで立ち上げ、Ollamaのqwen3.6:35bとbge-m3だけでRAGを回した。自分が今朝書いたQwen3.6比較記事を食わせたら、正しい数値で答えた。 AI LLM ローカルLLM Ollama Qwen Apple Silicon RAG OSS 実験
技術 2026年4月23日(木) 約12分 Qwen3.6-27B DenseとQwen3.6-35B-A3B MoEをM1 Maxで比べたらMLXがOllamaの2倍速だった Qwen3.6-27BをOllama/MLX両方で試したらOllamaはVLプロジェクタ付きGGUFをロードできず、MLXでは11 tok/sで動いた。ついでに35B-A3BをMLXで動かしたらOllama GGUFの2倍速。BBSを両モデルに作らせて意図汲み取りの差も見た。 LLM ローカルLLM Qwen Ollama MLX Apple Silicon MoE 実験
技術 2026年4月21日(火) 更新 約9分 Qwen3.6-35B-A3BをOllamaでM1 Max 64GBに流したら思考が13倍に膨らんだ Ollama 0.20.6でQwen3.6-35B-A3Bを試した記録。Gated DeltaNet対応済みで生成速度はQwen3.5と同じ27 tok/s、ただし思考トークンは13倍。マルチターン・ペルソナ・NSFW三段階の挙動もまとめた。 LLM ローカルLLM Qwen Ollama Apple Silicon MoE 実験
技術 2026年4月20日(月) 更新 約9分 TRELLIS.2をApple SiliconのMPSで動かすCUDAフリー移植 CUDA専用ライブラリに依存するMicrosoftのTRELLIS.2(4Bパラメータ image-to-3D)をpure-PyTorchで代替実装し、M4 ProでNVIDIA GPUなしの動作を実現した移植の技術詳細。 AppleSilicon MPS PyTorch 3D ローカルLLM ML
技術 2026年4月17日(金) 更新 約10分 Qwen3.6-35B-A3BがGated DeltaNetとMoEを組み合わせてエージェントコーディングを底上げした Alibaba QwenチームがQwen3.6-35B-A3Bをオープンウェイトで公開。Gated DeltaNet+Attention+MoEのハイブリッド40層構造で、SWE-bench Verified 73.4、MCPMark 37.0、QwenWebBench 1397を達成した。 LLM ローカルLLM Qwen MoE エージェント コーディング
技術 2026年4月15日(水) 約11分 LLMの安全フィルタの仕組みとabliteratedモデルの実態 LLMの安全性はRLHF・Constitutional AI・システムプロンプト・入出力フィルタの多層構造で成り立っている。クラウド各社の温度差、abliteratedとuncensoredの違い、ローカルLLMのデフォルト検閲レベルを整理した。 AI LLM ローカルLLM セキュリティ Gemini Claude Ollama
技術 2026年4月14日(火) 約14分 ローカルVision LLMでキャラ画像からRPGパラメータを抽出できるか試した Gemma、Qwen2.5-VLなどのローカルVision LLMにキャラクターの立ち絵やドット絵を入力し、RPG風のステータスをJSON形式で返せるか実験した記録。 AI ローカルLLM VLM 画像認識 Ollama Gemma Qwen Apple Silicon 実験
技術 2026年4月13日(月) 約10分 MicrosoftのFoundry Local正式リリース、アプリにバンドルして配布できるローカルAIランタイム アプリのビルドに約20MBのネイティブライブラリとして組み込めるローカルAIランタイム。ONNX RuntimeベースでGPU/NPU自動選択、OpenAI互換APIでPhi・Qwen・Mistral等をオフラインで動かせる。 Microsoft ローカルLLM Azure AI Foundry ONNX Runtime Windows ML
技術 2026年4月8日(水) 更新 約6分 日本語LLMが増えたので中身を整理してみた 2026年に入って日本語に強いLLMが続々登場しているが、「日本語特化」の中身はスクラッチ学習からpost-trainingまでバラバラ。学習方式・サイズ・用途で整理した。 AI LLM ローカルLLM Japanese AI