#ollama

17 件の記事

技術2026年6月8日(月)約17分

LFM2.5 1.2B JP 202606をM1 Max 64GBで動かしたらデコード208tok/sでJSON守るがモデル名をハルシネーションした

Liquid AIのLFM2.5-1.2B-JP-202606をM1 Max 64GBで実測。llama.cpp/Ollama/MLXの3系統でデコード速度・JSON構造化・ツール呼び出し・会話のナチュラルさ・長文入力を検証した。Q4_K_Mで208tok/s、Q8_0で157tok/sだがモデル名ハルシネーションが消える差も出た。

AI LLM ローカルLLM MLX Ollama Apple Silicon エッジAI 実験日本語LLM

技術2026年5月11日(月)約5分

OllamaのCVE-2026-7482は公開API化したローカルLLMのメモリを読む

Ollama 0.17.1未満のGGUFローダーに境界外読み取り脆弱性。公開API化したローカルLLMでは、環境変数、APIキー、system prompt、会話断片の漏えいまで疑う必要がある。

Ollama セキュリティ脆弱性 CVE ローカルLLM LLM

技術2026年5月5日(火)約9分

OllamaとローカルLLMでMCPサーバーを使うならブリッジが要る

M1 Max 64GBでOllama経由のローカルLLMにMCPサーバーをつなぐと、MCPHostの非メンテ化、tool calling精度、コンテキスト消費で詰まる。公式SDKでの自作サーバー最小構成も載せた。

Ollama MCP ローカルLLM LLM AIエージェント

技術2026年5月3日(日)約9分

日本語プロンプトをOllamaで英訳してComfyUIとmfluxに投げるFastAPIラッパでAnima・WAI-IL・FLUX.2 KleinをまとめてWebUI化

ローカルにあるWAI-Anima・WAI-IL（SDXL）・FLUX.2 Klein 4Bの3エンジンを、日本語プロンプトのまま叩ける薄いFastAPIラッパで束ねる。翻訳はOllama (gemma3:12b)、ComfyUIはAPIで動的にワークフロー組み立て、FLUX.2はmflux CLIをsubprocess、Tailscale経由でiPhoneからも生成できるようにした。

AI 画像生成 ComfyUI FLUX Apple Silicon Mac Ollama FastAPI Tailscale 実験

技術2026年5月2日(土)約22分

FastAPI・Chroma・Open WebUI・Ollamaでマルチモーダル日本語RAGをM1 Maxで組んだ

DEV記事のPDF RAGをM1 Max 64GBで実装し、CLIPで画像、bge-m3 + Qwen3.6 35Bで日本語まで通した実験ログ。モダリティギャップ、推論サーバー並走クラッシュ、LLM-jp 4-8Bの指示追従失敗まで実機の挙動を記録。

AI LLM RAG ローカルLLM FastAPI llama.cpp Chroma Python Apple Silicon Ollama 日本語LLM 実験

技術2026年4月23日(木)約18分

open-notebookをDockerもクラウドAPIも使わずM1 Maxで動かしてqwen3.6:35bに自分の記事を読ませた

NotebookLMクローンのopen-notebookはデフォルトがDocker前提＋クラウドAPI前提。SurrealDBをネイティブで入れて4プロセスをtmuxで立ち上げ、Ollamaのqwen3.6:35bとbge-m3だけでRAGを回した。自分が今朝書いたQwen3.6比較記事を食わせたら、正しい数値で答えた。

AI LLM ローカルLLM Ollama Qwen Apple Silicon RAG OSS 実験

技術2026年4月23日(木)約12分

Qwen3.6-27B DenseとQwen3.6-35B-A3B MoEをM1 Maxで比べたらMLXがOllamaの2倍速だった

Qwen3.6-27BをOllama/MLX両方で試したらOllamaはVLプロジェクタ付きGGUFをロードできず、MLXでは11 tok/sで動いた。ついでに35B-A3BをMLXで動かしたらOllama GGUFの2倍速。BBSを両モデルに作らせて意図汲み取りの差も見た。

LLM ローカルLLM Qwen Ollama MLX Apple Silicon MoE 実験

技術2026年4月21日(火)更新約9分

Qwen3.6-35B-A3BをOllamaでM1 Max 64GBに流したら思考が13倍に膨らんだ

Ollama 0.20.6でQwen3.6-35B-A3Bを試した記録。Gated DeltaNet対応済みで生成速度はQwen3.5と同じ27 tok/s、ただし思考トークンは13倍。マルチターン・ペルソナ・NSFW三段階の挙動もまとめた。

LLM ローカルLLM Qwen Ollama Apple Silicon MoE 実験

技術2026年4月15日(水)約11分

LLMの安全フィルタの仕組みとabliteratedモデルの実態

LLMの安全性はRLHF・Constitutional AI・システムプロンプト・入出力フィルタの多層構造で成り立っている。クラウド各社の温度差、abliteratedとuncensoredの違い、ローカルLLMのデフォルト検閲レベルを整理した。

AI LLM ローカルLLM セキュリティ Gemini Claude Ollama

技術2026年4月14日(火)約14分

ローカルVision LLMでキャラ画像からRPGパラメータを抽出できるか試した

Gemma、Qwen2.5-VLなどのローカルVision LLMにキャラクターの立ち絵やドット絵を入力し、RPG風のステータスをJSON形式で返せるか実験した記録。

AI ローカルLLM VLM 画像認識 Ollama Gemma Qwen Apple Silicon 実験

技術2026年3月31日(火)約6分

OllamaがMLXバックエンドに移行、Apple Siliconでのローカル推論が劇的に高速化

Ollama 0.19がApple SiliconでのバックエンドをMLXに切り替え、プリフィル1810トークン/秒・デコード112トークン/秒を達成。NVFP4量子化サポートとキャッシュ改善も同時投入された。

Ollama MLX Apple Silicon LLM ローカルLLM 推論最適化

技術2026年3月23日(月)約14分

BERT+Qwen OCR校正パイプラインをPythonツールにした

BERT perplexityスキャン→LLM判定→エスカレーションの3段パイプラインを、Win/Mac/Linux対応のPythonツールにパッケージング。インストーラーがllama-serverとGGUFモデルまで自動で落としてくる。

自然言語処理 OCR 機械学習 Python BERT LLM llama.cpp Qwen NDLOCR-Lite Gradio Ollama 実験