技術 2026年2月14日(土) 約6分 MimikaStudio - 複数TTSエンジンをGUIで束ねるローカルTTSアプリ Qwen3-TTS、Chatterbox、Kokoro、IndexTTS-2を一つのGUIに統合したローカルファーストのボイスクローン&TTS&オーディオブック作成アプリ。FastAPIバックエンド+Flutter UI+MCPサーバーの構成。 AI TTS 音声合成 ボイスクローン Flutter
技術 2026年2月13日(金) 約2分 ComfyUIのUpscaleがMac MPSで壊れる問題をcontiguousで直した Load Image経由のUpscaleで画像が崩壊する問題を、テンソルのnon-contiguous対策で修正した記録 ComfyUI Apple Silicon PyTorch MPS 実験
技術 2026年2月12日(木) 約7分 MioTTS - コーデックから自作した軽量LLMベースTTS Aratakoが公開したMioTTS。独自コーデックMioCodecからフルスクラッチ開発された0.1B〜2.6Bの日英対応TTSモデル群。llama.cppやOllamaでそのまま動く設計が特徴的。 AI TTS 音声合成 オープンソース LLM
技術 2026年2月11日(水) 約7分 Mac M1 MaxでLoRA学習に13回全敗してからRunPodで成功するまで Mac Studio M1 Max 64GBでIllustrious-XLのLoRA学習に13回挑んで全敗。Antigravity、Claude、Geminiなど複数AIエージェントの力を借りて原因を特定し、RunPod RTX 4090で最終的に成功した全記録。致命的だった3パラメータとsd-scripts直叩きの罠。 Stable Diffusion LoRA Mac AI 実験
技術 2026年2月10日(火) 約3分 ActionMesh - 動画からアニメーション付き3Dメッシュを生成するMeta AIのモデル Meta AI Researchが公開したActionMeshを調査。動画を入力するとBlenderやUnityで使える.glb形式のアニメーション付き3Dメッシュが出力される。入力制限や実行環境、AI動画生成との組み合わせなど実用面を整理した。 AI 3D Blender
技術 2026年2月9日(月) 約6分 Claude Code ベストプラクティス集リポジトリの紹介と実践ガイド GitHub で1,500スターを超えた claude-code-best-practice リポジトリを深掘り。CLAUDE.md の書き方、Command→Agent→Skills の3層アーキテクチャ、Hooks による通知、RPI ワークフローなど、開発現場で使えるノウハウを整理した。 Claude Code AI 開発ツール
技術 2026年2月8日(日) 約5分 LFM2.5 — Transformerでもない、Mambaでもないハイブリッドアーキテクチャ Liquid AIのLFM2.5は、短距離畳み込みとAttentionのハイブリッドで、SSMを使わずにエッジ最適化を実現した。アーキテクチャの仕組み、ベンチマーク、コミュニティ活用例をまとめた。 AI LLM エッジAI アーキテクチャ
技術 2026年2月8日(日) 約6分 Seedance 2.0が出たので、ローカル動画生成とクラウドの「楽さ」を比べてみる ByteDanceのSeedance 2.0がDreaminaで公開された。ローカルでWan 2.xやComfyUIを触ってきた視点から、クラウド動画生成サービスとの楽さの違いを考えた。 AI 動画生成 Seedance
技術 2026年2月8日(日) 約5分 ComfyUI公式が出したAIアップスケーリング完全ガイドを読み解く ComfyUIが公開した「The Complete AI Upscaling Handbook」の要点をまとめた。保守的・創造的アップスケーリングの違い、用途別のモデル選び、画像・動画それぞれのベンチマークまで網羅。 ComfyUI 画像生成AI 動画生成AI アップスケーリング
技術 2026年2月7日(土) 約6分 Qwen3-TTS - pip一発で使えるオープンソース音声合成 Alibaba Qwenチームが公開したQwen3-TTSの技術解説。pip install一発でセットアップ完了、3秒のボイスクローン、自然言語での声デザイン、日本語含む10言語対応。Apache 2.0ライセンス。 AI TTS 音声合成 オープンソース LLM
技術 2026年2月6日(金) 約6分 UltraFlux-v1 — FLUX.1-devベースのネイティブ4K画像生成モデル FLUX.1-devを4K生成に特化させたUltraFlux-v1の技術詳細。Z-ImageやFLUX.2 Kleinとのアプローチの違い、独自のRoPE拡張やVAE改良、実用面での注意点をまとめた。 AI 画像生成 FLUX 4K
技術 2026年2月6日(金) 約6分 Qwen3-Omni: 3BアクティブのMoEでテキスト・画像・音声・動画を統合処理するオムニモーダルモデル Alibabaが公開したQwen3-Omni-30B-A3Bの技術解説。30Bパラメータ中3Bのみアクティベートするオムニモーダルモデルで、テキスト・画像・音声・動画の入力から音声付きで応答する。Thinker-Talkerアーキテクチャ、ベンチマーク、Qwen3 MoEファミリーの全体像を整理した。 AI LLM オープンソース マルチモーダル 音声AI