技術2026年6月14日(日)更新約10分ZONOS2はVRAM 8GBのRTX 4060 Laptopでも日本語音声を生成できたZyphraのZONOS2を、VRAM 8GBのRTX 4060 Laptop(WSL2)でローカル実行した記録。システムメモリフォールバック+KVキャッシュ手動指定+CUDAツールキットで日本語音声の生成まで到達したが、速度は実時間の約1/20。人名「かな」が「仮名」アクセントになる問題と表記での回避も、聞き比べ音声つきで検証した。AITTS音声合成ZONOS2ZyphraHuggingFace日本語実験
技術2026年6月9日(火)約10分SenseNova U1 8BのLoRA trainerは32GB GPUのbf16学習を前提にするLaxharのSenseNova U1 LoRA trainerのREADMEとSETUPを読んだ。4bit学習は画像崩れで断念しbf16 + tower offloadでVRAM約20GB、32GB GPU必須。公式8-step LoRAスタック構成とA3B MoE互換レイヤーの現状、公式training codeとの違いまで。AI画像生成LoRAHuggingFaceMoE
技術2026年5月26日(火)約14分Hy-MT2 1.8BをM1 Maxで動かす、1.25bit 440MB版は標準llama.cppでまだ動かないM1 Max 64GBでHy-MT2 1.8B Q4_K_M (1.08GB) をllama-serverに載せ、JSON・SRT・HTML・用語拘束・少数言語まで投げて入出力を確認。1.25bit 440MB版は標準llama.cppでロード不可、30B-A3B (hy_v3) もMacの標準ルートで動かない。AILLM翻訳ローカルLLMHuggingFace量子化MoEオープンソースMacApple Silicon実験
技術2026年5月19日(火)約9分ByteDance Lanceは3Bで画像と動画の理解・生成・編集をまとめたApache 2.0モデルByteDanceのLanceを一次情報で確認。3Bの統合マルチモーダルモデルで、画像・動画の理解、生成、編集を1つのCLIから扱える一方、推論には40GB以上のVRAMが要求される。AIマルチモーダル画像生成動画生成VLMオープンソースHuggingFace
技術2026年4月10日(金)約10分Sentence Transformers v5.4でテキスト・画像・音声・動画の統合Embeddingが可能にSentence Transformers v5.4がマルチモーダル対応を追加。Qwen3-VL、NVIDIA Nemotronなど8つのEmbeddingモデルと4つのRerankerを統一APIで扱えるようになった。AIEmbeddingマルチモーダルRAGHuggingFacePython
技術2026年4月1日(水)約10分TRL v1.0がメジャーリリース、LLMポストトレーニングの安定基盤へHuggingFaceのLLMポストトレーニングライブラリTRLがv1.0に到達。Stable/Experimental二層モデルの導入、GRPO・DPO・SFTなど主要手法の安定化、非同期GRPOのロードマップが示された。AI機械学習強化学習LLMHuggingFace