#HuggingFace

6 件の記事

技術2026年6月14日(日)更新約10分

ZONOS2はVRAM 8GBのRTX 4060 Laptopでも日本語音声を生成できた

ZyphraのZONOS2を、VRAM 8GBのRTX 4060 Laptop（WSL2）でローカル実行した記録。システムメモリフォールバック＋KVキャッシュ手動指定＋CUDAツールキットで日本語音声の生成まで到達したが、速度は実時間の約1/20。人名「かな」が「仮名」アクセントになる問題と表記での回避も、聞き比べ音声つきで検証した。

AI TTS 音声合成 ZONOS2 Zyphra HuggingFace 日本語実験

技術2026年6月9日(火)約10分

SenseNova U1 8BのLoRA trainerは32GB GPUのbf16学習を前提にする

LaxharのSenseNova U1 LoRA trainerのREADMEとSETUPを読んだ。4bit学習は画像崩れで断念しbf16 + tower offloadでVRAM約20GB、32GB GPU必須。公式8-step LoRAスタック構成とA3B MoE互換レイヤーの現状、公式training codeとの違いまで。

AI 画像生成 LoRA HuggingFace MoE

技術2026年5月26日(火)約14分

Hy-MT2 1.8BをM1 Maxで動かす、1.25bit 440MB版は標準llama.cppでまだ動かない

M1 Max 64GBでHy-MT2 1.8B Q4_K_M (1.08GB) をllama-serverに載せ、JSON・SRT・HTML・用語拘束・少数言語まで投げて入出力を確認。1.25bit 440MB版は標準llama.cppでロード不可、30B-A3B (hy_v3) もMacの標準ルートで動かない。

AI LLM 翻訳ローカルLLM HuggingFace 量子化 MoE オープンソース Mac Apple Silicon 実験

技術2026年5月19日(火)約9分

ByteDance Lanceは3Bで画像と動画の理解・生成・編集をまとめたApache 2.0モデル

ByteDanceのLanceを一次情報で確認。3Bの統合マルチモーダルモデルで、画像・動画の理解、生成、編集を1つのCLIから扱える一方、推論には40GB以上のVRAMが要求される。

AI マルチモーダル画像生成動画生成 VLM オープンソース HuggingFace

技術2026年4月10日(金)約10分

Sentence Transformers v5.4でテキスト・画像・音声・動画の統合Embeddingが可能に

Sentence Transformers v5.4がマルチモーダル対応を追加。Qwen3-VL、NVIDIA Nemotronなど8つのEmbeddingモデルと4つのRerankerを統一APIで扱えるようになった。

AI Embedding マルチモーダル RAG HuggingFace Python

技術2026年4月1日(水)約10分

TRL v1.0がメジャーリリース、LLMポストトレーニングの安定基盤へ

HuggingFaceのLLMポストトレーニングライブラリTRLがv1.0に到達。Stable/Experimental二層モデルの導入、GRPO・DPO・SFTなど主要手法の安定化、非同期GRPOのロードマップが示された。

AI 機械学習強化学習 LLM HuggingFace