技術 2026年5月26日(火) 約14分 Hy-MT2 1.8BをM1 Maxで動かす、1.25bit 440MB版は標準llama.cppでまだ動かない M1 Max 64GBでHy-MT2 1.8B Q4_K_M (1.08GB) をllama-serverに載せ、JSON・SRT・HTML・用語拘束・少数言語まで投げて入出力を確認。1.25bit 440MB版は標準llama.cppでロード不可、30B-A3B (hy_v3) もMacの標準ルートで動かない。 AI LLM 翻訳 ローカルLLM HuggingFace 量子化 MoE オープンソース Mac Apple Silicon 実験
技術 2026年5月19日(火) 約9分 ByteDance Lanceは3Bで画像と動画の理解・生成・編集をまとめたApache 2.0モデル ByteDanceのLanceを一次情報で確認。3Bの統合マルチモーダルモデルで、画像・動画の理解、生成、編集を1つのCLIから扱える一方、推論には40GB以上のVRAMが要求される。 AI マルチモーダル 画像生成 動画生成 VLM オープンソース HuggingFace
技術 2026年5月13日(水) 約9分 VoxCPM2含めOSS TTSが7方向に割れてきた VoxCPM2のtokenizer-free方式を起点に、F5-TTSやCosyVoice2など7モデルの方向の違い、Irodori-TTSやStyle-Bert-VITS2など日本語特化TTSの位置づけ、台本+OpenJTalkで音素を作る学習データの仕組み、ボイスクローン悪用リスクまでを整理した。 AI TTS 音声合成 ボイスクローン ローカルAI オープンソース ファインチューニング
技術 2026年4月29日(水) 約10分 74HC595の7セグ表示がちらつく理由とQUAD7SHIFTのラッチ設計 74HC595を2個使う7セグ表示で起きるちらつきとゴーストは、電源よりもラッチ境界の置き方で起きることがある。QUAD7SHIFTの実装から表示更新の境界を見る。 ハードウェア オープンソース Arduino マイコン 電子工作
技術 2026年4月24日(金) 約9分 デジタル庁がガバメントAI「源内」をオープンソース化、RAG・LLMセルフデプロイ・法制度AIのテンプレートを商用利用可で公開 デジタル庁が中央省庁で展開中の生成AI利用環境「源内」を、MIT / CC BY 4.0でGitHubに公開した。Webアプリ本体と、AWS・Azure・Google Cloudそれぞれのクラウド向けAI開発テンプレートがセットで公開されており、地方自治体や民間でも再利用できる。 AI LLM RAG オープンソース 国策 AWS Azure Google Cloud
技術 2026年2月12日(木) 約7分 MioTTS - コーデックから自作した軽量LLMベースTTS Aratakoが公開したMioTTS。独自コーデックMioCodecからフルスクラッチ開発された0.1B〜2.6Bの日英対応TTSモデル群。llama.cppやOllamaでそのまま動く設計が特徴的。 AI TTS 音声合成 オープンソース LLM
技術 2026年2月7日(土) 約6分 Qwen3-TTS - pip一発で使えるオープンソース音声合成 Alibaba Qwenチームが公開したQwen3-TTSの技術解説。pip install一発でセットアップ完了、3秒のボイスクローン、自然言語での声デザイン、日本語含む10言語対応。Apache 2.0ライセンス。 AI TTS 音声合成 オープンソース LLM
技術 2026年2月6日(金) 約6分 Qwen3-Omni: 3BアクティブのMoEでテキスト・画像・音声・動画を統合処理するオムニモーダルモデル Alibabaが公開したQwen3-Omni-30B-A3Bの技術解説。30Bパラメータ中3Bのみアクティベートするオムニモーダルモデルで、テキスト・画像・音声・動画の入力から音声付きで応答する。Thinker-Talkerアーキテクチャ、ベンチマーク、Qwen3 MoEファミリーの全体像を整理した。 AI LLM オープンソース マルチモーダル 音声AI
技術 2026年2月5日(木) 約4分 UI-TARS-1.5-7B: GUIグラウンディングでSOTAを達成したVision AIエージェント ByteDanceが公開したUI-TARS-1.5-7Bの技術解説。スクリーンショットからGUI要素を特定する精度でOpenAI CUAやClaude 3.7を大幅に上回る。デスクトップアプリも提供され、ローカルで動作可能。 AI LLM エージェント オープンソース
技術 2026年2月4日(水) 約5分 Qwen3-Coder-Next: 3Bアクティブパラメータでローカル動作するコーディングエージェント Alibabaが公開したQwen3-Coder-Nextの技術解説。80Bパラメータながら3Bのみアクティベートする超効率MoEで、RTX 4090単体でも動作。SWE-Bench 70%超えの実力をローカルで。 AI LLM オープンソース エージェント
技術 2026年2月3日(火) 約3分 MOVA: オープンソース初の映像・音声同時生成モデル OpenMOSSチームが公開したMOVA-720pは、動画と音声を1回の推論で同時生成するオープンソースモデル。Vidu Q3などクローズドモデルとの違い、アーキテクチャの特徴をまとめた。 AI 動画生成 音声生成 オープンソース
技術 2026年2月3日(火) 約2分 PersonaPlex: NVIDIAのリアルタイム全二重音声対話モデル NVIDIAが2026年1月にリリースしたPersonaPlex-7B-v1の概要。Moshiベースで全二重会話とペルソナ制御を実現した音声対話モデル。 AI 音声合成 音声認識 NVIDIA オープンソース