AIの記事を読むための数学入門、全5本シリーズのまとめ
目次
AIやLLMの記事を読んでいると、急に数式・記号が出てきて詰まる。 ここ数日で、その記号を「解けるようにではなく、読めるように」整理するシリーズを全5本書いた。 この記事はその索引として、全体像と読み順をまとめておく。
どれも単独で読めるように書いてあるが、記号と概念は前の記事から積み上がっていくので、1→5の順で読むのが一番スムーズだ。
シリーズ全5本の一覧
| # | 記事 | 扱うもの |
|---|---|---|
| 1 | AIの記事でよく見る数式、ここだけ読めば怖くない | 重み付き足し算、シグモイド、softmax、学習の流れ |
| 2 | AIの記事でよく出るベクトルと行列、ここだけ読めれば怖くない | 内積、行列積、転置、Attention の QKᵀ |
| 3 | AIの記事でよく出る確率と統計、ここだけ読めれば怖くない | 条件付き確率、分散・標準偏差、交差エントロピー、パープレキシティ、temperature |
| 4 | AIの記事でよく出る微分、ここだけ読めれば怖くない | d/dx、e、連鎖律、偏微分、勾配 ∇、ヤコビ行列 |
| 5 | AIの学習を動かしている勾配降下と逆伝播、ここだけ読めれば怖くない | 勾配降下、SGD/Adam、逆伝播、勾配消失、残差接続、学習率スケジュール |
共通のスタンス
5本とも同じ方針で書いている。
- 厳密な導出や証明は出さない
- 高校数学+αの感覚で読めれば足りる形に落とす
- ゴールは「論文や学習ログの数字の意味が読める」こと、解くことではない
- 必要になったら別の教科書(PRML、深層学習本、解析学など)に進んでもらう前提
「ここまで読めれば、AI関連の記事で出てくる記号はだいたい通読できる」の最低ラインを目指して書いた5本だ。
どれから読むか
基本は 1→5の順。各記事は前の記事の概念を前提に進むので、素直に頭から読むのが一番ロスが少ない。
ただ、読者の背景によっては拾い読みもしやすいように、シナリオ別のお勧めルートを置いておく。
プログラマでAI実装を触ってる人
3本目(確率と統計)と5本目(勾配降下・逆伝播)がコア。
損失関数(交差エントロピー)とパラメータ更新の流れ(loss.backward() → optimizer.step())が読めるようになるので、日々触っているコードの背景が繋がる。
数式の土台が不安なら1・2本目、微分が不安なら4本目に遡る。
高校数学を忘れかけの文系
1本目から素直に順に読むのが一番優しい。 各記事は「高校数学を思い出すところ」から始めているので、足場があればついていける。 べき関数・指数関数・微分・分数の書き換えなど、抜けがちな基礎から再確認する構成にしてある。
機械学習の名前は知ってるけど数式で止まる人
3本目(確率と統計)と5本目(勾配降下・逆伝播)を先に読むのがお勧め。 「softmax = スコアを確率分布に変える装置」「交差エントロピー = 学習の損失そのもの」のような具体的な対応を先に掴んでから、2本目(行列)と4本目(微分)で足場を固めると、式と言葉の対応が後付けで整理できる。
LLMの論文が読みたい人
2本目(Attention の QKᵀ)、3本目(交差エントロピー・パープレキシティ・temperature)、4本目(勾配・ヤコビ行列)、5本目(Adam・学習率スケジュール)の流れで、論文のtraining details節や図中の式が読めるようになる。 1本目は「前提の復習」として冒頭だけスキムすれば足りる。
積分がやりたい人
残念ながらこのシリーズはAI記事を読むための数学に絞っているので、積分はほとんど扱っていない(4本目で記号を紹介、5本目で等加速度運動を時間で積分するくだりが出てくる程度)。 ただ作者はかつて寝る前に日本の大学入試の積分問題を解くというよくわからない趣味があったので、そのうち別記事で書く可能性はある。
読み通すと読めるようになる式の例
シリーズの各記事をまたいで、典型的な式がどの記事の道具で読めるかを整理する。
| 式・記号 | 読むのに要る記事 |
|---|---|
y = Wx + b | 1(重み付き足し算) + 2(行列) |
softmax(x_i) = exp(x_i) / Σ exp(x_j) | 1 + 3(確率分布) |
Attention(Q, K, V) = softmax(QKᵀ/√d_k) V | 2 + 3 |
H(p, q) = −Σ p(x) log q(x)(交差エントロピー) | 3 |
PPL = exp(H(p, q))(パープレキシティ) | 3 |
∇L(勾配ベクトル)、ヤコビ行列 | 4 |
θ ← θ − η∇L(勾配降下) | 4 + 5 |
| 連鎖律による逆伝播の層ごとの勾配伝搬 | 4 + 5 |
AdamW(betas=(0.9, 0.95))、warmup_steps、grad_clip | 5 |
論文のtraining details、モデルカードのハイパーパラメータ、W&B/TensorBoardの学習ログがここにある道具で通読できるようになる。
扱わない話
このシリーズで触れていないものも明示しておく。
- 厳密な証明や導出
- 最適化理論の深入り(ニュートン法、L-BFGS、Natural Gradientなど)
- 測度論ベースの確率論
- 微分幾何・情報幾何
- 積分の本格的な扱い(各記事で軽く触れるのみ)
「AI記事を読めるようになる」以上を求める場合は、このシリーズを入口にして別の教科書・論文に進むのが適切だ。
関連の実践記事
シリーズを読んだあとに実装寄りの話にも触れると、数式と実物の手触りが噛み合う。 このブログでも実際に手を動かした記録をいくつか書いている。
ファインチューニング・LoRA学習
- LUKE/BERTを日本語コーパスでfill-maskファインチューニング(OCR誤字検出) 正統派ファインチューニングの実例
- Mac mini M4でLLM向けにLoRAを作る
- SeaArtでLoRA作成実践
- Mac M1 Maxで13回失敗してRunPodで成功
- RTX 3060 (6GB) でのLoRA学習環境構築
Transformer / Attentionの深い話
- MoonshotAI(Kimi)がTransformerの残差接続をAttentionで置き換えるAttnResを提案 残差接続の応用
- Attention SinksとResidual Sinksの統一的理解 Transformerの訓練安定性
Optimizerの実装寄り
- MegaTrainが100BパラメータLLMを1GPUでフル精度訓練する Adamの一次/二次モーメント実装の具体例
出発点は、周りから「AIのニュース記事やテスト結果の解説が何言ってるかよく分からない」「そもそもAIとLLMの違いって何?」のような根本的な質問をされたことだった。 答えるには先に「読むための基礎知識」を渡さないと話にならない、と気づいて整理したのがこの5本になる。 書きながら「このへんで質問くるだろうな」という先回りもあちこちに入れたので、独習メモというより入門ガイド寄りの位置付けだ。
5本通して読めば、AI記事の「数学記号まわり」で詰まる頻度はだいぶ下がるはずだ。ここから先は、各論文や実装記事で個別の話に入っていけばいい。