MicroGPT(243 行)到底在干嘛?

这是 Karpathy 那份 gist 的教学版可视化:数据 → 前向 → loss → 反向传播 → Adam 更新 → 采样生成。
步骤 1/6

小型 next-token 演示

用一个玩具词表 [A,B,C,<BOS>] 模拟 softmax + NLL loss

logits: A=1.2, B=0.3, C=-0.5, BOS=0.1

目标 token(target):

预测概率:

NLL Loss: -

代码映射速查

  • Value:自动求导引擎(替代 PyTorch autograd)
  • state_dict:全部可训练参数
  • gpt(...):一次 token 前向(attention+MLP)
  • loss.backward():链式法则反传梯度
  • Adam:参数更新
  • inference:按概率采样生成字符

结论:它不是为“快”,而是为“看懂 GPT 训练闭环”。

原帖:karpathy/status/2021694437152157847 | 原始代码:gist