MicroGPT（243 行）到底在干嘛？

这是 Karpathy 那份 gist 的教学版可视化：数据 → 前向 → loss → 反向传播 → Adam 更新 → 采样生成。

步骤 1/6

用一个玩具词表 [A,B,C,<BOS>] 模拟 softmax + NLL loss

logits: A=1.2, B=0.3, C=-0.5, BOS=0.1

temperature: 1.0

目标 token（target）:

预测概率：

NLL Loss: -

结论：它不是为“快”，而是为“看懂 GPT 训练闭环”。