[A,B,C,<BOS>] 模拟 softmax + NLL losslogits: A=1.2, B=0.3, C=-0.5, BOS=0.1
目标 token(target):
预测概率:
NLL Loss: -
Value:自动求导引擎(替代 PyTorch autograd)state_dict:全部可训练参数gpt(...):一次 token 前向(attention+MLP)loss.backward():链式法则反传梯度Adam:参数更新inference:按概率采样生成字符结论:它不是为“快”,而是为“看懂 GPT 训练闭环”。