输入token序列,输出下一个token
将生成的token序列解码成文本
第一个"下一个token"生成: 输入token序列"经过"(调用forward方法)N层Decoder layer后,的到结果
细看其中一层Decoder layer,frward方法会返回若干中间输出,被称之为激活(activation)
Self-attn模块计算开销:
MLP模块计算开销:
Decoder layer模块计算开销:
以上为一次推理的计算开销,开销为sequence的平方级别
https://marp.app/