March 20, 2023
握着你的手训一个类GPT语言模型 (二)
书接上回,我们搞了个最简单的胡说八道机,距离GPT其实只差更科学的模型结构了。本文中公式较多,嚼不动的同学建议参看一些图文并茂的科普文。
上下文信息融合 考虑一个张量 $\boldsymbol{x} \in \mathbb{R}^{T\times C}$,这个张量可以用来表示一个 “上下文特征 (context feature)” ,其中 $T$ 是上下文长度1,$C$ 是特征数。我们假定一种非常简单的,从上下文中整合信息的方式: 对于每一个位置 $t$,我们把所有 $t$ 之前的特征都取个平均值。写成数学公式就是:
Read more