March 20, 2023

握着你的手训一个类GPT语言模型 (二)

书接上回,我们搞了个最简单的胡说八道机,距离GPT其实只差更科学的模型结构了。本文中公式较多,嚼不动的同学建议参看一些图文并茂的科普文。 上下文信息融合 考虑一个张量 $\boldsymbol{x} \in \mathbb{R}^{T\times C}$,这个张量可以用来表示一个 “上下文特征 (context feature)” ,其中 $T$ 是上下文长度1,$C$ 是特征数。我们假定一种非常简单的,从上下文中整合信息的方式: 对于每一个位置 $t$,我们把所有 $t$ 之前的特征都取个平均值。写成数学公式就是: Read more
March 12, 2023

握着你的手训一个类GPT语言模型 (一)

这段时间 ChatGPT 大有 AI 奇点将至的势头,它展现的各种能力也的确很惊人,让人忍不住想要复刻一个。不过我从来没搞过 NLP 相关领域,机缘巧合在 youtube 上看见 Andrew Karpathy 的视频 Let’s build GPT: from scratch, in code, spelled out ,非常详细地从零开始展示了如何实现一个 Decoder-Only 的 Transformer 语言模型。 Read more