握着你的手训一个类GPT语言模型 (二)

书接上回，我们搞了个最简单的胡说八道机，距离GPT其实只差更科学的模型结构了。本文中公式较多，嚼不动的同学建议参看一些图文并茂的科普文。上下文信息融合考虑一个张量 $\boldsymbol{x} \in \mathbb{R}^{T\times C}$，这个张量可以用来表示一个 “上下文特征 (context feature)” ，其中 $T$ 是上下文长度1，$C$ 是特征数。我们假定一种非常简单的，从上下文中整合信息的方式: 对于每一个位置 $t$，我们把所有 $t$ 之前的特征都取个平均值。写成数学公式就是: Read more

March 12, 2023

#gpt #language-model #torch

握着你的手训一个类GPT语言模型 (一)

这段时间 ChatGPT 大有 AI 奇点将至的势头，它展现的各种能力也的确很惊人，让人忍不住想要复刻一个。不过我从来没搞过 NLP 相关领域，机缘巧合在 youtube 上看见 Andrew Karpathy 的视频 Let’s build GPT: from scratch, in code, spelled out ，非常详细地从零开始展示了如何实现一个 Decoder-Only 的 Transformer 语言模型。 Read more