GPT的架构 GPT模型是一种计算机程序,它可以理解和生成文字,就像我们人类会说话和写字一样。
模型的工作流程 输入文本: 首先,我们把要处理的文字(比如一句话或一段话)输入到模型中。
词嵌入层: 模型会把这些文字转换成一种计算机能理解的数字形式,这叫“词嵌入”。这就好像我们用字母拼出一个单词一样,计算机用数字来表示这些文字。
位置嵌入层: 模型还会考虑每个单词在句子中的位置,因为同样的单词在不同的位置可能有不同的意思。
多个转换器模块:
这些模块负责处理和理解输入的文字。每个模块都有几个重要部分: 注意力机制(Masked Multi-head Attention): 这部分就像我们阅读一篇文章时,会特别注意一些关键字一样。模型会关注输入文字中的重要部分。 前馈神经网络(Feed Forward): 这部分就像一个过滤器,会进一步处理信息,使其变得更有用。 规范化层(LayerNorm): 这部分会确保信息在处理过程中保持稳定,不会变得太乱。 丢弃层(Dropout): 这部分会随机丢弃一些信息,防止模型过于依赖某些特定的信息,使其更具通用性。 输出层: 最后,处理完所有信息后,模型会给出一个结果,比如生成下一段文字。
示例 假设我们输入一句话:“今天的天气真好。”
输入文本: “今天的天气真好。” 词嵌入层: 把这句话转换成数字。 位置嵌入层: 记录每个词在句子中的位置。 多个转换器模块: 模型会处理这句话,注意到“天气”和“好”是关键字,并对信息进行多次处理。 输出层: 最后模型可能会生成下一句话,比如“我们去公园玩吧。” 大模型评测 MMLU=Measuring Massive Multitask language Understanding,
以下是一个示例
input = ("1 + 1=?", "A. 2", "B. 3", "C. 4") model_answer = model(input) correct_answer = "C.4" score += model_answer == correct_answer total_score = score / num_examples * 100 %