LLM, 本质上还是根据训练数据一个 token 一个 token 的预测下一个字, 说白了早些年的输入法的自动提示类似.
为什么只靠预测下一个字就能生成合理的响应?为什么 LLM 应用现在开始爆火?为啥不是早 20 年或者晚 20 年?
如果你也有这些问题, 推荐你读一下这个网站, 它其实是个在线课程, 共有 17 节, 图文并茂的为你讲述, 剖析 LLM 到底是现代神迹还是垃圾.
很多观点我觉得还是很有意思的, 比如文章认为, 之所有 LLM / AI 应用现在爆发, 大概有以下几点原因:
- 2017 年, Transformer 架构被开发出来
- 大量的训练数据可以从网上抓取(包括文本和代码), 量级达到 TB 级别, 能够训练足够规模的 LLM
- 强化学习, LLM 通过与人类训练师互动学习如何更好的回复
- 算力发展, 直到最近才变得足够强大得以训练出适当规模的模型.