相信大家对“神经网络能否被严谨地解释为符号逻辑”都有自己独特的想法,但是如果究根问底,还是需要一个更加严谨的公理、定理体系来证明或证伪这个命题。准确地说,这里面起码包含两个问题,1.如何定义并数学证明“符号化解释的严谨性”,2.求得“在哪些条件下”神经网络可以被严谨地解释为符号逻辑。
下面,是我最近在知乎平台上的一个报告。细节的定理证明需要大家读后面的论文和我的其他知乎文章。
各位知乎的朋友们大家好,我是张拳石,我来自上海交通大学。由于身体原因,很遗憾无法前往现场与大家面对面交流。我仍然用心准备了今天的分享,希望能够就可解释性及大模型的未来发展路线,与大家进行深入而有意义的探讨。
我是2007、2008年大三的时候第一次接触人工智能研究,当时还没有深度学习,人工智能领域还是以及基于手工设计的特征的图模型为主导的。2012年的深度学习算是一次变革,到了2023年的大模型,我认为很可能是另一个变革。但是,跟大部分人的思考并不相同,我认为新的变革并不会沿袭旧的深度学习发展路径,而且旧路线也逐渐会走向终点。我们看一下2012年之前的基于图模型的人工智能,我将它总结为一个词“穷工极态”。就是说你需要人为地去建模人工智能任务中的方方面面。比如你需要用图中每个节点表示物体的一个组成部分,用图的边来表示不同部分的空间关系,或物体的形变。此外,物体的尺度变化,纹理的变化,角度的变化,光照的变化,林林总总不一而足,你都需要一一去建模。尽管如此,我们发现之前基于图模型的算法的性能还是一直无法提升上来。
但是自从2012年,深度学习出现以后,人工智能的发展从一个极端里面走向了另一个极端。特征是神经网络自动学习出来的,这里会出现一个问题,深度学习性能的提升以度让人工智能发展的根本维度作为代价的。你可以说2012年以来人工智能算法出现了大的爆发,每年涌现出多少种不同的神经网络结构,有多少篇论文,但是,我这里是说的是人工智能发展的“根本性的维度”, 就是人们逐渐失去了对神经网络模型的控制。神经网络的表征是端到端自动学习出来的,那么神经网络潜在的问题在哪儿,它的盲点在哪儿,我们是不清楚的。我们逐渐失去了对人工智能模型内在逻辑的解释权和控制权。
那么研究的主流就退回到了两个维度,一个是调整神经网络结构,一个是调整神经网络的损失函数,而将“如何学”“学什么”等中间逻辑的学习度让给了神经网络自己。当然,这本不是什么大问题。但是,2023以后,到了大模型时代,情况却截然不同了。对于大模型来说,每一次神经网络的结构调整或者损失函数的调整,都意味着大量的计算资源的开销,大量的时间成本,大量的电力资源。所以,人们逐渐发现,传统的路子走不动了,不在有能力无限制地调结构和调损失函数。
假使我们继续沿着传统的模式继续发展,也就是端到端训练的模型一路走下去,现在我们几乎要用全网的数据来训练大模型,然后面对无穷无尽的评测,无穷无尽的价值对齐、监管、安全性、可靠性。从某种意义上讲,我们在工程上已达到了一个极值——但是,这远远不是人工智能发展的终点。
那么人工智能发展的希望在哪儿呢?是像人类一样学习。那么人类的学习是什么?1. 从训练来看,是小样本的,是举一反三的。就像教小孩儿,这个一个杯子,我们不需要给小孩儿看一千张瓶子的照片,小孩儿可以从单个样本中学到本质的特点,从而举一反三。2. 测试也不是反复的大样本的考试,而是让人进行“自我陈述”——人脑就是一个神经网络,而人与人工神经网络的重要的区别在于,人是可以自主解释自己的认知,我们是通过将自身的逻辑,转化为符号化的语言表达出来,然后让另一个人了解到,哦,你是真的懂一个事物背后根本的机理,而不是像一个机械式的记忆。人可以做自我陈述,既论迹,更论心——这是一个比端到端测试更加高效的机制,可以用很低的成本赢得彼此的信任,并进行知识的传递。
这是一个根本的问题。现在大模型的发展遇到一个安全性的问题、价值对齐的问题、幻觉的问题——目前的这些问题是端到端测试的问题,而不是一个让大模型自我陈述的问题。从根本上,我们缺少一个可靠的理论体系去定义神经网络所建模的概念,严谨地将神经网络内在逻辑表征出来。我们去定义大模型输入单元之间的交互。什么是交互呢?比如,在大语言模型中,输入一个句子,这个句子中不同单词或者token之间的非线性关系叫做一个交互。比如说,英语单词,green hand,green是绿色,hand是手。从单个单词来看,可以翻译为绿色的手,而神经网络建模了两个单词简单的非线性交互,翻译为新手的意思,而不是绿色的手。
这一点上,我们需要一些基础理论的突破,即证明,神经网络究竟是否可以被严谨地解释为一些符号化的概念,而且这些符号化的逻辑可以彻底地、干净清楚地将神经网络中绝大部分复杂的决策逻辑,都完全解释出来。在这个方面,我们需要从头构建出一套新的公理、定理体系。
我们首先要证明概念的稀疏性。我们在数学上证明了,神经网络的输出在满足在对遮挡操作平滑时,神经网络一定会建模很少量的交互关系。经验上,小模型一般建模100个以内的交互,大模型一般建模300个以内的交互。对于大语言模型来说,这些交互可以是单词间或token间的交互,对于其他数据(比如三维点云)可以是不同点云区域之间的非线性交互。
然后,我们要证明第二个性质是无限拟合性。当输入样本中有n个单词或token,我对输入句子中的单词进行随机的遮挡操作,那么我们会得到2^n个不同的遮挡样本。我们可以证明我们可以用这两三百个交互来充分近似估计出神经网络在这2^n指数级不同遮挡样本上的输出值的各种复杂变化。换句话说,我们可以用一个仅有少量个节点的交互图模型去拟合某个特定输入样本下,无限地去拟合神经网络在指数级遮挡样本上各种不同的输出值。
我们还发现第三点:交互的泛化性。即,同一个交互在不同的样本之间有很强的泛化性,在面向相同任务所训练的不同神经网络上也有很强的迁移性。那么,从某种意义上,我们是不是就可以认为这些交互相对可靠地表达了神经网络所建模的概念。我们发现两个对话大模型,哪怕有不同的结构,不用数量的参数,甚至不完全一样的训练样本,它们在相同输入句子上所建模的交互,居然是殊途同归的。这是非常反直觉的,不同神经网络有全然不同的结构,不同数量的参数,但是其等效所建模的交互概念却是殊途同归的。
那么归根结底,我们的关键是,通过证明交互概念的稀疏性、无限拟合性、通过发现概念的泛化性,来将神经网络预测逻辑解释为交互概念,从而可以直接“数出来”一个神经网络所建模的概念数量,进而在概念表征层面重新定义大模型的泛化性、鲁棒性等等。大模型的幻觉、可靠性、安全性、价值对齐等任务,也可以在大模型“概念层面的自我陈述”的角度,得到全新的评估。
感谢大家。
博弈交互解释性理论体系,以及对神经网络符号化解释的数学证明,需要看我前期的知乎文章以及论文。当然,在直觉层面,大家对这个议题都有各式各样的直觉性理解,但是如果究根问底还是需要严格地证明或证伪。
Qs.Zhang张拳石:这两年,我究竟做了些什么(2021-2023)Qs.Zhang张拳石:数学证明神经网络中符号化概念涌现的现象Qs.Zhang张拳石:AI从技术到科学:神经网络中的概念符号涌现的发现与证明Qs.Zhang张拳石:可解释性理论系列:反思深度学习,去伪存真、合众归一198 赞同 · 16 评论文章211 赞同 · 17 评论文章220 赞同 · 17 评论文章Qs.Zhang张拳石:敢问深度学习路在何方,从统一12种提升对抗迁移性的算法说起上交大张拳石:深度学习可解释性,从百家争鸣到合众归一mp.weixin.qq.com/s/KXdSwv_ypx1l2AIHrVb-3Amp.weixin.qq.com/s/KXdSwv_ypx1l2AIHrVb-3Amp.weixin.qq.com/s/KXdSwv_ypx1l2AIHrVb-3Amp.weixin.qq.com/s/KXdSwv_ypx1l2AIHrVb-3AQs.Zhang张拳石:ICLR 2022 Oral论文中得分排名前五的高分论文“发现并证明神经网络表征瓶颈”(得分10,8,8,8)923 赞同 · 25 评论文章995 赞同 · 25 评论文章1030 赞同 · 25 评论文章1067 赞同 · 26 评论文章Qs.Zhang张拳石:神经网络的博弈交互解释性(一):前言,漂在零丁洋里的体系268 赞同 · 20 评论文章275 赞同 · 20 评论文章