我们离围棋之神还有多远?
关于 AlphaGo 最大的未知数之一,是它自我对局训练的效率。按照目前公开的讯息,它的棋力一直在随着时间稳定上升,直到不久之前刚刚超越了人类顶尖棋手的水准。看起来假以时日,它的棋力还会进一步成长。
但这个预计完全在未定之天。事实上,过去这段时间以来它的棋力增长本身是个奇迹,而非必然。通过自我对局的输赢反馈来提升能力,最大的问题在于容易陷入机器学习中所谓「过拟合」的状态。简单地说,就是因为自己的对手也是自己,从而陷入一个自洽的逻辑圈无法自拔。其结果是缺陷变成了优势,盲点变成了禁区。初始经验中的噪音,逐渐固化成了金科玉律。实际上并不存在的界限,因为从来没有试图跨越,结果变成了真的限制。最后「自以为」自己下得很好,而且越下越好,其实只是越来越适应自己而已。
DeepMind 的团队当然想到了这个问题。他们的解决方案是不仅仅让 AlphaGo 自我对弈,也不断让不同等级的 AlphaGo 之间互相越级对弈作为校准,以避免出现随着不断进化,客观棋力反而萎缩的现象。问题在于,这种校准终究是在 AlphaGo 的「家族」内部进行的,因为这世界上暂时还不存在可以和它媲美的第二家对弈系统,可以进行大规模的互相检验。自己近亲繁殖的结果是有些 bug 永远都无法被自己意识到,只有在和棋风棋路截然不同的对手的对弈中才有可能暴露出来。
譬如人类这个对手。AlphaGo 和李世乭的对弈,可以看做是它第一次遇到和自己旗鼓相当而截然不同的异类。于是它果然崩溃了一次。
其实和人类棋手相比,AlphaGo 也并非完全是天外来客。它最初的训练来自大量人类棋手的网络围棋对局,血液里保存着人类棋手的基因。正因为如此,DeepMind 公司已经宣布,将在接下来的几个月里重新来过,在不依赖人类对局数据的基础上,从零开始训练新的围棋程序,以探索不落现有围棋观念窠臼的新道路。
但即便如此,它仍然无法避免有一天终究会落入过拟合的陷阱。要逐渐接近围棋之神的境界,可能需要不止一个竞争者出现,彼此切磋训练才有可能做到。甚至可以想象,人们最终会找到随机生成新的围棋算法的方法,海量生成大量竞争者。但要做到这一点,需要人们对围棋和人工智能有远比今日更深刻的理解才行。
长远来看,探索围棋的规律,和探索围棋算法的规律,在宏观的时间尺度下本来不就是一回事么?
从某种意义上说,在遇到 AlphaGo 之前的人类围棋,整体上也是一个自我繁殖而逐步陷入过拟合的家族。虽然江山代有才人出,但是作为一个集体,始终在继承着相似的传统,遵循着统一的范式。现成的定式和规律已经被研究地如此透彻,以至于任何新颖的想法都会因为初生时的弱小而昙花一现。在千年围棋史上,也许只有本因坊秀策和吴清源曾经以一人之力掀起过整个围棋观念的革命。绝大多数情况下,后来者只是在通过自己的努力进一步强化既有的棋理而已。
直到 AlphaGo 的出现。
于是我们看到一个强大的传统遇到了新奇而健壮的挑战者。从一开始不屑的讪笑,变成了敬畏的崇拜,直到最终勇敢的接纳。这并非一朝一夕之功,当然总是会有抗拒和怀疑,会有恐惧、愤怒和绝望。更坎坷的部分也许还在后面。但是这一步一旦走出,就无法再后退了。
归根结底,这是避免一个自我封闭的系统陷入衰败的唯一途径。固步自封,夜郎自大,筑起墙来抵御想象中的危险,把自我适应的沉渣视为不可动摇的根本,绝无可能生生不息欣欣向荣,而只会在自我满足的道路上越走越远。
当然不止下棋是这样。