1. 这是意想之中,40 层当然会是残差网络。比较令人好奇的是是否是纯 CNN,还是会结合RNN/LSTM 处理某些情况(如打劫),因为之前看绝艺的视频截图好像有用到。
2. 比 v18 强了三子,确实符合 Master 今年初的表现:
不过这里有个蛮有趣的事情,就是在上面看和李世石对弈的 v18 的评分是 3750 左右(和柯洁的 3620 分接近,略强一点,对柯洁的胜率会是 68%。这个评分感觉比较准确。)。
但 Deepmind 从前是以为 v18 的评分是已经达到 4500 的:
这说明机器自我对弈的评分确实会严重高估自己。Master 这次自我评分 4800,那么真实评分应该是多少?不妨假设也要减去 4500-3750=750,于是会在 4800-750=4050 分左右。那么柯洁的胜率是.... 7.8%,可能比大家想象中要高一点?
不如我们换个思路,再算精确一点。v18 对 v13 时,v18 和 v13 表现出来的差异是 4500-3100=1400 ,实际更准确的差异是 3750-2850=900。那么,这次 Master 对 v18 表现出来的差异是 4800-3750=1050,实际更准确的差异可能是 1050/1400*900=675,也就是 Master 的更准确的评分是 3750+675=4425 分,那么柯洁的胜率是... 1%。这个可能比较符合目前的实际情况。
此外,这次用的是单TPU版本,目前不清楚 4800 分是单机的评分还是分布式的评分。
4. 自我对弈的细节,我们要等到 DeepMind 的论文出来才知道。在此做一些猜测:
v13 的思路是 Policy => RL Policy => Value。
v18 和 Master 的思路目前没有公布,但是想必会加入 Value => Policy 和 Policy => Value 的循环。
此外,很可能还有 Policy + Value => MCTS => Value => Policy => ... 的循环。就是用网络去学习 MCTS 的结果。最终甚至有可能摆脱 Policy,只剩下 Value。
最后,神经网络有盲点问题,我在从前的文章中写过,并且预计 DeepMind 会加入 Adversarial 学习,就是做一个网络来专门抓网络的盲点。后来 DeepMind 也提到过确实加入了类似的机制。
所谓盲点,就是会让 MCTS 的胜率预计产生大幅波动的点。目前 Leela 等程序已经很强,不过大家都发现神经网络有时候会对于极其简单的棋视而不见,这需要专门处理。一个有趣的办法也许会是用类似 GAN 的思路。
如果希望偷懒,甚至可以手动加入"必须考虑的点"(这估计是绝艺用过的办法)。例如,某些紧气的点是网络最容易忽略的。然后进行 MCTS,然后让网络去学习。
我们也可以生成大量有趣的局面,比如生成大量"死活题",进行 MCTS,然后让网络去学习。
5. 目前 DeepMind 表示仍然没有完全脱离用于初始化的人类棋谱输入,只是需要的棋谱数量可以更少。不过,由于 MCTS 可以保证收敛到围棋之神,因此这个目标在理论上只是一个时间问题,唯一限制的因素就是 DeepMind 投入的经费了。
总之,让我们期待 DeepMind 的论文。对于以上提到的一些话题感兴趣的朋友,欢迎关注我的专栏: 技术备忘录 - 知乎专栏 以及我之前在 AlphaGo 话题下的回答。