IT博客汇 | AlphaGo 2.0 与其 1.0 相比有哪些提升？

AlphaGo 2.0 与其 1.0 相比有哪些提升？

PENG Bo发表于 2017-05-25 20:30:00

Deepmind 透露将在赛后发表论文公布 AlphaGo 2.0（下面称为 Master）的细节，在此我结合目前公布的信息做一些预测。先看黄博士的朋友圈爆料：

1. 这是意想之中，40 层当然会是残差网络。比较令人好奇的是是否是纯 CNN，还是会结合RNN/LSTM 处理某些情况（如打劫），因为之前看绝艺的视频截图好像有用到。

2. 比 v18 强了三子，确实符合 Master 今年初的表现：

不过这里有个蛮有趣的事情，就是在上面看和李世石对弈的 v18 的评分是 3750 左右（和柯洁的 3620 分接近，略强一点，对柯洁的胜率会是 68%。这个评分感觉比较准确。）。

但 Deepmind 从前是以为 v18 的评分是已经达到 4500 的：

这说明机器自我对弈的评分确实会严重高估自己。Master 这次自我评分 4800，那么真实评分应该是多少？不妨假设也要减去 4500-3750=750，于是会在 4800-750=4050 分左右。那么柯洁的胜率是.... 7.8%，可能比大家想象中要高一点？

不如我们换个思路，再算精确一点。v18 对 v13 时，v18 和 v13 表现出来的差异是 4500-3100=1400 ，实际更准确的差异是 3750-2850=900。那么，这次 Master 对 v18 表现出来的差异是 4800-3750=1050，实际更准确的差异可能是 1050/1400*900=675，也就是 Master 的更准确的评分是 3750+675=4425 分，那么柯洁的胜率是... 1%。这个可能比较符合目前的实际情况。

此外，这次用的是单TPU版本，目前不清楚 4800 分是单机的评分还是分布式的评分。

4. 自我对弈的细节，我们要等到 DeepMind 的论文出来才知道。在此做一些猜测：

v13 的思路是 Policy => RL Policy => Value。

v18 和 Master 的思路目前没有公布，但是想必会加入 Value => Policy 和 Policy => Value 的循环。

此外，很可能还有 Policy + Value => MCTS => Value => Policy => ... 的循环。就是用网络去学习 MCTS 的结果。最终甚至有可能摆脱 Policy，只剩下 Value。

最后，神经网络有盲点问题，我在从前的文章中写过，并且预计 DeepMind 会加入 Adversarial 学习，就是做一个网络来专门抓网络的盲点。后来 DeepMind 也提到过确实加入了类似的机制。

所谓盲点，就是会让 MCTS 的胜率预计产生大幅波动的点。目前 Leela 等程序已经很强，不过大家都发现神经网络有时候会对于极其简单的棋视而不见，这需要专门处理。一个有趣的办法也许会是用类似 GAN 的思路。

如果希望偷懒，甚至可以手动加入"必须考虑的点"（这估计是绝艺用过的办法）。例如，某些紧气的点是网络最容易忽略的。然后进行 MCTS，然后让网络去学习。

我们也可以生成大量有趣的局面，比如生成大量"死活题"，进行 MCTS，然后让网络去学习。

5. 目前 DeepMind 表示仍然没有完全脱离用于初始化的人类棋谱输入，只是需要的棋谱数量可以更少。不过，由于 MCTS 可以保证收敛到围棋之神，因此这个目标在理论上只是一个时间问题，唯一限制的因素就是 DeepMind 投入的经费了。

总之，让我们期待 DeepMind 的论文。对于以上提到的一些话题感兴趣的朋友，欢迎关注我的专栏：技术备忘录 - 知乎专栏以及我之前在 AlphaGo 话题下的回答。

来源：知乎 www.zhihu.com
作者：PENG Bo

【知乎日报】千万用户的选择，做朋友圈里的新鲜事分享大牛。点击下载

此问题还有 24 个回答，查看全部。
延伸阅读：
如何评价亚马逊新推出的 Amazon Machine Learning?
「社交网络分析」是门怎样的学科？