IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    AlphaGo 2.0 与其 1.0 相比有哪些提升?

    PENG Bo发表于 2017-05-25 20:30:00
    love 0
    Deepmind 透露将在赛后发表论文公布 AlphaGo 2.0(下面称为 Master)的细节,在此我结合目前公布的信息做一些预测。先看黄博士的朋友圈爆料:

    1. 这是意想之中,40 层当然会是残差网络。比较令人好奇的是是否是纯 CNN,还是会结合RNN/LSTM 处理某些情况(如打劫),因为之前看绝艺的视频截图好像有用到。

    2. 比 v18 强了三子,确实符合 Master 今年初的表现:

    不过这里有个蛮有趣的事情,就是在上面看和李世石对弈的 v18 的评分是 3750 左右(和柯洁的 3620 分接近,略强一点,对柯洁的胜率会是 68%。这个评分感觉比较准确。)。

    但 Deepmind 从前是以为 v18 的评分是已经达到 4500 的:

    这说明机器自我对弈的评分确实会严重高估自己。Master 这次自我评分 4800,那么真实评分应该是多少?不妨假设也要减去 4500-3750=750,于是会在 4800-750=4050 分左右。那么柯洁的胜率是.... 7.8%,可能比大家想象中要高一点?

    不如我们换个思路,再算精确一点。v18 对 v13 时,v18 和 v13 表现出来的差异是 4500-3100=1400 ,实际更准确的差异是 3750-2850=900。那么,这次 Master 对 v18 表现出来的差异是 4800-3750=1050,实际更准确的差异可能是 1050/1400*900=675,也就是 Master 的更准确的评分是 3750+675=4425 分,那么柯洁的胜率是... 1%。这个可能比较符合目前的实际情况。

    此外,这次用的是单TPU版本,目前不清楚 4800 分是单机的评分还是分布式的评分。

    4. 自我对弈的细节,我们要等到 DeepMind 的论文出来才知道。在此做一些猜测:

    v13 的思路是 Policy => RL Policy => Value。

    v18 和 Master 的思路目前没有公布,但是想必会加入 Value => Policy 和 Policy => Value 的循环。

    此外,很可能还有 Policy + Value => MCTS => Value => Policy => ... 的循环。就是用网络去学习 MCTS 的结果。最终甚至有可能摆脱 Policy,只剩下 Value。

    最后,神经网络有盲点问题,我在从前的文章中写过,并且预计 DeepMind 会加入 Adversarial 学习,就是做一个网络来专门抓网络的盲点。后来 DeepMind 也提到过确实加入了类似的机制。

    所谓盲点,就是会让 MCTS 的胜率预计产生大幅波动的点。目前 Leela 等程序已经很强,不过大家都发现神经网络有时候会对于极其简单的棋视而不见,这需要专门处理。一个有趣的办法也许会是用类似 GAN 的思路。

    如果希望偷懒,甚至可以手动加入"必须考虑的点"(这估计是绝艺用过的办法)。例如,某些紧气的点是网络最容易忽略的。然后进行 MCTS,然后让网络去学习。

    我们也可以生成大量有趣的局面,比如生成大量"死活题",进行 MCTS,然后让网络去学习。

    5. 目前 DeepMind 表示仍然没有完全脱离用于初始化的人类棋谱输入,只是需要的棋谱数量可以更少。不过,由于 MCTS 可以保证收敛到围棋之神,因此这个目标在理论上只是一个时间问题,唯一限制的因素就是 DeepMind 投入的经费了。

    总之,让我们期待 DeepMind 的论文。对于以上提到的一些话题感兴趣的朋友,欢迎关注我的专栏: 技术备忘录 - 知乎专栏 以及我之前在 AlphaGo 话题下的回答。



    来源:知乎 www.zhihu.com
    作者:PENG Bo

    【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。 点击下载

    此问题还有 24 个回答,查看全部。
    延伸阅读:
    如何评价亚马逊新推出的 Amazon Machine Learning?
    「社交网络分析」是门怎样的学科?


沪ICP备19023445号-2号
友情链接