文章由三川,宗仁,晓帆联合编辑。
雷锋网AI科技评论按:乌镇围棋峰会第二天,在《AlphaGo研发介绍,AlphaGo意味着什么》主题演讲上,Demis Hassabis+David Silver针对昨天与柯洁鏖战的AlphaGo研发做了公开介绍,其中AlphaGo主程序员David Silver在演讲中讲到AlphaGo研发的关键介绍,雷锋网(公众号:雷锋网)AI科技评论根据现场原话整理出下文。
演讲摘要:有了这样强大的策略网络和价值网络,AlphaGo探索棋步的基本的搜索树规模就得以大幅度缩减。前一个版本AlphaGo Lee还是通过“只考虑人类可能走的位置”和“预判50回合”来限制搜索规模,如今AlphaGo Master已经考虑的是全局最有价值的位置,并且预测更少的回合数目还能达到更高的准确率。这样一来,蒙特卡洛树更窄更浅,回合中考虑的走子位置更少、预判回合数更少,预判依靠更强大的网络,只用4个TPU、AlphaGo Lee十分之一的计算能力就达到了更高的棋力。
先从外界一直在关心的AlphaGo硬件问题说起,具体来说,AlphaGo Lee使用了谷歌云上的50个左右TPU。依靠这样的计算能力,我们可以做50层深的搜索,就是说落子前对棋盘上每一个可能的位置可以做50步预判。每秒它可以搜索10,000(ten thousand,1万)个位置。听起来挺多的,但是其实20年前的深蓝可以每秒搜索100,000,000(a hundred million,1亿)个位置。所以其实AlphaGo思考的时候比深蓝聪明多了,它用策略网络和价值网络,大大减少了需要搜索的路径数量。
说说新版本的AlphaGo吧,我们把它称作AlphaGo Master。这是目前最强的AlphaGo,也正是此次大会中比赛的AlphaGo。AlphaGo Master使用的算法要比以前高效得多,以至于只需要AlphaGo Lee版本十分之一的计算量。以及,训练AlphaGo Master也要高效得多。
AlphaGo Master运行在单台(single machine)电脑上(会后采访中,AI科技评论在内的媒体跟Silver亲自确认,是运行在单台电脑上,但包含4个TPU),但是比拥有更多TPU的AlphaGo Lee、AlphaGo Fan都要厉害。
AlphaGo Master为何如此厉害呢?背后的原因是因为我们用了最好的数据来训练它。我们能获取到的最好的数据不是来自于人类,而是来自于AlphaGo自己。我们让AlphaGo做自己的老师。我们利用AlphaGo强大的搜索能力,自己生成数据,用生成的数据让下一代的AlphaGo学习。自己教自己。
用这样的方法,我们训练出的价值网络和策略网络就比以前的AlphaGo都要厉害。下面我来仔细介绍一下算法中的细节。
首先,我们让AlphaGo跟自己对弈。这是基于强化学习的,我们已经不再拿人类的棋局给它学习了。AlphaGo自己训练自己,自己从自己身上学习。通过强化学习的形式,它学到如何提高。
在棋局的每一回合,AlphaGo 运行火力全开(full power)的搜索以生成对落子的建议,即计划。当它选择这一步落子、实施、并到一个新回合时,会再一次运行搜索,仍然是基于策略网络和价值网络、火力全开的搜索,来生成下一步落子的计划,如此循环,直到一局棋结束。它会无数次重复这一过程,来产生海量训练数据。随后,我们用这些数据来训练新的神经网络。
首先,当 AlphaGo 和它自己下棋时,用这些训练数据来训练一个新策略网络。事实上,在 AlphaGo 运行搜索、选择一个落子的方案之前,这些是我们能获取的最高质量的数据。
下一步,让策略网络只用它自己、不用任何搜索,来看它是否能产生同样的落子的方案。这里的思路是:让策略网络只靠它自己,试图计算出和整个 AlphaGo 的火力全开搜索结果一样的落子方案。这样一来,这样的策略网络就比之前版本的 AlphaGo 要厉害得多。
我们还用类似的方式训练价值网络。它用最好的策略数据来训练,而这些数据,是出于完全版本的 AlphaGo 自己和自己下棋时的赢家数据。你可以想象,AlphaGo 自己和自己下了非常多盘棋。其中最有代表性的棋局被选取出来提取赢家数据。因此,这些赢家数据是棋局早期回合步法的非常高质量的评估。
比如说,在某局棋中,我们想知道在第 10 回合的局势,怎么办?我们从头重新运行一遍这局棋,发现最后黑方赢了,据此就可以做出合理推测:黑方在第 10 回合占优势。
所以你需要高质量训练数据来训练价值网络。然后用价值网络来预测这些 AlphaGo 自己和自己下棋的棋局中,哪一方是赢家。这些数据中,棋局的每一回合,我们都让价值网络来预测最后的赢家。
最后,我们重复这一过程许多遍,最终得到全新的策略和价值网络。比起旧版本,它们要强大得多。然后再把新版本的策略、价值网络整合到 AlphaGo 里面,得到新版本的、比之前更强大的 AlphaGo。这导致树搜索中更好的决策、更高质量的结果和数据,再循环得到新的、更强大的策略、价值网络,再次导致更强大的 AlphaGo,如此不断提升。
最后,AlphaGo的表现如何呢?以围棋等级分来看,以前ZEN、CrazyStone软件达到约2000分,樊麾版AlphaGo达到近3000分,李世石版AlphaGo上涨3子,达到3500分以上,AlphaGo Master又涨3子,达到4500分以上。
1. 新版的AlphaGo已经不需要向人类导师取经了?
对,它已经不需要依赖外界的导师了,现在我们希望它往通用人工智能的AGI的方向发展。
2. 目前DeepMind在围棋上取得的成就是否有应用到其他方向的拓展上?DeepMind又在向其他方向拓展上有什么成果?
关于具体应用,我们还在应用的早期探索阶段,包括刚刚演讲中提到的新药研制等应用领域只是它中间某一个技术的行业使用。
3. 刚演讲中,您提到AlphaGo在下棋过程中已经开始拥有类似人类的“直觉”,这是否可以说其正在迈向强AI阶段? 意味着拥有自主意识?
我想应该这么说,在某一个具体的领域不断强化训练,只能说它在这个确定领域中实现了这种直觉或者自主意识,和人类直接产生的自主意识有区别。正因为这样,它有机会应用在不仅仅围棋领域,而是包括其它领域。
4. 您昨天提到的它的计算量相当于去年人机大战的十分之一计算量,能不能说地再清楚一些?
对,昨天我们说到,它用的是TPU,十个处理单位,只占到十分之一的计算量,这里强调一下,十分之一既指电力的消耗只占到之前的十分之一,也指运行调用的资源只占到之前的十分之一。
5. 请问您提到AlphaGo Lee使用了谷歌云上的50个左右TPU,这次它的计算力少了十倍的计算量,到底是用了多少个TPU?
是用了一个单机(Single Machine),这个物理服务器上面有4个TPU。
6. AlphaGo昨天比赛的后半局,按理应该是时间比前面用的更少,打你们为什么一直保持匀速的落子速度,这背后的算法做了什么样的设置?
我们每一步的计算是持续,稳定的,所以制定了对等时间求稳策略,来达到最大限度使用时间的目的,所以我们认为匀速是最好的。
7. 为什么AlphaGo在乔装成Master60连胜的时候已经打败过柯洁,为什么还要举办这次公开比赛?
来自David Silver先生,AlphaGo首席研究员的声明:
新版本的AlphaGo, 已经过几百万次的自我训练,并在检测旧版本弱点方面表现出色。也因此,新版本的AlphaGo可以让旧的版本三个子。但当AlphaGo与从未对弈过的人类棋手对局时,这样的优势就不复存在了,尤其是柯洁这样的围棋大师,他可能帮助我们发现Alphago未曾展露的新弱点。这样的衡量标准是无法比较的。对于本周的第二轮和第三轮对局,我们拭目以待。
The new version of AlphaGo has trained against itself millions of times, and has learned to become very good at exploiting the weaknesses in previous versions. That’s why it’s about three stones stronger in head-to-head games against its older self. But that doesn’t mean anything when it comes up against a human player with whom AlphaGo has never trained – particularly a great master like Ke Jie, who can uncover new weaknesses we don’t know about. The scales just aren’t comparable. We are excited for the second and third games this week! – David Silver, lead researcher for AlphaGo
文章来源:雷锋网
原文地址:https://www.leiphone.com/news/201705/zkiaHyGHopehypVu.html