侵权投诉
焊接机器人 喷涂机器人 搬运机器人 装配机器人 切割机器人 其他机器人
当前位置:

OFweek机器人网

正文

AlphaGo的冷思考:如何看待人工智能的进步?

导读: 自DeepMind 2013年发表关于Atari的重要论文以来,深度强化学习已经被广泛应用于现实世界机器人和人机对话中以完成各类任务。考虑到在算法略微甚至无手工调试的情况下,深度强化学习已经在...

  谷歌DeepMind一个15-20人组成的团队设计的系统AlphaGo在正式围棋比赛中以5:0的成绩击败了曾三次获得欧洲围棋冠军的樊麾。在非正式比赛中樊麾曾以更少的每步用时在5场比赛中获胜2场(新闻报道中常常忽略了这些更多的有趣细节,相关情况也可查看《自然》论文)。AlphaGo程序比以往任何围棋程序更加强大(下面会介绍它到底有多强)。

  怎么办到的?

  相比于其它计算机围棋程序相关团队,AlphaGo由一个相对较大的团队研发发,显然使用了更多的计算资源(详见下文)。该程序使用了一种新颖的方式实现了神经网络和蒙特卡洛树搜索(Monte Carlo tree search,MCTS)的结合,并经过了包含监督学习和自我训练的多个阶段的训练。值得注意的是,从评估它与人工智能进步关系的角度来看,它并没有接受过端到端(end-to-end)的训练(尽管在AAAI 2016上Demis Hassabis表示他们可能会在未来这样做)。另外在MCTS组件中它还使用了一些手工开发的功能(这一点也常常被观察者忽略)。相关论文宣称的贡献是「评估与策略网络(value and policy networks)」的构想和他们整合MCTS的方式。论文中的数据表明,使用这些元素的系统比不使用它们的系统更为强大。

  整体AI性能VS特定算法的进步

  仔细研究《自然》 上关于AlphaGo的论文,可以得到许多观点,其中一个对评估该结果所拥有的更广泛意义尤其重要:硬件在提高AlphaGo性能上的关键作用。参考下面的数据,我将对其进行解释。

 

  该图表显示了计算机Go与樊麾在估测Elo评级和排名方面的些许不同(译者注:Elo评级系统是由美国物理学教授Arpad Elo提出的一种计算二人竞技游戏(如象棋、围棋)中选手相对水平的评级系统)。Elo评级表示了击败评级更高或更低对手的期望概率——比如,一个评分比对手多200分的选手预计获胜的概率为四分之三。现在我们可以通过图表了解一些有趣的信息。忽略粉红色数据条(表示在有额外棋子时的表现),我们可以发现AlphaGo(不管是不是分布式的)都比原来最好的围棋程序Crazy Stone和Zen强出许多。AlphaGo的等级是较低的专业级水平(图表右侧的p表示「专业段位」),而其它程序则处在较高的业余水平上(图表右侧的d表示「业余段位」)。另外,我们可以看到尽管分布式AlphaGo(AlphaGo Distributed)的评估水平略高于樊麾,但非分布式AlphaGo却并非如此(和樊麾比赛的是分布式AlphaGo)。看起来樊麾如果和非分布式AlphaGo对弈,可能他就算不获胜,至少也可以赢几局。

1  2  3  4  5  6  下一页>  
声明: 本文由入驻OFweek公众平台的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

我来说两句

(共0条评论,0人参与)

请输入评论

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

OFweek品牌展厅

365天全天候线上展厅

我要展示 >
  • 机器人
  • 机器视觉
  • 伺服
  • 猎头职位
更多
文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号