侵权投诉
焊接机器人 喷涂机器人 搬运机器人 装配机器人 切割机器人 其它机器人
订阅
纠错
加入自媒体

王小川点评人机大战:AlphaGo2.0将重演一部进化史

2017-05-24 08:47
Minor昔年
关注

2017年5月23日,第二次“人机大战”火热开赛。去年曾大比分击败韩国选手李世乭的AlphaGo,再度与柯洁等为代表的中国顶尖棋手进行对弈。比赛采用中国规则,三番棋,无论输赢,每方3小时,5次1分钟读秒。因为此前对战李世乭时AlphaGo表现出了超强实力,几乎以“碾压人类”的方式取胜,所以对于第二次人机大战,众多业内人士觉得人类希望不大。

去年第一次人机大战之前,搜狗CEO王小川曾在知乎发表评论,明确表示AlphaGo将完胜李世乭。而对于这次比赛,他再次在知乎表达了自己的态度:“我们的关注点不再是机器是否会赢——而是机器将用什么姿势战胜人类。”

王小川说,AlphaGo2.0和1.0技术原理有着巨大不同,更接近于人,因此这次比赛的最大看点是,AlphaGo2.0或许会频现“怪招”,完全颠覆人类对围棋的理解。AlphaGo告诉我们:我们还有极大的发展空间;而AlphaGo2.0告诉我们:如果有合适的条件,完全可能有其他的生命进化路径,以及更不一样的进化结果,相当于重演一部进化史。

以下为王小川知乎全文:

该来的终于来了。

一年前AlphaGo发布,看完论文后我就在知乎上发文预测机器会完胜人类。好些行业朋友不相信,为此我收了很多“智商税”,之后微信发红包一直发到春节才发完。此外我还立了两个断言:一个是Google很有可能再研发出AlphaGo 2.0,摆脱“监督学习”,不再需要人类下围棋的历史数据,而是只通过“增强学习”,两台AlphaGo自我对战学习如何下棋,并达到登峰造极的地步。从公开的资料判断,此言中了。这意味着什么呢,又有什么看点呢?

技术重大提升:和1.0原理大不同 更接近于人

AlphaGo 1.0 是巧妙地混合了三种算法:蒙特卡洛树搜索+监督学习+增强学习。其中蒙特卡洛树搜索是一种优化过的暴力计算,比1997年深蓝的暴力计算更聪明。而这里的监督学习,是通过学习3000万步人类棋谱,对六段以上职业棋手走棋规律进行模仿,也是AlphaGo获得突破性进展的关键算法。而增强学习作为辅助,是两台AlphaGo从自我对战众中学习如何下棋,据悉对棋力提升有限。

根据公开资料推测,此次AlphaGo2.0的技术原理与之前有着巨大不同:

1. 放弃了监督学习,没有再用人的3000万局棋谱进行训练。这本是AlphaGo最亮眼的算法,也是今天主流机器学习不可避免的核心条件:依赖于优质的数据,在这个特定问题下就这么被再次突破了。

2. 放弃了蒙特卡洛树搜索,不再进行暴力计算。理论上,算法越笨,就越需要暴力计算做补充。算法越聪明,就可以大大减少暴力计算。从AlphaGo 2.0的“马甲”Master的历史行为看,走棋非常迅速,约在每10秒钟就走棋一步,如此速度很可能是放弃了暴力的计算。

3. 极大地强化了增强学习的作用,之前敲边鼓的算法,正式成为扛把子主力。想想看有多励志:两台白痴机器,遵守走棋和获胜规则,从随机走棋开始日夜切磋,总结经验,不断批评和自我批评,一周后终成大器。

在这样的算法下,AlphaGo 2.0对计算资源开销极小,把当前棋局输入神经网络,电流流过,输出就是最佳的走棋方案。我猜测如此算法下,有可能仅仅依靠一个GPU工作,每一步棋消耗的能源接近人的大脑。

1  2  下一页>  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号