谷歌与DeepMind:史上最强AI拉锯战
DeepMind控制权之争
Hassabis一直说,DeepMind将使世界变得更好。但AGI存在不确定性。如果它真的出现,我们不知道它是善是恶,也不知道它是否会服从于人类控制。即便它听从人类控制,那这个人类舵手又会是谁呢?
从一开始,Hassabis就试图保护DeepMind的独立性。他一直坚持让DeepMind留在伦敦。Hassabis不愿交出自己一手带大的公司。因此DeepMind制定了一项协议,阻止谷歌单方面控制该公司的知识产权。据知情人士透露,在收购前一年,双方签署了《道德与安全审查协议》。该协议将DeepMind的核心AGI技术的控制权交给了一个名为Ethics Board的委员会。Ethics Board为DeepMind提供了坚实的法律支持,以保持对其最有价值、也可能是最危险的技术的控制。小组成员的名字尚未公布,但据消息人士透露,DeepMind的三位创始人都是Ethics Board成员。
此外DeepMind在市场公关方面表现极好。AlphaGo就是典型的例子。自谷歌被收购以来,DeepMind多次创造了举世瞩目的奇迹。比如,一个软件可以在眼睛扫描中发现黄斑病变。另一个程序使用与AlphaGo类似的架构从无到有地学会了下棋,仅仅花费九个小时。2018年12月,一个名为AlphaFold的程序被证明可以从复合物列表中预测蛋白质的三维结构,其准确率高于同行竞争对手,这有助于治疗帕金森病和阿尔茨海默症等疾病。
谷歌数据中心预计包含250万台服务器,DeepMind开发了一套算法,以优化谷歌数据中心冷却方案,DeepMind深以为傲,因为谷歌因此降低了40%的能源成本。谷歌母公司Alphabet为这类服务付给DeepMind丰厚的报酬。2017年,DeepMind向Alphabet收取了5400万英镑。但与DeepMind的日常管理费用相比,这一数字显得微不足道。那一年仅在DeepMind员工身上就花了2亿英镑。总体而言,公司在2017年支出2.82亿英镑。
谷歌收购DeepMind五年后,控制权之争不可避免。考虑到Hassabis对事业的执着,他不太可能离开公司。他对金钱感兴趣只是因为钱能帮助他完成事业追求。到目前为止,谷歌对DeepMind的干预还不大。但最近发生的一件事却引发了对公司未来独立性的担忧。
2016年2月,DeepMind成立了新医疗保健部门DeepMind Health,由公司联合创始人之一的Mustafa Suleyman领导。公司希望创建Streams项目,当病人的健康状况恶化时,可以向医生发出警告。DeepMind将获得基于绩效的费用。由于这项工作需要获得有关病人的敏感信息,Suleyman建立了一个独立的审查小组(IRP)。
2018年11月8日,谷歌宣布成立自己的医疗保健部门Google Health。五天后,公司宣布将把DeepMind Health并入母公司相关部门。Suleyman曾在2016年写道:“在任何阶段,患者数据都不会与谷歌账户、产品或服务相关联。”但他的承诺似乎已经落空。不过DeepMind还是说:“在这个阶段,我们的合同都没有转到谷歌,只有得到合作伙伴的同意,才会转去谷歌。”合并激怒了DeepMind Health的员工。据消息人士说,一旦合并完成,就会有更多员工计划离职。据多名知情人士透露,有员工于2017年12月辞职,原因是担心合并后该独立审查小组更多的是为了装门面,而不会对病人隐私数据使用情况进行真正的监督。
这一事件表明,DeepMind的非核心业务容易受到谷歌的左右。DeepMind在一份声明中对此次合并给出了正面评价。但是我们不禁要问,谷歌是否会将同样的逻辑应用于DeepMind在AGI方面的工作。
强化学习
总体上来说DeepMind进步明显。它的软件可以模拟甚至超越人类学习执行任务。比如打砖块游戏。没有人类指导,DeepMind的程序不仅学会了玩这个游戏,而且还学会了如何把球打进砖块后面的空间,利用球回弹来打更多的砖块。Hassabis说,这证明了强化学习的力量和DeepMind计算程序的非凡能力。
这个游戏演示令人印象深刻,但有个问题。如果虚拟球拍移动得更高一些,程序就会失败。AI项目所掌握的技能非常有限,即使对环境的微小变化也无法做出反应,除非接受数千轮强化学习。现实世界的变化太多了。对于智能诊断来说,没有两个身体器官是完全相同的。对于智能机械,没有两个引擎可以用相同的方式调整。因此,将虚拟空间中完善的程序投放到现实世界困难重重。
另外一个问题是,虚拟环境中的成功取决于奖励机制:一个允许软件衡量其进程的信号。程序了解到物体从墙上回弹会加分。AlphaGo很多编程工作都是在构建与复杂游戏兼容的奖励函数。不幸的是,现实世界并不提供这种简单的奖励。政治因素使问题更加复杂化。要协调气候健康的奖励信号(单位体积二氧化碳粒子数)与石油公司的奖励信号(股价),牵涉到许多动机矛盾的各方。奖励信号往往非常微弱。而人脑在执行任务的过程中不会去想有没有奖励的问题。
DeepMind通过大量计算机电力找到了解决方法。公司最近专注于策略电脑游戏星际争霸II,游戏早期所做的决定对后来会产生影响,这更接近于现实世界任务所特有的那种复杂而延迟的反馈。今年1月,DeepMind软件击败了一些顶级人类玩家,给人留下了深刻印象。它的程序也已经开始学习经由人类反馈的奖励功能。不过,把人类指令置于计算循环中,比起纯粹的计算机处理,其计算规模和速度都会受到影响。
公司研究人员匿名表示,他们也对DeepMind能否通过这些方法达到AGI表示怀疑,专注于在模拟环境中实现高性能,这使得奖励信号问题很难解决。然而,这种方法又是DeepMind的核心。
Hassabis的人生一直在和游戏打交道。就像公司的软件一样,Hassabis只能从以往的经验中学习。在发明了一些有用的医疗技术,并超越了世界上最伟大的棋类游戏玩家之后,对AGI的追求最终还是可能会失败。公司取得的成绩斐然,却不是Hassabis最终想要的。他仍然可以开创AGI的时代,就在谷歌的眼皮底下,但却超出了它的控制范围。如果这样做,Hassabis将赢得最艰难的比赛。
图片新闻
最新活动更多
-
11月30日立即试用>> 【有奖试用】爱德克IDEC-九大王牌安全产品
-
即日-12.26火热报名中>> OFweek2024中国智造CIO在线峰会
-
即日-0120限时下载>>> 爱德克(IDEC)设备及工业现场安全解决方案
-
限时免费下载立即下载 >>> 2024“机器人+”行业应用创新发展蓝皮书
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
-
精彩回顾立即查看>> 【线上&线下同步会议】领英 跃迁向新 年度管理者峰会
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论