谷歌与DeepMind：史上最强AI拉锯战

2019-03-18 08:44

DeepMind控制权之争

Hassabis一直说，DeepMind将使世界变得更好。但AGI存在不确定性。如果它真的出现，我们不知道它是善是恶，也不知道它是否会服从于人类控制。即便它听从人类控制，那这个人类舵手又会是谁呢？

从一开始，Hassabis就试图保护DeepMind的独立性。他一直坚持让DeepMind留在伦敦。Hassabis不愿交出自己一手带大的公司。因此DeepMind制定了一项协议，阻止谷歌单方面控制该公司的知识产权。据知情人士透露，在收购前一年，双方签署了《道德与安全审查协议》。该协议将DeepMind的核心AGI技术的控制权交给了一个名为Ethics Board的委员会。Ethics Board为DeepMind提供了坚实的法律支持，以保持对其最有价值、也可能是最危险的技术的控制。小组成员的名字尚未公布，但据消息人士透露，DeepMind的三位创始人都是Ethics Board成员。

此外DeepMind在市场公关方面表现极好。AlphaGo就是典型的例子。自谷歌被收购以来，DeepMind多次创造了举世瞩目的奇迹。比如，一个软件可以在眼睛扫描中发现黄斑病变。另一个程序使用与AlphaGo类似的架构从无到有地学会了下棋，仅仅花费九个小时。2018年12月，一个名为AlphaFold的程序被证明可以从复合物列表中预测蛋白质的三维结构，其准确率高于同行竞争对手，这有助于治疗帕金森病和阿尔茨海默症等疾病。

谷歌数据中心预计包含250万台服务器，DeepMind开发了一套算法，以优化谷歌数据中心冷却方案，DeepMind深以为傲，因为谷歌因此降低了40%的能源成本。谷歌母公司Alphabet为这类服务付给DeepMind丰厚的报酬。2017年，DeepMind向Alphabet收取了5400万英镑。但与DeepMind的日常管理费用相比，这一数字显得微不足道。那一年仅在DeepMind员工身上就花了2亿英镑。总体而言，公司在2017年支出2.82亿英镑。

谷歌收购DeepMind五年后，控制权之争不可避免。考虑到Hassabis对事业的执着，他不太可能离开公司。他对金钱感兴趣只是因为钱能帮助他完成事业追求。到目前为止，谷歌对DeepMind的干预还不大。但最近发生的一件事却引发了对公司未来独立性的担忧。

2016年2月，DeepMind成立了新医疗保健部门DeepMind Health，由公司联合创始人之一的Mustafa Suleyman领导。公司希望创建Streams项目，当病人的健康状况恶化时，可以向医生发出警告。DeepMind将获得基于绩效的费用。由于这项工作需要获得有关病人的敏感信息，Suleyman建立了一个独立的审查小组（IRP）。

2018年11月8日，谷歌宣布成立自己的医疗保健部门Google Health。五天后，公司宣布将把DeepMind Health并入母公司相关部门。Suleyman曾在2016年写道：“在任何阶段，患者数据都不会与谷歌账户、产品或服务相关联。”但他的承诺似乎已经落空。不过DeepMind还是说：“在这个阶段，我们的合同都没有转到谷歌，只有得到合作伙伴的同意，才会转去谷歌。”合并激怒了DeepMind Health的员工。据消息人士说，一旦合并完成，就会有更多员工计划离职。据多名知情人士透露，有员工于2017年12月辞职，原因是担心合并后该独立审查小组更多的是为了装门面，而不会对病人隐私数据使用情况进行真正的监督。

这一事件表明，DeepMind的非核心业务容易受到谷歌的左右。DeepMind在一份声明中对此次合并给出了正面评价。但是我们不禁要问，谷歌是否会将同样的逻辑应用于DeepMind在AGI方面的工作。

强化学习

总体上来说DeepMind进步明显。它的软件可以模拟甚至超越人类学习执行任务。比如打砖块游戏。没有人类指导，DeepMind的程序不仅学会了玩这个游戏，而且还学会了如何把球打进砖块后面的空间，利用球回弹来打更多的砖块。Hassabis说，这证明了强化学习的力量和DeepMind计算程序的非凡能力。

这个游戏演示令人印象深刻，但有个问题。如果虚拟球拍移动得更高一些，程序就会失败。AI项目所掌握的技能非常有限，即使对环境的微小变化也无法做出反应，除非接受数千轮强化学习。现实世界的变化太多了。对于智能诊断来说，没有两个身体器官是完全相同的。对于智能机械，没有两个引擎可以用相同的方式调整。因此，将虚拟空间中完善的程序投放到现实世界困难重重。

另外一个问题是，虚拟环境中的成功取决于奖励机制：一个允许软件衡量其进程的信号。程序了解到物体从墙上回弹会加分。AlphaGo很多编程工作都是在构建与复杂游戏兼容的奖励函数。不幸的是，现实世界并不提供这种简单的奖励。政治因素使问题更加复杂化。要协调气候健康的奖励信号（单位体积二氧化碳粒子数）与石油公司的奖励信号（股价），牵涉到许多动机矛盾的各方。奖励信号往往非常微弱。而人脑在执行任务的过程中不会去想有没有奖励的问题。

DeepMind通过大量计算机电力找到了解决方法。公司最近专注于策略电脑游戏星际争霸II，游戏早期所做的决定对后来会产生影响，这更接近于现实世界任务所特有的那种复杂而延迟的反馈。今年1月，DeepMind软件击败了一些顶级人类玩家，给人留下了深刻印象。它的程序也已经开始学习经由人类反馈的奖励功能。不过，把人类指令置于计算循环中，比起纯粹的计算机处理，其计算规模和速度都会受到影响。

公司研究人员匿名表示，他们也对DeepMind能否通过这些方法达到AGI表示怀疑，专注于在模拟环境中实现高性能，这使得奖励信号问题很难解决。然而，这种方法又是DeepMind的核心。

Hassabis的人生一直在和游戏打交道。就像公司的软件一样，Hassabis只能从以往的经验中学习。在发明了一些有用的医疗技术，并超越了世界上最伟大的棋类游戏玩家之后，对AGI的追求最终还是可能会失败。公司取得的成绩斐然，却不是Hassabis最终想要的。他仍然可以开创AGI的时代，就在谷歌的眼皮底下，但却超出了它的控制范围。如果这样做，Hassabis将赢得最艰难的比赛。

<上一页 1 2 3