侵权投诉
焊接机器人 喷涂机器人 搬运机器人 装配机器人 切割机器人 其它机器人
订阅
纠错
加入自媒体

详解谷歌AI五大定律 AI的开发到底有多少坑?

2016-07-09 09:14
FlappyBird
关注

  负面影响:AI在试图达到目标时可能对环境做出有负面影响的举动。比如它可能会为了更快的打扫地面而径直推翻(而不是绕过去)一个花瓶。

  非法解读:AI可能通过篡改测量值等手段在奖励函数上玩花样。比如扫地机器人可能只是找个东西把脏东西盖起来让自己看不见它,就认为自己已经扫干净了地面。

  监管可扩展性有限:AI系统可能无法对那些在系统中不方便太过频繁的评估的物体做出适当的反应。比如,如果机器人需要从人那里获得训练结果的反馈,那它就需要有有效的利用这条反馈的能力(而不能像普通的训练那样不停的核对训练结果),因为不停的问一个人问题是很烦人的。但目前这点很难做到。

  环境探索安全性:AI系统评估环境的时候可能会造成太过负面的影响。比如,一个扫地机器人可能会需要进行建立拖地策略的实验来作为以后工作的依据。但是很显然它无论怎么实验无论如何也不应该尝试把湿拖把插进插座中。

  分配转变的鲁棒性不足:AI系统处在与其训练环境完全不同的环境时认知和行为可能不稳定。比如,启发式算法让机器在在工厂中学到的行为可能在一个办公室中就会显得不那么安全。

  仔细看完这些条件会让人感慨现在AI的愚蠢却又诧异它那诡异的“智慧”。或许构建一个AI系统是世界上对逻辑性要求最严密的职业了,因为正是逻辑造就了AI,在它们的世界里现在还不存在感情之类的约束。如果你要求AI去完成一件事,那AI毫无疑问的会在它的逻辑框架下想尽一切办法去完成,哪怕因此必须要完成一些在人类看来是“作弊”或者“得不偿失”的动作。

  因此整篇论文的关键点就围绕在奖励条件的建立和维护上进行。正如之前所说,论文中并没有涉及过多的具体方法和公式,而倾向于提供思路,一部分原因应该是RL的研究实际上还不足以支撑在这些措施的太过具体的实现,不过在某种程度上应该也是因为谷歌不希望太具体的方法限制了算法开发者们的发挥。

  防范的思路

  对应这五点可能的错误,谷歌在论文中零零总总列出了大概十条防范措施的思路,不过总结起来,大致就是从三个RL设计的三个最基本的方面来考虑的:

  对于奖励条件本身的优化:

  人类的行动都是基于常识和道德来考虑的,因此,为机器也加上一个类似的价值观系统是一个比较合理的考虑方向,谷歌在论文里提出:指派RL算法完成任务的时候,人们最倾向的希望其实是该机器人不要给环境造成任何影响——不要破坏环境中已有的物品,不要打翻花瓶,不要……。但是如果只是简单粗暴的给所有对环境的改变都加上负奖励,那很可能会导致代理最终决定不再做任何事,因为一旦代理开始行动,或多或少都会给环境带来改变。

  谷歌对此提出了几种思路,包括推测一个代理用正确的方式完成任务后环境的状态,然后用这个状态作为奖励、对代理进入完成任务时不希望其进入的区域的行为作出惩罚,以及让代理能够理解它的行为对其他代理个体(包括人)带来的影响,但谷歌在论文里也指出,目前并没有足够强大的能支持这种理解的模型出现。

<上一页  1  2  3  下一页>  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号