人工智能靠什么更快更强？答案是好奇心

2018-11-07 10:04

另一个实验是“Noisy TV problem”，实验中已被编程为寻找新体验的AI agent沉迷于随机模式，例如调谐至静态噪音的电视。这是因为agent对“有趣”和“新”的感觉来源于他们预测未来的能力。在采取某种行动之前，他们会预测游戏之后的情况。如果他们猜对了，很可能是他们之前已经看过这个关卡了。这种机制被称为“预测错误”。

但因为静态噪声是不可预测的，实验中AI agent被放入迷宫中，任务是找到奖励最高的物体。环境中还有一台电视，电视上的频道可由遥控器随机转换，因为每次换台的结果是不可预测的、令人惊讶的，面对这样电视（或类似不可预测的刺激），AI agent变得十分迷惑。OpenAI将这个问题与沉迷于老虎机的人类赌徒进行了比较，人们不知道接下来会发生什么，所以不舍得就此离开。

OpenAI的这项新研究通过改变AI预测未来的方式巧妙地回避了这个问题。准确的方法（称为Random Network Distillation）十分复杂，Edwards和他的同事Yuri Burda将其解释为在游戏的每个界面中设置一些隐藏信息，等着人工智能去挖掘。这个隐藏任务是随机的，无多大意义（Edwards建议道，比方说“屏幕左上角的颜色是什么？”），但可以激励agent继续探索游戏，而不会让它过分容易地受到噪音电视陷阱的影响。

值得注意的是，这个激励因素并不需要大量的计算，这点非常重要。强化学习的方法依赖大量数据来训练AI agent，所以训练中的每一步都需要尽可能快速的完成。

来自Unity的软件工程师Arthur Juliani，同时还是一位机器学习方面的专家，他表示，这正是OpenAI研究工作的亮点所在。Juliani告诉The Verge：“OpenAI使用的方法非常简单，却非常有效。纵观过去应用于游戏的探索方法，复杂有余，且基本上没有给科技圈带来多少印象深刻的结果，相比起来，OpenAI的方法就简单得多了。”

Juliani表示，鉴于Montezuma’s Revenge不同关卡之间的相似性，OpenAI目前完成的工作基本上等同于攻克整个游戏了。但他补充道：“事实上，他们无法确保每次都能闯过第一关，这意味着仍然存在一些挑战。”Juliani还想知道OpenAI的方法是否适用于3D游戏，3D游戏的难度相较其他可能更大，视觉特征更加微妙，且游戏中第一人称视角遮挡了大部分界面。

“3D游戏里，在需要探索的情景中，环境各部分之间的差异更为微妙，这种方法的实际表现可能不会太好，”Juliani说到。

好奇心

但是为什么我们首先需要具备好奇心的AI呢？具备好奇心的AI跟人类一样，很容易沉迷于随机模式。

最大的原因是好奇心有助于计算机进行自我学习。

如今被广泛采用的机器学习方法大致可分为两个阵营：第一种，机器通过浏览大量数据来学习，并计算出可以应用于类似问题的模式；第二种，机器被投入环境中，利用强化学习方法获得某些成就，从而获得奖励，也就是用奖励刺激的形式促使机器学习。

这两种方法在特定任务中都是有效的，但并非完全依靠机器自身进行，无论是标记培训数据还是为虚拟环境设计奖励功能，都离不开大量的人工。通过为人工智能系统提供探索的内在诱因，一些工作被消除，人类无需像从前一样花费过多精力在机器学习上，在诱因的刺激下，机器能够自主学习。

OpenAI的Edwards和Burda表示，这种好奇心驱使的学习系统比起设计开发在现实世界中运行的计算机程序要好得多。毕竟，跟Montezuma’s Revenge一样，实际生活中，即时奖励往往很少，我们都需要长时间工作、学习和探索才能得到回报。好奇心能帮助我们继续前进，或许也可以帮助计算机。

<上一页 1 2