从神经网络到天体物理，还有什么是AI做不到的？

2019-03-20 08:46

如今，物理学、天文学实验所产生的海量信息是人类团队难以企及的。一些实验每天记录万亿字节的数据，并且不断累积增加。世界最大的射电望远镜项目Square Kilmeter Array预计在2020年开启，它每年产生的数据量将相当于整个互联网的总量。

爆发式的数据让科学家不得不求助AI。在人类输入最少的情况下，AI系统（比如人工神经网络，模仿大脑功能的计算机模拟神经元网络）可以挖掘海量数据、突出异常现象，并检测出人力永远无法发现的东西。

计算机应用于科学研究已经有75年历史，人类对自然数据的观察研究更是伴随着人类的发展史。但是，随着机器学习和AI的发展，科学研究的方法已经发生彻底的革新。其中一种方法称为生成模型（Generative Modeling），对于观测数据的不同解释，它可以仅仅基于数据就辨别出最可信的理论。更重要的是，它不需要关于物理过程的预编程知识。生成模型的支持者认为它非常新颖，可以被视作研究宇宙的“第三类方式”。

传统上，人类通过观察来了解自然。想想十六世纪天文学家约翰尼斯·开普勒正在仔细研究另一位同时期天文学家第谷·布拉赫的行星位置图，开普勒最终推断出行星在椭圆轨道上运动。科学通过模拟而进步。天文学家模拟银河系及其邻近星系仙女座的运动，并预测它们将在几十亿年后发生碰撞。观察和模拟都有助于科学家产生假说，再通过进一步的观察来验证这些假说。但是，生成模型既不是观察也不是模拟。

天体物理学家Kevin Schawinski（供职于苏黎世联邦理工学院）是生成模型的积极倡导者，他说：“这是介于观察和模拟之间的第三类方法，是解决问题的另一种方式。”

虽然一些科学家仍然把生成模型和其它新技术简单地看作是传统科学的补充工具。但大多数人都同意AI正在产生巨大的影响，它在科学研究中的作用必然会越来越大。费米实验室的天体物理学家Brian Nord使用人工神经网络研究宇宙，他担心人类科学家所做的任何事情都可能实现计算机自动化——这有点让人不寒而栗。

生成模型带来的发现

研究生时代，Schawinski就因数据驱动领域的成就而闻名。攻读博士期间，他需要根据星系的外观对它们进行分类。由于没有现成的软件可用，所以Galaxy Zoo众包科学项目诞生了。从2007年开始，普通计算机用户通过猜测记录星系分类来帮助天文学家，服从多数原则一般可以得出正确的分类结果。这个项目无疑是成功的，只不过今时今日的AI技术使它显得过时了。现在，一个有机器学习和云计算背景的优秀科学家可以在一个下午就完成以上任务。

Schawinski在2016年转向强大的生成模型工具。本质上，在给定条件X的情况下，生成模型会询问观察到结果Y的可能性有多大。这种方法已被证明是非常有效且具有通用性。举个例子，假设你提供一组人脸图像给生成模型，并逐一标注年龄。当计算机程序梳理这些训练数据时，会把年长者面部和皱纹增加联系起来。最终，计算机可以根据面部判断年龄，也就是说，它可以通过给定的面部预测其经历的物理变化。

这些人脸都不是真的。A 行和B 列的人脸都是由GAN使用真实面部搭建元素来构建的。然后，GAN结合A行脸部的基本特征（包括性别、年龄、脸形）和B列更精细的脸部特征（例如发色、眼睛颜色），创造出上图中其它的人脸图像。

最著名的生成模型系统是“生成式对抗网络（GAN）”。在充分地暴露于训练数据之后，GAN可以修复已损坏或丢失像素的图像，它也可以使模糊的照片变得清晰。GAN通过博弈（术语称作“对抗”）来学习推断丢失的信息：网络的一部分（称为生成器）生成伪数据，而第二部分（判别器）试图对真伪数据进行区分。随着程序的运行，两个部分都逐渐演化提升。对于最近出现的一些超现实的、GAN制作的“人脸”，有文章评价道：这些计算机创造的诡异假脸跟真人没有分别。

1 2 3 下一页>