谷歌首席架构师Jeff Dean：2018谷歌AI重大突破

2019-01-18 09:21

TPU

张量处理单元（简称 TPU）是谷歌公司内部开发的一种 ML 硬件加速器，其自设计之初就专门用于执行大规模训练与推理任务。TPU 帮助谷歌公司实现了研究层面的一系列突破，包括之前已经讨论过的 BERT。

此外，其还使得世界各地的研究人员能够以开源方式享受谷歌研究带来的成果，并以此为基础寻求新的突破。例如，任何人都可以免费通过 Colab 对运行在 TPU 之上的 BERT 进行微调，而 TensorFlow Research Cloud 则让成千上万研究人员有机会在规模更为可观的免费云 TPU 计算能力当中受益。

我们还对 TPU 硬件进行了多次迭代，并将其以云 TPU 的形式推向商用——其中包括 Cloud TPU Pod 机器学习超级计算机，旨在显著降低大规模 ML 训练的难度。着眼于谷歌内部，除了在机器学习研究领域实现更快进步之外，TPU 还给谷歌公司的一系列核心产品带来重大改进，包括搜索引擎、YouTube、Gmail、谷歌智能助手以及谷歌翻译等等。我们期待看到谷歌以及来自其它方面的机器学习团队，能够利用 TPU 提供的前所未有的计算规模在机器学习领域带来更多斩获。

图左为单个 TPU v3 设备，图右则为 TPU v3 Pod 的一部分。TPU v3 是谷歌公司最新一代张量处理单元（简称 TPU）硬件。这些系统以 Cloud TPU v3 的形式供外部客户使用，并采用水冷机制以带来最佳性能（计算机芯片加水冷系统，永远令人兴奋！）。完整的 TPU v3 Pod 能够为全球各大核心机器学习难题带来超过 100 千万亿次的计算能力。

开源软件与数据集

在与研究以及软件工程社区开展协作的过程当中，发布开源软件与建立新的公共数据集一直是我们两大最主要的贡献方式。我们在这一领域中最为显著的成果之一正是 TensorFlow，这是我们于 2015 年 11 月发布、目前得到广泛流行的机器学习计算系统。我们在 2018 年庆祝了 TensorFlow 项目的三周岁生日，在此期间其被下载超过 3000 万次，并有超过 1700 名贡献者为其带来 4 万 5 千多次 commit。

回顾 2018 年，TensorFlow 先后迎来八个主要版本，同时增加了多项重要功能——例如急切执行以及分发策略等。我们在开发过程当中还启动了社区公众设计评审机制，并以特殊兴趣小组的形式吸纳更多贡献者。随着 TensorFlow Lite、TensorFlow.js 以及 TensorFlow Probability 等相关产品的推出，整体 TensorFlow 生态系统都在 2018 年得到大幅成长。

我们很高兴地看到，TensorFlow 在全部顶级机器学习与深度学习框架当中，拥有着最强大的 Github 用户保留率与吸引力。TensorFlow 团队还致力于快速解决 Github 问题，并为外部贡献者提供顺畅的参与途径。根据 Google Scholar 统计的数据，在研究过程当中，我们不断在已发表论文的基础之上为全世界大部分机器学习与深度学习研究提供支持。

TensorFlow Lite 在面世的短短一年之后，目前已经被安装在全球超过 15 亿台设备上。此外，TensorFlow.js 则成为 JavaScript 中的头号机器学习框架；其推出刚刚 9 个月，就在内容交付网络（简称 CSN）上得到 200 多万次点击与 25 万次下载，并在 Github 上获得超过 1 万颗星。

除了继续开发现有开源生态系统之外，我们在 2018 年还引入了一套新的框架，用于实现灵活且可重复的强化学习能力、建立新的可视化工具、快速了解数据集中存在的种种特征（而无需编写任何代码）、新增一套用于表达排名学习问题的高级库（这类问题旨在以最符合列表效能需求的方式对其中的条目进行排序，这种能力对于搜索引擎、推荐系统、机器翻译以及对话系统乃至计算生物学等领域都有着重要意义）、发布了一套快速灵活且具有学习保证的 AutoML 解决方案框架、利用 TensorFlow.js 构建一套浏览器内置实时 t-SNE 可视化库，同时添加了能够与电子医疗数据对接的 FHIR 工具与软件（在本文的医疗保健部分做出详尽说明）。

tSNE 嵌入在完整 MNIST 数据集内的实时演进。该数据集包含 6 万幅手写数字图像。

公共数据集通常能够成为激发灵感的重要基础，并凭借着为更广泛的社区带来大量有趣数据及问题的方式，帮助来自多个领域的研究人员取得巨大进步。此外，公共数据集还能够激发人们在不同任务当中获得更佳成绩的热情，从而保证相关社区拥有健康的竞争态势。

2018 年，我们很高兴地发布了 Google Dataset Search，这是一款从全部网络当中查找公共数据集的新工具。多年以来，我们一直在策划及发布各类具有创新性的数据集，包括大量注释图像或视频、用于语音识别的孟加拉地区人群数据集，乃至机械手臂抓取数据集等等。2018 年，我们继续向这一重要储备添加更多数据集资源。

我们还发布了 Open Images V4，这套数据集包含 1540 万个边框（对应 190 万张图片上的 600 种对象类别）以及 3010 万个归属于 19794 种类别的人工验证图像级标签。此外，我们通过使用 crowdsource.google.com 从世界各地的数万名用户处获得了 550 万条注释，希望向其中引入来自世界各地的更多人群与场景，从而扩展这套数据集的规模水平。

我们也发布了 Atomic Visual Actions（简称 AVA）数据集，其负责为视频内容提供视听注释，从而改善对人类行为的理解以及对视频语音的处理能力。我们还更新了 YouTube-8M，并举办第二届 YouTube-8M 大规模视频理解挑战赛与研讨会。我们的 HDR+ Burst Photography 数据集主要用于实现计算摄影领域的各项研究，而 Google-Landmarks 则是另一套新型数据集，用于解决地标识别方面的种种挑战。

在具体数据集之外，我们还在 Fluid Annotation 项目中进行了一系列探索，相关技术成果能够加快数据集的创建与可视化速度。Fluid Annotation 是一种探索性机器学习驱动接口，能够更快地对图像内容进行注释。

我们还不时帮助研究界发现新的挑战方向，从而确保双方共同努力以解决棘手的研究问题。这方面工作通常是通过发布新型数据集实现的，但也存在不少例外。今年，我们围绕包容性图像难题组织了新的挑战赛，致力于开发出更强大的模型以避免各类偏见问题。iNaturalist 2018 挑战赛旨在使计算机能够更细致地区分视觉对象的类别（例如图片当中特定植物的种类）。Kaggle “Quick，Draw！”涂鸦识别挑战赛希望建立起更出色的涂鸦内容分类器。而 Conceptual Captions 作为一套大规模图像捕捉数据集也有了自己的挑战赛，旨在进一步推动图像字幕模型的研究工作。

<上一页 1 2 3 4 下一页> 余下全文