JeffDean的年终报告细数谷歌AI的重大突破

2020-01-14 00:30:00 阅读：270 作者：责任编辑NO。郑子龙0371

作者 | Jeff Dean

译者 | 核子可乐、李冬梅、钰莹

策划 | Tina

对于谷歌的研究团队来说，2019 年是令人兴奋的一年。Google Research 通过多种方式推动技术研究工作，包括基础计算机科学研究成果和出版物，以及多项研究被应用在谷歌的新兴领域（如医疗保健和机器人）、开源软件贡献，以及与谷歌产品团队的密切合作，所有这些都旨在提供有用的工具和服务。接下来，我们将重点介绍谷歌研究院在 2019 年所做的一些工作。（文章配图及链接较多，建议查看原文，便于理解）

谷歌研究院的使命在于解决各类长期存在且意义重大的难题，借此为人们的日常生活带来巨大助益与便利。2019 年，为了继续实现这一目标，我们在广泛的基础研究领域取得了多项进展，包括着手将研究成果应用于医疗保健与机器人等新兴领域、开源大量代码，并继续与谷歌产品团队合作，共同打造用户喜闻乐见的各类工具与服务。

2020 年已经到来，我想我们有必要对过去一年中做出的研究加以回顾，并展望未来几年内需要进一步解决的问题。本着这种思路，我们大家都希望通过本文对谷歌研究人员以及工程师们在 2019 年期间做出的重点研究工作进行一番梳理。

合乎道德的 AI 技术使用方式

2018 年，我们发布了一组 AI 原则，旨在建立一整套用于对产品内机器学习等技术进行评估的框架。2019 年 6 月，我们发布了另一项重要更新，希望说明如何在研究与产品的开发生命周期之内将这些原则付诸实践。由于该原则涉及 AI 与机器学习研究社区当中更为广泛的多个活跃领域（例如机器学习系统中的偏见、安全性、公平性、问责制、透明度以及隐私性等），因此我们大家都希望能够利用各个领域中最先进的技术，同时结合我们的研究成果以显著推动与之相关的技术创新。

例如，这一年中，我们：

发布了一篇关于透明性工具的研究论文，这款工具负责为我们的多种云 AI 产品提供 Model Cards。我们还在文中展示了一种面向云 AI 视觉 API 对象检测功能的 Model Card 示例。

相关链接：https://research.google/pubs/pub48120/

展示了 Activation Atlasses 如何帮助探索神经网络行为，并提升机器学习模型的可解释性。

发布了 TensorFlow Pirvacy，这是一套开源代码库，用于在机器学习模型训练当中引入差异性隐私保障机制。

公布公平性指标 Fairness Indicators 的 beta 版，希望帮助机器学习从业者们发现机器学习模型当中存在的不公平或者意外影响因素。

在 Fairness Indicators 当中点击对应柱形部分，即可在 What-If Tool 中查看该部分的全部相关数据点。在上图的示例中，为显示所有带有“female”标签的数据点。

在 KDD’19 上，发表关于如何将成对比较与正则化合并至大规模生产推荐系统当中，从而提高机器学习公平性的论文。

在 AIES’19 上发表一篇论文，主要探讨如何在机器学习研究中保障生产分类系统的公平性，同时描述了我们所采用的公平性指标——即条件平等，主要强调机会均等前提下的分布差异。

在 AIES’19 上发表论文，探讨如何在文本分类中保证与事实相左的公平性。论文提出这样一个问题：“如果示例中引用的敏感属性发生明显的变化，那么预测结果会受到怎样的影响？”以此为基础，我们大家都希望改进在线不良内容审核的生产系统。

发布新的数据集，用于帮助识别 deepfakes 伪造内容。

AI 技术的社会福祉

机器学习在解决各类重要社会问题方面具有巨大的潜力。我们也一直在这个领域展开探索，致力于帮助人们利用机器学习的创造力与技术成果解决更多问题。洪水是地球上最常见也最致命的自然灾害，每年影响约 2.5 亿人口。我们一直在利用机器学习、计算以及质量更高的数据源做出更准确的洪水预报，而后将可行的警报发送至受灾地区全体居民的手机端。我们还召开了一个研讨会，邀请众多在洪水预报、水文学以及机器学习等方面掌握专业相关知识的研究人员汇聚在一起，与谷歌共同讨论在洪水预防与治理这个重要问题上的进一步合作可能。

除了洪水预报工作之外，我们还一直在开发技术以更好地了解世界上的各类野生动植物。我们目前与七个野生动植物保护组织开展合作，利用机器学习技术帮助分析摄像机拍下的野生动植物数据；与美国国家海洋大气局合作，帮助他们从视频中发现不同的鲸鱼种类以及录制到的水下声音。我们还创建并发布了一整套工具，以机器学习为基础实现更多新型生物多样性研究。

作为第六届精细视觉分类研讨会上的一部分，来自加纳阿克拉的谷歌研究人员与马凯雷雷大学 AI 及数据科学研究小组的成员们开展合作，共同发起了一场关于木薯类植物病变分类的 Kaggle 竞赛。木薯是非洲第二大碳水化合物来源，因此此类植物的健康事关非洲的食品安全。我们很高兴看到来自 87 支队伍的超过 100 名参赛者加入这场竞逐。

2019 年，我们还更新了谷歌地球 Timelapse，让人们能够更高效且直观以观察地球在过去 35 年中的变化情况。此外，我们还一直与学术研究人员合作，希望利用新的隐私保护方法整理关于人类流动性的数据，进而为城市规划者提供降低碳排放水平、提高环境利用效率的参考性信息。

我们还利用机器学习强化儿童教育。联合国认为，目前全球仍有 6.17 亿儿童没有基本的识字能力，而这将直接决定其未来的生活品质。为了帮助更多孩子学会阅读，我们的 Bolo 应用采用语音识别技术，可实时为学生提供指导。为了降低使用门槛，我们对应用进行了优化，确保其能够在低端手机上以离线方式运行。在印度，Bolo 已经帮助 80 万儿童阅读故事并跟读 10 亿个单词。早期结果令人鼓舞：在印度 200 个村庄进行为期 3 个月的试点之后，参与者中阅读能力提高的比例达到 64%。

对于年龄较大的学生，Socratic 应用程序能够在一定程度上帮助高中生们解决数学、物理以及 1000 多个与学科教育相关的复杂问题。这款应用可根据照片与口头提问自动识别出题目中涉及的基本概念，并链接至最合适的在线资源。与苏格拉底的教育模式类似，Socratic 应用不会直接回答问题，而是引导学生自主发现答案。我们很高兴可以通过 Bolo 与 Socratic 等方案，推动全球范围内的教育质量提升。

此外，我们决定由 Google.org 向优胜方提供 2500 万美元赠款。社会反响巨大，我们收到来自 119 个国家的 2600 多份经过认真规划的提案。最终，20 个组织凭借其解决重大社会与环境问题的潜力脱颖而出，成为我们的第一批受赠者。下面一起了解他们带来的卓越方案：

无国界医生基金会（MSF）希望开发一款免费的智能手机应用，利用图像识别工具帮助资源分管地区的临床工作人员（目前在约旦地区进行试验）分析抗微生物图像，并在适当时提出抗生素使用建议以解决特定患者的感染问题。

目前，仍有超过 10 亿人口以散户形式从事农业劳作。一场虫害侵袭就会毁掉全部农作物乃至他们的生计。Wadhwani AI 利用图像分类模型对害虫进行识别，进而提出与农药选择以及喷洒时机相关的建议，最终帮助农户提高作物产量。

在热带雨林深处，非法砍伐一直是影响气候变化的主要的因素。Rainforest Connection 利用深度学习进行生物声音监测，同时支持利用淘汰掉的陈旧手机跟踪热带雨林健康状况并检测出威胁活动。

AI 技术在其他领域的应用，同样是我们高度关注的重点方向。我们已通过多方协作发表了大量论文，2019 年的重要成果包括：

在《对苍蝇大脑进行交互式自动 3D 重建》论文中，我们开发出一套机器学习模型，并通过其中的各个神经元映射并跟踪苍蝇大脑的完整结构。

论文地址：https://ai.googleblog.com/2019/08/an-interactive-automated-3d.html

在《探索更好的偏微分方程（PDE）的模拟方法》中，我们展示了如何利用机器学习加速 PDE 计算，从而为气候科学、流体力学、电磁学、热传导以及多种其他一般性基础计算问题带来效率提升。

论文地址：https://ai.googleblog.com/2019/07/learning-better-simulation-methods-for.html

我们通过《嗅觉学习：利用深度学习预测分子的气味特性》对自然界中的气味因素进行了探究。我们展示了如何利用图神经网络（GNN）直接预测单一分子的气味描述符，全程无需引入任何人为规则。

论文地址：https://ai.googleblog.com/2019/10/learning-to-smell-using-deep-learning.html

能够将化学与强化学习技术相结合，我们提出了一套分子优化框架。

机器学习还可以帮助我们在艺术与创作领域取得突破。艺术家们发现将 AI 与 AR 相结合以创造出新型作品形式的方法，包括机器舞蹈、舞蹈编排、利用机器学习工具创作新的旋律等。如今，即使新手也能轻松使用机器学习技术。为了纪念 J.S. 巴赫，我们开发出一款由机器学习技术上的支持的即兴乐谱生成工具：只要创作出旋律，该工具就能够按照巴赫的风格制作相匹配的和声。

辅助技术

机器学习能够为我们的日常生活提供更为个性化的辅助。观看美丽的图像、聆听喜爱的歌曲或者与亲朋好友交谈，都是我们生活中必不可少的组成部分。但是，要将十几亿人联系起来，单凭这种直观对接显然无法实现。机器学习技术能够将这些视觉、听觉以及语音信号转换为其他信号，并在统一的管理之下改善人们对于周遭环境的访问能力。我们在这一年中推出的辅助技术包括：

Lookout，帮助失明或者视力低下的用户识别周围信息。其采用与 Google Lens 类似的基础技术，允许我们将手机指向四周以搜索目标物体并与之互动。

Live Transcribe，有望帮助聋哑或者听力障碍人士在日常交流中更加独立便捷。即使对方使用的是他国语言，用户也可以即时将内容转录并翻译为易于理解的形式。

Project Euphonia，负责进行个性化语音到文本转录。对于患有 ALS 以及其他可能会引起器具不清或发音不准问题的用户，这项研究提供的自动语音识别（ASR）模型的实际效果上远超以及同类方案。

与 Project Euphonia 类似， Parrotron 利用端到端神经网络帮助用户改善交流，但主要针对语音到语音自动转换（而非转录）。Parrotron 提供语音接口，方便更多用户轻松使用。

目前，互联网上存在数百万张未加文字说明的图像。谷歌提供的图像描述能够在一定程度上帮助盲人或者弱视用户理解这些无标记图像。当屏幕阅读器发现没有配套描述的图像或者图形时，Chrome 浏览器现在可以自动创建相关说明。

我们开发出 Les for Google Go，这是一款以音频形式读取可视文本的工具，可以帮助那些识字不多的用户较为顺畅地理解文本所表达的内容。

让手机更智能

我们的大部分工作，在于通过机器学习技术为手机提供更多新功能，真正让个人设备实现智能化提升。通过开发出可在手机上运行的强大模型，我们得以保证各类常规手机功能拥有更强的响应能力，甚至可在飞行模式或者断风情况下正常使用。目前，我们已开发出能够运行在手机上的准确语音识别模型、视觉模型以及手写识别模型，这也为后续更多强大新功能的出现铺平了道路。2019 年，我们实现的重要成果包括：

利用 Live Caption 实现手机自动字幕生成功能，可始终为设备上播放的全部视频提供转录字幕。

开发出功能强大的 Recorder 新型转录应用，可帮助用户索引音频信息并直接检索音频内容。

改进谷歌翻译中的拍照翻译功能，我们大家可以指向文本当中看不懂的特定部分，系统会结合上下文立即进行翻译。

发布 ARCore 中的 Augmented Faces API，让更多新的实时 AR 自表示工具成为可能。

演示了设备上的实时手部跟踪功能，为用户更好的提供手势交互以及设备控制的全新方式。

改进基于 RNN 的屏幕软键盘手写识别效果。

发布一种利用智能手机摄像头实现的全球导航方法，可帮助用户更准确地定位当前所在位置，让我们轻松找到前往目的地的道路。

联合学习是谷歌研究人员在 2015 年发明的一种强大机器学习方法。在它的帮助下，众多客户（例如个人用户乃至企业整体）可以协同训练模型，同时保持训练数据的分散性。如此一来，我们就能在大规模学习系统中有效保护隐私属性。如今，我们正慢慢的变多地在自有产品及功能当中使用联合学习，同时也在努力推动这一领域中众多研究工作的发展。2019 年，谷歌研究人员与来自 24 个学术机构的学者们合作，共同撰写了一篇关于联合学习的论文，重点介绍了过去几年中这项技术的进展以及当前仍然存在的开放性研究问题。

相关链接：https://arxiv.org/abs/1912.04977

过去几年，计算影像的进步使得智能手机的图像质量取得了巨大进步，2019 年当然也不例外。这一年中，我们让自拍效果更上一层楼，提供专业级别的景深图像处理功能，同时也在 Pixel Phone 上通过 Night Sight 功能让拍摄天文照片成为可能。关于这方面工作的更多技术细节，请参阅我们的《在极弱光条件下进行多帧超分辨率及移动摄影》的论文。我们的工作只有一个目的——帮助大家拍下漂亮的照片，纪念生活中的每一个神奇瞬间。

健康

2018 年末，我们将谷歌研究院健康团队、Deepmind Health 以及谷歌硬件部门的一支队伍（专注于与健康相关的应用）合并起来，组成了 Google Health。2019 年，我们继续推进这一领域中的研究，与多家医疗合作伙伴发表了研究论文并开发出多款工具。下面来看过去一年中的相关亮点：

我们发现，利用深度学习模型分析乳房 X 光片，可以帮助医生发现乳腺癌病变。在美国，有八分之一的女性或早或晚将受到这种疾病的影响，而深度学习模型的诊断准确性高于人类专家，且误报与漏报比例更低。无论是在对美国某地患者的检测，还是对英国医院提供的脱敏数据做多元化的分析，这套模型都带来了类似的准确率改善。

通过机器学习正确识别出人类难以发现的癌症病例

我们证明，利用深度学习模型进行皮肤疾病诊断，其准确率要高于初级医师，甚至相当或者略好于皮肤病理学家。

通过 Google Health、DeepMind Health 以及美国退伍军人事务部（VA）专家的联手合作，机器学习模型被证明在预测急性肾操作（AKI）疾病的发作方面表现突出。提前两天发现问题，能够有效避免患者因此遭受的折磨。未来，医生有望提前 48 小时着手处理这类严重疾病。

我们与多家合作伙伴组织将深度学习技术引入电子健康记录系统。

我们在预测肺癌方面获得了可喜的进步。在这项早期研究中，我们尝试利用一种深度学习模型检查单项 CT 扫描结果，其诊断能力与放射科医师基本相当，有时甚至更高。事实证明，早期发现肺癌能够大幅度的提升患者的生存几率。

我们与 Verily 以及来自印度及泰国的医疗合作伙伴联手，继续扩大部署并评估我们用于检测及预防眼科疾病的机器学习工具。

我们发表了一篇关于利用增强现实显微镜诊断癌症的研究论文，病理学家能够在通过该显微镜检查组织的同时，获取载玻片上其他重要信息的实时反馈。

我们为病理学家构建起以人为本的相似图像搜索工具，允许他们通过检查类似病例以做出更加高效的诊断。

量子计算

2019 年，我们的量子计算团队首次实现了“量子霸权”，即量子计算机在执行某项任务时，表现出远超世界上最强经典计算机的执行速度。二者的成绩对比为 1 万年对 200 秒。

左图：艺术家描绘的低温恒温器内 Sycamore 处理器。右图：Sycamore 处理器实拍照。

量子计算机在材料科学、量子化学以及大规模优化等领域中将发挥及其重要的作用，但要真正实现目标，我们一定要进一步推动技术发展。目前，我们的关注重点主要放在量子误差校正方面，这是为了进一步延长量子计算系统的运行时间。我们还在努力简化量子算法的表达，改善硬件控制难度，同时也找到了利用经典机器学习技术（例如深度强化学习）构建高可靠性量子处理器的方法。2019 年的成就令人振奋，我们相信这一切都将为量子计算的广泛应用奠定坚定的基础。

通用算法与理论量子计算

在通用算法与理论方面，我们继续延着算法基础与应用的方向前进，同时也对图挖掘等方面做了一番探索。

我们在 VLDB 19 上发表了一篇题为《面向数据中心应用程序的缓存感知负载均衡》的论文，看起来好像有点晦涩，再来个平易近人般的标题，《通过妙招将数据中心的服务容量提高 40%！》。论文介绍了我们如何利用图的均衡分区对 Web 搜索后端服务系统中的缓存进行指定，从而将闪存驱动器的查询吞吐量提高了 48%，并最终将后端整体搜索吞吐量提高 40%。

JeffDean的年终报告细数谷歌AI的重大突破

您可能感兴趣的文章

推荐排行