晓查 郭一璞 栗子 乾明 发自 凹非寺
刚刚,Jeff Dean代表Google AI,完整总结了2018。
这也是姐夫作为全球AI第一大厂总负责人的第一次年度汇报。
学术和应用两开花,开源和新技术同步推进。
从重要AI技术应用突破讲起,到展望2019结束。Jeff Dean总结了14个大方面的AI成果,并透露全年AI论文发表数达608篇。
涵盖量子计算、感知技术、计算摄影、算法框架、AutoML、机器人、医疗AI,计算力和TPU……
桩桩件件,不仅在当前推动了AI作用社会方方面面,而且也是对未来趋势的小小展示。
毫不夸张地说,欲知2018 AI技术进展,看Jeff这篇总结再合适不过;欲知2019 AI会走向何方,看Jeff这篇也能获益良多。
为了方便阅读,我们先整理了一个小目录给你:
智能助手:打电话回邮件,都靠AI
量子计算:72量子比特设备、开源框架、可行的量子神经网络……
自然语言理解:从Transformer到BERT,碾压各项NLP任务
感知:图像识别和场景理解,语音增强与合成
拍照:照片动起来,夜景亮起来
算法和理论:谷歌帝国基石,从优化、算法选择到应用
软件系统:Mesh TensorFlow、TF-Ranking、JAX、隐私与安全
AutoML:自动找出最高效的网络结构
TPU:给全世界提供大量算力
开源软件和数据集:远不止多巴胺,大量资源预警
机器人学:从多个角度入手,让机器人更独立,更强大
人工智能在其他领域的应用:物理学、生命科学、天文学
医疗:从视网膜诊断病症到癌症预测,从辅助诊断到拓展到临床预测
合作研究:投入大量资源资助教师、学生和各方面研究人员进行研究
新地方、新面孔:持续在世界各地扩张,并广纳人才
展望2019:对谷歌以及更广泛的研究和工程领域产生更大影响
AI原则:Google AI历史性指导准则,争议性军事项目之后制定了7大原则
AI社会公益:展示Google利用AI技术推动社会公益的案例
完整报告如下:
智能工具们
Google AI也在不断打造新技术应用帮助用户提升效率,创造更大的社会价值。
简而言之:努力打造Google AI小助手工具产品。
2018最典型的莫过于Google Duplex,这是一个汇集语音识别、语义理解和对话的AI系统,可以作为你的虚拟电话助手,订餐厅、预约会议时间都不在话下。
还有Smart Compose——智能回复。能够基于语义分析和文本预测,帮助用户提升邮件回复的效率。
同样的还有Sound Search和Smart Linkify,都是AI提升用户效率的尝试。
Google目前也在围绕上述AI产品,展开多语言支持的努力,希望类似的产品通过小数据训练学习,就能对全球更多地区和用户产生更好的影响。
相关报道:
Google AI打电话以假乱真
量子计算
量子计算是一种新兴的计算范式,有望解决经典计算机无法解决的问题。
在过去的几年里,我们一直积极进行相关的研究,我们相信该领域正处在实现量子霸权能力的转折阶段,这将是量子计算领域的一个分水岭。
2018年,我们取得了许多令人兴奋的成果,开发了一种新的72量子比特的量子计算设备Bristlecone。在迈向量子霸权的过程中,这台设备扩展了量子计算机可以解决问题的规模。
△科学家Marissa Giustina在圣巴巴拉的量子AI实验室安装了Bristlecone芯片
相关报道:
首个72量子比特的量子计算机问世,谷歌出品
我们还发布了量子计算机的开源编程框架Cirq,并探讨了量子计算机如何用于神经网络。
相关报道:
谷歌证明量子神经网络可训练图像分类
2019年,我们期待在量子计算领域取得激动人心的成果!
自然语言理解
谷歌的自然语言研究在2018年取得了令人兴奋的成果,既有基础研究,也有以产品为中心的研究。
从2017年起,我们开始对Transformer进行改进,去年开发了一个名为“通用Transformer”模型的新的并行时间版本,该版本显示了包括翻译和语言推理在内的许多自然语言任务上的巨大进步。
相关论文:
Universal Transformers
https://arxiv.org/pdf/1807.03819.pdf
我们还开发了BERT,这是第一个深度双向、无监督的语言表示,仅使用纯文本语料库进行预训练,然后可以使用迁移学习对各种自然语言任务进行微调。
相关报道:
全面超越人类!Google称霸SQuAD,BERT横扫11大NLP测试
在11项自然语言任务上,BERT比以往最先进成果有显著的改进。
△BERT在极具挑战性的GLUE基准测试中提高了7.6%的成绩
除了与各种研究团队合作以实现AI帮助写邮件(Smart Compose)和虚拟电话助手(Duplex)外,我们还努力使谷歌智能助手能够更好地处理多语言使用案例,目标是使助手能与所有用户进行自然的对话。
相关报道:
谷歌助手超进化:可以同时识别两种语言了
感知
我们的感知研究解决了让计算机理解图像、声音、音乐和视频的难题,并为图像捕捉、压缩、处理、创造性表达和增强现实提供了更强大的工具。
2018年,我们的技术提高了Google Photos组织照片的能力,这项功能也是用户最关心的内容,比如给人和宠物照片分组。
△Google Lens能识别狗的种类
Google Lens和Google Assistant使用户能够了解周围世界,实时获取问题的答案,还能在让你在谷歌图像搜索中做更多的事情。
△Google Lens让你从照片中直接拷贝文字
谷歌AI使命的一个关键方面是让其他人从我们的技术中受益,我们在改进Google API一部分的功能和构建模块方面取得了很大进展。
例如Cloud ML API中视觉和视频方面的改进和新功能,以及通过ML工具包在面部识别相关的设备上构建模块。
相关工具:
https://cloud.google.com/blog/products/ai-machine-learning/closer-look-our-newest-google-cloud-ai-capabilities-developers
2018年,我们对学术研究的贡献包括在3D场景理解的深度学习方面的进步,例如立体放大(Stereo Magnification),这使我们得能够用多张图像合成场景的逼真视图。
相关论文:
Stereo Magnification: Learning View Synthesis using Multiplane Images
https://arxiv.org/abs/1805.09817
我们正在进行关于更好地理解图像和视频的研究,使用户能够在谷歌产品中找到、组织、增强和改善图像和视频,比如Google Photos、YouTube、搜索等等。
2018年,我们取得了多项显著的进步,包括:
快速自下而上的联合姿态估计和人物实例的分割模型
PersonLab: Person Pose Estimation and Instance Segmentation with a Bottom-Up, Part-Based, Geometric Embedding Model
https://arxiv.org/abs/1803.08225
将复杂运动可视化的系统
MoSculp: Interactive Visualization of Shape and Time
http://mosculp.csail.mit.edu
对人和物体之间时空关系建模的系统
Actor-Centric Relation Network
https://arxiv.org/abs/1807.10982
基于distillation和3D卷积的视频动作识别的改进
D3D: Distilled 3D Networks for Video Action Recognition
https://arxiv.org/abs/1812.08249
Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification
https://arxiv.org/abs/1712.04851
在音频领域,我们提出了一种无监督学习语义音频表示的方法,并且显著改进了语音合成,让它更生动、更像人类。
相关论文:
Unsupervised Learning of Semantic Audio Representations
https://ieeexplore.ieee.org/abstract/document/8461684
https://arxiv.org/abs/1803.09047
多模态感知是一个越来越重要的研究课题。Looking to Listen将输入视频中的视觉和听觉提示结合起来,分离并增强视频中说话者的声音。
相关论文:
Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation
https://arxiv.org/abs/1804.03619
这项技术可以支持一系列应用:从视频中的语音增强和识别,到视频会议,再到改进的助听器,尤其是在有多人说话的情况下。
在资源受限的平台上实现感知变得越来越重要。MobileNetV2是谷歌的下一代移动计算机视觉模型,广泛应用于学术界和工业界。
相关论文:
MobileNetV2: Inverted Residuals and Linear Bottlenecks
http://openaccess.thecvf.com/content_cvpr_2018/papers/Sandler_MobileNetV2_Inverted_Residuals_CVPR_2018_paper.pdf
MorphNet提出了一种学习深层网络结构的有效方法,这种方法可以在计算资源受到限制时,全面提高图像和音频模型的性能,最近在自动生成移动网络架构方面的工作表明,实现更高的性能也是可能的。
相关论文:
MorphNet: Fast & Simple Resource-Constrained Structure Learning of Deep Networks
http://openaccess.thecvf.com/content_cvpr_2018/html/Gordon_MorphNet_Fast__CVPR_2018_paper.html
拍照算法
过去几年中,手机相机的拍照质量和功能提升十分显著,虽然手机实际物理传感器的进步是一方面,不过更大的进步则是拍照算法方面的。
我们的研究团队发布了新技术,与Google的安卓和消费者硬件团队密切合作,让这项新技术在最新的Pixel等安卓手机和其他设备上落地。
2014年,我们发布了HDR+,一种依靠计算机软件将单帧对齐融合的技术。HDR+最初应用的主要目的是为了让图片比单次曝光有更大的动态范围,但随后,拍摄动态帧并计算分析成为了2018年相机进步的一种通用方式。例如Pixel 2中的动态照片(Motion Photos)功能和动态剧照(Motion Stills)里的AR模式。
△ Pixel 2中的动态照片功能
△ 动态剧照里的AR鸡
相关博客:
动态照片
https://ai.googleblog.com/2018/03/behind-motion-photos-technology-in.html
动态剧照AR模式
https://ai.googleblog.com/2018/02/the-instant-motion-tracking-behind.html
2018年,我们在拍照算法方面的主要工作之一就是创造了夜视(Night Sight)功能,让Pixel手机的相机能看到黑暗中的物体,这项功能赢得了媒体和用户的赞誉。
相关报道:
宛如白昼,谷歌发布最强夜景拍照AI算法,单摄秒杀一众苹果华为三星
当然,夜视只是我们团队开发的多种帮助用户摄影的软件功能之一,另外还有用机器学习提供更好的人像模式、用Super Res Zoom看得更清晰更远、用Top Shot和Google Clips捕捉更好的瞬间。
△ 左为iPhone XS的效果,右为Pixel夜视
相关博客:
机器学习人像模式
https://ai.googleblog.com/2018/11/learning-to-predict-depth-on-pixel-3.html
Super Res Zoom
https://ai.googleblog.com/2018/10/see-better-and-further-with-super-res.html
Top Shot
https://ai.googleblog.com/2018/12/top-shot-on-pixel-3.html
Google Clips
https://ai.googleblog.com/2018/05/automatic-photography-with-google-clips.html
算法和理论
算法是Google系统的基干,关系到我们所有产品,从Google Trips旅行App背后的路径选择算法,到谷歌云的哈希一致性校验都是如此。
相关论文:
Consistent Hashing with Bounded Loads
https://arxiv.org/abs/1608.01350
过去一年,我们继续研究算法和理论,覆盖了从理论基础到应用算法,从图数据挖掘到隐私保护计算。
我们在优化方面的工作涉及到机器学习的持续优化、分布式组合优化等领域。
在持续优化上,我们研究随机优化算法训练神经网络的收敛性的工作,展示了ADAM变体等一些流行的基于梯度优化方法存在的问题,但也为新的基于梯度的优化算法提供了监视的基础,获得了ICLR 2018最佳论文。
相关论文:
On the Convergence of Adam and Beyond
https://openreview.net/forum?id=ryQu7f-RZ
上图就是ADAM和AMSGRAD在一个简单一维凸问题模拟例子上的性能对比,左中两幅是在线设置,最右一幅是随机设置。
在分布式优化上,我们努力提高一些经过充分研究的组合优化问题的循环和通信复杂性,比如通过round compression、core-sets、以及子模块最大化、k核分解等进行图匹配。
相关论文:
Round Compression for Parallel Matching Algorithms
https://dl.acm.org/citation.cfm?id=3188764
Optimal Distributed Submodular Optimization via Sketching
https://dl.acm.org/citation.cfm?id=3220081
Parallel and Streaming Algorithms for K-Core Decomposition
http://proceedings.mlr.press/v80/esfandiari18a/esfandiari18a.pdf
在更多应用层面,我们开发的算法技术,能通过sketching实现大规模集合覆盖,能为数万亿边的图解决平衡分区和分层聚类问题。
我们关于online delivery services的工作,还获得了WWW’18会议的最佳论文呢提名。
相关论文:
Minimizing Latency in Online Ride and Delivery Services
https://dl.acm.org/citation.cfm?doid=3178876.3186104
最后,我们的开源优化平台OR-tools在Minizinc约束规划竞赛中获得了4枚金牌。
平台主页:
https://developers.google.com/optimization/
在算法选择理论中,我们提出了新的模型,研究了重建(reconstruction)问题、学习多项logit混合问题。我们还研究了可通过神经网络学习的函数类,以及如何使用机器学习来改进经典在线算法。
相关论文:
A Discrete Choice Model for Subset Selection
https://dl.acm.org/citation.cfm?doid=3159652.3159702
Discrete Choice, Permutations, and Reconstruction
https://epubs.siam.org/doi/10.1137/1.9781611975031.38
Learning a Mixture of Two Multinomial Logits
http://proceedings.mlr.press/v80/chierichetti18a.html
Convergence Results for Neural Networks via Electrodynamics
http://drops.dagstuhl.de/opus/volltexte/2018/8352/
Improving Online Algorithms via ML Predictions
http://papers.nips.cc/paper/8174-improving-online-algorithms-via-ml-predictions
对Google来说还有一件事非常重要,那就是理解具有强隐私保障的学习技术。
在这一领域,我们开发了两种新方法,分析如何通过迭代和混排来强化差分隐私。
我们还运用差分隐私技术,设计了对博弈具有鲁棒性的激励感知学习方法。这样的学习技术可以用于高效在线市场设计。
相关论文:
Privacy Amplification by Iteration
https://ieeexplore.ieee.org/abstract/document/8555134
Amplification by Shuffling: From Local to Central Differential Privacy via Anonymity
https://epubs.siam.org/doi/abs/10.1137/1.9781611975482.151
Incentive-Aware Learning for Large Markets
https://dl.acm.org/citation.cfm?id=3186042
我们在市场算法领域的新研究,还包括帮助广告主测试广告竞价激励兼容性的技术,优化App内广告刷新的技术等。
相关论文:
Testing Incentive Compatibility in Display Ad Auctions
https://pdfs.semanticscholar.org/30a7/773faea229efa6a47178c396ef7b9617fcef.pdf
Optimizing Ad Refresh In Mobile App Advertising
https://dl.acm.org/citation.cfm?id=3186045
我们也推动了重复拍卖动态机制的发展,展示了对缺乏未来预测、对嘈杂预测、对异质买方行为具有鲁棒性的动态拍卖机制,还把研究结果扩展到动态双重拍卖上。
最后,关于在线优化、在线学习的鲁棒性,我们开发了新的在线分配算法,用于流量峰值的随即输入,以及对损坏的数据具有鲁棒性的新型bandit算法。
软件系统
我们在软件系统方面的一大部分研究依然是在建设机器学习模型和TensorFlow上。
例如,我们发布了TensorFlow 1.0动态流程控制的动态设计与实践,我们的一些新研究引入了一个我们称之为Mesh TensorFlow的系统,这使得用模型并行指定大规模分布式计算变得容易,有时会有数十亿个参数。
相关论文:
The Case for Learned Index Structures
https://arxiv.org/abs/1712.01208
Dynamic Control Flow in Large-Scale Machine Learning
http://delivery.acm.org/10.1145/3200000/3190551/a18-yu.pdf
Mesh-TensorFlow: Deep Learning for Supercomputers
https://papers.nips.cc/paper/8242-mesh-tensorflow-deep-learning-for-supercomputers
另一个例子是,我们发布了一个使用TensorFlow的可扩展深度神经排序库。
△ TF-Ranking支持多项目评分体系结构,这是传统单项评分的扩展。
相关论文:
TF-Ranking: Scalable TensorFlow Library for Learning-to-Rank
https://arxiv.org/abs/1812.00073
我们还发布了JAX,这是一个加速器支持的NumPy变体,支持自动将Python函数区分为任意顺序。虽然JAX不是TensorFlow的一部分,但它利用了一些相同的底层软件基础架构(例如XLA),并且它的一些想法和算法对我们的TensorFlow项目有所帮助。
相关开源项目:
JAX
https://github.com/google/jax
最后,我们继续研究机器学习的安全性和隐私性,以及在人工智能系统中老发安全和隐私的开源框架,如CleverHans和TensorFlow Privacy。
相关开源项目:
CleverHans
https://github.com/tensorflow/cleverhans
TensorFlow Privacy
https://github.com/tensorflow/privacy
我们的另一个重要的研究方向是将机器学习在软件系统中在堆栈的许多层面上应用。
例如,我们继续努力使用分层模型将计算部署到设备上,并且我们有助于学习内存访问模式。我们还继续探索如何使用学习指数来取代数据库系统和存储系统中的传统索引结构。正如我去年写下的,我们在计算机系统中使用机器学习仅仅停留在表面。
相关论文:
A HIERARCHICAL MODEL FOR DEVICE PLACEMENT
https://openreview.net/pdf?id=Hkc-TeZ0W
Learning Memory Access Patterns
http://proceedings.mlr.press/v80/hashemi18a/hashemi18a.pdf
2018年,得益于Google的Project Zero团队与其他人的合作,我们发现了Spectre和Meltdown,现代计算机处理器中新的严重安全漏洞,这两者以及其他相关的漏洞让计算机架构研究者们相当忙碌。
在我们继续努力模拟CPU行为时,我们的编译器研究团队将他们用于测量机器指令延迟和端口压力的工具集成到LLVM中,从而可以做出更好的编译决策。
相关文档:
llvm-exegesis - LLVM Machine Instruction Benchmark
https://llvm.org/docs/CommandGuide/llvm-exegesis.html
Google产品,我们的云产品和机器学习模型推理决定了计算、存储和网络提供大规模、可靠、高效的技术基础架构的能力。
过去一年的一些研究亮点包括Google软件定义网络WAN的发展,一个独立的联合查询处理平台,可以在许多存储系统中对基于不同文件格式存储的数据执行SQL查询(BigTable、Spanner、Google Spreadsheets等)以及我们广泛使用的代码审查报告,调查Google代码审查背后的动机,当前的实践以及开发人员的满意度和挑战。
相关论文:
Modern Code Review: A Case Study at Google
https://storage.googleapis.com/pub-tools-public-publication-data/pdf/80735342aebcbfc8af4878373f842c25323cb985.pdf
F1 Query: Declarative Querying at Scalehttps://storage.googleapis.com/pub-tools-public-publication-data/pdf/fa380016eccb33ac5e92c84f7b5eec136e73d3f1.pdf
运行内容托管等大型Web服务需要在动态环境中实现稳定的负载平衡。我们开发了一致的哈希方案,对每台服务器的最大负载提供了严格的可证明保证,并将其部署到Google Cloud Pub/Sub中的云客户。
在提供了我们论文的早期版本后,Vimeo的工程师找到了论文,在haproxy中实现并开源,并将其用于Vimeo的负载平衡项目。结局是戏剧性的:应用这些算法思想帮助他们将缓存带宽减少了近8倍,消除了缩放瓶颈。
AutoML
AutoML,是用机器学习来加速机器学习的一种方法。
在这个领域,我们已经做了很多年的研究,长期目标是开发出那种拿到一个新问题,也能自动解决的学习系统:
从之前解决的问题里面获得的启发、习得的能力,就是处理新问题的依据。
这一领域的早期研究,大多是用强化学习做的,不过我们也对进化算法感兴趣。
去年我们就展示过,怎样用进化算法自动找到各种不同的视觉任务里,最先进 (State-of-the-Art) 的神经网络结构是什么。
我们还探索过,怎样把强化学习用到神经网络结构搜索以外的其他地方。发现有这些用途:
1) 自动生成图像变换序列 (Image Transformation Sequence) ,来提高各种图像模型的准确性。
2)找到新的符号优化表达方式 (Symbolic Optimization Expressions),比常用的优化更新规则更有效。
我们在AdaNet上的成果,展示了如何造出一个快速灵活的AutoML算法:
另外一个关注点,是自动发现计算效率高的神经网络结构,让网络在手机、自动驾驶汽车这样的环境下也能跑起来:不论是计算资源有限,还是时间有限。
在这个问题上,我们证明了:把模型准确度和推理计算时间结合到一起,来设置强化学习的奖励函数,就可以找到高准确度的那些模型,应对不同的环境限制。
除此之外,我们也探索了用机器学习自动压缩机器学习模型,减少参数,就会减少计算资源的占用。
TPU
TPU是谷歌内部用的机器学习硬件加速器,从一开始就是设计用来支持大规模训练和大规模推理的。
谷歌的许多重大突破都是在TPU的加速下实现的,比如刚才讨论过的BERT自然语言处理模型。TPU也能让世界各地的研究人员在谷歌开源研究的基础之上,寻求自己的研究突破。
还是以BERT为例,任何人都可以在TPU上,用Colab来给BERT做微调。TensorFlow Research Cloud已经为数千研究人员,提供了大量的云TPU算力。
我们还把多代TPU硬件,用云TPU的形式做了商用:比如名叫Cloud TPU Pods的机器学习超级计算机,支持大规模训练。
而在谷歌内部,除了让机器学习研究进步更快之外,TPU也驱动了谷歌核心产品的重大改进:搜索、YouTube、Gmail、谷歌助手、谷歌翻译,等等。
希望不论是谷歌还是谷歌以外的机器学习团队,都能在TPU提供的、前所未有的计算规模之下,达成更多的成就。
开源软件和数据集
发布开源软件、创建新的公共数据集,是我们为学界和业界做出贡献的两种主要方式。
TensorFlow
在这一方面,我们做过最大的努力之一就是TensorFlow。2015年11月发布的机器学习系统,不久前才庆祝了三岁生日。
三年间,TensorFlow已被下载了超过3000万次,贡献者超过1700个,添加过45000多次代码 (Commits) 。
2018年,TensorFlow经历了8次主要版本更新,增加了重要功能:比如Eager Execution,以及分布策略 (Distribution Strategies) 。
我们还在开发过程中启用了大众评审,让广大贡献者都参与进来。
随着TensorFlow Lite、TensorFlow.js和TensorFlow Probability这些相关产品的推出,TensorFlow生态系统在2018年茁壮成长。
我们很高兴地发现,TensorFlow的GitHub的用户留存率 (User Retention) ,在主流机器学习/深度学习框架里面是最高的。
除此之外,TensorFlow团队也在加快处理GitHub上面讨论的问题 (Issue) ,给外部贡献者提供一个更好的体验。
研究方面,TensorFlow还在继续为这个世界大量的机器学习和深度学习研究提供支持,从Google Scholar论文发表的数据上就能看出。
另外,TensorFlow Lite仅仅上线一年,就有15亿台设备搭载了这套系统。
还有,TensorFlow.js是JavaScript机器学习框架里面的第一名:推出9个月,CDN (内容分发网络) 点击量已经超过200万,下载25万次,GitHub标星10000多。
其他框架
除了继续发展开源生态系统,2018年还发布了一个新框架“多巴胺 (Dopamine) ”,用来做灵活、可重复的强化学习。量子位报道在此:
令人激动!谷歌推强化学习新框架「多巴胺」,基于TensorFlow,已开源丨附github
发布了What-If可视化工具,可以快速了解数据集的特征(无需编写任何代码):
pair-code.github.io/what-if-tool/
发布了TF-Ranking高级库,用来表达涉及排名的机器学习问题 (报道如下) :
谷歌开源TF-Ranking可扩展库,支持多种排序学习
发布了AdaNet,一个快速灵活的AutoML框架 (报道如下) :
谷歌开源集成学习工具AdaNet:2017年提出的算法终于实现了
还发布了能在浏览器里实时做tSNE可视化的框架,基于TensorFlow.js:
https://github.com/tensorflow/tfjs-tsne
数据集
这一年,我们很高兴地发布了谷歌数据集搜索引擎,可以在全网搜索数据集:
Google数据集搜索神器上线,和搜索论文一样简单 | 还不去训练网络?
发布了Open Images V4,一个包含190万张图1540万个边界框、600个类别的图像数据集:
https://storage.googleapis.com/openimages/web/index.html
发布了动作识别AVA数据集,提供视听双重标注:
https://research.google.com/ava/download.html
还发布了新版本的Youtube-8M数据集,包含610万个调视频,3862个类别,26亿次视听特征标注:
https://research.google.com/youtube8m/download.html
HDR+连拍数据集 (HDR+ Burst Photography Dataset),是计算摄影领域的数据集:
https://hdrplusdata.org/
Google-Landmarks,地标识别数据集:
https://www.kaggle.com/google/google-landmarks-dataset
其中,许多数据集都是伴随着挑战赛一同发布的,HDR+连拍数据集也是,地标数据集也是,Youtube-8M也是。还有一场Kaggle比赛,内容是识别“Quick, Draw!” (猜画小歌) 数据集里的涂鸦:
https://quickdraw.withgoogle.com/data
机器人
2018年,我们朝着理解机器学习如何教机器人在世界上行动的目标,取得了重大进展,教机器人抓取新物体的能力也达到了一个新的里程碑,并通过这种方式帮助机器人在没有人类监督的情况下了解物体。
将机器学习、基于抽样的方法和机器人几何学结合,我们在机器人运动学习方面也取得了进展。机器人在通过自主观察来更好地理解世界结构的能力上,取得了巨大的进步。
我们首次成功地在真实的机器人上在线训练了深度强化学习模型,并且正在寻找新的理论基础方法来让机器人控制更稳定。
相关报道:
受婴儿抓阄启发,谷歌让机器臂自学抓取物体,不用标注数据
人工智能在其他领域的应用
2018年,我们将机器学习应用到了物理和生物科学中的各种问题上。使用机器学习,我们可以向科学家提供“成百上千的研究助理”,来帮他们助挖掘数据,从而使他们变得更有创造力和生产力。
我们发表在《Nature Methods》上关于神经元高精度自动重建的论文提出了一种新的模型,与以前的深度学习技术相比,这个模型将自动解释连接组学数据的精度提高了一个层次。
△我们的算法正在运行,它在鸣禽大脑中以3D的方式追踪单个神经突。
相关论文:
High-precision automated reconstruction of neurons with flood-filling networks
https://www.nature.com/articles/s41592-018-0049-4
其他一些将机器学习应用到科学问题中的例子包括:
通过数据挖掘恒星的光变曲线寻找太阳系外的新行星
http://iopscience.iop.org/article/10.3847/1538-3881/aa9e09/meta
识别短DNA序列的起源或功能
https://www.biorxiv.org/content/early/2018/06/22/353474
自动检测离焦显微镜图像
https://link.springer.com/epdf/10.1186/s12859-018-2087-4
用数字技术制作同一细胞的多重染色图像
http://www.cell.com/cell/fulltext/S0092-8674(18)30364-7
自动将质谱输出映射到肽链上
https://arxiv.org/pdf/1808.06576.pdf
△一个预训练的TensorFlow模型评估Fiji (ImageJ)细胞的显微镜图像的聚焦质量。边界的色调和亮度分别表示预测的聚焦质量和预能测的不确定性。
医疗
在过去的几年里,我们一直在将机器学习应用到医疗领域。我们相信,机器学习可以通过增强医疗专业人员的直觉和经验而产生巨大影响。
在这个领域,我们通常与医疗保健组织合作,解决基础研究问题(利用临床专家的反馈使我们的结果更加可靠) ,然后在备受尊敬的、有同行评审的科学和临床期刊上发表研究结果。
一旦这项研究得到临床和科学验证,我们将进行用户和人机交互研究,以了解我们如何在真正的临床环境中部署这项技术。
2018年,我们将研究范围从计算机辅助诊断扩展到了临床任务预测中。
在2016年年底,我们发表的一项回顾性研究显示,一个经过训练的、根视眼底图像来评估糖尿病病变的模型,能够与经过美国医学委员会认证的眼科医生相媲美。
2018年,我们得到了一个与视网膜专家水平相当的模型。我们发表了一篇评估报告,展示了眼科在医生与机器学习模型结合,诊断上比单独使用任何一种方法都更准确。
我们与Alphabet的其他兄弟公司合作,在印度的Aravind眼科医院和泰国卫生部下属的 Rajavithi 医院等10多个地点部署了这套糖尿病视网膜病变检测系统。
相关论文:
Improving the Effectiveness of Diabetic Retinopathy Models
http://www.aaojournal.org/article/S0161-6420(18)31575-6/fulltext
我们还推出了其他的机器学习模型,可以从视网膜图像中评估人们患有心血管疾病的风险。
相关论文:
Assessing Cardiovascular Risk Factors with Computer Vision
https://www.nature.com/articles/s41551-018-0195-0.epdf
这一年,我们还在继续关注病理学,展示了如何使用机器学习改善前列腺癌的分级状况,通过深度学习来检测转移性乳腺癌。
并开发了一种增强现实显微镜的原型,将计算机视觉模型中的视觉信息实时叠加到显微镜操作员的视野中,来帮助病理学家和其他科学家进行分析诊断。
前列腺癌论文:
Development and Validation of a Deep Learning Algorithm for Improving Gleason Scoring of Prostate Cancer
https://arxiv.org/abs/1811.06497
乳腺癌论文:
Artificial Intelligence–Based Breast Cancer Nodal Metastasis Detection
https://doi.org/10.5858/arpa.2018-0147-OA
Impact of Deep Learning Assistance on the Histopathologic Review of Lymph Nodes for Metastatic Breast Cancer
https://doi.org/10.1097/PAS.0000000000001151
在过去的四年里,在使用深度学习技术,基于电子健康记录做出临床相关的预测记录方面,我们进行了大量的研究工作。
2018年,我们与芝加哥大学医学院、加州大学旧金山分校和斯坦福大学医学院合作,在《Nature Digital Medicine》杂志上发表了我们的研究成果,展示了机器学习模型在识别电子医疗记录中的应用,能够比当前的临床最佳实践更准确地预测各种临床相关的任务。
相关论文:
Scalable and accurate deep learning with electronic health records
https://www.nature.com/articles/s41746-018-0029-1
在进行这些研究时,我们还开发了一些工具,使得创建这些模型变得非常容易。这些工具也能够应用到完全不同的任务和数据集上。
我们还开发了与快速医疗互操作性资源(FHIR)标准相关的开源软件,目的是帮助医疗数据处理变得更加容易和标准化。
GitHub链接:
https://github.com/google/fhir
我们还提高了基于深度学习的变体调用程序 DeepVariant 的准确性、速度和实用性。研究团队与合作伙伴一起努力,最近在《Nature Biotechnology》杂志上发表了经过同行评审的论文。
相关论文:
A universal SNP and small-indel variant caller using deep neural networks
https://www.nature.com/articles/nbt.4235
使用历史收集的数据训练机器学习模型时,重要的是了解哪些数据有偏差,以它们及是如何被编入数据中的。
机器学习提供了一个发现和解决偏见的机会,以及推进卫生公平的机会,我们正在设计这样的系统。
合作研究情况
我们以许多不同的方式与外部研究团体互动,包括教师参与和学生支持。
我们感到自豪的是,在2018 学年期间,我们招收了数百名本科生、硕士生和博士生作为实习生,并为北美、欧洲和中东的学生提供多年期博士研究生奖学金。
除了财务支持,每个奖学金获得者都被指派一个或多个谷歌研究人员作为导师,我们把所有的研究人员聚集在一起,参加一年一度的谷歌博士奖学金峰会。
在这里,他们可以接触到谷歌最先进的研究成果,并有机会与谷歌的研究人员以及来自世界各地的其他博士研究员交流。
作为对奖学金项目的补充,我们还有一个Google AI Residency项目,可以让那些想要学习进行深度学习研究的人花一年时间在谷歌工作,并接受谷歌研究人员的指导。
2018年是这个项目的第三个年头,很多研究人员都加入了谷歌遍布全球的各种团队,从事诸如机器学习、感知、算法和优化、语言理解、医疗保健等领域的研究。
每年,我们还通过Google Faculty Research Awards项目支持一些教师和学生的研究项目。
2018年,我们还在谷歌的办公地点为特定领域的教师和研究生举办研讨会。如:
在印度班加罗尔办事处举办的AI/ML研究和实践研讨会;在苏黎世办事处举办的算法和优化研讨会;在桑尼维尔举办的ML医疗应用研讨会;在马在诸塞州剑桥办事处举办的ML公平和偏见研讨会。
我们认为,公开地为更广泛的研究群体做出贡献是支持健康和富有成效的研究生态系统的关键部分。
除了发布开源代码和数据集,我在们顶级会议和期刊上公开发表了大部分研究成果,并积极参与组织和赞助各种不同学科的会议。
比如ICLR 2018、NAACL 2018、ICML 2018、CVPR 2018、NeurIPS 2018、ECCV 2018和EMNLP 2018。
2018年,谷歌还广泛参与了ASPLOS、HPCA、ICSE、IEEE Security & Privacy、OSDI、SIGCOMM以及许多其他会议。
新的地方,新的面孔
2018年,我们非常高兴地欢迎许多背景广泛的新人加入我们的研究组团队我们在非洲开设了第一个人工智能研究办公室。
我们扩大了在巴黎、东京和阿姆斯特丹的人工智能研究领域,并在普林斯顿开设了一个研究实验室。
相关链接:
https://ai.google/research/join-us/
展望2019年
这篇博客文章,只是总结了2018年所做研究的一小部分。
当我们回顾2018年时,我们很兴奋,也很自豪!
2019年,我们期待着能够对谷歌以及更广泛的研究和工程领域产生更大的影响!
One more great thing
AI原则
实际上,这篇报道最开篇,首先谈到的是Google在2018年发布的AI原则。
在过去几年中,Google关注到AI的重大进步及其对产品和用户日常生活的积极影响。
但作为搞AI的人,保证AI向善,始终对社会有益,也是责任所在、题中之义。
2018年,Google发布了AI 七原则,并围绕这些原则展开应用实践。
AI原则为Google AI应用和发展提供了指导,让我们知道在AI实践中该做什么、不该做什么,哪些值得做、哪些则要避免。
比如在实践过程中,Google AI原则就让我们对“AI公平”、“对所有人负责”等有更强使命感。
在机器学习公平性、模型可解释性方面,投入精力,展开新研究。
在Google翻译中,利用AI消除性别偏见。
并发布更多更具包容性的图像数据集和模型,让计算机视觉能够适合全球多元文化。
值得一提的是,这也促进我们可以更广泛地与全球研究组织一起努力,进一步推动AI公平和机器学习普及。
相关报道:
Google AI 七原则
AI for Good
接着,AI原则之后,紧接着“汇报”Google AI这一年在社会公益方面的努力。
第一个例子,用AI来进行洪水预测工作。Google内部许多团队通力合作, 希望对洪水变化有更精准及时的信息监测,以便洪水多发地区的人,可以更有效保护自己的生命及财产安全。
第二个例子是地震余震的预测工作。
Google展示的机器学习模型,可以比传统余震预测方式更精准,而且该机器学习模型可解释,利于地震科学家围绕余震数据展开更多研究,不仅能进一步促进余震精准预测,还对地质等信息有更深了解。
而且“Google AI+外部跨领域科学家”这样的合作模式也越来越多,更多工程师、科学家开始使用TensorFlow来解决科学和社会问题。比如识别并精准保护濒危鲸鱼、探索发现行星,以及识别虫患木薯植物等。
为了进一步推动AI for Good的创新。
Google还设立了2500万美元基金,专门用来支持AI为公益的项目,而且参与者不必一定是AI方面的专家,只要你的点子好、对社会有益,谷歌愿意让AI专家提供技术支持,此外还为你提供谷歌云服务。
一句话:只要你的出发点有益社会公益,Google就会给钱、给资源,做到AI技术最大化支援。
或许,通过AI原则和AI公才能益,真洁解释Google何以为Google。
相关报道:
Google AI for Good
报告传送门
https://ai.googleblog.com/2019/01/looking-back-at-googles-research.html
Google 2018论文传送门
https://ai.google/research/pubs/?year=2018
— 完 —
诚挚招聘
վ'ᴗ' ի 追踪AI技术和产品新动态