人工智能十年回顾：CNN、AlphaGo、GAN……它们曾这样改变世界_专栏

过去十年间，人工智能技术突飞猛进，最疯狂的科幻小说场景现在已经成为我们生活中不可或缺的一部分。十年前，人们在谈论 AI 的理论化和实验，但这些年来，AI 变得更加切实了，也变成了主流。无论是国际标准课程、平台、库、框架、硬件，一切都顺理成章。就算说这十年里取得的成绩奠定了未来的基础，也不为过。

这篇文章将盘点 AI 十年来取得的重要突破。

卷积

2012 年是深度学习历史上重要的一年。那一年，卷积神经网络（CNN）在著名的 ImageNet 挑战赛中大放异彩。由 Alex Krizhevsky 等人设计的卷积神经网络「Alexnet」以远超第二名的成绩夺冠，在 ImageNet 数据集上的视觉识别错误率为 15.3%，降低了一半。该神经网络对猫的检测准确度达到了 74.8%，在 YouTube 视频中检测人脸的准确率为 81.7%。

现在，手机和商场中的人脸识别应用都应该归功于 2012 年的这项工作，识别准确率的提升使研究者能够进行医学成像模型的部署，这些模型具备高置信度。

与 AI 对话

Vaswani 等人 2017 年发表的《Attention Is All You Need》带来了级联效应，使得机器能够以前所未有的方式去理解语言。得益于 Transformer 架构，AI 现在能够撰写假的新闻、推文，甚至可能引起政治动荡。继 Transformer 之后，谷歌又推出了 BERT 模型，将其用于关键字预测和 SEO 排名等。BERT 如今已经变成了自然语言处理领域的实际标准，诸如 Microsoft 和 NVIDIA 之类的公司开始堆积更多参数来追赶该模型。

NVIDIA 的 Megatron 具有 80 亿个参数，而 Microsoft 的 Turing NLG 模型具有 170 亿个参数。OpenAI 的 GPT 模型后来居上，1750 亿参数的 GPT-3 目前是历史记录的保持者。

GPT-3 也是 Transformer 的扩展，是目前最大的模型，它可以编码、写散文、生成商业创意，只有人类想不到，没有它做不到。

将人类一军

AI 早已在国际象棋中击败了人类。而更加复杂的人类游戏，如 Jeopardy! 游戏、围棋、德州扑克等，也没有挡住算法的脚步。人工智能近几年来最广为人知的事件就是 AlphaGo 在最复杂棋类游戏——「围棋」上击败了人类顶级选手。与此同时，在这个十年中，IBM 的 Watson 也在 Jeopardy! 决赛中击败了两位人类，最终 Watson 获得了 77147 美元奖金，而两位人类分别获得了 24000 和 21600 美元。

Facebook 和卡耐基梅隆大学共同开发的德扑 AI Pluribus 战胜了五名专家级人类玩家，实现了前辈 Libratus（冷扑大师）未能完成的任务，该研究还登上了 2019 年的《科学》杂志。2020 年 12 月，DeepMind 提出的 MuZero 让一种人工智能模型掌握多种游戏，包括将棋、国际象棋和围棋。

解码生命

每一个生物体的行为都可以在其蛋白质中寻踪溯源。蛋白质承载着秘密，破解蛋白质或许有助于击败新冠大流行。但蛋白质结构非常复杂，需要不断地运行模拟。DeepMind 尝试解决这一难题，其开发的深度学习算法「Alphafold」破解了出现五十年之久的蛋白质分子折叠问题。计算机视觉被证明可以帮助诊断，而解决蛋白质折叠问题甚至能够帮助研发人员开发新药。

AI：是艺术家，也是骗子

去年，在一则视频中，比利时首相谈论着解决经济和气候危机的紧急需求，后来人们发现这其实是 Deepfake 视频。在机器学习和 AI 对比利时首相声音和表达方式的操纵下，这则假视频让首相发表了一场关于全球变暖影响的演讲。

这些伪造内容的背后是精心设计的算法——生成对抗网络（GAN）。该算法在 2014 年提出，并得到广泛应用，甚至已经侵入了人类工作的最后一道壁垒：创作。这种网络可以生成从未存在的人脸、互换人脸，让一国总统胡言乱语。GAN 生成的一幅画甚至在佳士得拍卖会上以破纪录的价格——40 万美元成交了。GAN 的另一面是被用于恶意目的，以致于像 Adobe 这种公司不得不研究新技术来鉴别伪造内容。GAN 在下一个十年里仍将是被广泛讨论的对象。

秘密武器——硅

神经网络的概念诞生了半个世纪，今天流行的反向传播方法也出现三十年了。但是，我们仍然缺少能够运行这些计算的硬件。过去十年，我们见证了十多家公司研究专门的机器学习芯片。这些年来，芯片技术得到了极大发展，我们可以在手掌大小的设备上执行百万次运算。这些芯片被用到数据中心，用户可以观看自己喜欢的 Netflix 电影、使用智能手机等。接下来，专为边缘设备定制的 AI 芯片蕴含着价值数十亿美元的商机。

苹果等公司已经开发了定制化机器学习芯片（如 A14 Bionic）来提供智能服务。即使是依赖英伟达和英特尔的 AWS，也正在慢慢进入芯片行业。随着芯片变得越来越小，这一趋势只会更加明显：例如使用英伟达 Jetson AGX Xavier 开发者套件，你可以轻松创建和部署端到端 AI 机器人应用，用于制造、零售、智能城市等等。谷歌的 Coral 工具包可将机器学习带到边缘设备上。安全、实时输出是目前的主题。

开源文化逐渐成熟

2015 年，TensorFlow 开源。一年后，Facebook AI 又开源了基于 Python 的深度学习框架 PyTorch。今天，TensorFlow 和 PyTorch 已经成为使用最广泛的框架。通过不断的版本更新，谷歌和 Facebook 为机器学习社区带来了极大便利。自定义库、软件包、框架和工具的爆发式增长，使得更多人进入了 AI 领域，也为 AI 研究带来了更多人才。

开源是近几年的一个主要特性。开源工具和越来越多的可用资源（如 arxiv 或 Coursera）促进了 AI 变革。另一个催化剂是流行的竞赛平台——Kaggle。Kaggle 和 GitHub 滋养了一批高质量 AI 开发者。

未来方向

关于一些专家预测以下领域或许将发挥主要作用：

可复现性
差分隐私
几何深度学习
神经形态计算
强化学习

尽管 AI 已经进入许多我们未曾想象的领域，但它仍需应用到更流行的应用中，如自动驾驶汽车。然而，挑战更多地在于数学层面：目前已有能够做出准确决策的算法，也有能够处理这些算法的处理器，但何时能够部署到应用上仍未可知。不管是医疗还是自动驾驶汽车，AI 仍需要继续进展，而这只有在透明性和可复现性得到建立时才会发生。
来源：OpenCV学堂