Tong测试：评估通用人工智能的新方法_专栏

易百纳社区

该体系结构由三个主要部分组成：基础结构、DEPSI 环境和评估工具。在物理和社会现实任务生成的支持下，Tong测试平台为评估和基准测试AGI模型提供了标准化的测试管道

最近发表在《工程学》上的一篇观点文章提出了一种评估通用人工智能（AGI）的新方法，引入了Tong测试。这种创新方法旨在通过关注动态体现的物理和社会互动（DEPSI）为AGI提供标准化，定量和客观的评估系统。

生成式预训练变压器（GPT）系列的快速发展使AGI处于人工智能（AI）领域的最前沿。然而，定义和评估AGI仍然是一个挑战。Tong 测试通过强调 DEPSI 作为框架的重要性，为 AGI 评估提供了一个全新的视角。

传统上，人工智能基准测试一直是面向任务的，但Tong测试将重点转移到以能力和价值为导向的评估上。Tong测试中提出的虚拟平台支持在训练和测试中体现AI，使AI代理能够交互式地获取信息，学习和微调其价值和能力。

Tong 测试提出了可以作为 AGI 基准的五个关键特征：无限任务、自我驱动任务生成、价值对齐、因果理解和体现。这些特征构成了系统评估系统的基础，该系统允许通过带有DEPI的虚拟环境来描述AGI里程碑。

与传统的AI测试系统不同，Tong测试提供了更全面和包容性的评估方法。它将通用算法测试范式与基于人-人工智能交互的测试范式相结合，灵感来自图灵测试的理念。Tong测试的虚拟平台通过动态体现交互场景生成无限任务，涵盖能力和价值的各个维度。

Tong 测试平台包含基础设施、DEPSI 环境和评估工具等基本组件。这种组合为构建具有无限任务的具身平台提供了一条实用的途径，其中人工智能算法可以通过人类交互在现场进行评估。

通过介绍Tong测试，本文为AGI的标准化和客观评估系统铺平了道路。它为AI算法的开发提供了理论指导，同时强调了DEPSI在评估AGI中的重要性。

观点文章的作者认为，Tong测试有可能通过促进标准化，定量和客观的基准来推动AGI评估领域向前发展。这不仅有助于AGI的进一步发展，而且还将促进人工智能社区的更大透明度和理解。

Tong测试：评估通用人工智能的新方法