机器学习：教人工智能遗忘的关键艺术_专栏

易百纳社区

你有没有试过故意忘记你已经学到的东西？可想而知会有多难。

事实证明，机器学习（ML）模型也很难忘记信息。那么，当这些算法在过时、不正确或私有数据上进行训练时会发生什么？

每次原始数据集出现问题时从头开始重新训练模型是非常不切实际的。这导致了人工智能中对一个新领域的需求，称为机器学习。

随着似乎每隔一天就会提起新的诉讼，ML系统有效“忘记”信息的需求对企业来说变得至关重要。事实证明，算法在许多领域都非常有用，但无法忘记信息对隐私、安全和道德有着重大影响。

让我们仔细看看机器学习的新兴领域——教人工智能（AI）系统忘记的艺术。

因此，正如您现在可能已经收集到的那样，机器学习是消除特定数据集对 ML 系统的影响的过程。

大多数情况下，当数据集出现问题时，就是修改或简单地删除数据集。但是，在数据用于训练模型的情况下，事情可能会变得棘手。ML 模型本质上是黑匣子。这意味着很难准确了解特定数据集在训练期间如何影响模型，甚至更难以撤消有问题数据集的影响。

OpenAI是ChatGPT的创建者，他们多次因用于训练模型的数据而受到抨击。许多生成式人工智能艺术工具也面临着有关其训练数据的法律纠纷。

在成员资格推理攻击表明可以推断特定数据是否用于训练模型之后，也提出了隐私问题。这意味着模型可能会揭示有关其数据用于训练它的个人的信息。

虽然机器学习可能不会让公司远离法庭，但它肯定会帮助辩方的案件表明，关注的数据集已被完全删除。

使用当前的技术，如果用户请求删除数据，则需要重新训练整个模型，这是非常不切实际的。对于广泛访问的人工智能工具的发展，需要一种有效的方式来处理数据删除请求。

生成未学习模型的最简单解决方案是识别有问题的数据集，排除它们并从头开始重新训练整个模型。虽然这种方法目前是最简单的，但它非常昂贵和耗时。

最近的估计表明，训练ML模型目前的成本约为4万美元。由于数据集大小和计算能力需求的增加，预计到500年，这一数字将上升到惊人的2030亿美元。

在极端情况下，“蛮力”再培训方法可能是合适的最后手段，但它远非灵丹妙药的解决方案。

机器学习的相互冲突的目标提出了一个具有挑战性的问题。具体来说，在保留效用的同时忘记不良数据，这必须以高效率完成。开发一种比重新训练消耗更多能量的机器学习算法是没有意义的。

像任何新兴的技术领域一样，我们通常对自己想去的地方有一个很好的了解，但对如何到达那里却没有一个好主意。机器学习算法面临的一些挑战和限制包括：

解决所有这些问题是一项重大挑战，必须找到健康的平衡，以确保稳步进展。为了帮助应对这些挑战，公司可以聘请由人工智能专家、数据隐私律师和伦理学家组成的跨学科团队。这些团队可以帮助识别潜在风险并跟踪在机器取消学习领域取得的进展。

谷歌最近宣布了第一个机器学习挑战。这旨在解决迄今为止概述的问题。具体来说，谷歌希望统一和标准化摒弃算法的评估指标，并为这个问题提供新颖的解决方案。

展望未来，我们可以预期硬件和基础设施的进步，以支持机器学习的计算需求。跨学科合作可能会增加，这有助于简化开发。法律专业人士、伦理学家和数据隐私专家可以与人工智能研究人员联手，协调忘却算法的发展。

AI 和 ML 是动态且不断发展的领域。机器学习已经成为这些领域的一个关键方面，使它们能够更负责任地适应和发展。它确保了更好的数据处理能力，同时保持了模型的质量。

在更广泛的背景下，机器学习符合负责任人工智能的理念。它强调了对透明和负责任的系统的需求，并优先考虑用户隐私。

现在还处于早期阶段，但随着领域的发展和评估指标的标准化，实现机器学习将不可避免地变得更加易于管理。

机器学习：教人工智能遗忘的关键艺术