练算法打破了深度物理神经网络的障碍_专栏

EPFL研究人员开发了一种算法，可以像训练数字神经网络一样准确地训练模拟神经网络，从而能够开发出更高效的替代品来替代耗电的深度学习硬件。

凭借其通过算法“学习”而非传统编程处理大量数据的能力，像Chat GPT这样的深度神经网络的潜力往往是无限的。但随着这些系统的范围和影响的扩大，它们的规模、复杂性和能源消耗也在增加——后者的重要性足以引发人们对全球碳排放贡献的担忧。

虽然我们经常认为技术进步是从模拟到数字的转变，但研究人员现在正在数字深度神经网络的物理替代方案中寻找这个问题的答案。工程学院EPFL波浪工程实验室的Romain Fleury就是这样一位研究人员。

在《科学》杂志上发表的一篇论文中，他和他的同事描述了一种用于训练物理系统的算法，与其他方法相比，该算法显示出更快的速度、更强的鲁棒性和更低的功耗。

第一作者、LWE研究员Ali Momeni表示：“我们成功地在三个基于声波、光波和微波的物理系统上测试了我们的训练算法，这些物理系统使用声波、光波或微波来携带信息，而不是电子。但我们的多功能方法可以用于训练任何物理系统。”

神经网络训练是指帮助系统学习为图像或语音识别等任务生成最佳参数值。传统上，它包括两个步骤：前向通过网络发送数据，并根据输出计算误差函数；后向通过（也称为反向传播，或BP），计算误差函数相对于所有网络参数的梯度。

经过反复迭代，系统会根据这两次计算进行自我更新，以返回越来越准确的值。问题是什么？除了非常耗能之外，BP不太适合物理系统。事实上，训练物理系统通常需要BP步骤的数字孪生，这是低效的，并且具有现实模拟不匹配的风险。

科学家们建议用通过物理系统的第二次前向传递来替换BP步骤，以在本地更新每个网络层。除了减少功耗和消除对数字孪生的需求外，这种方法还更好地反映了人类的学习。

Momeni解释道：“神经网络的结构受到大脑的启发，但大脑不太可能通过BP进行学习。这里的想法是，如果我们在本地训练每个物理层，我们可以使用我们的实际物理系统，而不是首先建立它的数字模型。因此，我们开发了一种在生物学上更合理的方法。”

EPFL研究人员与CNRS IETR的Philipp del Hougne和Microsoft Research的Babak Rahmani一起，使用他们的物理局部学习算法（PhyLL）来训练实验声学和微波系统，以及建模的光学系统来对元音和图像等数据进行分类。该方法不仅显示出与基于BP的训练相当的准确性，而且与现有技术相比，即使在暴露于不可预测的外部扰动的系统中，该方法也具有鲁棒性和适应性。

虽然LWE的方法是首次对深度物理神经网络进行无BP训练，但仍需要对参数进行一些数字更新。Momeni说：“这是一种混合训练方法，但我们的目标是尽可能减少数字计算。”

研究人员现在希望在小规模的光学系统上实现他们的算法，最终目标是提高网络的可扩展性。

“在我们的实验中，我们使用了多达10层的神经网络，但它还能在100层、数十亿参数的情况下工作吗？这是下一步，需要克服物理系统的技术限制。”