Arthur 推出开源 AI 模型评估器 Bench_专栏

易百纳社区

总部位于纽约市的人工智能（AI）初创公司Arthur宣布推出Arthur Bench，这是一款开源工具，用于评估和比较大型语言模型（LLM）的性能，例如OpenAI的GPT-3.5 Turbo和Meta的LLaMA 2。

“通过Bench，我们创建了一个开源工具，帮助团队深入了解LLM提供者，不同的提示和增强策略以及定制培训制度之间的差异，”Arthur首席执行官兼联合创始人Adam Wenchel在一份新闻声明中说。

Arthur Bench允许公司在其特定用例上测试不同语言模型的性能。它提供了比较模型准确性、可读性、对冲和其他标准的指标。

Arthur包含了许多用于比较LLM性能的入门标准，但是由于该工具是开源的，使用它的企业可以添加自己的标准来满足他们的需求。

“你可以抓取用户问的最后100个问题，并在所有模型上运行它们。然后，Arthur Bench会突出显示答案差异很大的地方，这样你就可以手动检查这些答案，”Wenchel解释并补充说，目标是帮助企业在采用人工智能时做出明智的决策。

Arthur Bench加速了基准测试，并将学术措施转化为现实世界的商业影响。该公司将统计指标和分数以及对其他llm的评估相结合，对期望的llm的反应进行评分。

Wenchel表示，金融服务公司已经在使用Arthur Bench更快地生成投资论文和分析。

汽车制造商将其设备手册与许多页高度具体的技术指南结合起来，并使用Arthur Bench创建LLM，这些LLM能够回答客户的询问，同时快速准确地从所述手册中获取信息，同时减少幻觉。

另一个客户，企业媒体和出版平台Axios HQ，也在其产品开发方面使用Arthur Bench。

Arthur是开源的Bench，所以任何人都可以免费使用和贡献它。这家初创公司相信，开源方法可以带来最好的产品。

Arthur还宣布与亚马逊网络服务（AWS）和Cohere举办黑客马拉松，鼓励开发人员为Arthur Bench构建新的指标。

Wenchel表示，AWS用于在各种LLM之间进行选择和部署的Bedrock环境与Arthur Bench“在哲学上非常一致”。

该公司今年早些时候推出了Arthur Shield，以监测大型语言模型的幻觉和其他问题。

Arthur 推出开源 AI 模型评估器 Bench