Arthur 推出开源 AI 模型评估器 Bench
总部位于纽约市的人工智能(AI)初创公司Arthur宣布推出Arthur Bench,这是一款开源工具,用于评估和比较大型语言模型(LLM)的性能,例如OpenAI的GPT-3.5 Turbo和Meta的LLaMA 2。
“通过Bench,我们创建了一个开源工具,帮助团队深入了解LLM提供者,不同的提示和增强策略以及定制培训制度之间的差异,”Arthur首席执行官兼联合创始人Adam Wenchel在一份新闻声明中说。
Arthur Bench允许公司在其特定用例上测试不同语言模型的性能。它提供了比较模型准确性、可读性、对冲和其他标准的指标。
Arthur包含了许多用于比较LLM性能的入门标准,但是由于该工具是开源的,使用它的企业可以添加自己的标准来满足他们的需求。
“你可以抓取用户问的最后100个问题,并在所有模型上运行它们。然后,Arthur Bench会突出显示答案差异很大的地方,这样你就可以手动检查这些答案,”Wenchel解释并补充说,目标是帮助企业在采用人工智能时做出明智的决策。
Arthur Bench加速了基准测试,并将学术措施转化为现实世界的商业影响。该公司将统计指标和分数以及对其他llm的评估相结合,对期望的llm的反应进行评分。
Wenchel表示,金融服务公司已经在使用Arthur Bench更快地生成投资论文和分析。
汽车制造商将其设备手册与许多页高度具体的技术指南结合起来,并使用Arthur Bench创建LLM,这些LLM能够回答客户的询问,同时快速准确地从所述手册中获取信息,同时减少幻觉。
另一个客户,企业媒体和出版平台Axios HQ,也在其产品开发方面使用Arthur Bench。
Arthur是开源的Bench,所以任何人都可以免费使用和贡献它。这家初创公司相信,开源方法可以带来最好的产品。
Arthur还宣布与亚马逊网络服务(AWS)和Cohere举办黑客马拉松,鼓励开发人员为Arthur Bench构建新的指标。
Wenchel表示,AWS用于在各种LLM之间进行选择和部署的Bedrock环境与Arthur Bench“在哲学上非常一致”。
该公司今年早些时候推出了Arthur Shield,以监测大型语言模型的幻觉和其他问题。
- 分享
- 举报
-
2023-09-07 10:24:09
-
浏览量:1784次2020-01-08 09:25:44
-
浏览量:1173次2024-03-19 14:33:55
-
浏览量:528次2023-08-04 11:03:53
-
浏览量:2109次2023-03-15 14:51:05
-
2020-11-18 14:29:08
-
2023-08-10 09:40:45
-
浏览量:748次2024-02-02 17:26:56
-
浏览量:1345次2023-03-01 13:44:37
-
浏览量:869次2023-12-08 17:13:21
-
浏览量:849次2023-07-18 16:09:02
-
浏览量:4152次2018-01-24 22:50:27
-
浏览量:4289次2021-02-24 14:28:29
-
浏览量:1105次2023-09-05 18:20:58
-
2023-11-23 14:00:42
-
浏览量:4995次2021-04-12 16:28:50
-
浏览量:2484次2019-06-03 10:31:09
-
浏览量:700次2024-01-17 17:52:57
-
浏览量:1006次2023-09-28 09:47:44
-
广告/SPAM
-
恶意灌水
-
违规内容
-
文不对题
-
重复发帖
艾
感谢您的打赏,如若您也想被打赏,可前往 发表专栏 哦~
举报类型
- 内容涉黄/赌/毒
- 内容侵权/抄袭
- 政治相关
- 涉嫌广告
- 侮辱谩骂
- 其他
详细说明