Arthur 推出开源 AI 模型评估器 Bench

Arthur 推出开源 AI 模型评估器 Bench 2023-08-18 09:28:18 837

易百纳社区

总部位于纽约市的人工智能(AI)初创公司Arthur宣布推出Arthur Bench,这是一款开源工具,用于评估和比较大型语言模型(LLM)的性能,例如OpenAI的GPT-3.5 Turbo和Meta的LLaMA 2

“通过Bench,我们创建了一个开源工具,帮助团队深入了解LLM提供者,不同的提示和增强策略以及定制培训制度之间的差异,”Arthur首席执行官兼联合创始人Adam Wenchel在一份新闻声明中说。

Arthur Bench允许公司在其特定用例上测试不同语言模型的性能。它提供了比较模型准确性、可读性、对冲和其他标准的指标。

Arthur包含了许多用于比较LLM性能的入门标准,但是由于该工具是开源的,使用它的企业可以添加自己的标准来满足他们的需求。

“你可以抓取用户问的最后100个问题,并在所有模型上运行它们。然后,Arthur Bench会突出显示答案差异很大的地方,这样你就可以手动检查这些答案,”Wenchel解释并补充说,目标是帮助企业在采用人工智能时做出明智的决策。

Arthur Bench加速了基准测试,并将学术措施转化为现实世界的商业影响。该公司将统计指标和分数以及对其他llm的评估相结合,对期望的llm的反应进行评分。

Wenchel表示,金融服务公司已经在使用Arthur Bench更快地生成投资论文和分析。

汽车制造商将其设备手册与许多页高度具体的技术指南结合起来,并使用Arthur Bench创建LLM,这些LLM能够回答客户的询问,同时快速准确地从所述手册中获取信息,同时减少幻觉。

另一个客户,企业媒体和出版平台Axios HQ,也在其产品开发方面使用Arthur Bench。

Arthur是开源的Bench,所以任何人都可以免费使用和贡献它。这家初创公司相信,开源方法可以带来最好的产品。

Arthur还宣布与亚马逊网络服务(AWS)和Cohere举办黑客马拉松,鼓励开发人员为Arthur Bench构建新的指标。

Wenchel表示,AWS用于在各种LLM之间进行选择和部署的Bedrock环境与Arthur Bench“在哲学上非常一致”。

该公司今年早些时候推出了Arthur Shield,以监测大型语言模型的幻觉和其他问题。

声明:本文内容由易百纳平台入驻作者撰写,文章观点仅代表作者本人,不代表易百纳立场。如有内容侵权或者其他问题,请联系本站进行删除。
红包 点赞 收藏 评论 打赏
评论
0个
内容存在敏感词
手气红包
    易百纳技术社区暂无数据
相关专栏
置顶时间设置
结束时间
删除原因
  • 广告/SPAM
  • 恶意灌水
  • 违规内容
  • 文不对题
  • 重复发帖
打赏作者
易百纳技术社区
您的支持将鼓励我继续创作!
打赏金额:
¥1易百纳技术社区
¥5易百纳技术社区
¥10易百纳技术社区
¥50易百纳技术社区
¥100易百纳技术社区
支付方式:
微信支付
支付宝支付
易百纳技术社区微信支付
易百纳技术社区
打赏成功!

感谢您的打赏,如若您也想被打赏,可前往 发表专栏 哦~

举报反馈

举报类型

  • 内容涉黄/赌/毒
  • 内容侵权/抄袭
  • 政治相关
  • 涉嫌广告
  • 侮辱谩骂
  • 其他

详细说明

审核成功

发布时间设置
发布时间:
是否关联周任务-专栏模块

审核失败

失败原因
备注
拼手气红包 红包规则
祝福语
恭喜发财,大吉大利!
红包金额
红包最小金额不能低于5元
红包数量
红包数量范围10~50个
余额支付
当前余额:
可前往问答、专栏板块获取收益 去获取
取 消 确 定

小包子的红包

恭喜发财,大吉大利

已领取20/40,共1.6元 红包规则

    易百纳技术社区