微软推出理解图像内容、解决视觉难题的人工智能模型
周一,微软的研究人员推出了Kosmos-1,这是一种多模态模型,据报道,它可以分析图像中的内容,解决视觉难题,执行视觉文本识别,通过视觉智商测试,并理解自然语言指令。研究人员认为,整合文本、音频、图像和视频等不同输入模式的多模态人工智能是构建人工通用智能(AGI)的关键一步,该智能可以在人类水平上执行一般任务。
研究人员在其学术论文《语言不是你所需要的一切:将感知与语言模型相结合》中写道:“作为智能的基本组成部分,多模态感知是实现人工通用智能的必要条件,在知识获取和现实世界的基础上。”
Kosmos-1论文中的视觉示例显示了该模型分析图像并回答有关图像的问题,从图像中读取文本,为图像编写字幕,并以22%–26%的准确率进行视觉智商测试。
虽然媒体都在讨论大型语言模型(LLM)的新闻,但一些人工智能专家指出,多模态人工智能是通往通用人工智能的潜在途径,这种假设的技术表面上能够取代人类完成任何智力任务(以及任何智力工作)。AGI是OpenAI的既定目标,OpenAI是微软在人工智能领域的关键业务合作伙伴。
在这种情况下,Kosmos-1似乎是一个没有OpenAI参与的纯微软项目。研究人员称他们的创造为“多模态大语言模型”(MLLM),因为它的根源在于自然语言处理,就像纯文本的LLM,如ChatGPT。它表明:为了让Kosmos-1接受图像输入,研究人员必须首先将图像翻译成LLM可以理解的一系列特殊符号(基本上是文本)
微软使用来自网络的数据训练了Kosmos-1,训练后,他们评估了Kosmos-1在几个测试中的能力,包括语言理解、语言生成、光学字符识别自由文本分类、图像字幕、视觉问题解答、网页问题解答和零镜头图像分类。根据微软的说法,在这些测试中,Kosmos-1的表现优于目前最先进的模型。
特别令人感兴趣的是Kosmos-1在Raven的渐进推理中的表现。它通过呈现一系列形状并要求应试者完成序列来衡量视觉智商。为了测试Kosmos-1,研究人员进行了一次一次的填写测试,每个选项都完成了,并询问答案是否正确。Kosmos-1在Raven测试中只有22%的时间能正确回答一个问题(微调后为26%)。这绝不是一次扣篮,方法上的错误可能会影响结果,但Kosmos-1在Raven IQ测试中击败了随机机会(17%)。
尽管如此,虽然Kosmos-1代表了多模态领域的早期步骤(其他人也在采用这种方法),但很容易想象,未来的优化可能会带来更显著的结果,使AI模型能够感知任何形式的媒体并对其进行操作,这将大大增强人工助理的能力。在未来,研究人员表示,他们希望在模型大小上扩大Kosmos-1,并整合语音能力。
- 分享
- 举报
-
浏览量:452次2023-09-16 10:51:37
-
浏览量:646次2023-08-29 09:48:16
-
浏览量:1237次2022-12-06 19:29:47
-
浏览量:1537次2018-03-05 16:55:27
-
浏览量:2067次2020-06-28 18:42:37
-
浏览量:1352次2019-09-12 14:00:08
-
浏览量:467次2023-09-15 10:14:32
-
浏览量:1915次2020-06-09 10:26:53
-
浏览量:627次2023-08-04 10:24:56
-
浏览量:1832次2020-04-28 09:34:43
-
浏览量:4233次2017-11-02 17:07:21
-
浏览量:2132次2017-12-01 17:23:13
-
2020-12-08 10:24:22
-
浏览量:4735次2021-07-30 17:02:58
-
浏览量:1041次2023-01-13 11:31:19
-
浏览量:2458次2017-12-24 23:56:46
-
浏览量:3403次2020-02-27 10:34:09
-
浏览量:620次2023-10-24 13:59:57
-
2023-08-05 10:14:49
-
广告/SPAM
-
恶意灌水
-
违规内容
-
文不对题
-
重复发帖
tomato
感谢您的打赏,如若您也想被打赏,可前往 发表专栏 哦~
举报类型
- 内容涉黄/赌/毒
- 内容侵权/抄袭
- 政治相关
- 涉嫌广告
- 侮辱谩骂
- 其他
详细说明