超快速生成式视觉智能模型,只需 2 秒即可创建图像

超快速生成式视觉智能模型,只需 2 秒即可创建图像 V 2024-02-26 11:37:42 657

易百纳社区

ETRI的研究人员推出了一项技术,该技术结合了生成式AI和视觉智能,可在短短2秒内从文本输入中创建图像,从而推动了超快速生成式视觉智能领域的发展。

电子通信研究院(ETRI)表示,将向公众推出5种型号。其中包括三个“KOALA”模型,它从文本输入中生成图像的速度比现有方法快五倍,以及两个会话视觉语言模型“Ko-LLaVA”,它可以用图像或视频进行问答。

“KOALA”模型使用知识蒸馏技术将公共软件模型的参数从25.6 b(25.6亿)显著减少到700M(7亿)。大量的参数通常意味着更多的计算,从而导致更长的处理时间和更高的操作成本。研究人员将模型尺寸缩小了三分之一,并将高分辨率图像的生成速度提高到以前的两倍,比DALL-E 3快五倍。

ETRI已经设法大大减小了模型的尺寸(1.7B(大),1B(小),700M(小)),并将生成速度提高到2秒左右,使其能够在只有8GB内存的低成本gpu上运行,在国内外竞争激烈的文本到图像生成环境中。

ETRI内部开发的三种“KOALA”模型已经在HuggingFace环境中发布。

在实际操作中,etri开发的“KOALA 700M”模型在输入“宇航员在火星的月亮下看书的照片”这句话时,只需要1.6秒就能生成照片,比Kakao Brain的“Kallo”(3.8秒)、OpenAI的“DALL-E 2”(12.3秒)、“DALL-E 3”(13.7秒)快得多。

ETRI还推出了一个网站,用户可以直接比较和体验共9种模型,包括两种公开的稳定扩散模型,BK-SDM, Karlo, DALL-E 2, DALL-E 3和三种KOALA模型。

此外,研究小组还公布了会话视觉语言模型“Ko-LLaVA”,该模型为ChatGPT等会话人工智能添加了视觉智能。该模型可以检索图像或视频,并对其进行韩语问答。

“LLaVA”模型是在与 Wisconsin-Madison和ETRI的国际联合研究项目中开发的,并在著名的人工智能会议NeurIPS'23上发表,并利用开源的LLaVA(大型语言和视觉助理),具有GPT-4级别的图像解释能力。

研究小组正在进行扩展研究,以提高韩语理解能力,并引入以影像等多模态模型为基础的前所未有的视频解释能力。

此外,ETRI还预先发布了自己的基于韩语的紧凑语言理解生成模型(KEByT5)。已发布的型号(330M(小型),580M(基础),1.23B(大型))采用无标记技术,能够处理新词和未经训练的单词。训练速度提高2.7倍以上,推理速度提高1.4倍以上。

研究团队预计,生成式人工智能市场将从以文本为中心的生成模型逐渐转变为多模态生成模型,在模型大小的竞争格局中,新兴趋势是更小、更高效的模型。

声明:本文内容由易百纳平台入驻作者撰写,文章观点仅代表作者本人,不代表易百纳立场。如有内容侵权或者其他问题,请联系本站进行删除。
V
红包 点赞 收藏 评论 打赏
评论
0个
内容存在敏感词
手气红包
    易百纳技术社区暂无数据
相关专栏
置顶时间设置
结束时间
删除原因
  • 广告/SPAM
  • 恶意灌水
  • 违规内容
  • 文不对题
  • 重复发帖
打赏作者
易百纳技术社区
V
您的支持将鼓励我继续创作!
打赏金额:
¥1易百纳技术社区
¥5易百纳技术社区
¥10易百纳技术社区
¥50易百纳技术社区
¥100易百纳技术社区
支付方式:
微信支付
支付宝支付
易百纳技术社区微信支付
易百纳技术社区
打赏成功!

感谢您的打赏,如若您也想被打赏,可前往 发表专栏 哦~

举报反馈

举报类型

  • 内容涉黄/赌/毒
  • 内容侵权/抄袭
  • 政治相关
  • 涉嫌广告
  • 侮辱谩骂
  • 其他

详细说明

审核成功

发布时间设置
发布时间:
是否关联周任务-专栏模块

审核失败

失败原因
备注
拼手气红包 红包规则
祝福语
恭喜发财,大吉大利!
红包金额
红包最小金额不能低于5元
红包数量
红包数量范围10~50个
余额支付
当前余额:
可前往问答、专栏板块获取收益 去获取
取 消 确 定

小包子的红包

恭喜发财,大吉大利

已领取20/40,共1.6元 红包规则

    易百纳技术社区