Meta 开发出文本生成图像模型 CM3Leon,号称业界最佳

互联网资讯 互联网资讯 发布于 10个月前 18 浏览 0 回复

7 月 16 日消息,Meta 公司宣布开发出一款名为 CM3Leon 的人工智能模型,该模型可以根据文本生成高质量的图像,也可以为图像生成文本描述,甚至可以根据文本指令编辑图像。

燃领网注:CM3Leon 生成结果(上)对比 DALL-E 2 生成结果(下)

Meta 公司称,这款模型在文本到图像生成方面达到了业界最高水平,超过了谷歌、微软等公司的产品。CM3Leon 是一种基于 Transformer 的模型,Transformer 是一种利用注意力机制来处理输入数据的神经网络结构。相比于其他基于扩散(diffusion)的模型,Transformer 模型更加高效,训练速度更快,计算成本更低。

Meta 公司展示了 CM3Leon 在不同任务上的优异表现,包括根据复杂的文本提示生成图像,根据文本指令编辑图像,以及生成图像描述和回答。Meta 公司表示,CM3Leon 是图像生成和理解领域的一大进步,但也承认该模型可能存在数据偏见的问题,并呼吁行业加强透明度和监管。

Meta 公司使用了数百万张来自 Shutterstock 的授权图片来训练 CM3Leon,最强大的版本有 70 亿个参数,比 OpenAI 的 DALL-E 2 模型多两倍。

Meta 公司没有透露是否会公开发布 CM3Leon 模型。



同类文章推荐:

  • 一周连遇 3 个零日漏洞,谷歌紧急发布 Chrome 浏览器更新修复
  • 华为 WATCH FIT 3 智能手表海外发布:1.82 英寸 AMOLED 屏幕,159.99 欧元起
  • TIOBE 发布 5 月编程指数排行榜,Fortran 语言首次进入前 10 名
  • 分析公司:Java 17 仍为业界最常用 LTS 版本,Oracle JDK 占比逐渐下降
  • 谷歌上传系列补丁,删除安卓 ACK 内核对 RISC-V 架构的支持
  • 拆解显示:华为 Pura 70 手机零部件国产化率超 90%