首页 > 活动

焦点日报:Meta开源多感官AI模型,文本、音频、图像6种模态内容随意生成

发表时间:2023-05-15 12:52:23 来源:研元社

微软、谷歌在AI领域打的火热,国内科技公司也没闲着,一款款大模型陆续推出…这波国际AI竞赛中,Meta却像隐身了一样,就连上周白宫邀请科AI领域领先公司CEO会面,Meta也不在列。

不过这次,Meta开源的跨感官AI模型可谓是刷足了存在感。MetaImageBind模型可以同时绑定文本、图像和视频、音频、热点图、IMU(惯性测量单元)和深度数据六种感官数据,这也是全球首个开源的多感官AI模型。


多模态AI模型,让AI的回答更有“想象力”

据官方介绍,ImageBind通过学习将多个感官输入绑定在一起,无需明确的监督。它可以支持来自六种模态中任何一种的输入,从而实现基于音频的搜索、跨模态搜索、多模态算法和跨模态生成。


(相关资料图)

简单的说就是可以根据音频创建图像,也可以通过图像生成文本和音频。比如输入火车开动的声音就能生成火车进站的图像或视频。输入一张鸟类的照片加引擎声的音频,就能生成一张“鸽子在摩托车周围飞”的图片。

对人类来说,我们可以通过查看汽车模型的照片想到发动机的声音,听到街上熙熙攘攘的声音想到车水马龙的画面,这是因为人的感官是互通的。然而在目前的AI大模型领域,还没有一款能够做到感官互通的产品,即使是ChatGPT、Midjourney等工具也都是在文本或图像生成一方面被广泛应用。

Meta通过将六种模态的嵌入对齐到一个公共空间,让ImageBind可以跨模态检索未同时观察到的不同类型的内容,添加来自不同模态的嵌入以自然地组合它们的语义,以及通过音频到图像的生成使用我们的音频嵌入和预训练的DALLE-2解码器来处理CLIP文本嵌入。

在论文中,研究人员描述称ImageBind可以胜过任意一种针对特定模态单独训练的“专家”模型。最重要的是,它通过使机器能够更好地分析多种不同形式的信息来帮助推进人工智能。

典型的人工智能系统中,每个模态都有特定的嵌入(即可以表示数据及其在机器学习中的关系的数字向量)。ImageBind表明可以跨多种模态创建联合嵌入空间,而无需使用每种不同模态组合对数据进行训练。

ImageBind是Meta致力于创建多模态AI系统的一部分,该系统可以从周围所有可能类型的数据中学习。随着模态数量的增加,ImageBind为研究人员打开了尝试开发新的整体系统的闸门,例如结合3D和IMU传感器来设计或体验身临其境的虚拟世界。


ImageBind能做什么?

在演示中,Meta展示了ImageBind通过不同感官数据生成其他类型文件的功能。

比如选择狗狗的图片就能得到对应狗叫的音频,选择老虎或小鸟的图片也能得到相对应的声音。

使用音频检索图像时,选择鸟儿唱歌的声音就能得到小鸟的图片,选择狗叫、火车运行也能快速生成符合音频内容的图片。

Meta还支持用一种数据生成两种或两种以上的内容,比如使用文本检索图像和音频,选择“鼓”、“喵喵叫”、“火车”等关键词可以一下得出音频和图像两种回答。

除了以上的几种例子,还可以选择用音频和图像检索图片,用音频生成图片等等模式。

Meta研究人员表示:“图像对齐的自监督学习表明,我们的模型的性能实际上可以通过使用很少的训练示例来提高。我们的模型具有新的紧急能力,或扩展行为——也就是说,在较小的模型中不存在但出现在较大的版本中的能力。这可能包括识别哪些音频适合特定图像或预测照片场景的深度。”

在实验中,Meta使用了ImageBind的音频和深度编码器,并将它们与零镜头检索以及音频和深度分类任务中的先前工作进行了比较。基于基准测试,ImageBind在音频和深度方面优于专业模型。


ImageBind能够使用多种模式进行输入查询并检索其他模式的输出,为创作者展示了新的可能性。人们甚至可以根据音频分割和识别图像中的对象,可以通过将静态图像与音频提示相结合来从静态图像中创建动画。

Meta表示,虽然在当前的研究中已经探索了六种模式,但他们相信,引入连接尽可能多的感官(如触觉、语音、嗅觉和大脑fMRI信号)的新模式将使以人为中心的人工智能模型更加丰富。

与OpenAI的选择相反,虽然ImageBind还没有正式面向用户开放使用,但它的项目代码已在GitHub开源,目前已收获了4.4kStar。

尽管在目前的AI研究和商业成就方面Meta处于竞争劣势,但它一直坚定地站在开源阵营中,这种方式有助于第三方帮助检查错误并改善系统,甚至可能为Meta带来更多商业利益。

关于多模态学习,还有很多东西有待发现。AI研究界尚未有效量化仅出现在较大模型中的缩放行为并了解它们的应用。ImageBind是朝着以严格的方式评估它们并展示图像生成和检索中迈出的全新一步。

上一篇:$previous_page['title']}

下一篇:最后一页

推荐阅读