当前位置：静雅生活网 > 数码百科 >

中科院自动化所「全模态」大模型亮相，图文音视频 3D 传感器信号都能理解

来源：静雅生活网作者：宋亦武发布时间：2023-06-18 16:42阅读次

导读：大模型搞多模态，做文字、图像、音视频这几样就够了？　　中科院自动化所说不：　　我们还加入了 3D 点云和更多传感器信号。　　国产大模型新成员，千亿参数全模态大模型「紫东

　　大模型搞多模态，做文字、图像、音视频这几样就够了？

　　中科院自动化所说不：

　　我们还加入了 3D 点云和更多传感器信号。

中科院自动化所「全模态」大模型亮相，图文音视频 3D 传感器信号都能理解

　　国产大模型新成员，千亿参数全模态大模型「紫东太初 2.0」正式亮相。

　　不光能认知和理解多模态数据，还能在多轮对话中进一步与用户交互。

　　AI 离理解现实世界中复杂多样的信息，又近了一步。

中科院自动化所「全模态」大模型亮相，图文音视频 3D 传感器信号都能理解

　　而且不仅如此，多个数据，甚至不同模态数据一起出现也难不倒它。

　　对于车内视角和车外视角的两个视频，可以找出共同特点。

　　图书馆照片和汽车鸣笛音频一起出现，也能分析出奇怪之处并给出解释。

中科院自动化所「全模态」大模型亮相，图文音视频 3D 传感器信号都能理解

　　认知、推理之外，紫东太初 2.0 也可以完成多模态生成任务。

　　图像、音频、视频一起出现，就能结合起来讲一个完整的故事。

中科院自动化所「全模态」大模型亮相，图文音视频 3D 传感器信号都能理解

　　又或者提取多模态数据中的特征并进行模仿。

中科院自动化所「全模态」大模型亮相，图文音视频 3D 传感器信号都能理解

　　AI 如何理解全模态？

　　为什么要做多模态甚至全模态？

　　团队介绍到，现实世界中本来就充满了复杂多样的异构信息，人类自己也是综合多模态信息去理解这个世界的。

中科院自动化所「全模态」大模型亮相，图文音视频 3D 传感器信号都能理解

　　从模态的种类来说，文本只是其中非常小的一部分。

　　但从数据收集的角度来说，文本却又是数据最丰富的。

　　AI 最擅长的就是从海量数据中提取出隐藏的规律，所以语言大模型进展最快也就不奇怪了。

　　其他模态数据本来就少，尤其是做多模态需要的配对数据就更稀缺。

　　拿大家已经很熟悉的文生图 AI 绘画来说，训练阶段需要大量的图 - 文配对数据，生产成本已经很高。

　　要想得到充足的文字、图像、音频、视频、3D、信号等模态之间的配对数据，那就想都别想了。

　　学术界为这个问题也想出一种解决办法：

　　以其中一种模态为核心，作为桥梁连接其他模态。

　　在科研探索中又分化出两条路线。

　　国外 Meta 的 ImageBind 选择了以图像为核心，

　　国内的紫东太初 2.0 团队则是 " 以语言为核心 " 路线的代表。

　　团队对此的考量是，图像能表达的语义还是不够丰富，比如像抽象的概念最后还是得靠语言。

　　以语言为核心连接起全模态数据，也为 AI 大模型打开很多新的应用空间，在发布会现场也做了展示。

　　全模态大模型用在哪？

　　外科手术中除了需要用到视觉，触觉传感器数据也同样重要。

　　两种数据跨模态融合，就解决了机器人辅助手术中的国际性难题。

中科院自动化所「全模态」大模型亮相，图文音视频 3D 传感器信号都能理解

　　同样是医学领域，医学影像、患者照片、病例等结合起来，还可以辅助罕见病的鉴别诊断。

中科院自动化所「全模态」大模型亮相，图文音视频 3D 传感器信号都能理解

　　交通领域，多模态协同推理也能更精准研判违规行为。

中科院自动化所「全模态」大模型亮相，图文音视频 3D 传感器信号都能理解

　　对于网络谣言常见的视频画面与音频播报内容不一致的手段，多模态大模型也能加以识别。

中科院自动化所「全模态」大模型亮相，图文音视频 3D 传感器信号都能理解

　　企业和组织想要借助这些全模态能力开发应用，也可以直接到紫东太初大模型开放服务平台。

中科院自动化所「全模态」大模型亮相，图文音视频 3D 传感器信号都能理解

　　简单来说，就是 AI 应用开发全生命周期的每一个环节所对应的服务都安排好了。

　　开放服务平台内置 MindSpore、Pytorch 等主流开源深度学习框架，提供大模型下游微调、自动学习、可视化拖拽建模、交互式代码开发等不同建模方式。主打全方位国产可控、快速切入客户场景，以及简单易用的人工智能建模和应用。

　　全模态大模型怎么炼成的？

　　说起来，全模态大模型并不是凭空出现。

　　2020 年 1 月，中科院自动化所就发起集团式攻关，聚焦多模态大模型路线

　　2021 年 9 月，发布首个千亿参数三模态大模型紫东太初 1.0，做到多模态统一表示，相互生成、推理。

中科院自动化所「全模态」大模型亮相，图文音视频 3D 传感器信号都能理解

　　在应用实践过程中又发现数字时代万物互联的新需求，融入 3D、视频、传感信号等更多模态数据，进一步突破感知、认知和决策的交互屏障。

　　但全模态也不是终点。

　　在发布会现场，中科院自动化研究所所长徐波表示，站在更宏观的视角，全模态大模型属于信息智能的突破。

　　未来要通向 AGI，势必还要与另两大路线 " 类脑智能 " 和 " 博弈智能 " 再次融合。

中科院自动化所「全模态」大模型亮相，图文音视频 3D 传感器信号都能理解

版权声明：本文部分来自互联网，由小编精心所写，本文地址：http://www.zhubian88.cn/smbk/91616.html，如需转载，请注明出处！

上一篇：iOS 17 首发体验，这些 Bug 找齐了

下一篇：4 千元 AI 围棋机器人来了！人机大战在家随时开打，职业九段水平，聂卫平点赞

请发表您的评论

全部评论（0）
最新最早

还没有评论，快来抢沙发吧！

联系我们

在线咨询：

微信号：weixin888

工作日：9:30-18:30，节假日休息