紫东太初 – 中科院旗下AI全模态大模型
一、紫东太初的定义与基本情况
紫东太初是由中国科学院自动化研究所和武汉人工智能研究院等联合研发的人工智能大模型。2021年发布的紫东太初1.0是全球首个千亿参数多模态大模型,以多模态技术为核心,这里的多模态是指利用图 – 音 – 文(图像、语音、文本)等多种类型数据进行跨模态的统一表征和学习,实现了图像、文本、语音三模态数据间的统一表示与相互生成,这打破了传统单一模态或少量模态为主的人工智能模型的局限,向通用人工智能迈出了重要一步。
例如,在传统模型中,如果是做图像识别,可能只能单纯基于图像数据训练模型识别图像中的物体等信息;而紫东太初能够将图像、文本和语音等不同模态的数据整合起来,像了解一张图像不仅可以基于图像本身的像素等信息,还能结合与之相关的文字描述以及语音讲解等多方面的信息进行深度理解和判断。也正因为这种多模态能力,它开创性地实现了“以图生音”和“以音生图”,即在三模态之间实现相互转换,它能理解不同模态数据背后较为统一的语义信息,而非单独看待每个模态的数据内容,这是理解它最核心的一点。
二、紫东太初的独特之处
(一)跨模态的能力
- 理解与生成能力 紫东太初具有强大的跨模态理解和生成能力。在跨模态理解方面,它能对不同模态的数据进行综合分析以获取相关的语义内容,就像人类可以从看到的场景(图像)、听到的话语(语音)和阅读的文字(文本)全方位理解一个事件一样。例如在多模态对话场景中,无论用户输入的是文本描述、语音信息还是上传相关的图像,它都能理解其中的含义并作出合适的回应。 在跨模态生成方面,基于多模态统一知识表示,能够通过已有的一种或多种模态数据生成另外的模态数据。例如输入一段描述自然风景的文字,它可以生成一幅与此描述相符的图像;或者给出一幅特定的图像后,能生成一段与之相匹配的语音解说内容。
- 无监督学习特征 它可在无监督情况下进行多任务联合学习,并能够快速迁移到不同领域的数据。相比传统的监督学习需要海量的标注数据,无监督学习大大减少了对标注数据的依赖。紫东太初在不同数据领域之间迁移学习能力使得它可以在新的领域或者任务中快速适应,利用之前在其他数据的学习成果来更好地处理新问题。比如在从医疗图像数据到自然图像数据的任务转换中,它能够借助之前对于图像特征的无监督知识来快速在新的自然图像数据场景下开展相关任务,如识别图像中的特定物体等操作。
(二)语义空间表征与利用
紫东太初在引入语音模态后实现了共性图文音语义空间表征和利用,首次突破性地直接实现三模态的统一表示。这一特点意味着在模型内部构建了一个能够概括图像、文本、语音共同语义特征的空间,在这个语义空间中,可以更为高效地对不同模态数据之间的数学关系、语义联系等进行挖掘和利用。例如在生成与图像内容匹配的语音描述时,模型在这个语义空间中能快速找到对应图像在语音描绘方面的相关语义因子,从而准确生成与图像贴合度很高的语音内容;反之,当有一段语音输入时,也能在该语义空间里定位到对应的图像相关语义,生成与之相符的图像等工作。
(三)全模态的拓展
- 不同版本模态的扩充 紫东太初1.0多模态体现在图像、文本、语音基础上;紫东太初2.0于2023年6月发布,在原有基础上做出了突破。基于华为全栈国产化软硬件平台升腾AI与升思MindSpore,它的多模态在文本、图片、音频基础上进一步融入3D、视频、传感信号等更多模态数据,这使得模型能够从更多维度感知周围世界。在处理复杂场景时,如医疗多模态鉴别诊断场景中,就可以综合利用2D图像、3D成像、各种传感信号(如心跳传感器信号等)、视频以及文字病历等多种模态数据进行更为精准的诊断,而不仅仅局限于传统的单模态或者少量模态数据进行判断分析。
- 模型能力提升 紫东太初2.0还着力提升了决策与判断能力,并优化了语音、视频和文本的融合认知以及常识计算等功能。比如在日常安防监控领域,它可以同时对监控视频图像、音频报警信号以及与之相关的文字操作指南等多个模态数据进行综合处理,更好地判断异常情况,并且做出准确的决策,如在检测到有人员非法闯入禁区(图像判断)并且伴随着大声喧哗(音频判断)后,结合预定义的安全规则文字信息,做出报警或者提醒安保人员的决策等,相比于之前的版本,决策反应更为快速和准确。
三、紫东太初的应用场景
(一)智能制造领域
- 传统工业的改进 在传统工业中,以织物疵点检测为例。紫东太初的多模态能力可以整合织物图像信息、工人描述疵点的语音或者文本记录等多模态数据。在2022年11月相关展示中,其成果将织物疵点识别从纯手工升级到自动操作,可以识别70多种不同的疵点,疵点识别的检出率从70%左右提高到90%以上,精度相对之前提升了4倍左右,并且支持一键微调,达到了与熟练验布师一样的精度要求,这极大地帮助传统工业提升检测效率和准确性。
- 质量检测、生产管理等环节 在汽车生产、机械制造等过程中的质量检测环节,可以利用紫东太初整合各类传感器数据(传感信号模态)、产品外观图像数据、质检标准文档(文本模态)等信息。比如在汽车生产线上,通过输入汽车发动机等部件的图像数据、传感器检测的部件运作数据以及相关工作流程和质检规范的文本数据,来精确判断部件是否合格,有没有磨损、装配是否正确等问题。在生产计划安排、调度等生产管理方面,也可以综合考虑生产订单文字需求、库存监控的视频或者图像信息,以及相关决策指挥语音命令等多个模态数据进行更为智能合理的生产规划。
(二)医疗领域
- 多模态诊断 紫东太初可用于医疗多模态鉴别诊断。医疗场景中有多种模态的数据,如X光、CT、MRI等影像资料属于图像模态,医生的诊断记录属于文本模态,还有监护仪等设备产生的生理信号数据属于传感信号模态等。该模型能够综合这些不同模态的数据信息,对病情进行更深入准确的鉴别诊断。比如针对某种复杂的脑部病症,它可以同时结合脑部CT影像图(查看结构病变情况 – 图像模态)、脑电波等神经传感信号(分析大脑功能状态 – 传感信号模态)、医生对患者之前病历史的文字记录等,全方位评估病情,提高诊断的准确性和科学性。
- 医疗影像应用探索 在医疗影像领域有着较大的潜在应用价值。汉王科技等企业就在探讨如何将紫东太初转化应用在“医疗影像”等专业领域,例如更高效准确地识别医疗影像中的肿瘤、血管病变等关键信息,或者提高影像判断的效率,进而辅助医生快速做出诊断决策。
(三)文化与内容创作领域
- AI内容创作平台 紫东太初在内容创作方面也具备能力,例如以其为基础打造的江城洛神AI内容创作平台。这个平台将多模态扩散生成模型与紫东太初相结合,可以实现以语义引导的图像编辑和生成,辅助用户制作各类内容,像生成具有创意的宣传图片、文化艺术作品等,用户可以通过输入文字的创意描述等方式,让模型帮助生成与之相关的图像或者进一步规划创作内容等方案。
- 文旅场景 与文旅产业相结合,例如为杭州打造的智能文旅虚拟人“杭小忆”,可以为游客提供多模态的文旅服务。它既可以用语音向游客介绍当地的旅游景点(利用语音、文本模态,如念读景点的文字介绍转化为语音),也可以根据游客的文字或者语音需求,提供相关景点的图像或者视频进行展示(实现图像、视频模态输出),丰富了游客体验旅游文化的方式,为文旅行业打造具有科技感的新型服务模式。
(四)智能驾驶领域
- 提升训练效率 在智能驾驶领域,紫东太初大模型的表现尤为引人注目。它能够替代海量的人工,完成汽车、信号灯、路标等数据的自动标注,大幅提升智能汽车感知世界的效率。例如在传统的自动驾驶研发训练过程中,需要人工对大量在路上采集的图像(包含汽车、信号灯、路标等物体的图像)进行标注,确定各个物体的类型、位置等信息,但紫东太初可以通过其多模态数据处理能力快速分析这些数据自动进行标注工作,缩短了训练数据的准备周期,这对智能驾驶整个研发过程起到了不可忽视的加速作用 。
- 驾驶决策辅助 当接入汽车系统后,紫东太初能够深层次地学习、理解驾驶目标和意图,快速将环境信息(图像、语音等周边复杂环境信息)翻译成设备能读懂的语言,并预测未来几秒内的情况,提前向汽车下达合适的指令。比如在遇到复杂的十字路口路况时,通过分析交通信号灯(图像识别)、周围车辆司机鸣笛声(语音识别)等多种环境信息,准确判断应该加速、减速还是停车等操作,提升了智能驾驶过程中的决策安全性和合理性 。
四、紫东太初的研发历程
(一)起步阶段
- 早期研发基础 中国科学院自动化研究所早在2019年就确立了多模态大模型布局,整合所内图像、文本、语音等研究方向的优势资源开展集团式攻关,这为紫东太初的诞生奠定了坚实的研究基础。多模态在当时被看作是突破传统人工智能瓶颈,向通用人工智能迈进的重要路径,因此研究团队集中精力对图像、文本、语音等多模态数据的处理方法、不同模态之间的协同机制等方面开展了深入的基础研究工作。
- 紫东太初1.0发布 经过前期不懈努力,2021年7月9日,紫东太初1.0正式发布,这是全球首个千亿参数多模态大模型,由中科院自动化所和华为联合开发。紫东太初1.0的发布标志着多模态人工智能领域的一个重要里程碑,它首次展示了多模态大模型在实现图像、文本、语音三模态统一表示和相互生成方面的能力,也就是能够将三种不同类型的模态数据在一个模型框架下进行整合处理,这一创新成果吸引了众多人工智能领域研究人员的广泛关注。在发布后的当月(2021年7月29 – 31日),紫东太初模型在首届中国计算大会上被授予DC科技创新先锋优秀成就奖,同年,还在国际多媒体大会和国际计算机视觉大会等人工智能领域的国际比赛中获得了第一名,这些成绩说明了紫东太初1.0在发布初期就在国际上展示出了较强的实力 。
(二)发展与升级阶段
- 2.0版本筹备 在紫东太初1.0取得一定成果的基础上,研发团队继续探索提升模型性能的技术路径。紫东太初2.0开始向更多模态方向拓展,并希望能在决策判断、认知融合等关键能力上有所提升。在技术架构方面,开始向华为全栈国产化软硬件平台升腾AI与升思MindSpore转变和深入融合,这个过程中研究团队不断探索如何挖掘更多模态数据之间的关系,并利用好国产的计算平台来提高模型的性能和效率。例如在针对3D、视频、传感信号等较为复杂的模态数据接入时,团队要研究如何编写算法在新的计算平台上让模型可以有效处理这些数据信息,包括如何融合各种模态数据提升决策判断能力,如解决多模态数据融合中的噪声处理、数据特征协调等技术挑战。
- 紫东太初2.0发布及意义 2023年6月,紫东太初2.0正式发布。它是在紫东太初1.0基础上的一次重大升级。除了在模态上拓展到包含视频、传感信号、3D点云等更多模态数据,还突破了认知增强多模态关联等关键技术,具备了全模态理解能力、生成能力和关联能力。这一版本的发布使得紫东太初在全模态认知方面有了更强的表现,其应用场景在原有的基础上进一步扩展。例如在智能对话场景中,对于用户输入的涉及视频内容、3D空间描述、传感物理量状态等多模态混合信息的输入可以进行更好的理解和应对;在工业生产场景中,可以综合更多的生产流程监控数据(包括3D生产环境监测、传感器设备实时数据等)进行更为智能的生产决策等。紫东太初2.0发布后也获得了众多认可,它在2023年8月19日召开的中国计算力大会暨第二届计算力产业大会上获得计算中国年度突破成就奖中的唯一大模型奖,并且在2023年8月31日通过备案,于9月正式对外开放服务,让更多的用户和企业能够体验和使用该模型,进一步推动了其在各个领域的应用探索。
(三)展望新阶段
- 紫东太初3.0规划与研发 2024年上半年发布紫东太初3.0是研发进程中的有一个重要计划。根据官方消息,紫东太初3.0将在各项性能优化的基础上,具备自主选择、使用工具的能力,满足更深层次的逻辑交互需要。研发团队在这一版本中将重点解决模型如何像人类一样进行更为复杂的思考和逻辑交互。例如,模型能否在处理一个复杂的任务场景时,像人类一样根据当前的多模态数据状态自主选择合适的工具或者算法进行处理。在智能驾驶等领域就是一个巨大的突破需求,如果车辆遭遇意外复杂路况,紫东太初3.0能够像有经验的司机一样,快速自主判断调用特定的分析工具(例如调用高精度地图分析工具、车辆动力学分析工具等)来更好地应对危机,做出更接近人类驾驶习惯和安全需求的决策[ 。
- 3.0版本发布及初步成果 2024年11月26日,紫东太初3.0成功发布。紫东太初3.0实现了从模态独立编码到多模态统一原生编码的转变,并构建了基于通用行为对齐的多模态学习统一范式,首次实现了多模态复杂任务的推理和求解,更接近于人类的理解、推理和思考能力。
五、紫东太初的未来发展
(一)技术能力持续提升
- 向类人思考不断进化 紫东太初3.0朝着使设备更像人迈进了重要一步,后续版本仍然会在这个方向上持续努力。如构建更为复杂精准的多模态语义理解和推理模式,使其不仅能处理简单的跨模态生成和理解任务,还可以对复杂的、包含多个模态混合及其嵌套关系(类似一个任务中图像、语音、文本多种模态按照特定逻辑先后或者同时出现并且相互影响等情况)的数据进行高效的处理与推理。例如在应对复杂电影片段场景解析时,能够像影评人一样准确分析出其中人物关系、情节发展的多模态因素等。这可能需要开发新的算法来提升模型对模态层次关系的深度挖掘能力,例如设计新的注意力机制或者层次信息编码策略等。
- 性能优化与新模态探索 在性能优化上,持续提高模型运行效率、降低计算资源消耗也是发展方向之一。例如通过改进模型结构或者优化数据处理流程来减少不必要的计算开销,在不降低性能的情况下提高模型在边缘设备(如智能汽车上的本地计算设备、小型物联网智能传感终端等)上的运行可行性。同时,未来还可能探索和融入更多新模态的数据类型,像融入量子传感数据(当量子传感技术在硬件端逐步成熟后为模型输入更微观世界感知数据等全新模态数据)或者更加复杂的生化医疗信号数据,不断拓宽模型所能处理的感知边界,进而提高模型在一些特殊细分领域(如量子信息处理、尖端生物医疗检测与分析等)的应用能力。
(二)拓展更多应用领域
- 不断延申现有领域 在现有的应用领域中,会不断进行深度延伸与拓展。在智能制造领域,不光是用于产品质量检测,还可以深入到生产供应链管理环节,综合上下游企业生产、运输、存储等多模态数据,如企业生产设备图像数据、库存监控视频数据、运输货物状态传感信号数据以及订单相关文本数据等内容,进行全链条的智能化资源调配、效率提升、风险预警等功能操作;在医疗领域,从单纯的诊断辅助拓展到复杂医疗场景处理,如手术规划中综合患者影像数据、生理监测数据、医生手术策略文字记录等多模态的数据,为手术操作提供更精准的规划和术中风险预测等辅助功能。
- 开拓新的行业应用 对于一些目前涉足较少的行业,紫东太初在未来也将发挥重大作用。例如在农业方面,整合农田卫星图像数据(图像模态)、气象环境传感数据(传感信号模态)、农业专家对不同作物生长周期的文字指导意见(文本模态)等多模态数据,为精准农业提供作物生长监测、病虫害预测、灌溉施肥决策等服务。在航空航天领域,结合航天飞行器图像遥感数据、舱内设备运行传感数据、宇航员操作指令文字信息等多模态数据,用于飞行任务规划、航天器故障诊断和剩余寿命预测等工作。这些新领域的拓展将进一步体现多模态大模型在解决复杂实际问题中的强大潜力,也为众多行业的智能化升级换代提供新的动力源泉。
(三)构建更为庞大的产业生态
- 完善开发与服务平台 进一步完善紫东太初大模型开放服务平台,从开发环境方面提供更多样化、便捷化的功能。例如针对不同层次开发用户(从初学者到专业研究人员)提供不同类型的工具集、开发文档和示例代码。在服务方面,可以提供更个性化的模型定制服务,就像企业可以定制将自身独特生产场景下的多模态数据关系良好适配的专属紫东太初模型版本;在数据安全方面,提供更加严密的服务保障,例如采用新的加密算法保护用户上传的各类多模态数据隐私,同时确保数据在不同模态转换、加工过程中的安全性、准确性和完整性。
- 加强合作伙伴关系 不断加强与各企业、高校、科研机构的合作伙伴关系。在企业合作方面,可以继续和汽车企业深入合作,如和更多汽车品牌共同优化智能驾驶中的多模态数据交互、驾驶场景决策等内容;与医疗企业合作开发更加精细化的多模态医疗产品,覆盖从基层医疗诊断到高端医疗研究各个层面。在高校和科研机构方面,可以联合开展更多的前沿性多模态技术研究项目,同时建立人才交流培训机制,培养更多理解和掌握多模态人工智能技术的专业人才,为紫东太初模型以及整个多模态人工智能产业的持续发展提供稳定的人才储备和技术创新动力。