多模态能力再升级讯飞智作2.0让视频生成更高效

AI应用信息2年前 (2024)发布 XIAOT

2023年8月15日，讯飞星火认知大模型V2.0升级发布会如约而至，科大讯飞董事长刘庆峰、研究院院长刘聪重磅发布代码能力和多模态能力升级版本，同时发布搭载升级讯飞星火认知大模型V2.0能力的多项应用和产品。现场还展示了讯飞星火在图像描述、图像问答、识图创作、文图生成、虚拟人合成等方面的全新表现。

多模态能力的升级也将为AIGC带来前所未有的产业机会，发布会上多模态能力升级后的产品——讯飞智作2.0也正式发布。

本次讯飞智作2.0在原有的AI配音、虚拟人分身、活照片等基础上新增了视频AI后期、创意视频两大功能，无论是视频的后期处理还是创意视频的制作生产，搭载了讯飞星火核心能力的讯飞智作2.0都能轻松搞定，内容创作的想象空间正在被无限放大。

深耕人工智能领域24年，科大讯飞依托在语言及语音、图像、自然语言理解等底层技术的深厚积累，自2022年正式推出讯飞智作AIGC音视频内容创作平台以来，目前已有300多万的用户使用AI辅助音视频内容生产，平台提供多场景、多情感、多语种的AI主播，用户还可以通过录制5分钟的视频，构建虚拟分身，快速进行视频生产。

集成了科大讯飞SMART TTS效果的讯飞智作，可以提供各种场景的AI配音，多种音色可选，包括20多种方言、30多种语种，覆盖纪录片、新闻、短视频等各类场景的配音需求。

以泾县桃花潭的风景视频为例，该视频描写了在初秋清晨桃花潭的美丽景色，通过讯飞智作2.0的“AI后期”功能，根据用户指令和视频的关键帧画面，实现视频文案AI生成、高品质声音智能匹配，给视频配上专属解读。

在市场推广过程中，视频宣传成为不可或缺的手段，为了保障时效性和推广的广度，视频制作量也越来越大，需要更高效的生产力。发布会现场，科大讯飞研究院院长刘聪使用讯飞智作2.0进行虚拟人短视频生成、视频创作，“写一段黄山毛峰宣传文案，包括茶叶的产地、包装、色泽等特点”，刘聪又设定一位徽州古风女主播呈现。几分钟后，一个推介黄山毛峰的短视频就生成完毕。

值得一提的是，在视频制作过程中，针对较长的视频现有图片素材不够的情况下，可以直接点击AI生成图片，自动生成符合文案的图片并进行补充。

除了中文宣传视频，讯飞智作还可以帮助产品进行海外推广，通过智能翻译功能将文本翻译成英文，同时可以选择切换英文的发音人，快速完成海外推广视频的制作。

讯飞智作2.0可以进一步降低短视频制作的门槛，满足更多元的视频制作需求，推动AIGC产业的发展。

目前通过讯飞智作AIGC创作的视频配音、新闻视频、培训视频、广告视频已经广泛应用于媒体、金融、智慧文旅、企业数字化、智慧政务、IP运营多个领域，并与学习强国、新华社、WAIC、中信银行、中国平安等单位建立合作。未来讯飞智作仍将致力于用AI更好地拓展内容创作方式，持续让AIGC助力各行各业的内容生产。