360智脑大模型发布会纪要

AI应用信息2年前 (2024)发布 XIAOT

一、开头介绍

智脑已经发展了到4.0版本。人工智能的理念是以人为本。无论做出多强大的人工智能，都是通过工具的赋能，让每个人、每个团队、每个组织、每个公司、每个政府机构，甚至每个行业和每个产业到每个国家，都能真正的提高劳动生产率。尽管各家都推出了自己的大模型，都有所成绩，但其实基础能力还是差不多在一个起跑线上。追赶 GPT4的速度确实比想象中要快，但是有了基础功能以后，未必就能带来工业和产业的革命。问题的关键在于如何让大家更容易地使用，如何把大模型的通用人工智能能力和更多的场景相结合，也就是结合场景打造更多的应用。

很多人对大语言模型有一个误解，认为大语言模型用于搜索、推荐，主要应用于互联网公司，做自然语言处理技术。人类和动物之所以不一样，是因为人类发明了语言。人类发明语言之后不仅能够描述橘子、香蕉等具体事物，还能描述抽象概念，比如水果、食物等。所以，语言成了人类最有力的工具。语言的边界，也就是思维的边界。语言不能理解、不能讨论的事情，人类是无法理解的。所以，通过大模型，真正地把人类语言做了重新编码、学习、训练，获得推理和规划的能力，就真正地对人类描述的世界的模型建立起了初步了解，对人类掌握的知识有了重新的压缩和蒸馏。

如今大模型能够解决自然语言理解问题，意义是非常重大的。这颠覆了很多传统人工智能的算法。在过去没有大的语言模型的时候，无论是通过激光雷达还是车载摄像头，能看到的都是只感知层的判断，比如，机器可以看到障碍物，但无法理解背后代表的含义，无法理解场景可能的风险。之所以现在的大模型被称为认知人工智能，也被称为通用人工智能，是因为人类第一次把自己的知识教会了电脑。所以，通用人工智能不仅是一套算法和模型，还解决了自然语言处理在理解文章、改写标题，提炼文章中出现的各种问题。未来在计算机视觉、计算机语音处理、计算机内容生成等各个方面，大语言模型都会发挥重要的作用。事实上，大语言模型把所有的文字都看成一个序列，永远在猜测后面的序列是什么，这种算法未来不仅在语言符号体系上，而很有可能在自动驾驶、机器人动作控制，甚至在蛋白质分析、人类基因组分析，包括研究物理化学数学等科学问题上，都可能都会发挥到意想不到的、非常重要的作用。每个公司可能未来都回避不开大模型对行业带来的影响。

大模型提供的通用人工智能能力，即使不和产业做密切结合，也很快就可以出现在办公和工作层面，提高企业和个人的工作效率。它不是娱乐的工具，也不是消磨时间的软件，而是一个直接能够提高组织和企业效率的工具，有强大的通用性。面对任何一个行业、政府部门，或物资机构，当有了大模型之后，立马可以解决客户问题、知识管理问题、知识传承问题，也可以让其成为员工的办公助手。最近微软发了一个报告，说大模型不会造成大规模的失业，反而会解决进入数字化时代面临着的新挑战。数字化带来巨大好处，但有了电脑、网络和手机之后，我们每天的工作负担重了，有无数的消息要回，有无数的邮件要看，有无数的PPT要写。事实上，我们的负担可能比信息化、数字化时代之前还加重了40%，而大模型的出现，可以让很多人从事务性的工作中摆脱出来。

能产生工业革命的技术一定是通用技术。电脑在1946年刚发明的时候并没有产生工业革命，因为当时电脑的用户是政府、军队，以及研究人员。个人电脑的发明使得电脑产生了工业革命，因为这使得每个企业、每个家庭和每个人都买得起电脑。在电脑通用的硬件架构上，只要部署不同的软件，就可以完成不同的任务。正是因为它变成了一种通用的力量，所以才产生了工业革命。所以，今天当我们做GPT、做大模型的时候，不仅仅是迭代技术能力，应该想一想如何把大模型做得像电一样，能够输送到百行千业，输送到千家万户，输送到千千万万的企业和亿万个办公人的身边，这样才能产生工业革命级的力量。

现在数字化已经成为国家战略，但数字化的终点不是大数据，而应该是智能化。很多单位现在都有大数据，但大数据并不能直接使用，它像工业时代的石油一样，虽然战略性强，但不能直接把它关到车里。而人工智能大模型解决了这样的问题，把很多大数据训练到大模型里，然后大模型就像电厂一样，通过燃烧大数据直接产生了电力，可以把通用人工智能的能力直接输出给每一个行业、每一个企业，这就产生了未来5年到10年新的工业革命的机会。

所以，今天大模型的价值不仅在于ChatGPT的使用量，也不仅在于一些互联网场景和它的结合，而在于未来这种能力把它通用化、垂直化，各个行业企业和个人的需求都可以进行深度融合。这样的一个产业的机会，实际上才刚刚开始，未来至少有10年的红利时期。所有的APP、网站、应用，甚至所有的行业都值得用大语言模型、用通用人工智能来重新进行整理。

在ChatGPT刚出来的时候，大家都被惊艳了。当时，很多投资人认为世界上可能只需要一个GPT。但事实上，通过这三个月的发展，我觉得这个世界上有太多的垂直领域，这可能是一个基地解决不了的问题。对于很多通用问题，它的回答让我们很惊艳，但如果细分到行业，比如医学、法律等，它的很多回答就显得比较肤浅。未来，我觉得大模型还是会向垂直化、产业化、企业化改革、个人化方向发展。谷歌发布大模型的策略中，有4种大小尺寸不一样的大模型。目前的大模型制作有一个流行的趋势，一种方式是把大模型越做越大，参数变大，训练的语料也变大；还有一种方式，是大模型做小，用在垂直的领域，甚至可以在一台电脑、一个手机中进行部署，甚至可以在未来使用到IoT设备上。

360因为一直以做安全著名，这几年来一直都在宣传如何帮助政府、城市、国家抵御网络攻击。我们在2015年就成立了AI研究院，2018年我们开始看多模态。因为360搜索是我们的重要部分，而基于搜索的互联网公司离不对自然语言内容的积累。有很多投资人问我一个问题，就是大模型有没有门槛。曾经这个说法很极端，当年它会被描述成像原子弹一样的高精尖技术，但是最近很多公司都发布了自己的大模型产品。训练大模型有几个关键步骤，第一个找一个和GPT结构一样的，多层次的开源模型。而真正有难度的是给知识的灌输、数据的选择和清理。给模型灌输什么样的能力和数据，预示着它未来的能力有多大。

大模型需要在互联网上要找到用户使用，对用户的使用，他想到了各种例子，远远超越我们自己内部的测试。所以用户的使用的反馈对于大模型的纠正和持续的训练，这样才能构成一个正向的反馈。所以，今天训练大模型，应该说不难，也有壁垒，壁垒就在于数据、用户的需求，还有标注，就知识的标准，答题的标注，还有用户的使用反馈， 360在这几个方面都分别有自己的天然优势，完整地覆盖了训练的全过程。比如，我们在预训练大模型中有数据的优势，在全球用户和流量中有工程化的调度能力。

实际上，做搜索的公司都在发展大模型技术，比如Bing、百度、谷歌等。GPT的核心算法就是谷歌提出的开源技术，之后的几个GPT版本中，也都进行了研究和跟进。但是，搜索引擎厂商发展大模型，不应等到GPT出来之后，而应该在几年前就跟进，这方面我们确实缺乏OpenAI的那种精神。他们对通用人工智能有一种执念，他们的梦想是把人类所有的知识训练到一个大模型里，而且坚定地走只有解码器的路线；但我们就比较鸡贼地使用大模型解决一些现实的问题，比如，广告点击率高一点，推荐的内容好看一点等。但是，我们从善物流，也要感谢OpenAI执着地做 GPT，给整个行业指明了一个正确的探索方向。所以，我们把之前自然语言上的积累也搬运了过来。自然语言处理既是搜索引擎的基础，也更是未来通用人工智能和人工智能理解世界模型的一个重要基础。

今天，以GPT为代表的大语言模型，虽然有很多缺点，比如，会产生不准确的知识模糊，而且做数学题的能力偏弱，但是他是人类第一次真正地把这个世界的知识、模型在电脑里建立起来。所以，我还是坚定地相信GPT的方向。在搜索方面，我们最大的能力还是数据获取和清洗的能力。我们在全球抓取了1.4亿网站的数据，2.8亿的专业文献， 1.2亿的行业数据，所以规模非常大。经过清洗，还有10T级规模的优质数据。此外，我们还要收集其他语言的知识，体验语言多样性，所以我们在全球也有信息的抓取。在获取高质量内容方面，其实每天用户在搜索引擎中习惯搜索的问题，其中也隐含了高质量问题的影子。我们明白用户想来了解什么，才能有的放矢地做知识的标注。

大语言模型最大的短板有三点。第一个是数据更新不及时。第二个是有时候会产生幻觉，如果写剧本的时候，脑洞开的越大越好；但如果做医疗方面的工作，开药房或诊断，就可能会出现问题。前两天，美国有个律师偷懒，用 GPT写了一份法律文书，出现了问题，并且被罚了很多钱。这是一个固有的缺点，要通过增强搜索能力来解决，如果手里没有一个知识积累的搜索引擎，来进行结果的校验。所以，搜索的能力不仅意味着数据的积累能力，也意味着结果真实性的问题。此外，还有工程调度和工程量问题。在这方面，国内互联网的一线二线大厂具备优势。互联网大厂具有很强的数据管理能力。

360在搜索行业中第二，百度第一。我们的日均搜索请求量超过10亿次，月度活跃MAU超过4个亿，平均日活接近2个亿。我们C端最重要的产品是安全卫士，平均月活接近5亿。微软最近推出了一个操作系统的Copilot，通过 Windows，把人工智能的能力集成到每一台电脑上，在国内，可能360是最接近微软这个能力的厂商。

发展大模型的三大要素是算力、算法和数据，我今天将其改成算力、数据和训练。此外，我觉得还漏了一个词，就是安全。在全世界哪一个国家做大模型和生成式AI，都要保证内容不能违背当地的法律法规，要符合当地的道德习俗。360在安全方面发展了很多年，搜索、安全审核和统计能力非常健全，团队也很庞大。这一点我们在国内也并不是独特的。如何更加避免GPT不说错话，答案可能是用另外一个GPT来监督它。

大模型的安全问题，除了内容方面，还有更多的内涵。人工智能大模型是把双刃剑，会引发非常多的安全问题。比如，大模型本身会有漏洞，可能被人利用。此外，还有一些来自黑客技术的风险，比如催眠、越狱等。随着技术的发展，在网上只要找到照片，以及这个人一分钟的讲话，就很可能可以生成这个人达标任何言论的视频，这也会造成一方面的攻击。在内容生成方面，当然也给我们。带来了很多安全的挑战。所以包括隐私泄露。模型窃取，提示过度攻击。还有一部分对我们安全的。挑战有一个最大的挑战，他们已经确定了。

目前有人提出一个问题，就是如何能够牢牢把握人工智能的发展，而不让它们逾越人类的控制。这个问题其实是未知的，但是今天， 360已经启动了安全团队在人工智能安全上的研究。研究分两个方面，一个是以其人之道。反治其人之身。我们有全球最大规模的网络攻击的大数据，所以我们在训练一个安全行业的智能大脑，这个智能大脑可以帮助我们更好地辨别黑客的攻击、辨别网上隐藏的攻击，使得我们安全防卫的能力更强，但是更重要的是，我们之所以要研发大模型，是因为我们不能把大模型当成一个黑盒子。我们要了解它的来龙去脉，了解它的工作原理，才能从根本上在开发和发展的同时兼顾安全问题，也就是并重发展和安全。360首创了一个大模型安全风险评估体系，下一步将会公布出来。在未来，大模型一味地将发展，而不讲安全，是走不远的。360既有安全的基因，又有人工智能的基因。我们把网络安全能力和大模型的研发结合起来，一方面用大模型来加强安全能力，另外用安全能力使我们的大模型更加可控，这也是360的优势。

算力方面，很多人认为可能卡多就代表算力强。如果比卡数，我们和其他大厂可能比不了，因为他们还在做云服务。但是，在国内A股的上市公司，我们拥有的卡数是第一的。但是，有了卡以后，如何把集群建好，在训练的时候防止机器断点，如何用合适的卡数训练更大的模型，这里面有很多的专门知识。包括我们在训练千亿级的模型，所需要的卡数是比较多的，但是可以先在百亿的模型上进行验证，然后再放到千亿的模型上进行实践，可以明显提高训练速度。国际上无论是做模型的压缩，还是垂直训练，都有很多方法，可以使我们用合理的资源训练出合适的模型。

我们大模型的战略是“两翼齐飞。四路并发”。两翼齐飞是指一方面要发展大环境的核心技术，一方面要场景化、产品化、平民化、垂直化。在场景上我们分为4步。一路是ToC的场景，比如搜索引擎、浏览器和桌面。第二点是面向中小企业，这在今天可能不是我们的重点，因为即使把Chat GPT的API给了很多中小企业，也不一定能被很好的运用。因为就目前来看，使用大模型，选好提示词很重要，但实际上，让所有中小企业的老板都变成提示词专家是不现实的。所以，提示词是妨碍中小企业使用大模型的一个障碍。很多创业公司就有了机会，在这些大方向的基础之上，怎么结合中小企业的痛点和刚需，做成面向中小企业不同办公场景和具体需求的 AI工具。还有一个场景就是面向政府和大型企业。很多政府部门和大型企业有很多专有的、保密的数据，以及所有的行业知识，所以不可能让公有的GPT模型去做，需要一个专有的模型。这里面我觉得在全世界来看都蕴含着巨大的增量市场的机会。最后，是面向行业的GPT。现在360的GPT能力不仅能够满足自己的需求，我们还愿意把它提供出来，与有行业数据的合作伙伴相结合。

360 智脑具有生成创作、多轮对话、书写代码、文本分类、文本改写、阅读理解、逻辑与推理、知识问答、多语言翻译十大能力，这十大能力又细分为200多种子能力，已经可以申请试用账号来使用。此外，我们也在努力参加国内各个评测，我们是国内首个通过信通院AIGC大语言模型功能评测的大模型，10个部分、36项基础能力全部都通过了评测，我们也参与了编写大模型的国家标准。中国人工智能产业发展联盟是发改委和科技部联合指导的，360是副理事单位，我们也很荣幸能够参与编写大模型的技术研发标准。此外，民间的评测我们也在积极参加。目前，国内大模型的发展速度在你追我赶，在不断地相互激励，不断地缩小差距，力求在全球领先。在之前，我说大国之间大模型的差距差距有一年半或两年，今天我收回这句话，国内同行的发展迭代速度，我认为已经基本赶上或接近了国际的先进水平。

二、360多模态大模型

3月 29 号我们推了一个大模型 1. 0，当时的能力只能跟搜索结合，还不支持多轮对话。到4月 26 号我们演示了一下我们的 2. 0 版本，上线了多轮对话。5月 18 号天津智能大会上，我们发布了多模态文生图的应用： 360 鸿图，同时大模型版本迭代的 2. 5 版本。到5月 31 号我们发布了智脑的视觉大模型，结合我们的物联网场景，同时我们版本迭代到 3. 0，那么今天我们将会发布我们的 4. 0 版本。今天发布的版本将会是三个关键词：多模态，全端应用，数字人。下个月我们将会发布我们的 5. 0 版本，将会支持我们的插件平台，要让大模型不仅仅停留在大脑的层次，多模态是给它增加上眼睛、耳朵、鼻子、嘴巴，插件是要让他有手跟脚的能力，所以这样大模型的能力才能越来越发挥出来。

中国自研大模型弯道超车的关键，其实基本能力、文字的能力都差不多，而且现在在很多方面我觉得赶上了大概 3. 5 跟 4. 0 的差距，我觉得追赶的速度也超出了我的想象。我们可以看看 GPT 的发展路线， GPT 1- 2 都是围绕着文字为主， GPT 3 把参数做得非常大，出现了 GPT 3. 5，实际上叫 Instruct GPT，这是我们今天看到 ChatGPT 的涌现，就是我们今天看到 ChatGPT 的基础。我们给个预测：GPT 5 一定是全面的支持多模态的能力。以后中国的大模型，大家在文字上的较量，可能模型上已经没有问题，剩下的就是靠不断的改正训练的数据，改正训练的，标注的微调。

一个完整的人工智能的大模型，它要有四大能力，一个是文字处理，一个是图像处理，一个是语音处理，一个是视频处理。过去的大模型只能输入输出文字，但他看不懂图片，没有眼睛，听不见声音，没有耳朵，没有嘴巴，也不能说话。同时对图片和视频也缺乏理解，所以这里边就衍生出 8 个功能：文生文，写高考作文；文生图；文生表格；图生图；图生文；视频理解；文生视频。

多模态的能力，有两点非常重要：第一个，曾经有科学家感慨，大模型做到一定程度会不会人类的知识不够用了，因为 GPT 4 学习的 token 的数目已经大概接近 4000 万本图书，而人类有史以来的图书也不过就1亿本，也就是学了快一半了。但是大家想想，我们人类是怎么学习的？我们人类是怎么训练的？当大语言模型有了多模态能力之后，他获得的知识就不仅仅是来自于文字的知识，它可以来自于图片，来自于视频。未来有了多模态能力之后，当大语言模型跟人类世界里的摄像头发生了连接之后，他每天都可以看到有多少人在摄像头前面在谈话，在发生各种各样的事件，他对我们这个世界就会有了新的学习能力，有了新的知识的理解，所以多模态的能力非常重要。

(1)360 智脑文生图多模态能力：请生成熊猫爬长城。

(2)360 智脑图生图多模态能力：以证件照生成为例，点击上传图片

(3)图生文：过去我们人脸识别、图像识别需要经过很多的标注，标注完了能认出图片上有猫、有狗、有大海，但它不能解读背后的意思，它不能把图里的这种情绪表达出来。所以我们原来做家用摄像头的时候，我们特别希望能够发现一些场景，比如说老人摔倒在家里，比如说小孩爬到窗户上，处在一种非常危险的状态的时候，传统认知能力的大模型是无法达到这种能力的。但是在有了对这个世界的模型有了基本知识认知的一个大模型的基础之上，再来做图像的训练，你会发现它能读出很多画外音。

演示：

Q:这是谁？

A:蒙娜丽莎是文艺复兴时期著名艺术家达芬奇的杰作，以女性为主角，描绘了一个美丽而神秘的微笑。

Q:这张图有什么不正常的地方？

A:这幅画不正常的地方是画中的女性手臂和肩膀上的肌肉线条非常突出。这种肌肉线条的描绘在文艺复兴时期的绘画中并不常见，因为那个时代的人们更注重整体美感、和谐感。然而，现代的艺术作品中，这种描绘方式仍然被广泛使用，以强调力量、肌肉表现等视觉效果。这个的潜力非常大。比如说在大模型出来之前，实际上真正的无人驾驶是没有被实现的。为什么所有的自动驾驶都是辅助驾驶？因为你无论在你的车上装多少激光雷达，装多少毫米波雷达，装多少摄像头，但是你是工作在感知层面，你虽然能感知到前方有路障，但是人的工作原理不是这样的。你作为一个司机，当你看到前方有一个障碍物，你的大脑马上会做出一个认知的反应：是一个婴儿车吗？我应该避开；还是一个硬纸盒？还是一个交通墩？那我应该转弯。所以人类能够自如的驾驶汽车是因为人类对很多感知的情况，在认知层面进行了判断，所以将来的车载大脑如果对任何一帧画面都能做出这种认知层面的判断，我觉得大模型能够帮助我们的自动驾驶早日实现 levelfive 或者 level four 级别的真正的自动驾驶。

(4)360 智脑视频声纹多模态能力：帮我检测高层建筑。

(5)文生视频：目前国际上的有类似的公司，大概只能生成 10 秒的视频，这些视频的分辨率目前还都不够高，也只有 5 秒到 10 秒左右 奔跑的野马： 未来大模型的能力是多模态的能力竞争，这也是为什么我们把这次智脑的版本命名为 4. 0，只有多模态的全面的能力，才能预示着大模型真正的走上一个新的台阶。