从人工神经网络到通用人工智能(AGI)

AI应用信息2年前 (2023)更新 10小时前

过去几十年，人工智能有了很大的发展。通过人工智能，计算机可以解析人们的语言并作出回应，帮助人类做一些以前我们做不到的事。我们能运用机器学习，更准确地预测洪水；翻译超过几十种甚至上百种语言，帮助人们跨越语言鸿沟，让大家更无碍地沟通，还能更准确地预测和诊断疾病。

洪水预测和模拟

人工智能的发展

支撑这些变化的背后有两个关键的因素：

一是人工神经网络

从历史上来看，人工神经网络不是全新的概念，早在 20世纪六七十年代就出现了，这种方法大致上模仿人类的神经元的特性，系统里每个神经元都有一组输入值，它们有各自的权重，并通过激活函数决定输出。通过很多这样的神经元一起运作，来学习复杂的事情。学习的过程，是按照一定的规则（学习算法）来不断地微调权重的分配，通过加强某些输入对输出的影响，或者减弱其他输入的权重，待网络各层权值都收敛到一定值，达到最终学习的效果。

我们可以训练它们，达成非常复杂的任务，比如翻译语言，文字识别，对象识别等。

二是计算机性能的提升

事实上，让人工神经网络发挥它真正的潜力，需要很多计算能力，计算机硬件的发展是造就了目前人工智能应用发展水平的条件之一。

人工神经网络计算有两个特性，第一是神经网络的预测对计算精度具有一定的包容性，第二是基本上所有的算法，都是以矩阵和向量所组成的不同序列的运算。Google根据这两个特性研发了TPU芯片，也就是张量处理器：通过量化来降低硬件尺寸和功耗，并可以有效压缩模型，同时又能保证可用的精确度。通过MXU的脉动阵列使芯片具有较强的矩阵和向量运算能力，非常适合人工神经网络运算。TPU芯片经过多次升级，已经被应用在其各个产品中，包括 Google 搜索、翻译，还有 AlphaGo，所以李世石和柯洁当时其实是在和整架整架的 TPU 在比赛。

现有人工神经网络的限制

虽然取得了很大的成就，但是这并不是人工智能的终极目标。如果仔细分析，可以发现基于人工神经网络的人工智能具有明显的限制：

一、目前大部分的做法是：我们总是从无到有的训练机器学习模型来做一件事。而不是扩展现有模型来学习新任务。结果是我们最终为数千个单独的任务开发了数千个模型。这样不仅学习每项新任务需要更长的时间，而且还需要更多的数据来学习每项新任务，因为我们试图从无到有地了解与这个任务相关的世界的以及该任务的细节（完全不同于人们的处理方式新任务）。如果你从头训练一个人工神经网络，就像是每当你尝试一件新的事，就得忘掉一生所受过的教育，这显然不是高效的。设想你要学习一项新技能（例如跳绳）时，都忘记了之前所学的一切：如何平衡、如何跳跃、如何协调双手的动作，这显然很奇怪。

模型的专一性

如果我们能够训练出能多工处理上千上万不同任务的模型，模型里各个部分专精于不同的事。假设这个模型现在可以做1000件事，然后第 1001 件事出现了，我们可以利用和它相关的既有知识，更快地达成这个新任务，就像你一样，如果遇到了一个新问题，你会快速地想到之前做过的相关的事情或者调用自己已经掌握的相关知识，来帮助你解决新的问题。对于机器学习来说，如果实现了这一点，会是一个巨大的飞跃。

二、目前大部分的模型，只能处理单一型态的资料，影像，或是文字，或是语音，不是同时处理全部。但是人类可以运用所有的感官，去学习、去反应，来决定你该做出什么行为。如果我们也可以用同样的道理来建模型，它可以接收不同类别的数据，包括文字、影像、语音，然后把它们融合在一起，不管这个模型接受到“猫”这个字，还是一部“猫”的影片，或者听到某个人说“猫”的语音，都会产生相同的反应，都能和“猫这”个概念对应上，这样最合理不过了。

再进一步，如果还可以处理其他不同种的资料，甚至是非人为产出的资料，例如基因序列，3D 点云，和影像、文字、影片，就更理想了。

第三个问题是，现有的模型都是密集的单一模型，无论是非常简单还是非常复杂的事都需要完整的启动这个模型，这不太像我们大脑运作的方式。人脑不同的部位负责不同的功能，在特定情况下只会调用相关部分进行运作。我们的大脑中有近一千亿个神经元，当你看到这篇文章时，大脑只调动了其中的一小部分神经元来做阅读这件事情。再比如当你在电影院看电影，这个时候大脑中处理运动的部位是没有太多活动的。

人工智能可以以同样的方式工作。假设我们可以构建一个“稀疏”激活的单一模型，这意味着只有通过网络的小路径在需要时才会被调用。模型动态地学习网络的哪些部分擅长哪些任务——它学习如何通过模型中最相关的部分来路由任务。这种架构的一大好处是，它不仅具有更大的学习各种任务的能力，而且速度更快、能源效率更高，因为我们不会为每项任务激活整个网络。

通用人工智能AGI（Artificial general intelligence）

如果能够完美解决这三个问题，那么我们可以构建出几乎可与人脑机理媲美的程序。其实早在几十年前，就已经有一些雄心勃勃的计划想做到这一点，但是受制于当时的理论，技术和硬件，几乎都失败了。随着近些年人工智能的发展，这一目标再一次被提起和讨论研究，如果能够构建这样的系统，那么可以说接近或者达到了通用人工智能（Artificial general intelligence，简称AGI）的范畴， AGI是一种能够理解或学习人类,并可以执行智力任务的人工智能。

2021年10月，Google 推出了Pathways，一种可以训练多任务的下一代人工智能架构，可以说是向AGI的方向跨出了一大步。Pathways 将使单个 AI 系统能够泛化数千或数百万个任务，同时处理所有型态的资料，然后把它们融合在一起，并使用零星、高适应力的模型，只在需要的时候用所需的部分，当我们逐渐增加新的任务，它可以同时处理所有资料，并且必要时，会渐渐学习新的任务，然后针对不同的内容，运用与其相关的部分。将我们从仅识别单一用途模型单一模型的时代推进到一个更加通用的人工智能时代。这将是神经网络和人工智能能力的大规模进化和升级。

不过这些模型也会衍生出一些重要的问题，如何在建立的过程中，考量对所有使用者的公平性，隐私与安全，例如，对于训练这些模型的海量资料，必须确保这些他们是经过谨慎的搜集并包含了世界上不同的群体和情况。

除了Google之外，一些其他互联网和计算机厂商也在致力于这个方向的研究, 比如微软研究实验室及其投资的OpenAI。

从神经网络到通用人工智能，如果能够实现的这一跨越，建立起能够对世界有更深的理解的通用的智能系统。可以解决更多不同尺度的复杂问题：更准确的诊断出更多疾病；制造出更好的药物；提升教育系统，让大家用全新更好的方法来学习，甚至可能是处理气候变化，清洁能源解决方案这类尺度的难题。

参考：

https://www.nextbigfuture.com/2022/02/174523.html

https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf

https://medium.com/neuromation-blog/deep-learning-and-agi-part-i-computer-vision-b9200d904994

https://www.instructionaldesign.org/theories/general-problem-solver/

上述内容若有错误或不足之处，欢迎大家指出，非常感谢。