通用人工智能之争（深度学习，大模型，Chatgpt，强化学习，具身智能，）

前言

1.通用人工智能

1.1 生物学分析

1.2具身智能

前言

目前的人工智能实质上只是强人工智能，或者说单个领域的通用人工智能。比方说Chatgpt它属于自然语言处理领域的通用人工智能（语言大模型），

所谓通用人工智能，简单理解为一种和人类一样能够思考和解决任何问题，甚至在各方面超过人类的智能体。从这个角度讲，想要理解通用人工智能，要先了解人体的各个功能。

1.通用人工智能

1.1 生物学分析

理解和决策机构：

大脑：支配高级皮层的活动，如思维、运动、感觉、语言和情感等。

小脑：保持平衡，协调肌肉运动。

感知机构：
耳：听觉鼻：嗅觉嘴：味觉眼：视觉

执行机构：
手臂：用于抓取、握持和搬运物品，用于平衡身体和调整姿势。
手：用于精细的动作，如写字、插针、打字等。
腿：用于站立、行走和奔跑。
足：支撑身体，保持站立稳定，参与步行和奔跑。

基于人体功能假设一个场景：

我们命令（听）机器人去苹果园摘苹果，远远的它就闻（鼻）到了苹果的香味，走进时又看到了（眼）又大又红的苹果，甚至它还偷偷尝了一个（嘴），在这个场景下，我们用全部感知去认知这个苹果。（而目前的目标检测仅能从视觉上判断一个东西是不是苹果，显然从感知层次，这是不足够的）

同时在采摘的过程中，它用腿和足行走到果树下面，再用手臂移动到苹果旁边，用手进行抓取。（在目前的机器人行业，腿和足的功能用移动机器人实现，手臂的功能用机械臂实现，手的功能用一些末端执行器，像夹手或吸盘等，当然近期人形机器人也是爆点）

在这整个过程中，感知机构将所获得的信息传回大脑（理解这些信息），再由大脑决定下一步应该做什么（思考），最后由小脑控制四肢（执行机构）落实大脑的决策。

这就是人在面对一个问题时，身体各个部位所做的事情，同样，对于机器人而言，只有具备这些功能之后，才能具备了成为一个通用人工智能的可能。

1.2具身智能

1.2.1当前的人工智能的局限

今年世界机器人大会2023提到一个概念具身智能，提出这个概念是因为，当前我们所做的基于人工智能的机器人，是先在仿真环境训练模型，再将训练好的模型移植到真实世界中的机器人上，但这存在一个问题，这种训练模式下的机器人，只能解决训练环境中，已经提前模拟过的可能发生的各种问题，对于现实世界发生的没有在训练环境中模拟的情况，它不能解决。举个例子，假设我们在训练环境中，让机器人抓取一个苹果，但没有模拟抓取过程中它遇到障碍物时该如何解决，那么在真实世界中遇到障碍物时同样不知道如何解决。也就是说，机器人真实世界中它并不具备学习能力，它有的仅是在训练环境中学习到的能力，显然这不是我们想要的人工智能。

1.2.2 具身智能实现的基础

而且对于人类个体而言，尽管我们活在信息大爆炸时代，但在获取信息时，我们所学习的存在脑海中的不管是成功的还是失败的经验，都是自己独有的适合自己的，然后我们依靠这些经验，提升自己，逐步从小孩成长到大人。

而在当前训练智能体时所采取的数据，全部来源于网络，这些数据庞大且混乱（真假难以辨别），就从Chatgpt来看，我们经常能发现它会给出一些错误的答案，这是因为它所学习到的数据并不全是对的的。但Chatgpt有一个优势，它可以和人类互动，去纠正之前错误的知识（真实世界的交互），这也就意味着Chatgpt有了进化的可能，因为它可以和全球几十亿人交流，学习他们的一切，并且能够变成自己的，甚至推陈出新。当然Chatgpt仅能算是语言（嘴和耳）的通用人工智能，扮演大脑的一部分，赋予了智能体理解人类问题以及和人类交流的能力。想要实现真正意义上的通用人工智能，我们还要获得眼，鼻等其他感知机构和现实世界的交互信息。

当前最接近具身智能的应该是数字孪生，之前我们说机器人无法解决真实世界中遇到的在训练环境中没有模拟的情况，但对于数字孪生，它可以利用虚拟环境(训练环境)实现和现实的实时交互，从而具有在真实世界学习的能力。我们还从上面的例子出发，同样我们在训练环境中让机器人抓取一个苹果，同时不设置障碍，和之前不同的是，此时在真实世界中遇到障碍，会将这个障碍信息实时反馈到虚拟环境（训练环境），那么此时机器人就可以快速在虚拟世界（训练环境）中训练，从而在真实世界避开这个障碍物，但这对于通讯的实时性和算力有很高的要求，不过确实可以利用机器人和真实环境交互后所得的信息提升自己。但是同样的，这不是真正的具身智能，因为我们当前的交互主要还是依赖于视觉信息，这中对世界的认知显然是不足够的，所以我们需要更多的大模型，视觉大模型，味觉大模型，嗅觉大模型等，这样机器人才具备了和真实世界全方位交互的基础能力。而数字孪生也是具身智能的关键技术。

1.2.3 强化学习（决策大模型）

对于人类而言，小学时候老师教我们1+1=2，每次我们写错时，就给我们打个×，每次看到这个×我们就知道这样做是不对的，久而久之我们就知道1+1=2才是标准答案。这是人类在和现实世界交互后一个思考的过程，那对于机器人而言改如何思考呢？

前面我们已经论述了具身智能所需要的感知能力，但有了这些感知能力，如何通过和现实的交互不断思考提升自己呢，这里我们引入强化学习概念，举个例子，我们询问Chatgpt一家小公司的发展历史，假设这个公司是2019年成立的，但网上存在错误信息，它不能有效识别，它可能会告诉你这个公司是2015年成立的，此时你回复它，你是不对的，这家公司实际上是2019年成立的，然后当你再次询问它这家公司什么时间成立时，它会告诉你是2019年成立的，此时，我们神奇的发现Chapt有了纠错能力。但过了很久当你再去问它时，它却又告诉你这家公司是2015年成立的，原因在于，它有一个奖励机制，假设你说这个公司成立于2019年，Chatgpt给这个答案加5分，但同时有十个人说成立于2015年，那么2015这个答案就有50分，显然Chatgpt会相信50分的答案，这和三人成虎异曲同工，所以此时我们需要找100个人回答说是2019，就可以保证答案更正为改公司成立于2019年，而在这个过程中，我们又神器的发现，Chagpt似乎有了思考能力，它权衡了很多人的答案，最终给与出了自己的答案，这就是强化学习在语言模型中的应用。Chatgpt先以深度学习基础，构建出一个笼统的答案库，再利用强化学习，不断的和人类交流，进而持续更正它的答案库中的答案。

同样机器人执行机构运动和真实环境所得到的交互信息，也需要强化学习来思考决策过程，比方说，依然让一个机器人抓一个苹果，这个抓取过程的路线有无数可能，抓取的动作同样有无数可能，但是机器人该如何选择最好的路线和动作呢，我们引入强化学习，每一步都给一个奖励，最后我们用奖励最高的动作集合，作为决策，也就意味着，机器人通过和真实世界的交互，学到了最好的抓取苹果的动作集合。

2.结论

从上面的论述中我们发现，感知大模型（语言大模型、视觉大模型、嗅觉大模型、味觉大模型）（深度学习），让智能体具有理解真实世界的能力，在这个能力的基础上，决策大模型（强化学习）赋予了智能体思考的能力，而数字孪生让给智能体可以在虚拟环境中快速且无损的找到诸多思考下最优的解决方案。

而数字孪生的这个特点会是通用人工智能超过人类的一个关键，对于人类而言，遇到一个问题，需要花费大量的时间，多次试错，才能找到最优方案，但对于通用人工智能，它可以在虚拟环境中快速的找到最优答案，再应用于真实世界。这其中的差别，比方说，两个人在悬崖下找到了一本修仙秘籍，A苦练万年，多次历经生死大劫，九死一生之后终于得到成仙，而B找到了一个仙境，在个仙境中1亿年相当于外界一天，而且里面的人死后会瞬间复活，所以B在仙境中为了找到可以成为最强仙人的方案，疯狂作死，尝试了无数次之后，终于找到了答案，他在仙境花了365亿年，但在外界仅过了一年。

语言大模型（Chatgpt）（深度学习）和决策大模型（强化学习）的区别：

简单理解，语言大模型解决机器人能听懂什么，这赋予了智能体理解能力，决策大模型（强化学习）赋予机器人思考和决策能力，即如何最优解决一个问题的能力。Chatgpt只是利用深度学习技术，从庞大的数据库中找到一个答案，在这个过程并没有严格意义上的思考，而强化学习是面对一个问题从无到有，思考所有可能的答案，最终找到最优解决方案，显然这才符合人类的思维模式。而某种层面上思考能力是区别人和动物的根本因素。

写在最后：具身智能是通往通用人工智能的大门，而强化学习是通往具身智能的大门。

往期文章

1.具身智能（Embodied AI）_笑傲江湖2023的博客-CSDN博客

参考文献

1.大脑和小脑——规划和执行_规划决策大脑运动控制小脑-CSDN博客

2.【AGI 通用人工智能】什么是通用人工智能 | What is Artificial General Intelligence_禅与计算机程序设计艺术的博客-CSDN博客