机器学习、虚拟世界与元宇宙 Metaverse

摘要:它是生与死不断循环的过程,印度人认为,在轮回中的生灵经历着永恒的痛苦;在佛教看来,永生和不死,仍然在痛苦的轮回之中,唯有所谓的“空”或者“无我”,才能从轮回的痛苦之中脱逃出来。

文 |张言 陈雨恒 图 |潇潇

1. 引言:轮回与机器学习的相似性

1.1 宗教体系下的“轮回”

在宗教的知识体系中,人们经常会谈起一个名词叫做“轮回”。它是生与死不断循环的过程,印度人认为,在轮回中的生灵经历着永恒的痛苦;在佛教看来,永生和不死,仍然在痛苦的轮回之中,唯有所谓的“空”或者“无我”,才能从轮回的痛苦之中脱逃出来。

“轮回”的梵语转写为:Saṃsāra。严格来说,这是一种思想理论,它认为生命会以不同的面貌和形式,不断经历“生死”。在东方有例如印度教、佛教、道教承认这种思想,在欧洲有希腊的轮回哲学,例如毕达哥拉斯及柏拉图等;而作为一种宗教体验,它则被认为是世界的另一种真实,或者说是感官所认识世界的一种延伸。

当然这是一种偏向于“宗教”般的描述,佛教认为如果想要通过实践的方式证实轮回的存在,则有三种途径:

死后; 开悟后; 特殊情况下。

但从现实意义的角度来说,这三种方式都暂时无法在短期内体验,不过假如我们从逻辑推理的角度来尝试呢?

佛教本身对于轮回转世的研究,其实可总结为“ 因果律 ”,简单来说就是世界上第一粒植物种子和第一个人都是不存在的。如果有第一颗植物和第一个人,就是违反因果普遍性逻辑规律的,因为种子的前因是种子,人的前因是人,永远不可能有“第一个”无因的种子和无父母的人。

同时,在下一个推理过程前,做了一个先验性的假设:任何事物的本质都是“空”或者“无我”,从而得到这样的推论:因为任何事物和任何生命的存在,都是处在“时间”或“万物发展规律”上的前后相续的一个运动过程,而且事物和生命本身又是一个新旧物质和新旧生命的“ 因果链 ”,这个因果链在逻辑上无法找到它的“开头”和“结尾”。

局部事物有始有终,事物总体无始无终;同样人的一生有始有终,但作为人的生命的整体而言,这一生只是整个生命过程中的一个保持相对稳定的“生命阶段”,过去曾经无数个这样的“生命阶段”,今后仍要经历无数个这样的“生命阶段”。这就是佛教生命续流和轮回转世说的逻辑推理根据。 在本文正题开始前,将“轮回”作为引言的原因,是因为我们看到了“轮回”和“机器学习”的一些惊人的相似性。让我们不由地猜测,宗教里谈及的概念和认知和我们通过 AI 技术尝试打造的虚拟世界之间,是否存在一些可能的关系?

“轮回”的前提: 因果律的存在(时间是一种错觉,并不存在过去、现在和未来) 超越“轮回”之上的规则(一切事物的本质) “机器学习”的前提: 因果律的存在(时间是一种错觉,并不存在过去、现在和未来) 超越“轮回”之上的规则(一切事物的本质)

具体的表现则是,在“轮回”的概念中,人和生物的每一世都是经历和体验,前一世的所积累的“业”会基于因果律的规则,指向下一次轮回的不同开始。同时,前一世的经验和知识会通过一定的方式传递给下一世,不过前一世详细的经历和记忆并不会完整地继承。并且从逻辑上来看,就算是继承了前一世的经验和知识,在这一世仍然需要特定的条件才能获取“ 密钥 ”。

这样的“密钥”对于不同生物来说也是不同的,有些生物天生就有,但始终无法通过正确的方式使用;有些生物是在后天获取的,由于使用了正确的方式,“密钥”开启后则获取了部分或全部的来自于轮回的信息和知识。

1.2 机器学习的相似表现

对于机器学习来说,前一步的动作和状态会决定下一步机器的判断和决策。如果状态之间的转移是有规律的,则机器就可以学习,或者让机器自己去发现规律,这也就是马尔科夫链。该过程要求具备“无记忆”的性质: 下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。 这种特定类型的“无记忆性”称作马尔可夫性质。

简单来说,就是:“你的明天,只与你的今天有关,和你的过去并没有直接的关系。它是通过你的今天,从而和你的昨天产生了关系”。

在因果律的引导下,无论是机器学习的任何一种类型(监督学习、无监督学习、强化学习),事实上都面临着来自于设定和规则的约束。而这一类的限制,恰恰是在计算开始前所必须规定好的,从而对应的运算过程才能按照一个给定的框架下进行。

在强化学习里的一个经典场景是,我们构造这个场景下的规则和角色的设定,并构造一定的目标,从而让角色能够快速地在这个目标框架下,反复地进行训练,并且逐渐地学习并展现出智能。在一些最基本的寻路、生存等场景里往往可以有着极其有趣的表现。

假设我们在这个场景中设定了 角色的生命周期以及繁衍的规则 ,机器所构造出来的“生物”就可以如同真实世界里一般进行决策与行动,并且以数据的方式积累学习到的经验与能力,并在下一个回合或者轮次中再次决策与行动。

当然,如果我们设定了所谓的“死亡条件”,或者一个周期或轮次的结束标志,以人类的视角去揣测机器生物的状态,则就是发生了“轮回”事件:机器生物在一次又一次的结束与开始中,获得了越来越多的知识与技能,逐渐表现出“智能”。

对于强化学习来说,想要让这样的生物获得“智能”,一般来说都得经历几十万、几百万甚至上千万次的训练和模拟。同时我们也能注意到传统的宗教知识体系中,宏观地来看,如果想成佛,或者说达到“无我”与“空”的境界,需要经历数亿次的轮回,体验人间百态。

从相关性的角度来看,宗教和强化学习虽然相隔甚远,但二者似乎又存在千丝万缕的联系。宗教中描述的场景和世界,是过去的人类对于某种事物的一种描述,这一类事物也许是一种规则,也许是一种超越性的理解和认知,而很显然,这个认知可能是人类通过不同的推理路径最后都会到达的一个共同的终点。

尽管在整个机器学习领域,我们尚无法真正理解机器人类的推理过程,但是在更加宏观地如何让机器去产生智能这件事情上面,计算机领域也和很多基础科学领域一样,最终都绕不开回到了宗教的问题上。

对此我们暂时无法以严格的科学途径去获得结论,不过机器学习为我们提供了一种非常可行且合理的方式,去构造一个近似于真实环境的虚拟世界,让我们能够以更“自由”的视角去思考与探索。

2. 规则与机制:机器学习的可能性

2.1 用于构造“真实”的载体

在讨论机器学习之前,我们需要先明确一个问题:什么样的对象能够成为“载体”,从而使得机器学习能够在这样的环境或规则下,尽可能地模拟真实世界的运行方式。

首先,这种“载体”应该是 可持续的 。原因也很简单,对于一个不可持续的“载体”来说,无法实现机器的连续学习与决策,从而单个回合或者轮次中获取的信息或经验不可被传递。因此无法做到机器学习所要求的数据积累与迭代进化。

其次,这种“载体”应该是 可稳定的 。稳定的“载体”能够提供相对不变的约束和条件,从而能为机器的连续计算和学习迭代,提供一系列稳定的规则和设定。

同时,这种“载体”应该是 可复制的 。在科学的发展中,一切科学实验的成果都必须要做到“可复制性”,才能被接受为真实的成果。不可复制的“载体”不足以能够让机器所构造的世界实现规模化与泛化,从而无法遵循连续一致的规则和设定。

在当前的产业格局下,似乎电子游戏领域,或者电子游戏是能够满足以上条件的“载体”之一:

电子游戏是可持续的。 在一款游戏的整个生命周期中,它可以被认为是在特定的“代码时空”中连续且不断发生的,除极个别游戏外,大部分游戏世界里的时间尺度都是独立于现实世界时间尺度存在的。机器可以在这样的一个连续环境里,获得充分的时间尺度,从而持续地进行计算、学习和迭代。 电子游戏是可稳定的。 电子游戏的特殊之处在于,每一个游戏都是创作者用代码构建出来的虚拟时空。在这些虚拟时空里,世界运行的规则和设定都是完全由创作者清晰定义出来的,而游戏本身也会由机器严格按照这些代码构建出来的规则运行。在电子游戏的另一端,则是线下的桌游、跑团类游戏等等,这类游戏体验的特色之处也往往是在于更多的人为因素的介入,从而获得不一样的体验,但它们却不能像电子游戏一般从本质上就保证了他们的稳定性。 电子游戏是可复制的。 游戏的可复制性分为几个层面的意义,首先是游戏内的可复制性,其次是游戏间的可复制性。基于游戏的连续性,在游戏内无论是图像化的场景、角色和动画,还是逻辑化的对话、剧情和叙事,游戏内的内容都是可以被复制和规模化的载体。而在游戏之间,不同游戏的环境、物体、物理规则等图像层面的对象是可以被重复迁移的;自从 rct 推出了混沌球算法,不同游戏中的人物、角色和剧情叙事等都可以被规模化地复制到其他类型的游戏中,同时携带其在对应游戏中经过训练、学习和迭代后的记忆、经验和知识。

如果说,随着图像技术的发展与创新,我们对于一个游戏所代表的虚拟世界的视觉认知逐渐地朝向真实世界在靠近,那在我们所获取的视觉信息背后,同样需要一个逻辑规则来以正确且合理的方式组织信息,从而让我们以更沉浸的体验去理解这个世界和我们自己。

在过去,仅仅依赖于以决策树和状态机为代表的传统游戏 AI 技术,是无法满足游戏中我们在逻辑端对于交互日渐增长的需求,更别说以一个近似于人脑处理信息的方式来组织信息并生成合理的逻辑结构。现在有了混沌球算法,我们可以完整地同时在逻辑端和图像端去打造一个真正的“Simulator”,也就是我们经常看到的像《黑客帝国》里提到的“模拟器”概念。

简单来说,如果我们的算力足够强大,能够极尽详细地模拟人类世界的每一个细微的状态参数,我们是否能打造一个几乎和我们现实世界一模一样的虚拟世界?同时,也有不少哲学家、物理学家和企业家(比如 Elon Musk)认为我们正身处一个非常强大的“计算机模拟”中,我们体验到的现实只不过是该程序的一部分而已。

对于这个问题,有一种解释是,对于我们正在生活的这个世界,假如我们的科技不断发展,我们会逐渐地接触到我们这个世界的“边缘”,从而对置于我们之上的世界造成威胁,那么出于生存需求,上层必然会毁灭下层。从而人类的选择只有向下继续建造,虚拟世界就会被嵌套无数个。目前之所以我们还存在,是因为之前嵌套的无数个都选择了造自己的模拟器,否则中间有一个不这么干,这个系统就崩溃了,所以模拟器嵌套几乎是必然的。

而同时,电子游戏几乎是一个完美的模拟器雏形,在 AI 技术的加持下,我们能从逻辑端和图像端开始构造虚拟世界,并在后续逐渐搭建与完善人类的整个认知系统,不断地向一个完整的模拟器靠近。

当我们锁定了“电子游戏”作为走向虚拟世界的实验载体,我们也会发现,传统意义上的“游戏 AI”仍然需要通过人工提前预设好具体的对话、行为、动作等,才能通过一些规则来对玩家的交互做出看似“智能”的反应。

2.2 在虚拟中实现真实的“合理性”

与此同时,以神经网络为代表的人工智能体系,已经在图像端展现出了具体的应用前景,配合上多层神经网络的加持,监督学习和无监督学习在计算机视觉领域的应用已经渗透到各行各业,但监督学习和无监督学习是否能实现模拟人类的逻辑处理系统呢?

监督学习其实就是机器在人指导下的训练,如同做题一样,人们会给它配上标准答案。每做完一遍,就检查一遍是否完全正确,如果错了就重新检查一遍看看哪里做错了,从而不断地优化做题的方式和思路。对于机器来说,就是通过给其投喂已经标记过的数据,让他去训练和学习,最后给它一个新的数据集,看他是否能通过“学习”到的思路的方式,去给出对应的学习成果。

无监督学习则连题目的答案都不给了,同样以通过投喂数据的方式,让机器自己去摸索这个答案“应该”是什么,从而告诉人们这一类题目的特点和解答的方式。

不过这两类机器学习似乎和人类成长过程中所使用的思考和学习的方式相差甚远。人们在小时候认知一个物体或者学习一个技能的时候,并不会投喂很多数据,或重复训练几百万次;我们仅仅是通过一些似乎很“简单”的方式就学习到了知识。或者说,我们对于这个世界背后的知识框架的认知逻辑,是另一种方式,而这种方式让我们能快速组织获取到的信息。

但是,我们在强化学习上看到了希望。它不需要投喂数据,同时就像我们获得知识的方式一样,我们会在一个具体的场景下被告知某个物体或者某件事的规则是什么,我们能做什么,不能做什么,然后我们自己通过实践的方式去获取反馈并调整对应的认知。

强化学习唯一不确定的地方,也是有希望带来更大突破的,也就是强化学习的过程是非常黑盒的,距离我们人类真实的逻辑推导过程还有距离。但是在我们无法清晰定义人类的逻辑推理过程的前提下,强化学习也许是人类唯一的希望。

按照我们之前说的分析框架,在逻辑端同样出现了以强化学习为代表的尝试与一些惊人的效果,比如 Deepmind 的 AlphaGo Zero,就代表了在单一目标下的学习框架,AI 在和自己博弈的过程中学到了超越人类选手的“智能”。然而针对与现实世界更相似的“多智能体复杂目标”决策逻辑,在混沌球算法出现前,强化学习都尚未存在一个完美的框架去解决。

电子游戏作为一种场景和虚拟世界的可能性,为了尽可能地映射人类在真实世界中的情景,自然也有许多分类和玩法,从而展现人类不同的需求:

比如关注社交体验的一些游戏,通过塑造相似的社交场景,来满足人们在沟通或者倾诉上的需求。又比如挖掘人们胜负欲和攀比欲的一些游戏,也很自然地把真实世界中人们会发生竞技和争夺的场景搬到了虚拟世界里,满足人们的虚荣心。不过争夺的对象和争夺的形式又会变化多样,比如争夺生存权、争夺比赛胜利、争夺有限物资等等。

还有另一种游戏,它展现的是人们对于 另一种身份和能力的渴望 ,人们可以在虚拟世界中成为另一个自己,体验不一样的“人生”。这一类游戏一般会伴随着对于虚拟世界的自由探索,如同真实世界一样,去体验并感受不同的剧情。如同我们在真实世界中和人相遇,并坐下来聊天一样,我们对于彼此要交流的内容完全不会提前设定好,我们交流的方式和内容是基于每一个人的性格特点、背景知识等来决定的。

强化学习让我们看到了塑造一套完整的逻辑框架的可能性,并在此基础上对我们从视觉和图像层面获取的信息进行杠杆式的撬动,提高我们获取信息的效率,从而更好地在 虚拟世界里“成为”另一个自己 。

当我们谈起人工智能是否能帮助我们打造另外一个自我时,宗教知识体系有这么一种描述,他们认为“不仅时间是不存在的,自我也是不存在的”,或者说“自我和整个世界是一体的,自己就是世界,世界中的每一个物体也都是另外的自己”。这种状态被称为“无我”,而这样的思考,本质上是对世界“本质”的认知探索。

生物科技和神经科学经过几十年的研究和发展,已经发现人类大脑的区域是模块化的,不同模块负责处理不同类型的信息。在游戏中,相比起传统的决策树和状态机机制,机器学习能更加适合“模块化”地打造对应的角色形象。

比如,基于强化学习的混沌球算法构建了不同角色的大脑,给予角色以指令,让虚拟世界中的角色能够在不同的环境、条件和规则下进行自我思考和学习。有了控制中心,一个完整的“角色”仍然需要情感化的表达语言甚至是戏剧化的文本到语音生成算法。除此之外,在大脑的指令控制下,肢体动作的运动也需要更加动态的实现技术,才能在虚拟世界中还原动态且自然的动画。

另外,模块化的大脑控制体系,更多代表了智能生物体的理性决策机制。休谟在 18 世纪时就认为:理性是激情的奴隶,单纯的理性根本不可能成为任何意志行动的动机。同时理性只有通过影响“感觉”这个终极激励因素,才能让“理性”在决策流程上起到一定作用。

从理性的角度来看,机器能够严格地按照逻辑判断和反馈进行问题的处理,但它们是否能够在“感觉”层面,感受到快乐、痛苦、好奇等情感和认知,作用于理性判断的基础呢?

2.3 人类之于虚拟生物就是高维物种

人类的智能分为物理性和化学性两种方式的智能,实际上也就是理性和感性的区别。理性的智能背后其实就是人类严密的逻辑推导,尽管人类的逻辑推导其实是基于语言体系的,但是我们所有的看似自由意志的决定,背后都有着可以被复现的逻辑推导过程。

当人们在抖音快手上被带货主播们用简单的几句话就引导下单的时候,实际上就是大部分人的逻辑推导过程被主播们精准掌握的结果。电子游戏正是由于它拥有高度结构化的数据和逻辑推导过程,成为了我们非常合适的实验场景。

人和其他所有的生物,包括了我们在虚拟世界里所构建出来的这些生物,最大的区别在于我们拥有基于激素等化学物质组成的一套感性体系。人们可以感觉到快乐,悲伤,愤怒等等情感,它们背后是一套复杂的化学物质在对我们的大脑产生作用,而这些情感确实也是我们人类智能的一个重要组成部分。然而,这一套体系我们是不可能在基于 0 和 1 的计算机体系里实现的,那么对于虚拟世界里的生物来说,感性是什么呢?

在基于混沌球算法所构建出来的一个很小很小的虚拟世界的场景里,我们在算法训练的过程中会至少在这个场景里反复模拟数百万次不同的剧情。由于智能体对于虚拟场景的理解和感知完全是基于数据的,每一次剧情的模拟时间可能就只需要数百毫秒。那么,我们可以认为,这个虚拟时空里的时间尺度是独立于我们现实世界的。

这些虚拟生物所感知到的时间和世界,就是他们所看到的世界。而我们在看待这些生物的时候,就像是其他更高等级的物种可能会在更高维度的宇宙上观察我们一样,我们看到的可能是输出的数据、可能是图形化的界面、也可能是虚拟现实里的体验,但实际上这些都只是这些虚拟生物所能感知到的世界的更高维度表达。

从这个角度继续延续下去理解,由于这个基于数据的虚拟世界里不存在化学反应,且所有的逻辑和感知都是由 0 和 1 组成的数据来实现的。那么实际上,我们所理解的虚拟生物的感性决策,是从我们所认为的感性出发来理解的。而如果我们就是“他们”,那么我们所能理解的感性,就是基于我们所在的世界的边界来决定的,也就是对于数据的感知来实现的。

反过来看,即使在我们所在的现实世界里,也有非常非常多用基础科学都无法解释的,不断出现的新发现,而人类的科学家们所做的事情,不过是不断地用现有的或是新创造的理论去解释这些新的发现。现在的基础科学体系已经深入到量子力学,这就是典型的世界边界附近的模糊地带。

也许突破这个地带我们就能够发现更高维度的宇宙,也就是我们之于这些我们创造出来的虚拟生物的所在。但问题就在于,也许人类永远无法突破量子力学这个世界的边界,或者甚至是当人类有能力突破了这个边界之后,整个世界的意义就会如同前文所说的一样被证明,那么全部的认知都会被改写。我们试图通过向内探索,通过相反的方向去发现我们向外探索的过程中期待的结果。

所以,当我们看着我们训练出来的虚拟生物,在虚拟的场景里模拟出各种各样的剧情的时候,我们就像是可能存在的造物主在更高维度的展示形式下观察我们的时候一样,会从我们的角度想方设法去理解他们。但是,就像在不同语言体系下的人类,在相遇的时候也可能出现类似的情况一样,这些虚拟生物,作为一种“类人”的虚拟生物,已经具有了初步和简单的人类智能,而这个智能,我们更多的是需要站在“他们”的视角去理解和感知。

当然,这些虚拟生物的存在,就是给玩家带来更有趣,更开放的虚拟世界体验。因此他们并不会想到,自己所“认为”的世界其实是被精心设计好并为了这些更高维度的智能而服务的,他们会和玩家对话,会试图和玩家结盟,也可能会试图占玩家的便宜,但他们不可能超越 0 和 1 的世界而知道我们的存在。而我们人类又何尝没有想过,每个人匆匆忙忙而辛苦的一生又是为了什么呢?

3. 连接与超越:元宇宙的崛起与未来

3.1 元宇宙的描述与定义

元宇宙(Metaverse)的概念最早来源于尼尔·斯蒂芬森(Neal Stephenson)的著作《雪崩》(Snow Crash),该书首先描述并创造了“元宇宙”的概念和描述。事实上,自上世纪70年代末和80年代初以来,在科技领域中,很多人都是设想过这种属于未来的状态。Metaverse 这个词是由 Meta 和 Verse 组成, Meta 表示超越, verse 的意思是宇宙 universe, 合起来通常表示“ 超越宇宙 ”的概念。

这一概念指向了人类长远的发展目标,我们可以创造属于自己的宇宙,它将平行于现实世界运行、成为一个人造的维度空间。大家认为,互联网的下一个阶段, 是由逻辑端、图像端技术和各种终端硬件支持的虚拟世界。

关于元宇宙的特点,我们可以大概归纳出一些描述:元宇宙将会是一个始终在线的虚拟世界,有无限量的人们可以同时参与其中。它也会有完整的经济系统在不间断地运行,并且可以跨越真实世界和数字世界。同时,任何基于数据信息的形象、内容、财富等都可以在元宇宙流通,很多人、很多公司都会创作内容、商店以及体验,来让它更繁荣。

人们所达成的共识是,元宇宙不会一夜之间出现,也不会是仅由一家公司打造和运行的。如同真实世界一样,元宇宙将会由非常多的公司、组织、个人等来共同实现,同时也会由许多独立工具、平台、基础设施、标准和协议等来支持其运行。

有很多评论和见解认为,元宇宙非常像现在我们定义的“游戏”,因为在目前所有数字化的领域中,游戏似乎也是最接近于元宇宙的一种形式。不过如果我们以一种动态的视角去看这个新物种,我们会发现,之所以我们认为“元宇宙”是一种游戏,是因为我们在使用当下的理解去理解未来的形态。

3.2 元宇宙的特点与表现

事实上,我们认为,元宇宙(Metaverse)在计算机出来的第一天就开始发展了,并随着技术的进步和应用的增加,元宇宙的版本也随之不断地进化和迭代。需要注意的是,目前整个人类社会实现可以被称为元宇宙的阶段,不过我们也“似乎”正在朝向这个方向在进行发展和积累。

在对元宇宙发展阶段进行描述前,我们需要先解释的是:“游戏”、“虚拟世界”、“元宇宙”这三个词所代表内容的关系。总的来说,我们认为:

“虚拟世界”是相对于“真实世界”而言的一个定义; “元宇宙”是在“虚拟世界”这个大类下,对于“可连通信息”的总称; 广义来看,“元宇宙”是“虚拟世界”内和每一个参与主体发生交互的信息本身、交互形式、交互过程的总集合; “游戏”是现阶段我们对于“虚拟世界”进行认知与交互的最直接载体; 广义来看,“虚拟世界”里的社交、支付、购物等等,都为以“游戏”的形式开展; 多个“虚拟世界”之间若不能相互流通,则单个“虚拟世界”或整个集合就不是“元宇宙”;

这里需要解释一下,多个“虚拟世界”不能相互流通的指的是:不能以一个类似于 one-pass 的统一身份进入各个“虚拟世界”、“游戏”、“社交”、“电商”等,同时无法以统一或者一致的经济系统进行交易。

Epic 说自己要做 Metaverse,是因为驱动游戏的底层引擎 Unreal Engine 是他的,也有 Epic Game Store 作为交易中心,同时与其他数字化基础设施相契合。事实上,Steam 也可以算 Metaverse 的初期阶段。但目前这种这种经济交易是初级的,只是表层的统一账户购买,不是深层次的连接游戏内的经济交易系统。当然其实要做的话也不难,把每个游戏的游戏内交易机制和平台的交易系统统一挂钩就行。

同时,考虑到“时间”的效应和影响(我们暂时认为时间是存在的),

以上便是小编给大家带来的《机器学习、虚拟世界与元宇宙 Metaverse》最新资讯,希望对大家有用。更多资讯,请关注齐发游戏