从大语言模型到哲学
目前,图神经网络与大语言模型的结合研究已经相当广泛,因此我阅读了许多关于LLM的论文。之前对于LLM的理解仅仅停留于它是怎么被实现,有哪些模块,并没有真正深入理解。借这个机会我总结了现在大语言模型的基本原理,感触颇多,引发了一些哲学方面的思考,特此记录。
LLM的基本原理
首先要理解当今大语言模型的基本原理:通过注意力机制抓取上下文关系经过大量文本训练对于未知的文本进行预测。大语言模型的基本原理意如其名,是通过语言推理来实现的。当你向大语言模型提出一个问题时,它是根据你的问题选取了“概率最大”的词并进行拼接形成句子进行了回答。也就是说,在大模型眼里,它要做的一切不过是根据先前的训练选取概率最大的结果进行显示而已。当我问你和GPT这类的优质大模型什么是狗时,你们的回答可能会一致,比如都从生物、社会等方面作答。但是,你的作答依据是你长期以来的感受以及脑海中那个具象的狗;而GPT作答的依据仅仅是“生物”等词语概念在高维空间中离“狗”这个词语概念比较近,输出概率最大。(在高维空间中,相似意义的词语往往会被映射到相近的位置。例如,“猫”和“狗”可能在这个高维空间中靠得很近,因为它们都属于“动物”这个语义类别。相反,“猫”和“汽车”会离得很远,因为它们的语义类别完全不同。)你和GPT看似都在说“狗”,实际上在彼此脑海中可能是两个完全不一样的东西。LLM就是这样的表现得很像人类的大型机器。
LLM引发的一系列思考
于是我们可以这样理解LLM:LLM相当于拥有一个巨大的“知识字典”,这个字典不仅包括词语的表面含义,还包括它们的背景知识和语义关联。它的任务是在大量的可能性中找到一个最合适的输出,这个过程涉及从词语到句子的整合。
所以大模型想要说话是靠选取它认为说出来正确概率最大的词语实现的,仔细想想人的说话方式,好像也有差不多的逻辑。不过大语言模型始终还是缺乏真正的“理解”和“意图”。
同样的,我们也可以这样理解:LLM的字典其实是一个超级大的图,每个节点是一个特定的概念,边是节点彼此之间复杂的联系。比如狗与动物之间连接的信息可能是捕食者与被捕食者这样的,狗与人则包括宠物、文化等信息。LLM通过概率大小来对边和信息进行选择、找到合适路径并利用,只不过这个图是基于高维向量实现的。那么“力”这个概念会与所有其他物质概念相连吗?答案是不会。
“力”这个概念在LLM的语义空间(可以看作是一个巨大的高维图)中不会与所有概念相连,而是会与那些在语言使用和语义上具有更高关联性的概念相连。LLM的内部表示依赖于训练数据中不同概念的共现和语境关系,因此,尽管“力”可能与许多不同的概念相关,但这种关联性会因具体语境和使用模式而异。
到这里我们自然能够发现,LLM的这个图并不是现实整个世界的关系的抽象,而是对人类的语言系统图的抽象,捕捉的是语言中的词汇、概念及其使用方式之间的关联性,而不是实际世界中物理或概念之间的全面关系。这也就回到了我们所说的大语言模型的语言上。
我们不妨再回到刚刚说的回答“狗”的问题上,当问及什么是狗时,LLM的回答会与许多人的回答一致,而LLM本身并不具备意识,LLM不过是在语言系统中找到答案而已。那么这似乎意味着人类本身也受限于这个语言系统,很多对话和行为并不是出于人类自身意识而是由系统影响发生的。人类的语言表达和行为在某种程度上也受制于语言系统和社会文化框架,而不完全是出于“个体独立意识”的表达。
这就很有意思了,生活中经常传的“以中文为母语的人和以英语为母语的人在意识上会有所区别,潜意识的行为会不一样”有了根据,语言导致了中式思维和英式思维。那么,计算机是什么思维?答:训练用的文本是什么就是什么思维。计算机会根据训练用数据像人一样投身于语言系统中,不同的语言系统导致语言模型的结果不同也就能够被接受了,这就能解释为什么有时候GPT这类的工具在中文对话时会突然切换为英文,回答同一个无关敏感话题的问题时中文英文的结果会不一样了。而我们知道,二进制理论上可以表述世界上任何概念,1和0的组合可以明确指向某一概念本体。那让AI完全使用它自己的语言似乎能让训练过程和输出过程变得更为高效,但这样的信息人类也就无法理解了,为了人类能够使用大语言模型,我们必须让它处于人类的语言体系下,尽管它知道100%的内容,输出为我们能够理解的内容只有80%.
不知道大家有没有思考过思考这个过程,人类思考的时候是通过在脑内与自己对话的方式实现的,而对话要语言,这就意味着语言会影响人类的思想过程,那最开始没有统一语言的时候人类是怎样思考的呢?他们脑子里面浮现的是什么呢?这是有相关研究的,原始人的非语言化思维方式一般认为包括:图像思维、动作模拟、情感和直觉驱动的反应。
图像思维:原始人的思维可能更倾向于依赖图像和视觉记忆。比如,他们可能会在脑海中“看到”某个狩猎场景或捕猎工具,而不是用语言描述这些场景或工具。这种视觉化的思维形式在现代人类中依然存在,比如做梦、想象某个熟悉的地方等。
动作模拟:原始人可能依赖于模拟和模仿动作的方式来进行思考和学习。比如,他们可能会在脑海中“回放”某个动作的顺序,以便更好地重复这个动作(如如何制作工具或如何狩猎)。这种通过身体和动作进行思考的方式在今天的运动员、工匠和表演艺术家中依然很常见。
情感和直觉驱动的反应:原始人可能更多依赖于情感记忆和本能反应来指导他们的行为,而不一定需要用语言进行理性分析。例如,在遇到危险时,恐惧的情感反应可能会自动驱动逃避行为,而不是先用语言在脑海中思考“这是危险的,我应该跑”。
可以看见,语言这个东西是依附人类社会产生的,并不是个天然的概念。语言也绝不仅仅是交流用的工具,它确确实实影响了人类的发展,大语言模型也正因为语言的重要地位才取得了如今辉煌的成就。
我们不妨再上升一下概念,回到计算机、大语言模型本身来,如上所说,他是根据词语向量推断出另一个词语向量,那么这里的词语到底指什么?在它的高维空间中“狗”这个词语向量的所指不过是指向了空间中某个区域的某个点。在计算机看来,“狗”这个词,意味着它附近的一切空间,意味着“生物”、意味着“宠物”、意味着“生肖”…那么我再问一次,“狗”这个词的所指真的是“狗”那个东西吗?并不是,“狗”仅仅是一个“符号”,当计算机寻找“狗”的意义时,它只能找到与这个符号相关的其它符号,并用其它符号来规范这个符号。比如说,狗是一种生物,那生物是什么?生物这个概念也是一个符号,他也需要其它的符号进行解释。到这里我们停,再转到人类的立场。同处于同一个语言体系中的我们与计算机有什么不同呢?当我们谈及“狗”时,我们所谈起的不过也是一个符号罢了,“一千个人眼中有一千个哈姆雷特”也就是这个道理。大语言模型所谈起的符号是用作训练的数据赋予的,而用作训练的数据往往来自于互联网,来自于各个平台,因此,计算机所说的那个符号是某种程度上我们人类公认的公共符号,比如说我们都认可狗是一种生物,狗也是宠物。而每个人的狗的符号是不一样的,这与我们先前所说的每个人的经历有关,我们都在谈论狗,但实际上我们每个人脑中的狗都不一样。
我们谈论某个事物时并没有谈论那个事物本身,而是在谈论不同人脑中对那个事物的符号。可以说,人类的许多情感、个性以及思维方式确实在某种程度上也受到了语言系统的影响,甚至是由语言系统的“局限性”或“缺陷”所引起的。
再抽象一点,当我们说我们和计算机对于某个概念的理解其实是对于符号的理解时,我们研究的其实也是那个符号的符号,我们在用我们刚刚构造出的“符号”这个词去解释那一种现象。这样可以一直迭代下去,符号的符号也会有符号,符号的符号的符号其实也是符号。这种现象叫做符号系统的无限回归现象。
我们生活于这样一种符号的系统内,并且被困在里面了!
我们已经意识到了符号的存在,那么我们用符号解释符号的行为能让我们跳出符号的框架触摸更“好”的某种东西吗?
超越语言的可能性:
维特根斯坦的“语言的边界”:哲学家维特根斯坦在其晚期哲学中提出,“语言的界限就是我的世界的界限”。这句话意味着我们的思维受制于我们所使用的语言系统。要超越这种局限,维特根斯坦主张通过“沉默”来面对那些语言无法触及的领域。虽然这不是一个明确的解决方案,但它表明了对超越语言的需求。选择沉默不去思考,更极端一点成为植物人,某种意义上只是符号系统的停止,人的个体从符号系统中消失罢了,依然没有跳出符号系统。
禅宗与东方哲学的启示:一些东方哲学,如禅宗,强调超越语言和符号的直接体验和直观感知。通过打破语言的概念框架,个体可以获得一种“顿悟”或直接体验的智慧,这是一种无需符号解释的认知方式。但是,当人们试图表达“顿悟”的瞬间体验时,这种表达本身就落入了符号和语言的体系之中。这种现象暴露了顿悟的一个哲学悖论:顿悟是一种非语言的体验,但它的表达却依赖于语言和符号。并且,从认知科学的角度来看,任何形式的思维或意识体验,最终都会在大脑中以某种形式被表征。这种表征很可能是基于神经活动模式的,且与大脑中已有的概念和符号系统相关联。因此,即便是顿悟这种超越性体验,在进入大脑后也不可避免地会被大脑的符号系统重新编码。所以很多宗教都有这样的描述:人生下来就是有受限制的,是压抑的。
在佛教中,“业”指个体的行为及其带来的影响和后果。每一个行为(无论是身体、语言还是心灵的行为)都会产生相应的业力,通过修行(如戒律、禅定、智慧),人们可以逐渐消除业障,获得觉悟。觉悟是指看到现实的真相,认识到“无我”和“空性”。
印度教提出类似的概念,认为人生来就受到“摩耶”的迷惑。摩耶是指一种幻象或错觉,它让人误以为物质世界是真实的,而忽略了背后的永恒真理——梵。
道教认为人之所以受束缚,是因为背离了自然的“道”,而道则可以理解为摆脱了符号限制的终极真理。
不管你有没有意识到,当你在看这段文字并尝试理解符号时就已经在用符号说这些东西了,已经落入到“有”和“有声”的知识中了,最先的本初似乎已经远离。符号本身是一个指向,而不是指向的对象。语言是用来描述和指向世界的,但它并不是世界本身。因此,当我们用语言谈论“本初”或“本质”时,我们只能在概念的框架内来讨论,而不是在直接的体验中接触它。马丁·海德格尔认为,语言和概念常常遮蔽了我们对“存在”的直接体验。我们被“言说”所限定,无法直接接触到“本有”的真相。他提出“解蔽”的概念,意思是要揭示出被语言和符号所遮蔽的真理。海德格尔主张我们应该在日常生活的具体体验中寻找与“本初”的连接,而不是依赖于抽象的哲学语言。这种追寻是一种向内的回归,不是逻辑的、语言的分析,而是一种存在性的体验。
人们能在类似符号这样的大体系下去质疑这个体系并追求与之相背的东西,用符号去解释、背叛符号,也就印证了爱因斯坦的名言:“宇宙最不能被理解的地方就是它能被理解。”
一个婴儿它刚出生那一刹那,他是不受符号系统所约束的,因为如我们上文所言,语言和符号是人类社会的产物,“婴儿”的状态是最初的状态,不过很快会落入符号体系中罢了。这也就能解释为什么人类在小时候学习能力很强了:因为人类小时候如同一张白纸,还没有被符号系统过度影响,一切的除了唤起生物本能的塑造都没有阻力。这种“符号系统的低干扰状态”意味着他们的认知更为开放和灵活,能够以一种无预设的方式来体验和吸收新信息。而有了独立思考能力的人们,要想获取新知识就必须先对已有的符号系统进行“革命”,推翻一些旧的迎来新的。(这也与人类社会的发展规律相对应上了)
所以很多人都有的对“童年”的怀念,或者“思乡”的感情,其实很大程度上是对“最初的状态”的怀念。身处于繁杂的符号系统中久了自然会想逃避一切回到最初。这也就是人类对于“自由”的追求。符号让人们有了某种惰性,受困于符号中被语言体系所绑架自然无法发挥出“自由意志”的能力,无法表现出创造力。这也就能解释为什么很多伟大的人物在体育或者艺术方面会有涉足,因为身体、音乐、画作、诗歌是作为了“回到过去的通道”,能够让他们努力摆脱符号的束缚,用符号去尽可能地表达内心符号无法表达的真正所指。普通人也时常在努力“回到过去”,很多人形容咖啡或者酒的味道时会用花香、果香、巧克力这些词语,很显然这些词语形容时只是作为一种抽象符号在发挥作用,人类的很多活动,包括饮食体验,都在某种程度上试图超越符号的限制,回到一种更原始、更直接的体验状态。人们不断尝试在符号、语言体系下去表达“真正的事物”。
但说到底,人类终究是社会动物,还是得在符号系统中不断前进,只不过让符号的边界不断扩大,局限更少罢了。
说个很有意思的暴论:小明在学校学习某个课程并去参加考试,可以理解为小明去接受一个新的语言符号体系,然后考试是对这个新的语言符号体系是否深刻影响了小明的验证,如果小明对于这个符号体系全盘接受就能学的很轻松取得高分。而如果小明比较叛逆、喜欢多想,会对新的事物进行反复审视、批判并尝试从自己的视角重新解释,他就会学得比较累,考试也不一定能取得高分,因为它们更注重标准答案和统一的知识传递方式,但是小明会因此更有创造力,更有自己的思想。这是否能说明为什么很多取得高分的人是“书呆子”,在考试之外的地方鲜有建树;为什么很多大科学家、大思想家的日常表现都比较离经叛道?
懒懒散散说了这么久,谈了这么多关于LLM、语言和符号的问题,如果真有人愿意看完这篇文章的话,我想劳烦你们再思考一个问题,一个我之前的文章反复提起的问题:什么是真正的智能呢?