0 引言
自古以来,意识问题始终是哲学与科学的共同谜题。它既牵动哲学家的根本追问,也激发科学家的探索欲望。从柏拉图对灵魂的形而上学设想,到笛卡尔的心身二元论,再到当代神经科学对大脑活动的实验测量,每一次尝试都在某种程度上揭示了意识的面貌,却又同时带来了新的困惑。意识似乎总是逃逸于概念的穷尽与实验的掌握之中。在智能时代,这一古老议题迎来了新的契机。人工智能(Artificial Intelligence, AI)通过大规模语料的统计建模展现出近似人类的语言能力,而脑机接口(Brain-Computer Interface, BCI)则通过对电生理信号的分割与解码,将原本连续的意识流切分为离散的操作单元,从而使意图得以在外部系统中显现。人工智能与脑机接口在方法与对象上迥然不同,但它们的共同点在于都依赖于一个看似微小却意义重大的概念:token。
在AI中,token是语言被压缩为可计算单元后的产物。它承载概率分布的统计关系,并通过嵌入和注意力机制组合为复杂的表达。在BCI中,token则是从连续而模糊的神经信号中提取出的符号化片段,它代表字母、动作或语义意图,从而成为人与机器沟通的基础。表面上,这两种token都体现了对复杂过程的离散化处理,但本文主张它们并不具备深层的结构同构性。它们的相似性仅限于工程层面的接口作用,而非语义结构上的统一。事实上,token的生成方式深受语料、算法、实验环境以及应用语境等的制约,其意义始终依赖动态的关系网络,因此无法被视为跨域的普遍语义原子。
基于这一立场,本文提出一种谨慎而务实的视角。token的真正价值并不在于构建统一语言,而在于充当跨系统的接口机制。它通过离散化和最小化的方式,使原本不可计算的连续现象得以被操作和传递。由此,人工智能与脑机接口在结构与功能上展现出可比性,即都依赖token作为压缩复杂性的基本手段,同时又在语义与范式层面暴露出不可通约性。这种张力正是理解意识与技术关系的关键切口。
文章的结构安排如下:第1节与第2节分别分析AI与BCI中的token生成机制与操作功能。第3节与第4节借助洪堡、索绪尔和库恩的理论资源,揭示 token在统一化设想与差异性现实之间的张力。第5节提出基于token的机器意识判据,并讨论心身交互的新进路。第6节以“巴别之后”的寓言作为收束,强调token的意义不在于建造通天的统一高塔,而在于搭建跨越差异的桥梁。
1 AI中的token:统计生成与结构幻象
在当前的AI中,token是语言模型处理的最小单元,它可以是单词、子词、字符,甚至标点符号。自然语言在输入模型之前,会经过分词(tokenization)与编码(encoding)的步骤:文本被切分为离散的token,并通过嵌入向量(embedding)映射到高维语义空间[1]。在这一过程中,token不仅作为符号存在,还承载了语境中统计性的语义特征。
在不同语言中,token的划分方式呈现出显著差异。以英语为例,在最直观的层次上,单词dog、running可以直接作为token;但在子词级别,running往往会被切分为run + ##ing,以便应对复杂的词形变化;而在更细粒度的场景中,甚至单个字母c、a、t、s也能作为token,尤其是在处理低资源语料、新词以及复杂的词形变化时[2]。相比之下,汉语属于表意文字体系,汉字天然携带语义,字级token化即可覆盖大部分语言现象。例如,“火”“山”“水”等单字即为独立概念,“人工智能”既可以整体切分为[人工] + [智能],也可以细化为[人] + [工] + [智] + [能]。更重要的是,汉语几乎没有时态、数或格的形态变化,使得词表结构更为稳定。而且,汉语表达普遍紧凑,同样信息量下所需的token通常更少。但与此同时,汉语分词高度依赖算法,容易出现歧义,例如“研究生活”既可切分为“研究生+活”,也可切分为“研究+生活”[3]。在一些实验中,研究者甚至尝试将汉字拆解为部件或笔画,例如“明”既可以表示为“日+月”,还可以进一步离散化为横、竖、撇、捺等更小的符号单元[4]。换言之,token的定义并不是固定的,而是随语言特征、算法选择与应用需求而不断调整的动态边界。
在大语言模型内部,自注意力机制(self-attention)能够动态计算任意两个token之间的相关性,使得模型在预测下一个token时不局限于局部邻近的信息,而是能够整合整个序列的上下文。这一机制与多层Transformer结构结合后,使得token之间形成复杂的递归与组合关系:有限数量的token,在多层网络的迭代作用下,可以生成潜在无限的语言输出[5]。换句话说,token在AI中并不是孤立的符号,而是通过统计模式与网络结构相互作用,展现出强大的生成能力。
这种生成性现象与乔姆斯基(Noam Chomsky)提出的“普遍语法”(universal grammar)表面上存在某种呼应:有限规则可以生成无限表达[6]。但是,AI的生成并不依赖先天语法结构,而是基于大规模语料的概率分布[7]。人类语言的递归能力在乔姆斯基那里被解释为心智固有机制,而在AI中,递归性更多是一种统计学习的涌现性质。
维特根斯坦(Ludwig Wittgenstein)的语言哲学也为理解AI token的意义提供了视角。他认为,语言的意义来源于其在“语言游戏”中的使用,而非其自身[8]。类比到AI,token的“意义”并非源自某种预设规则,而是通过数十亿次语料使用中的统计关系而逐渐获得。换句话说,AI中的token是语境驱动的概率符号,它的功能依赖于语料中的使用模式,而不是内在的先验语法。
因此,AI中的token可以被理解为一种统计生成的结构单元:它通过嵌入向量与注意力机制获得组合能力,通过大规模语料训练展现递归性,并在表层形式上逼近了人类语言的生成逻辑。至于这种机制是否与人类意识或语言的根本结构相同,学界仍有争论。例如,辛顿(Geoffrey Hinton)甚至提出,人类意识可能就是一种大规模神经生成模型的动态激活轨迹。但无论如何,AI的token为我们提供了一种工程化视角,让我们得以重新审视“结构性”与“生成性”的关系。
2 BCI中的token:意识流的离散化与并行性
在BCI中,token的生成方式与AI截然不同。它并非来自于文本,而是直接取材于大脑的电生理活动。研究者通常利用不同层次的信号作为输入:非侵入式技术如脑电图(EEG)与功能磁共振成像(fMRI),能够捕捉大规模神经元群体的同步活动;而侵入式技术如皮层电位(ECoG)或单神经元放电(spike trains),则能提供更高的空间与时间分辨率[9]。无论哪种方式,原始神经信号都是连续的、噪声极大的,需要经过滤波、特征提取与模式识别等步骤,才能被切分为可操作的最小单元,即所谓的token[10]。
这些BCI token的形式多种多样。在拼写型BCI中,token可能对应单个字母或词汇,例如P300拼写器利用注意诱发的P300电位,当用户注视某个字母时,约300毫秒后脑电会出现显著波动,这一波动即被识别为“字母token”[11]。在运动控制应用中,token则可能代表“向左移动”或“抓握”的动作意图,如在运动想象任务中,用户仅需想象左手或右手运动,大脑便会产生可区分的节律活动,被解码为具体操作命令[12]。而在基于注意的实验中,稳态视觉诱发电位为BCI提供了另一种token化路径:当用户注视不同频率闪烁的光源,大脑会产生对应频率的稳态响应,每个频率都能映射为一个“选择token”,这使系统能够在短时间内提供多重并行的交互界面[13]。更为前沿的研究则突破了低层的字母与动作层次,尝试直接解码片段化的语义信息:例如,借助高分辨率fMRI对大脑皮层语义活动的记录,研究人员能够利用解码器从这些神经活动模式中重建连续的自然语言片段,从而捕捉到更高层次的语义信息[14]。
BCI的token化过程为意识流提供了一种离散化的“编码语法”:原本连续而模糊的神经活动被切分为可操作的符号单元,进而实现与外部技术系统的高效交互。从工程角度来看,这种离散化不仅是信息压缩,更是一种分类与筛选的机制。在具体实验中,研究者通常采用单一的BCI范式,例如P300拼写器依赖事件相关电位,运动想象任务依赖μ/β节律变化,稳态视觉诱发电位则利用不同频率的视觉诱发反应。在这些BCI范式中,用户面对的往往是一组候选选项——如拼写矩阵中的多个字母、左手与右手的运动意图,或是界面上闪烁的不同频率光源。它们在信号层面并非真正叠加存在,而是在解码算法中被视为并行的候选类别。系统通过概率建模与模式识别,在这些候选token之间进行竞争性选择,最终生成一个可解释的输出。
丹尼特(Daniel Dennett)的“多重草稿模型”(multiple drafts model)为这一工程现实提供了哲学上的呼应。他指出,意识并非单一剧场中的统一叙事,而是由多个同时生成的“草稿”构成,这些草稿在后续加工中不断被修改、强化和淘汰[15]。BCI的解码过程正是这种思想的工程化外化:候选token就像多个意识草稿,它们并行呈现,在算法的竞争机制中不断被筛选,最终才形成拼写结果、运动命令或语义片段等稳定输出。
由此可见,BCI并非仅仅是对意识的“读取”,而是在某种意义上重构了意识的表达方式。通过token化,连续的神经活动被转译为离散的信息单元,使大脑与外部设备能够以模块化和组合化的方式进行交互。换句话说,BCI token不只是技术上的编码单元,更是意识并行性和选择性的一个工程化切面,它在一定程度上将丹尼特的哲学洞见转译为可操作的实践模型。
3 统一token?:结构与功能的双重角色
从AI与BCI的对比中可以看出,尽管token在两个领域的来源迥异,一个起源于文本符号的分割与统计建模,另一个来自神经信号的解码与离散化,但二者在深层逻辑上却展现出惊人的共性。从结构层面来看,token都是一种对连续性现象的离散化与模块化处理:在AI中,token将语言流切分为最小的符号单元,通过嵌入与注意力机制在高维空间中被组合与递归,从而逼近人类语言的生成逻辑;在BCI中,token将连续的神经信号流切分为可解码的单元,从而重构意识活动的片段化表征。这种离散化机制,使得原本复杂、动态的过程被压缩为计算机系统可操作的元素。换言之,token在两种场域中都扮演着一种“生成性桥梁”的角色:它将语言与思维的无限性转译为技术系统能够承载的有限表征。
在功能层面,token承担着信息中介与符号转换的角色:AI中的token充当人类语言与机器理解之间的翻译器,使自然语言得以在概率分布的空间中被重构与生成;BCI中的token则是神经活动与外部行为之间的桥梁,它让本属于内隐的意识意图能够外化为明确的动作与操作指令。换句话说,token并非被动的符号,而是一种跨系统的接口机制,它通过最小化与模块化的方式,把复杂、连续的现象转译为技术可处理的离散单元。这种统一的视角提示我们,token或许可以被理解为未来人机共生的一种潜在表达单元。它的根本共性在于,都以离散化与模块化的形式,将原本连续、流动、复杂的现象(无论是语言还是意识)压缩为计算机系统能够处理与计算的基本元素。通过这种压缩与离散化,token使得不可计算的自然过程转化为可计算的信息结构,因而成为人机之间最为关键的中介。越来越多的研究表明,AI与BCI的发展正通过token建立起某种互文式的关联:AI的语言建模方法启发了神经信号的解码策略[16],而BCI的实验成果也不断反向丰富着对token的理解与应用[17]。二者在不同层面上彼此借鉴、相互映射,从而逐渐勾勒出人机共生的可能路径。
由此,我们似乎能够构想一种“统一token理论”,即在不同系统之间建立起一种跨域的可通约性:无论是自然语言的表述,还是意识活动的神经痕迹,都可以通过token这一最小单元获得某种精确的互译机制。换言之,token不仅是技术层面的编码工具,更是一种可能承载跨领域意义的基础结构。通过这一机制,语言与意识的表达、外化与生成,便能够在技术平台上找到统一的逻辑与形式,形成一种跨系统的“接口语言”。
如果我们进一步推演这一设想,token或许可以被理解为一种跨模态的“世界语言”的雏形。它试图将异质的认知系统、符号体系与文化背景压缩进一个共享的计算框架。例如,在未来的人机共生场景中,不同国家的人们或许通过各自 BCI设备生成不同的神经token,而这些token在统一的接口层上被实时对齐与翻译,从而绕开自然语言的差异,实现某种“思维级别的即时互通”。同样,AI系统也可能不再完全依赖自然语言语料,而是通过token直接与人类的神经表征对接,在最小单元层面完成跨模态的理解与表达。
这一构想可与思想史上的多个通用语言计划相互呼应。莱布尼茨(Gottfried Leibniz)提出了“普遍语言”(characteristica universalis)的设想,试图以一种逻辑化的符号系统涵盖万象知识,使思维和推理能够像算术一样精确运算[18]。威尔金斯(John Wilkins)则在《论现实文字和哲学语言》(An Essay towards a Real Character and a Philosophical Language)中,企图通过分类学方法将自然界与人类经验拆解为最小可组合的符号单元,构造一种超越民族语种的普遍交流工具[19]。当代科学史学者戈尔丁(Michael Gordin)在考察“通用语言计划”的历史时指出,这类构想的意义不在于翻译现有语种,而在于提出一种重新组织知识与交流体系的可能性[20]。福多(Jerry Fodor)的“思维的语言假说”(Language of Thought Hypothesis)将这一追求推进到心智层面,认为人类的认知活动本质上依赖于一种先于自然语言的符号系统,它是心灵运作的真正媒介,他将之称作心灵语言(mentalese)[21]。再回过头来看,“token式世界语言”并非现有自然语言的延伸,而更像是一种“计算化的心灵语言”(computational mentalese)。它不仅具备语言般的组合性,还能够在多重感官与认知维度中建立对应关系,使视觉token、听觉token、运动token与神经token等得以在同一框架下实现互译。这样一种人机混合的符号学体系,既是对传统通用语言构想的继承,也是一次超越。在这一设想下,人类与机器或许能够进入一个全新的意义生成与交流层次,其边界已不再局限于自然语言,而指向一种跨模态、跨系统的共享符号学未来。
然而,这一统一性的设想在实践中迅速遭遇多重难题。首先,token的生成方式本身就具有高度差异性。在AI中,不同的分词算法会构建出迥然不同的 token库;跨语言的语料特征进一步导致切分规则的多样化。在BCI中,token的划分依赖于神经信号的采集方式与解码策略,不同实验室、个体,乃至文化背景下的处理方法都可能截然不同。其次,token并非语义原子,其意义始终依赖上下文及符号系统的动态互动,因此无法构成一个稳定、跨域统一的“语义基元”。最后,token处于持续演化之中:新的语料、算法与硬件条件等不断改变其边界与内部结构,使得所谓的“统一token”乃至“统一语言”更像是一种理论设想,而非可实现的工程路径。
由此可见,token在揭示人机交互的共性机制的同时,也凸显了语言与意识的不可通约性。它既充当跨域沟通的桥梁,又暴露差异与生成的多样性。为了更深入理解与分析这一矛盾,我们需要回到语言哲学与科学哲学的论述,从洪堡(Wilhelm von Humboldt)、索绪尔(Ferdinand de Saussure)到库恩(Thomas Kuhn),进一步探讨语言、意识与世界之间的张力。
4 统一的幻象与差异的现实:语言与不可通约
洪堡明确提出“语言是思想形成的器官”。在他看来,语言与思维并非两个相互独立的领域,而是同一心智活动的不同侧面。语言不是一个既定的产物(ergon),而是一种永续的活动(energeia)。语言不仅仅是交流工具,更是塑造世界的方式,不同语言各自承载着不同的“世界观”。学习一门外语,甚至意味着学习一种新的世界观[22]。无论AI还是BCI中的token如何被压缩与离散化,它们都难以超脱出各自生成语境所烙印的差异。即便技术上形成了统一的计算格式,背后所关联的世界理解仍然多元而不可约。换言之,token并不是一种纯粹的计算原子,而是被语言传统与文化框架深刻地塑形,并且随着技术、数据与语境的变化而不断生成和演化。
索绪尔的观点与此相互印证。他否认人是先有了清楚、独立的思想,然后再寻找语言来表达。在他看来,思想与声音原本都是浑然无形的“无定形之物”,只有通过语言的联结,它们才获得清晰的界限。他将语言比作一张纸,思想是正面,声音是反面,二者不可分割。由此可见,语言不仅是思想的表达媒介,反过来也对思想的形成起着决定性作用[23]。若应用到token的讨论中,便意味着token不可能作为纯粹独立的语义原子存在,它的意义总是依赖于“语言-思想-声音”这一整体系统的动态互动。更进一步,随着AI算法的迭代与BCI信号解码方式的更新,token的边界和形态也随之演变。这种演化性意味着,即使是同一段语言或神经信号,在不同的时间点、不同的算法环境中,所生成的token可能完全不同。token因此并非固定的语义基元,而是一种受制于历史条件与技术范式的动态建构。
在此基础上,索绪尔的结构语言学进一步揭示,符号的意义来自差异网络,而不是某种本质属性。一个符号在系统中之所以有意义,是因为它和其他符号之间形成了差异关系[24]。由此推演,token无论在AI的语料切分中,还是在BCI的神经信号分割中,都不能自足地成为语义原子。它们的意义总是依赖于系统内部的关系与上下文的动态互动。如果缺乏这种关系网络,单独的token便是空洞的、不可理解的。这也解释了为何即便同样的信号片段在不同算法中被切分为相似的token,其最终含义仍然可能迥异,因为它们所处的差异网络并不一致。而且随着差异网络本身的变化,token的意义也会不断发生漂移,这种漂移正是其演化性的体现。
库恩的科学哲学为这一困境提供了另一种视角。他在《科学革命的结构》中提出了“范式”(paradigm)和“不可通约性”(incommensurability)的概念,认为一个科学共同体在常规科学阶段,通常由某一主导范式主导。研究者在这一范式框架内提出问题、设计实验、解释结果,而不同范式之间缺乏统一的度量体系,彼此间的核心概念也难以通过同一套符号或语言实现无缝翻译[25]。类比到token的问题,我们会发现,不同语言模型的分词算法、不同实验室的神经解码方式,乃至不同个体的神经特征等,都构成了各自的范式。这些决定了token的生成方式与使用路径,使得token的意义只能在特定范式内部自洽,而不具备跨环境的普遍等值性。如果沿着库恩的逻辑推演,那么“统一 token”的设想便面临根本的限制:它企图在多种并存且相互不可通约的范式之间建立一种超越性的共同语言。然而,由于缺乏中立的立场与通用的计量单位,这样的语言在事实上难以建立。
在库恩后期的思想中,他对“不可通约性”的理解得到了进一步深化。他指出,不同科学范式之间的核心概念虽然往往无法在字面意义上实现直接翻译,但这并不意味着它们彼此全然隔绝、无法对话。不可通约性强调的是语言与符号系统的差异性和历史性,它揭示了知识总是被置于特定语境与范式之中。然而,通过诠释与重新理解,人类依然能够在不同范式之间建立沟通和比较的可能,从而推动科学知识的累积与发展[26]。这一后期的洞见为我们理解token的作用提供了新的哲学视角:token并不是某种“天然统一”的符号单元,而恰恰是差异性和不可通约性的产物;然而,它同时又具备在不同语境中被重新理解和操作的潜能,因此能够成为跨系统交流的关键中介。
由此可见,token并非一种纯粹的语义原子,而是始终处于差异与张力之中的操作性单元。它不是先验确定的意义单位,而是在实践过程中不断生成、修正和重塑的动态产物。无论是语料的扩展、算法的迭代,还是神经实验的改进,都会在不知不觉间改变token的边界与功能。更重要的是,token的意义在不同语境中的应用中会发生差异化,呈现出多重的解释路径。因此,那些关于“统一token”乃至“世界语言”的设想,至多只能在工程层面上作为近似或规范性工具成立,却无法在语义与文化层面实现彻底的统一。
token的价值并不在于构成某种终极的统一语言,而在于它能够在多样性与差异性中提供一种可计算的接口机制。它使得原本异质的系统之间得以建立沟通桥梁,让语言、意识与计算在一定条件下实现对接。这样的对接并非一劳永逸的固定结构,而更像是一种在实践中临时达成的“稳定化成果”。换句话说,token的意义始终是开放的,它随着技术应用与人机互动不断被“再生产”,而非一次性确立。正是在这个意义上,token不仅是技术层面的最小操作单元,更是人类认知与机器计算之间的重要接口。它通过连接差异化的系统,促进了语言与意识之间的互操作性。在智能时代的背景下,token化是语言进入计算框架的最新迭代,既是对语言的技术性再造,也为我们提供了一个跨领域的接口机制,使得跨系统的交流成为可能。
5 AI、BCI与心身交互:意识问题的新进路
AI是否能够生成意识?这是当代科技与哲学交汇处最引人关注的问题之一。大语言模型展现出近似人类的语言能力,这似乎让人产生“AI或许已接近意识”的直觉。然而,我们必须澄清:AI的语言流畅性并不意味着它具备心智。王巍在Alpha Newton思想实验中指出,AI目前已经能够实现陈述归纳(即从特称命题推导出全称命题),它所擅长的是在既有事实与命题之间建立统计性关联。而人类智能的一个核心特征在于概念归纳,即提出新的概念、创造新的范畴,并以此推动知识的进步。因此,概念归纳能力有望成为检验AI是否能够逼近甚至取代人类智能的“新图灵标准”。
在这一背景下,笔者进一步提出一种基于token操作的、具有可检验维度的判别标准:若AI能够基于已有的token系统,自主构建出训练数据中未显式存在的新概念token,并能在后续交互中一致地使用该概念token进行推断、批判或生成新示例,且其构建过程并非通过指令微调或模式匹配完成,而是体现出对原有token关系的重构与泛化,则可视该系统初步具备了概念归纳能力。这一能力可作为AI是否迈向意识的关键判别标准。目前的AI更像是一种庞大的数学系统:它操控token,依赖概率分布生成语言,但尚未展现出真正意义上的概念创造与语义理解。因此,尽管当前AI在形式上模拟了智能,却尚未跨越意识的门槛。当然,意识本身的定义与判别标准仍属开放问题,笔者亦保持审慎开放的态度。
如果AI无法生成意识,那么意识与身体的关系又该如何理解?在哲学史上,笛卡尔(René Descartes)的二元论提供了经典的答案。他区分了思维实体(res cogitans)与广延实体(res extensa),并试图通过松果体解释二者的交互。他认为,松果体作为大脑中唯一不成对的器官,是心身沟通的枢纽,心灵通过它作用于身体的“动物精气”,进而影响运动[27]。这个理论看似巧妙,却遭遇了双重批评。一方面,它陷入了典型的“小人剧场”困境:想象大脑好比一座剧院,外部世界的刺激被投射到松果体之中,而一个“意识的小人”则坐在剧场里观看这些投影,从而获得经验。问题在于:如果真的有这样一个小人,那么这个小人本身又如何拥有意识?是否需要在他的头脑里再安置一个更小的小人来观看?如此类推,便会陷入无穷倒退,始终无法解释意识如何真正产生。这正是“小人剧场”比喻所揭示的哲学难题[15]。另一方面,现代神经科学的研究也表明,松果体的主要功能是分泌褪黑素,用于调节昼夜节律,与意识活动并无直接关系,从经验层面上否定了笛卡尔的假设[28]。然而,这一设想并非全然无意义。它至少突出了一个关键洞见:意识不是孤立、超验的实体,而是必须依赖身体与物理机制才能获得支撑与外化。尽管笛卡尔在理论路径上有所偏差,但他的探索为后世关于心身交互的哲学与科学讨论开辟了新的问题空间。
BCI的兴起为这一古老的心身交互难题提供了一条全新的思路。与笛卡尔设想的松果体不同,它并不依赖某个独一无二的“中枢”或“剧场”,而是通过分布式、多通道的神经信号采集与解码来实现身体与意识的沟通。其核心机制在于将本来连续、复杂且高度动态的电生理活动切分为离散的token,这些token随后能够被映射成外部系统可处理的符号和指令。换句话说,BCI以一种工程化的方式,把意识意图的流动转译为可以被计算和操作的单位。在这个意义上,它更像是一个现代版的“去中心化的松果体”:不是位于大脑深处的空间性的单一枢纽,而是由多重信号流和算法构成的时间性的接口网络,通过并行处理实现从意图到行动的转换。由此,意识不再需要被想象成神秘的“剧场”,而是通过技术性的离散化过程获得了外化的途径,成为计算框架的一部分。
更为重要的是,BCI的潜力并不仅仅停留在理论推演的层面,而是已经得到了丰富的实证研究支持。在第2节中所提及的P300电位、运动想象、稳态视觉诱发电位等稳定的神经模式共同证明,人类的意识确实可以被识别、切分并转译为技术可操作的token。BCI由此不仅是单纯读取大脑信号的工具,更是展示意识如何以工程化方式进入符号体系的生动实例。
奎因(Willard Quine)曾断言,翻译存在不确定性(indeterminacy),因为任何语言证据都无法确保符号具有唯一的指称[29]。然而,BCI的成果为这一怀疑论带来了挑战:如果我们能够稳定且可重复地将神经信号翻译为意图token,那么至少在某种层面上,意图与符号之间已经建立起可靠的映射关系。BCI绕过了自然语言固有的模糊性与歧义性,提供了一条全新的“翻译路径”:它直接以神经信号作为翻译的基础,而非依赖外在的行为或语境。当然,BCI token的生成依然受到算法模型、实验范式与文化背景的限制,尚不足以构成普遍的语义原子。但即便如此,它已经动摇了奎因“翻译不确定性”的根基,至少表明“意图”在一定条件下是可译的、可操作的,从而为心灵哲学与认知科学打开了新的理解窗口。
回顾这一讨论,可以得出几条清晰的结论。首先,就当前发展阶段而言,AI系统本质上仍属于基于概率的统计归纳架构,其token操作机制更多表现为一种数学工具,尚未展现出构成心智基础所必需的概念归纳与语义理解能力,因而目前仍无法认定其能够产生意识。其次,脑机接口通过分布式、可计算的token化机制,为理解身体与意识之间的交互关系提供了全新的理论框架,其在多项实验中的稳定表现,显示出意图具备被识别和解码的可能性。最后,这些成果不仅推动了认知科学与人机交互的发展,也在哲学层面对奎因的翻译不确定性形成了挑战。意识的谜团固然依旧深邃,但BCI已为我们开辟了一条新的进路,使这一古老难题在智能时代得以获得新的诠释。
6 结语:在巴别之后
根据《圣经·创世记》的记载,在远古时代,天下万民曾共享一种纯粹统一的语言,口音言语毫无隔阂。他们向东迁徙至示拿之地,见一片辽阔平原,便决意定居于此,并萌生一个宏大而僭越的构想:建造一座城和一座耸入云霄、“塔顶通天”的巨塔。这不仅是聚拢人心的工程,更是为传扬自己的名声、抗拒流散命运而竖立的纪念碑——一种试图以人间伟力触及神圣领域的象征。耶和华降临俯视世人之作,看出他们同心同语将带来的危机:“如今既做起这事,以后他们所图谋的一切事,就没有不成的了。”这同质的力量既潜藏创造的可能,也包含背离神圣秩序的傲慢。于是,祂变乱了人类的语言,使原本一致的口音碎裂成彼此难以通达的方言。顷刻之间,协作的根基崩塌,沟通之链断裂,塔的工程陷入停滞,伟大的梦想溃于语言的混沌。众人不得不从平原散向四方,遍布天下。那城与塔遂得名“巴别”(Babel),即“变乱”之意。数千年来,这一寓言不仅寄托着人类对语言互通、心灵相契的渴望,更映照出统一之理想与差异之现实间的张力。
本文对AI与BCI中token概念的哲学分析,正是在智能时代对这一古老寓言的最新诠释。笔者一度构想了一种“统一token理论”,憧憬着token能成为跨越语言、意识与计算鸿沟的通用货币,扮演现代巴别塔之砖的角色,试图在技术平台上重建那座通往完美理解的通天塔。然而,正如洪堡、索绪尔和库恩所警示我们的,语言是历史性的、语境化的和不可通约的。本文的分析表明,这种统一性终究难以实现。token并非恒定不变的语义原子,其意义诞生于差异性的网络之中,边界随着算法迭代与文化语境不断流动。因此,“统一token理论”的构想,与历史上诸多通用语言的尝试一样,最终遭遇了现实壁垒——它试图用计算的中立性来消弭差异,却忽略了差异本身正是意义生成之源。
但这并不意味着故事的终结。恰恰相反,在承认了“巴别之后”的世界不可逆转的多样性之后,token的真正价值才得以彰显。它的价值,并非充当建造通天塔的统一砖块,而是成为连接无数孤岛的桥梁。token是一种接口机制,一种翻译协议,它并不追求终极的统一,而是在实践的迭代中,促成异质系统之间临时的、局部的却至关重要的相互理解。在AI中,它桥接了自然语言与机器统计;在BCI中,它桥接了连续意识与离散指令。它们共同勾勒出的,并非一个无差别的计算乌托邦,而是一个在承认不可通约性的前提下,依然致力于构建连接的可能性的务实未来。
因此,我们并非徘徊于巴别塔倒塌后的废墟中,而是站立在一个丰富多彩、沟通虽艰却仍执着于对话的时代。真正的进步,不再是修筑通往单一神性的巍峨高塔,而是搭建让机器与人、意识与计算得以互相聆听、彼此翻译的联结之桥。token,正是这个时代我们共谋的新语言。它如同这个时代的巴别词典——一部永远未完成、持续生长的动态之书;一部使对话成为可能、在尝试中编织希望的开放文本。
参考文献
[1] Wang D, Li Y, Jiang J, et al. Tokenization matters! degrading large language models through challenging their tokenization[J]. arXiv preprint, arXiv:2405.17067, 2024.
[2] Joulin A, Grave E, Bojanowski P, et al. Bag of tricks for efficient text classification[J]. arXiv preprint, arXiv:1607.01759, 2016.
[3] Fang Z. Methods and development of Chinese word tokenization[J]. Applied and Computational Engineering, 2024, 109: 38-43.
[4] Liu X, Hu B, Chen Q, et al. Stroke sequence-dependent deep convolutional neural network for online handwritten Chinese character recognition[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(11): 4637-4648.
[5] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]// Advances in Neural Information Processing Systems. 2017, 30.
[6] Chomsky N. Knowledge of Language: Its Nature, Origin, and Use[M]. New York: Praeger, 1986.
[7] 塞缪尔·马鲁斯卡, 诺姆·乔姆斯基, 林鼎帆. 诺姆·乔姆斯基谈ChatGPT、人工智能、普遍语法、语言与思维[J]. 语言科学, 2025, 24(03): 225-235.
[8] Wittgenstein L. Philosophical Investigations[M]. Oxford: Blackwell, 1953.
[9] Chen Y X, Wang F, Li T W, et al. Considerations and discussions on the clear definition and definite scope of brain-computer interfaces[J]. Frontiers in Neuroscience, 2024, 18: 1449208.
[10] Alotaiby T, El-Samie F E A, Alshebeili S A, et al. A review of channel selection algorithms for EEG signal processing[J]. EURASIP Journal on Advances in Signal Processing, 2015, 2015: 66.
[11] Farwell L A, Donchin E. Talking off the top of your head: Toward a mental prosthesis utilizing event-related brain potentials[J]. Electroencephalography and Clinical Neurophysiology, 1988, 70(6): 510-523.
[12] Pfurtscheller G, Flotzinger D, Kalcher J. Brain-computer interface—a new communication device for handicapped persons[J]. Journal of Microcomputer Applications, 1993, 16(3): 293-299.
[13] Cheng M, Gao S K. An EEG-based cursor control system[C]// Proceedings of the First Joint BMES/EMBS Conference: Serving Humanity, Advancing Technology. IEEE, 1999: 669.
[14] Tang J, LeBel A, Jain S, et al. Semantic reconstruction of continuous language from non-invasive brain recordings[J]. Nature Neuroscience, 2023, 26: 858-866.
[15] Dennett D C. Consciousness Explained[M]. New York: Back Bay Books, 1992.
[16] Song Y, Zheng Q, Liu B, et al. EEG conformer: convolutional transformer for EEG decoding and visualization[J]. IEEE Transactions on Neural Systems and Rehabilitation Engineering, 2022, 31: 710-719.
[17] Zhao H, Wu H, Yang D, et al. BriLLM: brain-inspired large language model[J]. arXiv preprint, arXiv:2503.11299, 2025.
[18] Mates B. The Philosophy of Leibniz[M]. Oxford: Oxford University Press, 1986.
[19] Subbiondo J L. John Wilkins and 17th-century British Linguistics[M]. Amsterdam: John Benjamins Publishing Company, 1992.
[20] Gordin M D. Scientific Babel: How Science Was Done before and after Global English[M]. Chicago: University of Chicago Press, 2015.
[21] Fodor J A. The Language of Thought[M]. New York: Thomas Y. Crowell, 1975.
[22] Humboldt W von. On Language: On the Diversity of Human Language Construction and its Influence on the Mental Development of the Human Species[M]. Losonsky M, ed.; Heath P, trans. Cambridge: Cambridge University Press, 1999.
[23] Saussure F de. Course in General Linguistics[M]. New York: McGraw-Hill, 1966.
[24] Culler J. Ferdinand de Saussure[M]. Ithaca, NY: Cornell University Press, 1986.
[25] Kuhn T S. The Structure of Scientific Revolutions[M]. Chicago: University of Chicago Press, 1962.
[26] Kuhn T S. The Road since Structure: Philosophical Essays, 1970–1993, with an Autobiographical Interview[M]. Conant J, Haugeland J, eds. Chicago: University of Chicago Press, 2002.
[27] Descartes R. The Passions of the Soul: Les Passions de l'Âme[M]. Voss S, ed. Indianapolis: Hackett Publishing Company, 1989.
[28] López-Muñoz F, Marín F, Álamo C. History of pineal gland as neuroendocrine organ and the discovery of melatonin[C]// López-Muñoz F, Srinivasan V, de Berardis D, et al., eds. Melatonin, Neuroprotective Agents and Antidepressant Therapy. New Delhi: Springer, 2016.
[29] Quine W V. On the reasons for indeterminacy of translation[J]. The Journal of Philosophy, 1970, 67(6): 178-183.