追问快读:总有那么一些曲子,能够跨越文化在全世界病毒式传播。从古典音乐到洗脑神曲,再到如今由AI制作的音乐(例如音乐原创工具Suno),为何总有一些旋律,能够跨越文化和时间引起人们的共鸣?对于这个问题,曾经的解释是预测编码,而新提出的神经共振理论将音乐认知重新定义为“神经振荡与音乐结构的共舞”,为理解音乐的魔力提供了全新的透镜。

从古人的“余音绕梁三日不绝于耳”,到音乐电影《歌剧魅影》中的摄人歌喉,音乐无疑具备跨越文化与时间的传播力。从川普竞选时用到的《MEGA》,再到甲亢哥来华时被反复提到的《阳光彩虹小白马》,洗脑神曲所具备的影响力也可见一斑。关于“音乐是如何被大脑感知的”,曾有过众多理论,其中最流行的是“音乐预测编码”(Predictive Coding of Music,PCM)理论。

根据预测编码理论,大脑并不是被动地接收外部刺激,而是主动地根据以往经验和当前上下文进行预测。大脑将对音乐的预测与实际听到的感觉输入进行比较,如果预测与实际输入匹配,则神经活动相对较少;如果预测与实际输入不匹配,则高层次的大脑区域向低层次的区域传递预测信息。预测编码理论认为,音乐引发的情感反应,源于大脑预测与实际输入之间的匹配程度——当音乐与我们的预期匹配时,会产生积极的情感体验;当音乐与我们的预期不匹配时,会产生紧张或惊讶的情感体验。

预测编码理论将欣赏音乐简化为大脑的运算过程,把音乐本身仅视为一种统计模式。然而,音乐对人的影响远不止于此——我们在聆听动人旋律时,会不自觉地翩翩起舞或潸然泪下,这些都是真实的生理反应。相比之下,神经共振理论(Neural Resonance Theory,NRT)提供了另一种解释视角,它将音乐解释为神经振荡(如皮层Delta/Theta节律、脑干Gamma振荡)对音乐刺激的涌现现象。本文将首先详述神经共振理论对音乐的解释,继而对比神经共振与预测编码这两种理论在解释音乐现象时的异同。

节奏节拍中的稳定性与预期

神经振荡是中枢神经系统中普遍存在的节律性重复的神经元活动,包含单个神经元的膜电位振荡和动作电位的节律性放电,也涉及神经元之间的相互作用。根据振动频率,从低到高分为Delta、Theta及Gemma波。具体的,频率最慢的Delta波频率0.5-4Hz,而最快的Gemma波在30-100Hz。不同物种间略微存在差异。


图1:兴奋性及抑制性神经元相互作用引发的神经震荡。

神经共振理论的核心观点是,当神经振荡的频率与音乐节奏或音调频率接近整数比时(如2:1、3:2),神经系统会进入稳定的“锁定模式”。这种现象在不同时间尺度的音乐中普遍存在:从人类舞蹈中每拍几秒的缓慢节奏,到鼓乐每秒数十拍的快速节奏,再到弦乐每秒数百次的高频振动,都能观察到这种模式。大脑通过不同的脑电波,能够同时处理多个时间尺度上的音乐信息,从慢速的节奏到快速的音高变化。


图2: 神经振荡与音乐的时间尺度。

神经共振理论为简单整数比节奏和音程的跨文化普遍性提供了有力解释:当节奏呈现2:1的节拍关系或音程呈现3:2的五度关系时,其内在机制在于这些简单整数比对应着更高的神经动力学稳定性

这一理论可以解释当代流行音乐中的普遍现象,如曾经火遍youtube的《江南style》采用4/4拍节奏结构,而新一代神曲《阳光彩虹小白马》的副歌部分则以3/2拍为主。预测编码理论认为这类节奏模式产生较少的预测误差,但这一推论与音乐审美体验中对新颖性的需求存在理论矛盾;相比之下,神经共振假说给出的解释似乎更为普世,也阐明了为什么我们能够学习和适应不同的音乐风格和结构。


图3:不同时间尺度下的稳定性预测,简单节奏(1:1、1:2、2:3等)比复杂节奏(7:4)在神经动力学上更为稳定,因此人们认为这样的节奏更为协调

当然,音乐中也有部分不那么符合旋律。例如 Coldplay《Viva La Vida》中,前奏和副歌段落的弦乐通过连续的不和谐音簇制造紧张感,随后以大三和弦(C-E-G)的稳定音程释放张力。

在神经共振理论中,这种音乐效果可以通过神经状态的动态吸引过程来理解:听众对音乐事件的感知体验,本质上反映了神经系统从低稳定性向高稳定性的转换过程。具体而言,不和谐音程(如7:4的小七度)因稳定性低,会引发向和谐音程(如3:2的五度)的“解决”倾向。

这样的解释,与预测编码对音乐带来的情感反应有所不同。预测编码理论无法解释为何整数节拍被认为更为协调,且更易习得并有潜力成为神曲。而神经共振假说,则通过赫布调谐与振荡耦合的自然偏好,解释了这一现象。

这也阐明了音乐是如何通过稳定性变化唤起情感:从不协调到协调的转变过程,对应着紧张情绪的释放与愉悦感的产生。因此,神经共振假说还可用于解释,“在西方音乐中,为何更稳定的大调模式被体验为‘快乐’,而较不稳定的小调模式被体验为‘悲伤’”——由于相比可能来自更加不协调、更复杂的整数比所经历的紧张感,大调更能提供一种“解决”或“奖励”的感觉。

文化间的节奏适配

接下来要考虑的问题是:西方音乐采用七音体系,而中国古乐使用五声音阶,为何不同的音乐体系的人们能够适应如此差异。

神经共振假说的解释是,当神经振荡受到外界音乐刺激时,其非线性动力学特性会发生变化。

响应频率,不仅包含输入信号原本的频率,还包括输入频率的整数倍。而根据神经元的赫布可塑性,通过神经振荡间的同步强化,大脑可无监督学习音乐模式。例如,婴儿通过前庭运动与听觉输入的耦合,逐渐形成文化特定的节拍感知。

这也就意味着,特定调式对应的情感反应是发展性的。只有在充分接触特定音乐文化后,儿童才能形成相应的情感反应,而年龄较小的儿童则不会出现这种反应。


图4:非线性共振和神经可塑性及强预期

自由意识相关的研究发现,研究人员可以通过脑电活动预测被试的决策。类似地,在即兴演奏或舞蹈时,身体的动作也会先于音乐出现,这已在多项研究中被证实。

而按照预测编码理论,动作应该出现在大脑计算“该迈哪只脚”之后,即稍晚于节拍。但根据神经共振理论,就如同双人跳探戈舞,舞伴之间的互动并非基于对“对方下一步动作”的刻意计算,而是通过身体自然调整重心形成的流畅配合。这种预见性的协调,并非源于计算性预测,而是动力学系统的固有属性。

因此,神经共振理论不仅解释了音乐跨文化理解为何发生(这源于大脑的可塑性),还揭示了音乐风格差异为何产生。

例如,比较来自热带的非洲音乐与北欧等寒冷地区的音乐,就可以看出音乐特征存在的差异。热辣如火的气候下,人们舞动身体的节奏要比北方更慢,因此音乐的节奏也更低。

这一规律似乎也在影视剧配乐中有所体现。在奇幻美剧《权力的游戏》的配乐中,北方临冬城的主题曲与南方大草原的音乐,其节奏似乎也无意间暗合神经共振假说的解释。

脉搏与节奏:

预测编码假说和神经共振假说

人体静息时的脉搏频率约为1.5Hz(对应每分钟60-100次心跳),这一生理节律在运动时会加快。对比音乐的周期节律,当音乐节律简单且规律时,如图5a所示,如经常变化每个节拍都对应一次心跳;然而,当节奏变得复杂多变时,则如图5b所示,心跳与音符之间的对应关系就难以建立。

根据预测编码假说,当节奏的同步程度从低变到高时,预测误差逐渐升高,预测精度下降,而两者的乘积“加权预测误差”,会在节奏复杂度中等时达到最高,这时对音乐的感知难度也最大。也就是说,能够广泛流播的神曲,要么采用极简的节奏模式,要么使用炫技式的复杂编排。


图5:节奏和时间结构的对比

而根据神经共振假说,在音乐节奏比心跳速度慢的时候,即使人体的脉搏节律保持不变,但我们感知音乐节奏的能力,会随着同步性的降低而减弱。而当音乐节拍的同步性/复杂度位于中间水平时,听众产生身体律动反应(如舞蹈或随节奏摇摆)的倾向最强。

这就如同小孩荡秋千,如果父母以完全固定的节奏推动秋千时,孩子会感觉单调无趣;若是完全没有规律或推得太多,孩子多半会被吓到。而若是适应本身心跳的节奏,又不是完全重复,孩子会玩得很开心。

对简单节奏的适应,是从婴儿时期开始的,如图5e所展示;相比3:1的旋律,婴儿学习2:1的旋律学得更快。而对于受过专业训练的职业音乐人,则能够在即兴演奏时让不同乐器的节奏协调。例如,手鼓、提琴、铜管乐器在独奏时频率不同(图5f),但在即兴合奏过程中,这三种乐器却能自然收敛到相同频段(图5g)。除此之外,脉搏与音乐节奏的关系,还能解释为何运动时大多数人听的音乐,多是比正常稍快一些节奏的。

展望

音乐不止是人人可及的大众娱乐形式,更是一种强大的神经调节工具,在情绪调控和精神疾病治疗领域展现出独特价值。随着对音乐神经机制的深入解析,未来研究将进一步释放其神经调控效应的治疗潜力——从节律夹带效应(脑电波与音乐节奏的同步化)调节脑电活动,到和声张力消解(不协和音程向协和音程的转化)缓解心理紧张,深入研究这些机制,将帮助我们设计更适合每个人的音乐治疗方案。

从考察尺度来看,对全球各地区特色音乐的统计规律研究或许会是未来最广泛的研究方向。通过神经共振理论,我们能验证是否存在支配音乐创作的基本规律,以及文化与历史如何塑造了地区差异。在更小的尺度上,广告和影视配乐这类功能性音乐,其创作空间比纯艺术音乐要小得多,这让我们更容易找出影响音乐效果的关键因素。

借助AI变声技术,我们能让同一首歌有不同的演唱风格。通过观察听众的脑电及fMRI数据,可以预测他们更喜欢哪个版本(比如AI孙燕姿vs.AI王心凌)。这不仅帮助我们基于人工神经网络找出大脑处理音色的关键区域,还能解释为什么有人偏爱甜美声线,探索遗传因素与环境因素如何共同塑造个体的听觉偏好。

AI创作正在改变影视配乐的制作方式。神经共振理论比预测编码更适合指导AI音乐创作,因为它更接近人类创作和即兴演奏的本质。通过建立神经共振参数空间,可以自上而下地将用户提供的文本、图像或视频等多模态输入,转换为相应场景的共振频率与节奏复杂度参数,为AI音乐生成提供符合用户需求的全局约束框架。

从进化视角来看,音乐并非人类独有。鲸鱼的歌声、鸟类的啼叫,甚至是昆虫发出的虫鸣,都可能是各物种特有的音乐形式,只是有些超出了人耳能听到的范围。这些声音都包含着节奏的重复与变化、音高和音色的变化,都是广义上的音乐。神经共振理论为跨物种的音乐认知提供了统一的理论框架,帮助我们理解不同生物的音乐系统是如何演化的。

参考文献:

Harding, E.E., Kim, J.C., Demos, A.P.

et al
. Musical neurodynamics.
Nat. Rev. Neurosci.
(2025). https://doi.org/10.1038/s41583-025-00915-4









关于追问nextquestion

天桥脑科学研究院旗下科学媒体,旨在以科学追问为纽带,深入探究人工智能与人类智能相互融合与促进,不断探索科学的边界。如果您有进一步想要讨论的内容,欢迎评论区留言,或后台留言“社群”即可加入社群与我们互动。

关于天桥脑科学研究院

天桥脑科学研究院(Tianqiao and Chrissy Chen Institute)是由陈天桥、雒芊芊夫妇出资10亿美元创建的世界最大私人脑科学研究机构之一,围绕全球化、跨学科和青年科学家三大重点,支持脑科学研究,造福人类。

Chen Institute与华山医院、上海市精神卫生中心设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室;与加州理工学院合作成立了加州理工天桥神经科学研究院。

Chen Institute建成了支持脑科学和人工智能领域研究的生态系统,项目遍布欧美、亚洲和大洋洲,包括、、、科研型临床医生奖励计划、、等。

ad1 webp
ad2 webp
ad1 webp
ad2 webp