随着汽车智能化的快速推进,智能座舱已成为消费者购车的重要考虑因素之一。

这本书全面介绍了智能座舱的技术发展,涵盖了从软件、硬件到网络协议的各个方面。

从智能座舱中的操作系统、HMI(人机交互)、语音识别等核心软件技术,到中央处理器、传感器、摄像头等座舱硬件的原理与应用,这本书都进行了深入解读,适合想要了解和把握智能汽车新时代的读者。


多模态交互

人机交互模式在座舱内部的表现,一直以来都是评判智能座舱的核心标准。

在非智能时代,用户只能通过各类按钮来操控车内功能。然而,随着中控大屏的兴起,大部分功能被整合到屏幕上,用户开始通过触摸屏来控制车辆功能。从触觉的角度来看,触摸屏与实体按键在操作感受上并无显著区别。直到语音助手的诞生,座舱内部的人机交互方式才实现了质的飞跃。通过对话,车载智能语音助手能够识别并执行人的指令,从而部分实现了对人类操作的替代。之所以说“部分”,是因为在实际使用中,车载智能语音助手有时难以精确理解人类的需求。例如,当用户说出“打开空调通风功能”时,智能语音助手可能会错误地理解为打开车窗,而非启动空调的通风模式。

此外,车载智能语音助手还无法识别对话的上下文,也无法与座舱内的多人同时展开对话。这种局限性使得语音助手显得缺乏人性化。

未来,智能座舱的演进方向将是能够融入环境、像正常人一样对话、并能协助乘客的智能机器人。

如今,人们对座舱的人机交互模式提出了更高的要求,即实现多模态交互。多模态交互将成为未来人机交互的主流。当下最迫切的需求是将触觉、听觉和视觉相结合,以打造更加智能、精准的交互方式。目前多模交互已经锁定了几个研究的方向,未来或将从这几个方面入手改变人的驾驶体验。

01

面部情绪识别

情绪识别是一种新兴的交互方式,可以通过识别驾驶员或者乘客的情绪来提供个性化的服务。研究方向包括情绪识别算法、生理信号分析等方面的技术,以提高情感识别的准确性和可靠性。

情绪识别的原理主要是基于对人类情感的理解和情感特征的提取。人类的情感通常会伴随着一些生理反应,如心率、呼吸、语音等的变化,这些生理反应可以被检测和识别。同时,人类的情感也会表现在面部表情、肢体动作等方面,这些也可以被用来识别情感状态。情感识别技术通过综合分析这些特征,来判断一个人的情感状态。

情绪识别的算法可以分为两类:一类是基于规则的方法,另一类是基于机器学习的方法。基于规则的方法是通过分析人的语音、表情等特征,来判断其情感状态。这种方法需要事先定义好各种情感的特征,因此准确度有限。基于机器学习的方法则是通过训练大量的情感数据来让计算机自动识别情感状态。这种方法需要大量的标注数据,但准确度较高。

随着Transformer模型(一种基于自注意力机制的深度学习模型)在越来越多的领域得到应用,多模态识别可以采集人类面部图像和语音数据,并使用Transformer模型来分析和识别人物的情感。

举一个例子,我们可以在智能座舱内部使用DMS和OMS摄像头采集驾乘人员的面部图像,使用车载麦克风采集语音对话数据。而后,使用适当的算法和模型从面部图像中提取情感相关的特征,例如使用卷积神经网络(CNN)进行特征提取。对于语音数据,可以使用梅尔频率倒谱系数(MFCC)等特征进行提取。这些特征输入到Transformer模型的Encoder(编码器)部分进行进一步的处理和特征提取。在Decoder(解码器)部分,可以使用情感分类任务的目标函数来训练模型,使其能够识别不同情感的特征。

多人对话并发

在当前已投入使用的智能座舱语音助手中,存在一个显著的痛点,即无法支持多人同时对话。每当座舱内有其他用户提出问题时,他们总是需要先使用特定的唤醒词来激活语音助手,然后才能进行对话。这种操作会打断之前用户的对话进程,给用户带来不连贯的体验。为了解决这个问题,我们可以采用基于规则的对话管理和上下文管理策略来实现多人对话上下文的继承。

具体的实现途径涵盖以下几个方面:

上下文状态跟踪:我们需要构建一个对话的上下文状态模型,这个模型会记录对话的参与者、当前讨论的话题以及历史交流信息等。通过精细的对话管理,系统能够追踪每个参与者的交流意图和需求,从而确保对话的流畅性和内容上的连贯性。

上下文信息共享:必须确保所有对话参与者都能访问和共享统一的上下文信息。这可以通过采用共享内存或者云端存储等技术手段来实现,以确保信息的准确无误和一致性。

上下文继承机制:我们需要根据对话的上下文状态来制定合理的上下文继承策略。例如,在多轮次的对话过程中,系统可以继承前一轮对话中的关键信息和指令,以便于在接下来的对话中继续使用。同时,随着对话的深入和用户需求的变化,我们需要灵活地调整上下文继承的方式和内容。

自然语言理解:借助自然语言理解技术,我们可以对用户输入进行深度语义分析。这有助于系统更准确地把握用户的意图和需求,从而更好地维护对话的上下文状态,并继承相关信息。

动态调整对话流程:系统应根据上下文状态和继承策略,实时调整对话的进程和交互模式。这可能包括基于历史信息预测用户的意图,或根据话题的转变来更新交互内容,从而提升对话的针对性和效率。

总之,以上所提的处理方式只是上下文管理众多可能性中的一种。这个领域的研究仍处于前沿探索阶段,各种解决方案都在不断地演进和优化中。

02

3D手势操控

3D手势识别是智能座舱中新兴的操控方式之一。以后排娱乐屏为例,在一些乘用车车型中,车顶的中央位置会配备一块显示屏幕,旨在为第二排和第三排的乘客提供优质的观影体验。然而,如何操控这块屏幕却成为了一个体验上的挑战。若采用触摸屏方式,由于距离的限制,第三排乘客难以触及;若采用语音控制,未经训练的用户可能会遇到下达指令的困难;而使用遥控器操控,则存在遗失设备的风险。针对上述各种不足,一种简单方便的操控方式是采用3D手势识别技术。

通过3D深度相机,我们可以采集用户的手部动作数据。随后,这些数据会经过预处理并被分割成独立的手势。利用深度学习算法,我们从这些手势中提取特征,并进行持续的跟踪和预测,从而准确地识别用户的手势动作并判断其意图。最终,用户的动作会被转化为具体的控制指令,例如隔空点击屏幕的某个图标或滑动屏幕进行切换等。这种操控方式不仅有效避免了上述方法的各种弊端,而且为用户带来了极为自然和流畅的体验。

03

多模融合

多模态交互是一个综合性的技术,它融合了多种感知技术来提升人机交互的体验。例如,动作识别、目光追踪、语音识别、触摸控制等,都是多模态交互的重要组成部分。这些技术分别对应了人类的五大感知:视觉、听觉、触觉、嗅觉和味觉。

动作识别和目光追踪与视觉:动作识别和目光追踪技术可以捕捉和分析用户的身体动作和眼球移动,从而实现更加自然和直观的人机交互。这些技术类似于人类的视觉功能,能够“看到”并理解用户的动作和意图。

语音识别与听觉:语音识别技术能够识别和解析用户的语音指令,为用户提供了一种更加便捷和自然的交互方式。这与人类的听觉功能相似,通过声音来接收和理解信息。

触摸控制与触觉:触摸控制技术允许用户通过触摸屏幕或其他设备来进行操作,提供了一种直观和易用的交互方式。这与人类的触觉功能相呼应,通过触摸来感知和操作物体。

香氛系统与嗅觉:在座舱内部,有一个重要的与人类的嗅觉相关的系统,即香氛系统。虽然人类的嗅觉在人机交互中不直接对应某种操作,但香氛系统可以通过释放不同的气味来影响用户的情绪和体验,从而提升交互的舒适度。

至于味觉,目前在多模态交互中的应用相对较少。或许在未来,当科技不断发展,人工智能技术与脑机接口技术实现了融合之后,可以将人类的味觉引入到座舱的交互体系中来,这将为人机交互领域带来新的可能性和创新点。

在多模态交互中,各种感知技术的融合为提升人机交互体验带来了巨大的潜力。手势识别技术和视觉识别技术作为计算机视觉技术的一部分,在数据融合技术的支持下,能够显著提升交互的智能性和准确性。

数据融合技术的关键作用在于,它能够将来自不同传感器的数据进行整合,利用AI算法对这些数据进行深度分析和处理。例如,通过融合视觉传感器和音频传感器的数据,系统可以对人脸、动作、姿态、唇语、语音等多种信号进行综合辨识,进而提高识别的准确度。这种跨模态的数据融合不仅增强了系统的感知能力,还使得交互更加自然和智能化。

下图展示了视觉和听觉融合技术的一个范例。


音视频多模识别后融合范例

从上图可以观察到,在一段视频剪辑的处理流程中,图像数据与声音数据被分别送入预处理模块。它们随后通过专门的视觉与听觉神经网络进行分类处理。这些神经网络的预测结果被进一步进行后融合处理。在基于一定规则和权重的综合推测下,多模系统最终输出了该视频的主题预测:森林。

本篇内容节选自《智能座舱:架构、原理与车规级芯片》。在实际的项目开发过程中,智能座舱系统架构师需要对系统需求进行技术可行性评估。来自传统汽车行业的系统架构师往往对座舱SoC知识缺乏深层次的了解,难以准确评估座舱所需的SoC的能力。而那些计划进入智能座舱行业的初创半导体公司的系统架构师,则可能对汽车电子相关背景知识了解不足,难以将消费类电子技术与车载电子技术有效结合,从而设计出适合的座舱SoC。由于市面上缺乏通俗易懂的智能座舱技术参考书,初学者在面对复杂的技术名词和多样化的应用需求时,往往感到困惑,无从下手。正是基于上述种种原因,作者决定撰写本书。本书注重剖析智能座舱的多个子系统、基础软件及应用/服务的原理与架构,以及底层技术SoC的原理与实践。

- XINLIU -

喜欢就奖励芯流一个“”和“在看”呗~

ad1 webp
ad2 webp
ad1 webp
ad2 webp