登陆注册
4996300000017

第17章 运动感知与行为计算(4)

手势识别的技术主要有:模板匹配、人工神经网络和统计分析技术。模板匹配技术主要是将传感器输入的数据与预定义的手势模板进行匹配,通过测量两者之间的相似度来识别出手势。人工神经网络技术是具有自组织和自学习的能力,能够有效抗噪音和处理不完整的模式,是一种比较优良的模式识别的技术。统计分析技术是通过基于概率的方法来统计样本特征向量来确定分类的一种识别方法。

手势识别技术的研究不仅能使人机交互更为自然,同时还能有助于改善和提高聋哑人的生活学习和工作条件,也可以用于需要表现情感和观念的艺术学习和创作。

目前,在识别、分类体感产生模式,特别是手势动作、面部表情、语音语调和生理信号等方面建模工具的使用,所有情况下的模型,都是用于将模式和信号映射到体感类别,都是一种从低层次到中层次的变换。本节的重点放在离散情感状态表示的中层次模型上。假设这些内部状态是“隐藏”的,而体感调整的观测,如一个人在这些体感状态是未加隐藏的。模型要有能力识别,通过多种形式组合去表达内在的情感,比如困惑时有时候皱眉,但你也可能通过身体运动姿势或声音来表达出困惑。当一个人处于一种特定的体感状态时,模型应能够给出相应的观察值的概率20。

(1)隐马尔可夫模型

本书实验部分是用隐马尔可夫模型(HiddenMarkovmodel,HMM)做手势的识别,隐马尔可夫模型是采用概率统计的方法来描述时变信号的模型。与模式匹配的算法不同,HMM不是以训练动作序列与标准动作序列之间的距离和度量来进行手势识别,而是通过计算动作序列是每个动作模型产生的概率大小来进行动作识别的。在HMM方法中,动作序列被看做是一种叫做马尔可夫随机过程的输出。描述了这个马尔可夫随机过程的参数,也就描述了这个随机过程所对应的人体动作序列。

一个HMM由若干个身体运动状态组成,状态之间由状态转移概率连接着,每个HMM都具有两个概率:一个是状态转移概率,它决定了一个状态转移到另一个状态的概率;另一个是输出概率,它决定当处于一个状态时输出一个数值或符号的概率。

一个HMM包括以下三个部分:状态的集合,状态转移概率矩阵,输出概率矩阵表示当处于状态时,输出符号K的概率。

图5.19列举一个可能满足这些需求的模型,隐马尔可夫模型(HMM)114。图中为了说明的方便,只用了三种状态,但它可以包含更多状态。例如,可以加上第四个圈,代表“无身体运动感觉状态”,作为体感基线或中性状态。这样做的前提是在任何时候都只处于一种状态,而且能以某种概率在状态之间进行转换。比如,在钢琴导师的教学实验中,我们可以预测学生从感兴趣状态转移到高兴状态的概率,要比从苦恼状态转移到高兴状态的概率更高些。

HMM是通过对观察值的训练来得到概率,观察值可以是任何潜在状态调整的测量值,如身体运动节奏或者幅度的变化。任何时候的输入都是这些观测值,输出可以是一个人最可能的状态,或者是对整个HMM结构的识别,是可以识别情感行为的较大模式。后者需要HMM结构,每个对应一种情感行为,或者对应给定行为的各个人特征。例如,在舞蹈教学的例子中,系统能够识别出不同学生不同的身体运动的特征模式,从而更有效地调整和修改系统的交互反馈。

如图5.20所示,隐马尔可夫模型表示的状态,这里表征了感兴趣(I:interest)、悲痛(D:distress)、和高兴(J:joy)54,这三种“隐藏”状态之间的转换概率,还表征了给定状态的某种观测的似然性,一个人的情感状态依赖于对这些状态所产生的东西进行观测。给定一段时间的观察值序列,计算机可以确定哪一个状态序列能最好地解释这一观测值序列。

HMM模型可用于多种环境,不同的HMM模型可经过训练,作为环境、文化、社会条件等函数。假定不同情况和环境中,某种体感语义表达发生的概率也就不同,环境条件还包括暂时的事件。模型的概率、状态、结构根据不同的因素而不同,最终是由模型的用途决定的。

无论哪种情况,HMM模型的状态能对应于纯的身体运动感觉,或者对应于更为基本的基础模块。并可能被计算机识别出来。HMM模型状态不一定有可识别的特定体感状态,但对应于一个人体感调节测量值聚类的多维空间的一个区域。例如,一个HMM状态,可能用来表明发生在特定情境下生理学变量的聚类,并将每个聚类归属于它的状态。此外,Popat和Picard115提出的聚类的复杂模式可由基于聚类的概率模型表示。无论哪种情况,模型都是针对一个个体定制的,能学会表示在某种情境下一定发生的无名的感觉。而且,把整个HMM与一种体感相关联,模型能捕获体感的动态特性。无论是识别什么运动行为语义,模型能自由适应新型的体感行为模型。

HMM模型也适合表示体感的综合状态,一种状态可以由混合体感来建立,由几种同时存在的成分构成。HMM可以在两种体感语义,或更多种的语义状态之间循环,或者还能够在中性状态上停顿。

HMM不仅用于识别某些体感语义模式,而且可根据一个人现在的身体行动和体感状态,预测他下一个最有可能的行动和体感状态。预测过程是部分识别的一种:

首先,根据现在和先前观察值调整模型;

其次,运用这些结果合成下一时刻最有可能发生的状态。

这样,合成的状态可认为是预测状态。就像一个人类观察者一样,这种基于模型的预测给出同等程度的结果,但是决不能保证100%的正确。这些模型在进行合成或预测时,没有考虑高级的推理或逻辑,仅仅是根据概率的方法。这模型适合描述体感状态转换的模式,在给定这些模式后,可推断出隐藏的状态。

(2)其他的识别模型

此外,许多其他模型也可以用于体感计算的建模,人工神经网络是一种通用性的工具,它也能用在体感计算中。用来训练人工神经网络的流行方法:反向传播算法(BP算法),就是源于体感能量能附在关联体上的想法所发展起来的。PaulWerbos在试图对弗洛伊德观点做数学变换的时候,产生了反向传播算法的想法,弗洛伊德提出人类的行为受内在情感的支配,人们对弗洛伊德称为“客体”的事物附加上了精神集注。

Werbos116根据弗洛伊德理论,认为人们首先是认识了因果关系,例如,他们在随后知道客体A与客体B相联系。他的理论是,存在一个体感能量的反向流动。如果A导致B,而且B具备体感能量,那么就会有一些能量反向流到A。如果A导致B到某种程度W,那么从B到A的反向流动的体感能量将和正向的能量成比例。

现在大多数机器学习方法中的重要部分是反向流动的某种形式的应用。计算机可以在不被赋予体感系统的情况下实现它,其机制显然类似于人类学习中体感的作用。

还有很多可能的模型可以用到情感表达的识别和合成。Camras(1992)117提出的动态系统理论可以解释由基本情感引起的各种生理反应,但没有提出任何模型。情感系统动态特征可以通过如M-网格这样的非线性模型来表征,该模型概括了Sherstinsky和Picard在1994年提出的某种类型的神经网络118。Grossberg和Gutowski119提出情感处理可以通过称之为双极门(gateddipole)对立处理的神经网络完成,Freeman120提出了以动力学系统对嗅觉建模。当然,除了以上所述的这些模型,还有很多合适的模型,而究竟哪种最适合用在体感计算中,还要针对具体问题具体分析。

此外,多通道交互(Multi-ModalInteraction,MMI)的体感计算也需要应用合适的模型,MMI是以“用人为中心”的自然交互准则的,是指使用多种通道与计算机通信的人机交互方式。通道(modality)包括了用户表达意图、执行动作或感知反馈信息的各种系统通信交互,例如手动、手势、头动、肢体姿势、语音和表情等123。总之,这样多通道的交互方式可以采用综合的模型的来处理,这还有待进一步探讨。

然而,不管是采用离散模型、连续模型、隐式模型、突变模型、线性模型、非线性模型还是其它的模型,没有一种模型可以完美地识别一种潜在的体感状态。

例如,可以从视频图像中识别出手的运动姿势,但手的运动姿势可能有很多不同的含义,具有模糊、多意和不确定性。当计算机学会能针对个人将以下的两方面结合在一起的时候,体感手势的识别将是最成功的。一个方面是低层次的感知信号,如视觉、语音或其他生理信号的模式识别,另一个方面是高层次的认知信号,如推断所看到的事件是否能满足用户长期的目标并可能让他非常感兴趣。另外,这些信号在结合上下文语境来考虑时是最有效的。推断的重要影响,特别是对某种情境的认知评价以及对所谓的“体感认知”的综合可能是今后研究的一个问题122。

5.5本章小结

本章探讨的体感交互的识别技术主要指对表达内在情感的人体运动行为进行跟踪和分析、识别的相关技术。体感交互的识别技术一般是分为运动跟踪和身体运动的分析、识别两部分。通过运动跟踪技术可以获取人体的运动信息,这些运动信息经过分析和识别后就能得到相应的体感语义或其他的认知符号信息。人机交互对于运动感知技术有特定的要求,除了需要针对交互内容选择合适的运动跟踪方法外,运动感知技术还应该能够用于完成人类体感语义的识别和表达等任务,这些都建立在对运动跟踪方法和基于运动交互特点的基础上。

同类推荐
  • 不懂PowerPoint就当不好经理

    不懂PowerPoint就当不好经理

    经理人如何用PowerPoint,来规划部门的发展,如何用PowerPoint来表达自己的经营主张?本书为各类经理人提供了从入门到提高,从原理到实战的一系列知识,相信本书将让演示文稿为经理人的管理效能加分!
  • 条形码技术与应用

    条形码技术与应用

    条形码是一种可供电子仪器自动识别的标准符号,是由一组黑白相间、粗细不同的条、空符号按一定编码规则排列组成的标记,用以表示一定的信息,确认某个物体或规定它的移动,能正确快速地为产、供、销各环节在采集、处理和交换信息时提供标识。
  • 领导干部信息化基础

    领导干部信息化基础

    本书共分6章,分别介绍了计算机网络综述;信息化的三个主要领域,即电子政务(政府信息化)、企业信息化和电子商务;PowerPoint 2000中文演示文稿等内容。
  • 信息革命

    信息革命

    随着经济社会的快速发展,电子产品走进了千家万户,与电子产品相伴的信息技术也已渗透到人们生产生活的方方面面。加强信息技术普及,已成为业内人士的共识。鉴于此,在有关部门的大力支持下,经过认真筹划,我们编辑出版了《信息革命》一书。该书以时间为经,在记述信息技术发展历程的同时,深入浅出地介绍了信息技术的相关知识,对人们更好地利用现代信息技术服务经济社会建设和个人生产生活必将产生积极作用。本书由李大东主编。
  • 防火墙之巅峰对决

    防火墙之巅峰对决

    铁路交通枢纽后台被控制,世界顶级中心城市即将被满载烈性爆炸物的火车撞击毁灭……这一切,都来源于黑客人侵。谁是幕后的主使者?谁又能拯救这濒危的一切?--情节虚构,请勿模仿
热门推荐
  • Vailima Letters

    Vailima Letters

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。汇聚授权电子版权。
  • 桥边裁缝铺

    桥边裁缝铺

    以主人公生活的裁缝铺为背景,虚构一段段故事的发生,有悲也有喜,故事里虽是一群小人物的人们,他们在自己的生活空间中,过着平淡的生活里,并希望未来也美好,可随着时间的推移,小城的发展,命运也在捉弄着人,到底是命错,还是人错…………
  • 极品仙君

    极品仙君

    初入仙门,废柴云逍就被判定仙苗不正,无法修炼仙剑之术!从此住进伙房,别人修真他扫地,别人御剑他洗衣!机缘巧合,他获得碧魂匕、镇龙盒;又独揽美师姐、俏师妹芳心!他更知悉身世--自己竟是上古仙剑转世,仙力无边!从此他逆战仙灵,制霸仙界!然而面对蛇蝎美人的阴谋,他又该如何应对,如何才能登上仙界至尊的宝座?
  • 戏剧生涯漫记

    戏剧生涯漫记

    继《戏剧生涯漫忆》出版之后,王毅军同志的新作《戏剧生涯漫记》又与读者见面了。两部书是一脉相承、上下贯通的姐妹篇。上部的着重点是忆,忆戏,忆人,忆事。书中诉说了旧社会草台戏班艺人“处处无家处处家”、朝不保夕的流浪演艺生涯,揭示了旧戏班中的封建迷信、陈规陋习是禁锢艺人命运的精神枷锁,记述了不少戏剧圈内鲜为人知的传闻轶事。书中还抨击了在旧制度下将呕心沥血创造了灿烂的民族戏剧文化的艺人斥为“下九流”的惊人落差。作者热情洋溢地歌颂了“旧艺人”翻身解放、命运大转折带来的无限欢心与幸福,讴歌了改革开放给戏剧舞台带来的百花齐放的春天。
  • 亲仇

    亲仇

    这部小说围绕一个家庭里父母与儿女、祖父与孙子以及夫妻之间的矛盾冲突,在家庭琐事中将三代人的故事细细铺展开,写出了三代人的性格特质与内心情感,表达了当代人的情感困惑与追求。
  • TFBOYS之追星记

    TFBOYS之追星记

    没有玛丽苏,狗血情节。就跟书名一样,只是一个追星记,主人公是个很平凡的人,也是个四叶草死忠粉,因为三小只结识了一群四叶草损友,一起陪伴三小只,谱写十年的追星故事。真实简单的语言写下十年一点一滴不太监,不玛丽苏,欢迎入坑
  • 狐王大大求不吃

    狐王大大求不吃

    某男一脸黑气“再哭爷就吃了你!”“……呜哇!!!!”“……”手里拎着某女,面色不善道“你再乱跑一次,爷让你分分钟下肚!”“不要!不要!爷你会消化不良滴!”某女眨巴着狡黠的大眼睛。“放心好了,爷对自己的胃很有自信!”阿勒?爷!你不是只钟爱于鸡腿么?!这副真的要分分钟想把她吃了的节奏是要闹哪样?!
  • 上古世纪之众神宝藏

    上古世纪之众神宝藏

    索兹思德半岛,巴拉奇丘,这是个平凡的山丘,上面住着群诺亚人。诺亚人都具有与生俱来的高贵气质,是天生的贵族,热爱大自然,崇拜冥界女神,不,老实说,巴拉奇村的年轻人汤姆森算是个例外。他是巴拉奇村里锻造师的孩子,出名的捣蛋鬼。当然,他总是会给自己的恶作剧找借口,他会说,他是在寻找众神们留下的宝藏。
  • 守妻如玉

    守妻如玉

    认识一段时间后,他说:我们在一起吧。她:可是你的朋友都说跟我在一起是进火坑。他:我怕冷,宁愿烫死,不愿意冻死。别人都以为他救她于水火之中,只有他知道,她才是他的救赎。
  • 直播诡事

    直播诡事

    一个穷屌丝通过直播灵异事件,从而打开了另一个世界的大门,一跃成为坐拥数万粉丝的大主播,一段段的灵异直播中也暴露出一个个丑恶的世间嘴脸。同样爷借助世间冤魂的虔诚之力,最终与冥王达成约定,成功将直播间做成阴阳中介站。