在可用性测试中，这些行为可以被有经验的观察者实时甄别并记录下来。下面，我们将讨论更加精细的分析，这些分析通常针对需要借助仪器才能捕获的行为。这些详细的分析包括面部表情、视线跟踪、瞳孔直径、皮肤电阻等。

1. 面部表情

20世纪70年代，Paul Ekman和Wallace Friesen研制了一套分类系统，用于编码所有可以被理解的面部表情。他们称为面部动作编码系统（Facial Action Coding System，FACS），包括46个与面部肌肉有关的特定动作。最近，他们开发了FACS情绪解析字典（FACS Affect Interpretation Dictionary，FACSAID），用于详细说明面部表情和情绪反应之间的复杂联系。

（1）基于视频的系统

虽然基于视频的系统对参加者的干扰较小，但是涉及到的分析在计算上是一个挑战。这主要是因为外貌和面部表情因人而异。即使这样，还是有一些成功的例子，如Essa和Pentland（1997年）的工作成果。他们开发了一个能够识别愤怒、厌恶、高兴、惊奇、扬眉和中性这六种静态面部表情的系统。最近，den Uyl和van Kuilenburg（2005）使用一个包含980张面部表情图片的参考数据库对一个叫做面部阅读器（FaceReader）的系统进行了对比测试。他们发现该系统可以准确地将89%的表情归类为如下六种情感之一：快乐、愤怒、悲伤、惊奇、厌恶和中性。下图是一位可用性测试参加者视频录像中的截图。

（2）肌电图传感器

视频分析的一种替代方法是使用肌电图传感器测量面部表情，如下图所示：

这些传感器测量面部特定肌肉的电活动。通常测量的两个肌肉群与皱眉有关的前额皱眉肌和与微笑有（Benedek & Hazlett，2005年）有关的脸颊颧肌。但是，这两者在可用性测试中是否真的有价值呢？

约翰霍普普金斯大学（Johns Hopkins University）医学院的Richard Hazlett报道了一项研究，他使用肌电图传感器测量了28位参加者的皱眉肌的电活动。参加者分别在Jones of New York和Tylenol这两个网站中执行了五项任务（Hazlett,2003年）。通过与任务前已经确定的基线进行比较，他根据每位参加者皱眉肌的肌电图计算了连续的挫折指数（Frustration Index）。Hazlett证明了该挫折指数与任务和网站难度的传统测量密切相关；他发现未能完成任务的平均挫折指数远大于成功完成任务的平均挫折指数。持续测量的挫折指数也有助于发现一个网站中问题最多的特定页面。

最近，Hazlett与微软公司的Joey Benedek合作评价了面部肌电图在测量用户对软件的反应方面的价值（Benedek & Hazlett,2005年）。在这项研究中，研究者向戴着面部肌电图传感器的参加者展示了一个产品原型，以说明某桌面操作系统中一些潜在的新特点或元素。演示完毕后，参加者被要求列出他们最喜欢的特点。研究者通过参加者查看每一个系统特点时的肌电图数据计算了“需求等级（Desirability Rating）”。需求等级以“颧骨肌电图高于基线至少一个标准差（即正面反应）并且没有伴随皱眉肌肌电图（即负面反应）”为基础。他们发现，每一特点的需求等级和参加者回忆的喜欢的特点之间具有良好的相关性。

（3）在常规可用性测试中测量面部表情

遗憾的是，面部表情分析对于通常的可用性测试并不是很适用，除非您有途径使用肌电图设备且有愿意参加这种测试的参加者。否则，您可能更愿意把时间和精力花在录制的视频的细节分析上。因此，在技术变得更为简单可用和干扰更小之前，我们建议最好使用面部表情的非正式观测方法来帮助您鉴别需要探测用户的想法或反应的情况。

2. 视线跟踪

最近几年来，在可用性测试中采用视线跟踪明显变得越来越普遍了。幸运的是，这些系统也变得越来越可靠和容易使用。

虽然实现的技术细节略有差异，但许多视线跟踪系统都是使用红外摄影机和红外光源来追踪参加者的注视位置。红外线在参加者眼球表面反射（称为角膜反射），然后分析程序比较该反射位点和参加者的瞳孔位点。角膜反射相对瞳孔的位点随参加者眼睛的移动而改变。您必须首先要求参加者注视一系列已知点来校准系统，随后系统才能基于角膜反射位点对参加者的注视位置进行定位。

下图是注视图的例子。注视定义为眼睛停留在某区域内，用数字对注视点编号，用于标记它们的顺序。国圈的大小与注视时间成正比。眼跳，即注视之间的移动，用线条表示。多名参加者在同一页面上的一系列注视点可以通过热点地图来分析，越明亮的区域表示注视越密集。

（1）用户注视特定元素或区域的比率

在可用性测试中，测量注视某一感兴趣的特定元素或区域的参加者比例，是视线跟踪系统最简单的分析之一。举个例子，我们比较一个网页同一区域的四种不同处理方式。页面上有一个处于同一位置且内容相同的小的矩形区域（一个“块状区域”），但我们可以改变该区域本身的设计。在可用性测试中，参加者使用这些设计原型执行四项不同的任务。其中只有一项任务与该区域的内容直接相关。

我们的目标是找出哪一种设计在该块状区域有更多的注视。结果如下图所示，分析这两种数据相当简单明了。但需要注意以下两个要点：

（a）使用页面上的x和y坐标定位感兴趣的特定元素。绝大多数视线跟踪分析程序都可以轻易地完成这一过程。这些元素通常被称为“感兴趣区域（areas of interest，AOI）”、“注视区域（look-zones）”或其他类似的名字。

（b）为感兴趣的元素定义一个最小的总关注时间。对于图7-7中的数据，我们选择500毫秒作为最小值，我们估计这是从这些元素中获得任何有用信息所需的最短时间。

下图中的四个块状区域中，总注视时间超过500毫秒的参加者比例。注视B区域的参加者人数高于其他所有区域。

（2）用户注视特定元素或区域的时间

下图显示了分析眼动数据的另一种方法。在这个例子中，左图定义了不同的页面区域，右图表示参加者注视不同区域的时间比例。

可用性研究中，使用视线跟踪的另一种途径是比较同一元素放置在页面不同位置时的有效性。例如，Albert（2002年）比较了两处位置——在顶部品牌区域上方或下方——对投放在网页搜索引擎结果页面上广告效果的影响。他发现参加者注视放置在品牌区域下方广告的时间是注视品牌区域上方广告的时间的7倍，如下图所示。

（3）注视特定元素的时间

在某些情况下，知道用户需要多长时间才能注意到一个特定的元素是很有帮助的。例如，你可能知道用户平均只在一个页面上花费7秒钟，但是你需要确保一个特定的元素（比如“继续”或者“注册”按钮）在前5秒之内能够被用户注意到。绝大多数视线跟踪系统都用时间标注了每一次注视（例如,每次注视发生的准确时间）。

（4）扫视路径

视线跟踪系统中游两个其他度量可以用来评价界面的有效性，即，扫视距离和注视的时间。例如，Fukuda和Bubb（2003年）使用这两个度量比较了三种地铁时刻表的网页设计方案的有效性。他们分析了年轻人（17岁到29岁）的老年人（62到74岁）两个用户群体。他们发现，对于前两个任务，其中两种设计方案的扫描距离比另一种方案短；而对于另外两个任务，情况却恰好相反。一般来说，扫视距离短的设计被认为更加有效，因为用户只需要移动眼睛较小距离就可以获得信息。他们还发现，设计中使用较小字体（例如10号或者更小字体）的导航元素，比使用较大字体的设计需要更长的注视时间。较长的注视时间通常意味着更长的阅读或者加工时间。

3. 瞳孔反应

在可用性研究中，与视线跟踪技术紧密相关的是利用瞳孔反应的信息。大多数视线跟踪系统都必须检测参加者瞳孔的位置和直径，以确定参加者眼睛注视的位置。因此，瞳孔直径的信息是许多视线跟踪系统“免费赠送的”。瞳孔反应（或瞳孔的收缩和扩张）的研究，被称为瞳孔测量法（pupillometry）。很多人都知道，瞳孔会随着光线的强度而相应收缩和扩张，但少为人知，瞳孔也随认知加工、唤起程度和兴趣增加而相应变化。

圣地亚哥州立大学（San Diego State University）的Sandra Marshall（2000年）根据瞳孔反应开发一种“认知活动指数”（Index of Cognitive activity，ICA），由于它的原创性而获得专利。

Iqbal、Zheng和Bailey（2004年）研究了参加者在完成四种不同电脑任务时的瞳孔反应，这四种任务是：操作物体（拖动或放弃电子邮件）、阅读、数学推理以及寻找某个产品。他们发现，当把注意力集中在任务的认知部分时，参加者在困难任务条件下的瞳孔扩张比简单任务条件下的瞳孔扩张更明显。如下图所示：

由于瞳孔扩张与许多不同的思维和情绪状态相关，所以研究者很难判断一般可用性测试中的瞳孔变化表示成功或者失败。但是，当研究的关注重点是思维集中程度或者情绪唤起水平是，在类似这些特定情况下测量瞳孔的直径是非常有用的。例如，如果你主要关心网站上的新图片所引起的情绪反应，那么测量瞳孔直径的变化（与基线水平比较）可能很有用处。进行这种分析，只需要测量每个参加者的瞳孔直径与基线水平的差值，然后计算所有参加者差值的平均值即可。此外，你也可以测量，在注视一个特定图片或者完成特定任务时，瞳孔扩张（超过一定程度）的参加者占所有人数的比例。

4. 皮肤电反应和心率

皮肤电反应和心率是两种早已经被证明的与紧张相关的心理物理度量。皮肤电反应通常使用皮电反应仪（Galvanic Skin Response,GSR）来测量。即使我们只是少量出汗，增加的湿度也会增加皮肤的导电率。当然，心率和紧张有关：紧张情况下，心跳更快。心率变异性（Heart Rate Variability,HRV）是一个与之紧密相关的度量。当紧张程度增加时，心率变异性（即：心脏随着情绪或生理需要而跳动加快或减慢的能力）倾向于下降。皮电反应、心率和心率变异性以不同的形式应用于生物反馈中，参加者根据这些仪器的反馈，可以学习如何放松。实际上，有一款叫做《冒险猜想之旅》（The journey to wild divine）的电脑游戏，就包含测量皮电反应、心率和心率变异性的设备。在这款游戏中，玩家探索具有舒缓音乐和优美景色的虚拟世界。作为探索活动的一部分，设计者引入了不同的生活来训练放松。

有几项研究试图判断皮肤电反应和心率是否可以用于可用性测试环境中紧张或者其他不利反应的度量。

例如，Ward和Marsden（2003年）用皮肤电反应和心率测量用户对某网站两个不同版本的反应：一个设计优秀的版本和一个设计拙劣的版本。设计拙劣的版本在主页上使用了过多的下拉列表以“隐藏”大多数功能，提供无效的导航线索，使用不必要的动画，不时还会弹出广告。以实验前一分钟的数据作为基线，将心率和皮肤电反应相对应基线的变化绘制成图。

对于设计优秀的版本，这两种测量都显示心率和皮肤电反应下降。对于设计拙劣的版本，皮肤电反应数据在实验的前五分钟增加，然后在最后五分钟回到基线水平。设计拙劣的版本所引起的心率也有一些变化，但总体趋势保持在与基线相同的水平上。与完美设计版本的不同，心率相对于基线水平反而下降了。这两种测量都显示：使用设计拙劣的版本时，会引起更高程度的紧张。

在一项研究参加者玩一款叫作“超级玛丽奥64（Super Mario 64）”的三维视频游戏中，Lin、Hu、Omata和Imamiya（2005年）分析了任务绩效、主观紧张评分和皮肤电反应的关系。研究任务是操作游戏的三个不同部分（任务），每个任务10分钟，在这个时间内，玩家可以多次达到目标（成功完成）。如图6-22所示，在完成每个任务时，游戏者对每个任务的主观紧张程度评分和标准化的皮肤电反应（相对于每个参加者的基线GSR而改变）之间存在很高相关。除此之外，参加者在操作每个任务时成功次数越多，其皮肤电反应水平越低，这也表明了失败伴随着更高程度的紧张状态。

下图显示了参加者在面对不同的网页加载时间时的心率。在加载时间为10秒和22秒的情况下，心率相对于基线数据而大大增加，表明参加者处于生理紧张状态。

测量皮肤电反应和心率的仪器有了很大发展，新方法不像传统方法那样使人难以接受，并且更加适合可用性测试。例如，麻省理工学院媒体实验室（MIT Media Laboratory）的Rosalind Picard和Jocelyn Scheirer（2001年）发明了一种叫电流触媒感知手套（galvacitivator glove）的设备，用这个手套触摸手掌而不接触到手指便可测量皮肤电反应。