1. 什么是用户研究
针对用户研究,Schumacher(2010,p6)提供了如下定义:用户研究是对用户目标、需求和能力的系统研究,用户指导设计、产品结构或者工具的优化,提升用户工作和生活体验。
2. 用户研究的数据
通过可用性测试、用户调查、A/B测试和网站访客分析来介绍用户研究的数据,其中可用性测试是介绍的重点,之所以是重点是由于:
- 可用性测试是确定用户是否完成目标的核心方式
- 可用性测试与其他用户研究方法有许多相同的测量指标(如,完成率)
3. 可用性测试
ISO 9241 pt.11(ISO,1998)对可用性有一个国籍标准定义,即特定使用情境下,特定的用户完成特定的目标时,产品所表现出来的效果、效率和令人满意的程度。
虽然没有对如何测量有效性、效率和满意度的指导方针,但(Sauro and Lewis,2009)一项针对近100个总结性可用性测试的调查揭示了收集的典型数据。大多数的测试包含完成率、出错数、任务时间、任务水平的满意度、测试水平的满意度、寻求帮助的次数和可用性问题清单中的一些指标。
通常有两类可用性测试:查找与修复可用性问题(形成性测试,formative test);用指标度量一个应用程序的可用性(总结性测试,summative test)。形成性——提供及时的反馈来改进学习,总结性——评估学习的效果。
大部分的可用性测试都是形成性测试,通常都是小样本的定性调查,数据一般是问题描述和设计建议的形式。总结性测试有两种典型类型:基准测试和比较测试。基准测试提供了相对于基准目标的可用性程度。
3.1 代表性和随机性
无论数据是定性的还是定量的,用户研究中最重要的问题是所测量的样本是否代表了想要描述的人群。样本量和代表性容易混淆的一个原因是,如果总体由10个不同群体组成,但只有5个样本,那么这5个样本就不足以代表10个群体。需要设计一个抽样计划,确保从每个群体中抽取有代表性的样本,这种方法称为分层抽样(Stratified Sampling)。可以考虑从不同群组里面抽样:
- 不同的群组的关键测量指标中有潜在的和重要的差异(Dickens,1987)
- 不同群组内存在潜在的交互作用(Aykin and Aykin,1991)
- 不同群组内存在关键测量指标的变异差异
- 取样成本在不同群组间有显著差异
Gordon and Langmaid(1988)推荐用以下方法来定义群组:
- 写下所有重要的变量
- 如有必要,把变量按优先级排序
- 设计一个理想的样本
- 根据常识对群组进行合并
3.2 数据收集
数据收集的传统方法是在实验室中在主持人的引导下收集,这种方法成本较高、较耗时间。通常用于小样本统计。
最近,采用远程测试的方法,即用户用自己的电脑和软件来尝试完成任务,主持人通过屏幕共享软件来观察和记录行为,软件会记录下用户的点击、浏览的网页、浏览时间等。
《Beyond the Usability Lab》,Albert et al.,2010
《Handbook of Human Factors and Ergonomics》,Lewis,2012
《A Practical Guide to Measuring Usability》,Sauro,2010
《Measuring the User Experience》,Tullis and Albert,2008
3.3 任务完成率
任务完成率也称为成功率,是最基础的可用性测量指标。通常以任务成功完成(编码为1)或失败(编码为0)的二进制测量形式采集。完成率是成功完成任务的用户数除以用户总数。
3.4 可用性问题
如果在尝试任务时,用户遇到一个关于界面的问题,那么这个问题就是用户界面问题(UI问题)。UI问题,通常①标注上名字和描述,②根据问题频率和对用户的影响程度而评定的严重性等级。
测量问题发生频率的方法是发生问题的用户数除以总人数。评估问题影响程度的常用方法是根据以下几点来分配影响程度分值:
- 这个问题是否妨碍任务完成
- 这个问题是否导致一个严重的延迟或挫折
- 这个问题对任务绩效的影响是否相当小
- 这个问题是否属于建议
考虑到具有多种数据类型,可以采取某种方式来组合数据。Rubin(1994)描述了一个方法,把4种影响程度(4为最严重)和4中频率程度(4:频率≧90%;3:51%-89%;2:11%-50%;1:≦10%)的分数相加,这样得到最低分数为2,最高为8的组合数。
一个类似的策略是将发生频率乘以影响程度得分。如果给最严重的影响程度等级分配10分,从业者的经验把影响程度等级设置为5、3和1。一个被观察到的发生频率为80%,且对绩效影响较小的问题优先级为24*(80*3/10)。
UI问题矩阵示例
用户1 | 用户1 | 用户1 | 用户1 | 用户1 | 用户1 | 总数 | 比例 | |
问题1 | × | × | × | × | 4 | 0.67 | ||
问题1 | × | 1 | 0.167 | |||||
问题1 | × | × | × | × | × | × | 6 | 1 |
问题1 | × | × | 2 | 0.33 | ||||
问题1 | × | 2 | 0.167 | |||||
总数 | 3 | 2 | 1 | 2 | 4 | 2 | 14 | P=0.47 |
3.5 任务时间
任务时间通常是指用户成功完成一个预先设置的任务场景的时间总和。通常以均值的形式呈现。有以下几种测量和分析任务持续时间的方式:
- 任务完成时间:用户成功完成任务的时间
- 知道用户失败所用的时间:从开始知道用户放弃或未正确完成任务的时间
- 任务总时间:用户花费在一个任务上的总持续时间
3.6 出错数
出错即用户在尝试任务时产生的任何无意识的行为、过失、出错或疏忽。出错计数可以从0(没有出错)到无穷大。出错数对用户失败的原因和可能场景提供了非常好的诊断信息。出错数也可以作为二进制测量值来分析:用户遇到出错(1=遇到)或未遇到(0=未遇到)。
3.7 满意度评分
满意度评分即测量用户使用系统时感知到的易用性评分问卷,可在完成一项任务之后立即完成(任务评估问卷),可在一系列可用性环节结束后完成(整体评估问卷)。
3.8 复合分数
虽然可用性度量指标之间显著相关,但它们的相关程度并为强到让一个度量指标代替另一个。在可用性测量中收集多个度量指标有很多好处,因为相对于单一度量,这样操作能为用户体验提供一个更好的总体描述。然后,关于多个度量指标的分析和报告可能较难处理,因此将度量指标合并成单一分数是更为合理的方法,一个复合的可用性度量指标可以方便地列入报表中,也可以用于判定产品间的统计显著度。
4. A/B测试
A/B测试也称为分半测试,是一种比较备选网页设计的普遍方法。测试中用户随机使用两种备选设计中的某一种,设计上的差异可能精细到按钮上的说明文字或不同的产品图片,也可能是完全不同的页面布局。
对于网站而言,通常的操作是自动收集点击量和网页流量。这两种测量对判断转换率、产品购买率或功能使用量非常有帮助。例如,假设1000名用户体验了设计A,其中20个点击了“注册”;1050名用户看到了设计B,其中48个点击了“注册”,那么转化率分别是2%和4.5%。
5. 调查数据
调查是收集用户数据最简单的方法之一。调查通常包括一些开放性评论、是/否二进制的回答和Likert等级量表数据的组合。
5.1 等级量表
等级量表的题目采用封闭式的选项。要求用户对一个叙述表示同意或不同意。进行数值分析时,经典的五点Likert选项可以转换为1-5的数字。
经典5点Likert选项对应的数字
这样→ | 强烈反对 | 反对 | 中立 | 同意 | 强烈同意 |
转换成→ | 1 | 2 | 3 | 4 | 5 |
将答案转换为数字后,就可以计算均值和标准差,并生成置信区间或可用性得分。
5.2 净推荐值
净推荐值就是将产品推荐给朋友或同事的可能性有多大?答案的选项范围为0-10,并被分为三个部分:
推荐值:9-10
被动者:7-8
贬损者:0-6
从推荐者的比例减去贬损者的比例就得到净推荐值,净推荐值的范围为-100% – 100%,值越高表示忠诚度越高。
5.3 评论和开放性数据
开放性数据有各种形式,例如:
- 用户推荐或批评产品的原因
- 实地研究中得到的用户观点
- 用户打电话给客服时对产品的抱怨
- 任务难以完成的原因
评论和开放性数据可以分类、量化以及统计分析,还可以计算置信区间来了解所有用户有这样感受的用户比例。
6. 需求收集
用户研究的另一个关键作用是定义产品的特征和功能。如下表所示,每个行为可以有命名和描述,通过这个表格可以表现出某个行为的用户比例,并采用二进制完成率同样的方法计算置信区间。
用户1 | 用户2 | 用户3 | |
行为1 | × | × | |
行为2 | × | ||
行为3 | × | × | × |