想要设计一个考虑全面的可用性研究,必须回答以下问题:
我需要什么类型的参加者?
我需要多少个参加者?
我将选择来自单组参加者的数据还是比较来自多组参加者的数据?
我需要平衡(或调整)任务顺序吗?
1. 选择参加者
选择参加者是一个需要综合考虑的决策过程,例如费用、获得性(availability)、适当性(appropriateness)和研究目标。选择的参加者缺乏总体代表性和与目标受众不匹配是对一些可用性研究最常见的批评之一。
必须回答的首要问题是:参加者对目标受众的代表性如何?无论何时都要力求招募真正具有代表性的参加者。
选择参加者要回答的第二个重要问题是:是否要根据不同的参加者类型对数据进行分类。以下是一些在可用性领域中常见的组别或分类标准:
在一些领域,自我报告的专业化程度(新手、中等熟练水平、专家)
使用频率(每个月的网站访问量或交互量)
使用相关物品的经验程度(日、月、年)
人口统计学变量(例如性别、年龄、地理位置等)
行为(例如特定功能或特性的使用)
第三个问题涉及抽样策略。
随机抽样(Random sampling):每个人都有大致相等的概率被选择成为参加者。
系统抽样(Systematic sampling):根据预先定义的标准选择参加者。
分层抽样(Stratified sampling):首先将整个总体划分为亚群体,然后再为每个亚群体确定特定的样本大小。
方便抽样(Samples of convenience):可用性研究中非常常用的方法,可以包括愿意参加研究的任何人。
2. 样本大小
在可用性领域,最常提到的问题之一是关于一个可用性研究所需样本的大小。确定样本大小时应该基于两个因素:研究目标和能容忍的误差范围。
一个基本的经验规则是:在设计的早期阶段,你需要较少的参加者来确定主要的可用性问题。随着设计逐渐完成,需要更多的参加者以发现剩余的问题。
另外一个需要考虑的问题是:可以接受多大程度的误差?下表表明,在平均成功率为80%的情况下,置信度或置信区间如何随不同样本大小的变化而变化。
样例数据:置信区间作为样本大小函数的变化情况
成功人数 | 参加者人数 | 95%的置信度下限 | 95%的置信度上限 |
4 | 5 | 36% | 98% |
8 | 10 | 48% | 95% |
16 | 20 | 58% | 95% |
24 | 30 | 62% | 91% |
40 | 50 | 67% | 89% |
80 | 100 | 71% | 86% |
3. 组内和组间研究
需要考虑的另一个重要问题是:将要进行的分析是比较每个参加者的不同数据(例如同一个参加者在产品不同设计上的成功率)。第一种方法通常称为组内设计(within-subjects design),第二种方法被叫做组间设计(between-subject design)。两种方法都有各自的优势和局限。
组内设计,也叫做重复测量设计(Repeated measure design)常用于评估参加者学习使用特定产品时的难易程度。通过比较同一批参加者多次施测(trial)上的度量(metrics)如(任务完成时间或错误率),可以判断参加者多快和多久就能熟练使用被评估的产品。
组间研究用于比较不同参加者之间的结果.例如新手和专家在满意度上的差异、年轻参加者和年长参加者在任务完成时间上的差异。
如果组间设计和组内设计都不能满足需求,则可以考虑使用混合设计(mixed design)。混合设计同时包括组间因素(如性别)和组内因紊(随时间分布的三次施测)。
4. 平衡
平衡是指简单地变换不同任务的实施顺序。它可以通过以下方法来实现:可以在参加者进行测试之前预先随机打乱任务顺序;或者,可以提前安排多种不同的实验顺序,以便每个参加者采用不同的顺序。下表显示了一个如何平衡任务顺序的例子。请注意每个任务在每个位置仅出现一次。任务2(T2)只有一次机会作为第二个任务,由参加者1完成;而参加者2将其作为最后一个任务。
参加者 | 任务1 | 任务2 | 任务3 | 任务4 |
P1 | T1 | T2 | T3 | T4 |
P2 | T3 | T1 | T4 | T2 |
P3 | T2 | T4 | T1 | T3 |
P4 | T4 | T3 | T2 | T1 |
5. 自变量和因变量
研究中的自变量(independent variables)是可以控制操纵的方面。要根据研究问题选择自变量。因变量(dependent variables)可以把所发生的现象描述为研究的结果。因变量取决于对自变量的施测方式,它包括多种度量或测量,例如正确率、错误数、用户满意度、完成时间等。