在一个可用性测试之后。最常被问到的问题是“产品表现如何?”,问这个问题的人通常想了解的不是任务完成率、任务时间或者问卷分数吗,而是某种类型的综合分数:产品表现得好不好?与前一轮可用性测试相比,它表现得如何?如果要以有意义的方式对这些问题作出判断,就要涉及将可用性测试中的多个度量合并为某种类型的一个综合可用性分数。其中的难点是。要解决如何恰当地把具有不同度量单位的分数进行合并(如以百分数为单位的任务完成率、以分或秒为单位的任务时间)的问题。
1. 根据预定目标合并度量
最简单的合并不同度量的方法是:将每个数据点与预定目标进行比较,然后根据能够达到一组综合目标的参加者百分比,呈现一个单一的度量。
例如,将目标设定为参加者以平均不超过70秒的时间成功地完成至少80%的任务。
参加者编号 | 任务完成(%) | 任务时间(秒) | 达到目标? |
1 | 85 | 68 | 1 |
2 | 70 | 59 | 0 |
3 | 80 | 79 | 0 |
4 | 75 | 62 | 0 |
5 | 90 | 72 | 0 |
6 | 80 | 60 | 1 |
7 | 80 | 56 | 1 |
8 | 95 | 78 | 0 |
平均 | 82 | 67 | 38% |
任务完成率(82%)和任务时间(67秒)暗示了 测试达到了目标,单看某一项也是有6人完成了任务、5人达到了任务时间。然而,检验每个参加者都达到了既定目标,结果仅有3个达到了目标。
2. 根据百分比合并度量
如何合并不同的度量?一个简单方法是:将每个分数转换为百分比,然后求平均数。下表中的数据是:每个任务的时间指完成任务的平均时间,以秒为单位;完成的任务指参加者成功充成任务的数目(共15个任务)。评分指5点主观评定量表的平均数,评分越高表示越好。
参加者编号 | 每个任务的时间(秒) | 完成的任务(15) | 评分(0-4) |
1 | 65 | 7 | 2.4 |
2 | 50 | 9 | 2.6 |
3 | 34 | 13 | 3.1 |
4 | 70 | 6 | 1.7 |
5 | 28 | 11 | 3.2 |
6 | 52 | 9 | 3.3 |
7 | 58 | 8 | 2.5 |
8 | 60 | 7 | 1.4 |
9 | 25 | 9 | 3.8 |
10 | 55 | 10 | 3.6 |
将上表的数据转换为百分数的方法是,完成的任务和评分都有满分的数目(15个和4分),完成时间按照将最短时间记为100%。即:对于任务完成数据,得分除以15,对于评价数据,分数除以4。对于时间数据,最短时间(25)除以所得时间。
(%) | ||||
参加者编号 | 时间 | 任务 | 评分 | 平均数 |
1 | 38 | 47 | 60 | 48 |
2 | 50 | 60 | 65 | 58 |
3 | 74 | 87 | 78 | 79 |
4 | 36 | 40 | 43 | 39 |
5 | 89 | 73 | 80 | 81 |
6 | 48 | 60 | 83 | 64 |
7 | 43 | 53 | 63 | 53 |
8 | 42 | 47 | 35 | 41 |
9 | 100 | 60 | 95 | 85 |
10 | 45 | 67 | 90 | 67 |
另外,在进行平均时,应该给予适当的权重:
(%) | |||||||
参加者编号 | 时间 | 权重 | 任务 | 权重 | 评分 | 权重 | 平均数 |
1 | 38 | 1 | 47 | 1 | 60 | 2 | 51 |
2 | 50 | 1 | 60 | 1 | 65 | 2 | 60 |
3 | 74 | 1 | 87 | 1 | 78 | 2 | 79 |
4 | 36 | 1 | 40 | 1 | 43 | 2 | 40 |
5 | 89 | 1 | 73 | 1 | 80 | 2 | 81 |
6 | 48 | 1 | 60 | 1 | 83 | 2 | 68 |
7 | 43 | 1 | 53 | 1 | 63 | 2 | 55 |
8 | 42 | 1 | 47 | 1 | 35 | 2 | 40 |
9 | 100 | 1 | 60 | 1 | 95 | 2 | 88 |
10 | 45 | 1 | 67 | 1 | 90 | 2 | 73 |
关于转换成百分比,再看一个示例:
(%) | |||||||
参加者编号 | 完成的任务(10) | 错误数 | 满意度评分(0-6) | 任务 | 正确率 | 满意度 | 平均数 |
1 | 8 | 2 | 4.7 | 80 | 60 | 78 | 73 |
2 | 6 | 4 | 4.1 | 60 | 20 | 68 | 49 |
3 | 7 | 0 | 3.4 | 70 | 100 | 57 | 76 |
4 | 5 | 5 | 2.4 | 50 | 0 | 40 | 30 |
5 | 9 | 2 | 5.2 | 90 | 60 | 87 | 79 |
6 | 5 | 4 | 2.7 | 50 | 20 | 45 | 38 |
7 | 10 | 1 | 5.1 | 100 | 80 | 85 | 88 |
8 | 8 | 1 | 4.9 | 80 | 80 | 82 | 81 |
9 | 7 | 3 | 3.1 | 70 | 40 | 52 | 54 |
10 | 9 | 2 | 4.2 | 90 | 60 | 70 | 73 |
11 | 7 | 1 | 4.5 | 70 | 80 | 75 | 75 |
12 | 8 | 3 | 5.0 | 80 | 40 | 83 | 68 |
这里,没有错误即正确率为100%,错误数最高的百分比为0%。
总结计算百分比的原则如下:
- 如果最小可能得分是0,最大可能得分是100,那么就已经获得了百分比。
- 最小值为0,且最大值是已知的,例如,任务总数或者等级量表上的最高可能评分。在这种情况下,简单地将得分除以最大值就能得到百分比。
- 最小值为0,但最大值未知。如例子中的错误数。在这种情况下,需要通过数据来定义最大值(如最高的错误数)。
- 如果最小值和最大值都没有预先定义,如时间数据。常常通过最低(最好)得分除以所得的分数来转换数据。
3. 根据z分数合并数据
另一种转换不同单位分数以合并数据的方法是使用z分数。z分数基于正态分布(normal distribution),表示特定数值在距离分布的平均值上下多少单位处。将一组得分转换为其相应的z分数后,根据定义,转换出来的分布,其平均值为0,标准差为1。将原始数据转换为相应z分数的公式如下:
z = ( x – μ ) / σ
其中,x为需要转换的得分;μ为均值; σ为标准差。
Excel中的Standardize函数。
参加者编号 | 每个任务的时间(秒) | 完成的任务(15) | 评分(0-4) | z-时间 | z-时间(-1) | z-任务 | z-评分 | 平均数 |
1 | 65 | 7 | 2.4 | 0.98 | -0.98 | -0.91 | -0.46 | -0.78 |
2 | 50 | 9 | 2.6 | 0.02 | -0.02 | 0.05 | -0.20 | -0.06 |
3 | 34 | 13 | 3.1 | -1.01 | 1.01 | 1.97 | 0.43 | 1.14 |
4 | 70 | 6 | 1.7 | 1.30 | -1.30 | -1.39 | -1.35 | -1.35 |
5 | 28 | 11 | 3.2 | -1.39 | 1.39 | 1.01 | 0.56 | 0.99 |
6 | 52 | 9 | 3.3 | 0.15 | -0.15 | 0.05 | 0.69 | 0.20 |
7 | 58 | 8 | 2.5 | 0.53 | -0.53 | -0.43 | -0.33 | -0.43 |
8 | 60 | 7 | 1.4 | 0.66 | -0.66 | -0.91 | -1.73 | -1.10 |
9 | 25 | 9 | 3.8 | -1.59 | 1.59 | 0.05 | 1.32 | 0.98 |
10 | 55 | 10 | 3.6 | 0.34 | -0.34 | 0.53 | 1.07 | 0.42 |
平均数 | 49.7 | 8.9 | 2.8 | 0.0 | 0.0 | 0.0 | 0.0 | 0.00 |
标准差 | 15.6 | 2.1 | 0.8 | 1.0 | 1.0 | 1.0 | 1.0 | 1.00 |
当你需要将一组数据与另一组数据进行比较时,这种方法是有用的。例如,对某一产品不同版本的迭代测试时。下图中的数据表示某原型两个迭代的绩效z分数。研究1是基线实验;修改原型之后,用另一组参加者进行了研究2。z分数是任务时间和任务完成率以相等权重合并得到的。
4. 使用SUM:单一可用性度量
Jeff Sauro和Erika Kindlund(2005)开发一个将多个可用性度量合并为单一可用性分数的量化模型。模型关心的是任务完成、任务时间、每个任务的错误数和任务后的满意度评分。
可用性测试的标准化 | |||||||
任务 | SUM | 完成 | 满意度 | 时间 | 错误 | ||
低 | 中 | 高 | |||||
预定房间 | 62 | 75 | 97 | 81 | 74 | 68 | 76 |
查找旅馆 | 38 | 58 | 81 | 66 | 45 | 63 | 59 |
查看房间价格 | 49 | 66 | 89 | 74 | 53 | 63 | 74 |
取消预定 | 89 | 91 | 99 | 86 | 91 | 95 | 92 |
查看用餐时间 | 22 | 46 | 68 | 58 | 45 | 39 | 43 |
获得(指路)提示 | 56 | 70 | 93 | 81 | 62 | 66 | 71 |
总计 | 53 | 68 | 88 |
参加者在“取消预定”任务中表现最好,而在“查找用餐时间”任务中表现最差。