用户研究干货！量化用户研究-JobPlus

什么是用户研究?

对于一个如此简单的术语，“用户研究”对于不同的人意义也是不同的。对于用户研究中的“用户”，Edward Tufte(Bisbort，1999)有一句名言：“只有两个行业把他们的顾客称作用户：计算机设计(译者注：computer design)以及贩毒。”

本书关注的是前者的用户。这里的用户可以是一个付费顾客、内部员工、物理学家、呼叫中心处理员、汽车司机、手机拥有者或是任何试图去完成某个目标的人——尤其是那些涉及到软件、网站以及机器设备的目标。

这里的“研究”宽泛而又模糊——它是以其为核心的方法和专业人员融汇的结果。Schumacher(2010,p.6)提出了以下的定义：

用户研究是对于用户目标、需求和能力的系统研究，

它的目的是为了给设计、架构或改进工具来帮助用户更好的工作和生活。

相比起这个词语的定义以及它包含的内容，我们更关心如何量化用户的行为，因为这涉及到可用性相关专业人士、设计师、产品经理、营销人员以及开发者。

用户研究中的数据

尽管“用户研究”这个说法最终可能会失宠，但是它其中产出的数据却不会。贯穿本书，我们将把重点放在可用性测试，使用一些来自可用性测试、用户调查、A/B测试以及实景调研的案例。之所以把重点放在可用性测试上，是有以下三点原因：

可用性测试依然是判别用户是否在完成任务的核心方法。

作者均执行过大量的可用性测试并对其有着很多论述。

可用性测试用到了许多其他用研方法所涉及到的指标。(比如到处都能看到的“完成率”)。

可用性测试

可用性有一个国际标准:ISO 9241 pt.11(ISO,1998)，其中把可用性定义为：在具体的使用场景下，一个产品能帮助具体用户有效果、有效率并满意地达到一个具体目标的程度。尽管没有方法来衡量效果、效率以及满意度，一项09年针对将近100个总结性可用性测试的大型调查(Sauro和Lewis,2009)发现了执行测试的人一般能收集到的内容。大部分的测试包含了一些组合，这些组合包括：完成率、错误、任务时间、任务级别满意度(译者注：task-level satisfaction)、测试级别满意度(译者注：test-level satisfaction)、帮助途径以及可用性问题列表(一般包含频率和程度)。

总体上来说，有两种可用性测试：找到并解决可用性问题(形成性测试)(译者注：formative tests)和用指标描述一个应用的可用性(总结性测试)(译者注：summative tests)。这里的“形成性测试”和“总结性测试”两个术语来自教育界(Scriven,1967)用于描述学生学习水平测试时用到的类似方式(“形成性”——提供即时的反馈来改进学习方式以及“总结性”——评估学到的内容)。

大多数的可用性测试属于总结性的。它们通常是一个小样本量的定性活动，在其中问题描述以及设计建议是以数据的形式输出的。你的目标是发现尽可能多的问题并找到解决方案，但是这并不意味着没有定量什么事。你可以从频率、程度的角度量化问题，追踪哪些用户碰到了哪些问题，衡量一下他们完成任务花费的时间，判断一下他们是否成功的完成了任务。

通常来讲有两种典型的总结性测试：基准测试以及比较测试。基准可用性测试的目标是描述一个应用相对于一系列基准来说的可用程度。在基准测试里你可以提出一个界面中需要修复的问题并且它也提供了用于比较设计后改变的一条基线。

比较可用性测试，就像他的名字一样，这可以是比较同一个产品的不同版本，也可以是比较几个竞品。在比较测试中，同一个用户可以在所有的产品上尝试完成任务(主题下的设计)，或者不同组的用户可以试验各个产品(主题间的设计)。

样本量

对于样本量有一种错误的观点认为必须越大越好，这样才可以让数据精确可使用并量化成可用数据。我们将在第6.7章中深入探讨这个问题，并且在本书中，我们都将展现给你如何在样本量小于10的情况下获得有效的数据结果。不要让你的样本量(哪怕你只有2到5个用户)阻碍你使用统计信息来量化数据并指导最终的设计方案。

代表性和随机性

和样本量能够扯上些关系应该算是样本的构成。对于一个小样本经常会有人担心它不够有代表性。样本量以及代表性其实是不同的概念。你可以建立一个数量只有5但是能够代表人群的样本，你也可以建立一个样本量高达1000但是并没有什么代表性的样本。有关这两个不同概念最著名的例子之一便是1936年《文学文摘》(译者注：Literary Digesst)做的关于总统候选人民意调查。这本杂志调查自己的读者倾向于投票给哪位候选人并收到了240万份结果，但是最后却预测错了大选结果。这里面问题不在于样本的大小而在于样本的代表性。而《文学文摘》收到回复的人群大多是高收入高学历人群——显然并不能够代表所有人。(详见wiki)

在用户研究中，无论数据是定量的还是定性的，最重要的一件事在于你测试的用户样本能够代表你所要针对的所有人。否则你的调研结果从逻辑上就不适用于你的目标人群。如果你用一个群体的样本来推断另一个不同的群体，那么再好的统计学都帮不上忙。如果你想要深入了解如何改进雪地鞋的设计，去调研5个极地探险者都要比调研1000个冲浪者来的好。在实践中，这就意味着如果你试图从不同的用户群里得出结论(比如，新用户和经验用户，或年长用户和年轻用户)，你就该让样本很好的代表不同的用户群。

关于样本量和代表性存在困扰的一个原因在于，你的人群，比如说是由10个不同的组构成，而你的样本量是5，那么显然样本量不够来代表所有的组别。你就需要针对这制定合适的取样方法来保证从每个需要调研的组别中都取得样本——这个方法又叫“分层取样”(译者注：Stratified Sampling)。比如说，如果你有理由相信以下几点，则考虑从不同组取样：

在关键指标上不同组别之间有潜在的重要差别。(Dickens，1987)

组与组之间存在潜在交流。(Aykin and Aykin，1991)

在关键指标的变动性上，组与组之间不同。

不同组之间取样成本不一样。

Gordon和Langmaid推荐用一下方法来定义一个组(1988)：

写下所有重要的变量。

如果需要的话，按优先级对变量排序。

设计一个理想的样本。

利用常识来合并组。

举例来说，假设你一开始有24个组，这些组都是基于6个人口统计地点、2种经历、2种性别的组合。你可能规划着(1)每组中都包含同样数量的40岁以上和以下的男性女性，(2)初学用户和经验用户分开，然后(3)弃用中间的那些用户。最后的规划需要从2个组里取样。而没有合并性别和年龄的规划则需要从8个组里取样。

我们理想的假设你的样本是从母人群中随机挑选的。现实中这一点十分困难。除非你强迫用户去参与调查，否则多多少少不会完全随机。在可用性研究和调查中，如果人们决定参与，那么这一组里可以有不同的特点，而如果人们不选择参与则反之。这个问题不仅仅存在在用户研究中。即便在要对药物以及医疗程序作出生与死的决定的临床测试里，人们又不得不参与或者有某种疾病(癌症或糖尿病)的时候，也有这样的情况。许多心理学课本里关于人们行为的准则居然是被一些大学本科生得出的——这是一个潜在的代表性以及随机性问题。

你必须要意识到你的数据依旧是存在偏差的，这也将制约到你的结论。在应用研究中，我们被预算以及用户参与度所拘束，可是产品依然必须要产出。所以，在我们能收集到的数据的基础之上，我们尽量做出最正确的判断。在尽力让样本中的系统偏差最小化的同时要记住，代表性比随机性更加重要。换句话说，哪怕你有一个非常完美的随机样本，但是它选取自错误的人群，那么这个样本也比不上选取自正确人群但不完美的样本。

数据收集

可用性数据可以在一个传统基于实验室的有主持过程里被收集，这个过程中，用户去完成任务，而一个主持人将观察并与他们互动。这样的测试过程无疑耗时耗力，并且还需要具备用户和观察人两个角色(这也阻碍其进行一些跨国的测试)。这样的研究一般运用小样本的统计学过程，因为每一个样本的成本实在太高了。

近些年来，远程主持以及无主持的过程越来越受欢迎。在远程主持的过程中，用户在自己的电脑上尝试完成任务，而主持人通过屏幕共享软件来观察并记录用户的行为。而在无主持的远程测试过程中，用户尝试任务(通常是在网站上)，而软件记录下点击，页面浏览以及时间。对于远程测试的办法，读者可参阅《Beyond the Usability Lab》(Albert et al.,2010)，里面有深入的讨论。

根据我们的经验，尽管量化人类行为动机是十分困难的，这些行为的结果却是易于观察、衡量并利用的。以下就是在用户研究里，可用性测试内外能收集到的一些常见指标描述。我们会在本书里不断用到这些术语。

完成率

完成率，也被称为成功率，是可用性指标里最为基本的。(Nielsen，2001)。他们一般都记录成二进制的数据：1代表任务成功，0代表任务失败。你所报告的成功率就是将那些成功完成任务的用户数量除以所以尝试任务的用户数量。举例来说，如果10个用户里有8个成功完成了任务，那么成功率就是0.8，通常报告里写成80%。你也可以用用100%减去成功率而记录失败率为20%。

当然，也有办法来定义一种表示部分成功的指标，但是我们更加推崇这种简单的二进制衡量方式，因为它更加利于之后的统计分析。本书里提到的成功率都是指这种二进制的成功率。

二进制统计的另一个好处在于它在科学以及统计学文献里无处不在。本质上来说，任何事物的出现和未出现都可以记录成1或者0，然后可以汇总成一定的比率。这个可以是在一个软件上完成任务的用户数量，或是从疾病中恢复的病人数目，又或是湖里补上来的鱼的数量，以及购买一个产品的顾客数量等等等等，它们都适用于二进制比率。

可用性问题

如果用户在完成任务的时候遇到了问题，而这个问题又和界面有关系。那这就是一个用户界面问题(UI问题)。UI问题的汇总通常以列表的形式出现。这个列表包含了问题名称、描述以及一个用来反映问题出现频率和对用户影响的级别评分。

计算问题出现频率的常用方法是把所有参与者遇到的问题数量除以参与者的数量。而评估问题影响程度常用的办法(Rubin,1994;Dumas and Redish,1999)则是为这个影响的程度打分，其参考以下标准：

这个问题是否导致任务无法完成;

这个问题是否导致完成的延迟或让用户遇到阻碍;

这个问题对于整个任务表现影响相对比较小;

这个问题有待继续观察。

当你在处理数据时，如果这些数据是多类别的，且有着一定的层次顺序，那么就很有必要用某种方式合并一下这些数据。一种方法便是用某种算法作为依据。Rubin(1994)描述了一种将影响的四个级别(利用上面介绍到的4个级别，4表示最严重)和问题出现频率的四个级别(4：大于等于90%;3：:51-89%;2:11-50%;1：小于等于10%)通过分数叠加合并的办法。举例来说，如果一个问题被监测到有80%的出现频率，但相对来说影响较小，那么它的级别评分就是5(频率3分加上影响2分)。通过这种方法，级别评分可以从最小2分到最大8分之间浮动。

还有一个类似的合并策略是将监测到的出现频率百分比乘上影响分(Lewis,2012)。得到的级别评分范围取决于每个影响级别被赋予的值。如果你把最严重的影响级别定义为10分，那么最高级得分就是1000(也可以在这个基础上除以10，这样得出的结果就在1到100的范围内，便于分析)。剩余三个影响级别的值取决于测试方的判断，但一个合理的组合一般是5,3和1分。利用这些值，一个出现频率为80%、有着较小影响的问题的级别得分是24(80乘以3除以10).

什么是用户研究?对于一个如此简单的术语，“用户研究”对于不同的人意义也是不同的。对于用户研究中的“用户”，Edward Tufte(Bisbort，1999)有一句名言：“只有两个行业把他们的顾客称作用户：计算机设计(译者注：computer design)以及贩毒。”本书关注的是前者的用户。这里的用户可以是一个付费顾客、内部员工、物理学家、呼叫中心处理员、汽车司机、手机拥有者或是任何试图去完成某个目标的人——尤其是那些涉及到软件、网站以及机器设备的目标。这里的“研究”宽泛而又模糊——它是以其为核心的方法和专业人员融汇的结果。Schumacher(2010,p.6)提出了以下的定义：用户研究是对于用户目标、需求和能力的系统研究，它的目的是为了给设计、架构或改进工具来帮助用户更好的工作和生活。相比起这个词语的定义以及它包含的内容，我们更关心如何量化用户的行为，因为这涉及到可用性相关专业人士、设计师、产品经理、营销人员以及开发者。用户研究中的数据尽管“用户研究”这个说法最终可能会失宠，但是它其中产出的数据却不会。贯穿本书，我们将把重点放在可用性测试，使用一些来自可用性测试、用户调查、A/B测试以及实景调研的案例。之所以把重点放在可用性测试上，是有以下三点原因：可用性测试依然是判别用户是否在完成任务的核心方法。作者均执行过大量的可用性测试并对其有着很多论述。可用性测试用到了许多其他用研方法所涉及到的指标。(比如到处都能看到的“完成率”)。可用性测试可用性有一个国际标准:ISO 9241 pt.11(ISO,1998)，其中把可用性定义为：在具体的使用场景下，一个产品能帮助具体用户有效果、有效率并满意地达到一个具体目标的程度。尽管没有方法来衡量效果、效率以及满意度，一项09年针对将近100个总结性可用性测试的大型调查(Sauro和Lewis,2009)发现了执行测试的人一般能收集到的内容。大部分的测试包含了一些组合，这些组合包括：完成率、错误、任务时间、任务级别满意度(译者注：task-level satisfaction)、测试级别满意度(译者注：test-level satisfaction)、帮助途径以及可用性问题列表(一般包含频率和程度)。总体上来说，有两种可用性测试：找到并解决可用性问题(形成性测试)(译者注：formative tests)和用指标描述一个应用的可用性(总结性测试)(译者注：summative tests)。这里的“形成性测试”和“总结性测试”两个术语来自教育界(Scriven,1967)用于描述学生学习水平测试时用到的类似方式(“形成性”——提供即时的反馈来改进学习方式以及“总结性”——评估学到的内容)。大多数的可用性测试属于总结性的。它们通常是一个小样本量的定性活动，在其中问题描述以及设计建议是以数据的形式输出的。你的目标是发现尽可能多的问题并找到解决方案，但是这并不意味着没有定量什么事。你可以从频率、程度的角度量化问题，追踪哪些用户碰到了哪些问题，衡量一下他们完成任务花费的时间，判断一下他们是否成功的完成了任务。通常来讲有两种典型的总结性测试：基准测试以及比较测试。基准可用性测试的目标是描述一个应用相对于一系列基准来说的可用程度。在基准测试里你可以提出一个界面中需要修复的问题并且它也提供了用于比较设计后改变的一条基线。比较可用性测试，就像他的名字一样，这可以是比较同一个产品的不同版本，也可以是比较几个竞品。在比较测试中，同一个用户可以在所有的产品上尝试完成任务(主题下的设计)，或者不同组的用户可以试验各个产品(主题间的设计)。样本量对于样本量有一种错误的观点认为必须越大越好，这样才可以让数据精确可使用并量化成可用数据。我们将在第6.7章中深入探讨这个问题，并且在本书中，我们都将展现给你如何在样本量小于10的情况下获得有效的数据结果。不要让你的样本量(哪怕你只有2到5个用户)阻碍你使用统计信息来量化数据并指导最终的设计方案。代表性和随机性和样本量能够扯上些关系应该算是样本的构成。对于一个小样本经常会有人担心它不够有代表性。样本量以及代表性其实是不同的概念。你可以建立一个数量只有5但是能够代表人群的样本，你也可以建立一个样本量高达1000但是并没有什么代表性的样本。有关这两个不同概念最著名的例子之一便是1936年《文学文摘》(译者注：Literary Digesst)做的关于总统候选人民意调查。这本杂志调查自己的读者倾向于投票给哪位候选人并收到了240万份结果，但是最后却预测错了大选结果。这里面问题不在于样本的大小而在于样本的代表性。而《文学文摘》收到回复的人群大多是高收入高学历人群——显然并不能够代表所有人。(详见wiki)在用户研究中，无论数据是定量的还是定性的，最重要的一件事在于你测试的用户样本能够代表你所要针对的所有人。否则你的调研结果从逻辑上就不适用于你的目标人群。如果你用一个群体的样本来推断另一个不同的群体，那么再好的统计学都帮不上忙。如果你想要深入了解如何改进雪地鞋的设计，去调研5个极地探险者都要比调研1000个冲浪者来的好。在实践中，这就意味着如果你试图从不同的用户群里得出结论(比如，新用户和经验用户，或年长用户和年轻用户)，你就该让样本很好的代表不同的用户群。关于样本量和代表性存在困扰的一个原因在于，你的人群，比如说是由10个不同的组构成，而你的样本量是5，那么显然样本量不够来代表所有的组别。你就需要针对这制定合适的取样方法来保证从每个需要调研的组别中都取得样本——这个方法又叫“分层取样”(译者注：Stratified Sampling)。比如说，如果你有理由相信以下几点，则考虑从不同组取样：在关键指标上不同组别之间有潜在的重要差别。(Dickens，1987)组与组之间存在潜在交流。(Aykin and Aykin，1991)在关键指标的变动性上，组与组之间不同。不同组之间取样成本不一样。Gordon和Langmaid推荐用一下方法来定义一个组(1988)：写下所有重要的变量。如果需要的话，按优先级对变量排序。设计一个理想的样本。利用常识来合并组。举例来说，假设你一开始有24个组，这些组都是基于6个人口统计地点、2种经历、2种性别的组合。你可能规划着(1)每组中都包含同样数量的40岁以上和以下的男性女性，(2)初学用户和经验用户分开，然后(3)弃用中间的那些用户。最后的规划需要从2个组里取样。而没有合并性别和年龄的规划则需要从8个组里取样。我们理想的假设你的样本是从母人群中随机挑选的。现实中这一点十分困难。除非你强迫用户去参与调查，否则多多少少不会完全随机。在可用性研究和调查中，如果人们决定参与，那么这一组里可以有不同的特点，而如果人们不选择参与则反之。这个问题不仅仅存在在用户研究中。即便在要对药物以及医疗程序作出生与死的决定的临床测试里，人们又不得不参与或者有某种疾病(癌症或糖尿病)的时候，也有这样的情况。许多心理学课本里关于人们行为的准则居然是被一些大学本科生得出的——这是一个潜在的代表性以及随机性问题。你必须要意识到你的数据依旧是存在偏差的，这也将制约到你的结论。在应用研究中，我们被预算以及用户参与度所拘束，可是产品依然必须要产出。所以，在我们能收集到的数据的基础之上，我们尽量做出最正确的判断。在尽力让样本中的系统偏差最小化的同时要记住，代表性比随机性更加重要。换句话说，哪怕你有一个非常完美的随机样本，但是它选取自错误的人群，那么这个样本也比不上选取自正确人群但不完美的样本。数据收集可用性数据可以在一个传统基于实验室的有主持过程里被收集，这个过程中，用户去完成任务，而一个主持人将观察并与他们互动。这样的测试过程无疑耗时耗力，并且还需要具备用户和观察人两个角色(这也阻碍其进行一些跨国的测试)。这样的研究一般运用小样本的统计学过程，因为每一个样本的成本实在太高了。近些年来，远程主持以及无主持的过程越来越受欢迎。在远程主持的过程中，用户在自己的电脑上尝试完成任务，而主持人通过屏幕共享软件来观察并记录用户的行为。而在无主持的远程测试过程中，用户尝试任务(通常是在网站上)，而软件记录下点击，页面浏览以及时间。对于远程测试的办法，读者可参阅《Beyond the Usability Lab》(Albert et al.,2010)，里面有深入的讨论。根据我们的经验，尽管量化人类行为动机是十分困难的，这些行为的结果却是易于观察、衡量并利用的。以下就是在用户研究里，可用性测试内外能收集到的一些常见指标描述。我们会在本书里不断用到这些术语。完成率完成率，也被称为成功率，是可用性指标里最为基本的。(Nielsen，2001)。他们一般都记录成二进制的数据：1代表任务成功，0代表任务失败。你所报告的成功率就是将那些成功完成任务的用户数量除以所以尝试任务的用户数量。举例来说，如果10个用户里有8个成功完成了任务，那么成功率就是0.8，通常报告里写成80%。你也可以用用100%减去成功率而记录失败率为20%。当然，也有办法来定义一种表示部分成功的指标，但是我们更加推崇这种简单的二进制衡量方式，因为它更加利于之后的统计分析。本书里提到的成功率都是指这种二进制的成功率。二进制统计的另一个好处在于它在科学以及统计学文献里无处不在。本质上来说，任何事物的出现和未出现都可以记录成1或者0，然后可以汇总成一定的比率。这个可以是在一个软件上完成任务的用户数量，或是从疾病中恢复的病人数目，又或是湖里补上来的鱼的数量，以及购买一个产品的顾客数量等等等等，它们都适用于二进制比率。可用性问题如果用户在完成任务的时候遇到了问题，而这个问题又和界面有关系。那这就是一个用户界面问题(UI问题)。UI问题的汇总通常以列表的形式出现。这个列表包含了问题名称、描述以及一个用来反映问题出现频率和对用户影响的级别评分。计算问题出现频率的常用方法是把所有参与者遇到的问题数量除以参与者的数量。而评估问题影响程度常用的办法(Rubin,1994;Dumas and Redish,1999)则是为这个影响的程度打分，其参考以下标准：这个问题是否导致任务无法完成;这个问题是否导致完成的延迟或让用户遇到阻碍;这个问题对于整个任务表现影响相对比较小;这个问题有待继续观察。当你在处理数据时，如果这些数据是多类别的，且有着一定的层次顺序，那么就很有必要用某种方式合并一下这些数据。一种方法便是用某种算法作为依据。Rubin(1994)描述了一种将影响的四个级别(利用上面介绍到的4个级别，4表示最严重)和问题出现频率的四个级别(4：大于等于90%;3：:51-89%;2:11-50%;1：小于等于10%)通过分数叠加合并的办法。举例来说，如果一个问题被监测到有80%的出现频率，但相对来说影响较小，那么它的级别评分就是5(频率3分加上影响2分)。通过这种方法，级别评分可以从最小2分到最大8分之间浮动。还有一个类似的合并策略是将监测到的出现频率百分比乘上影响分(Lewis,2012)。得到的级别评分范围取决于每个影响级别被赋予的值。如果你把最严重的影响级别定义为10分，那么最高级得分就是1000(也可以在这个基础上除以10，这样得出的结果就在1到100的范围内，便于分析)。剩余三个影响级别的值取决于测试方的判断，但一个合理的组合一般是5,3和1分。利用这些值，一个出现频率为80%、有着较小影响的问题的级别得分是24(80乘以3除以10).

关于我们

法律声明

帮助中心

商务合作

相关文章

关于我们

法律声明

帮助中心

商务合作