A / B测试已经进行了很长时间,以至于在我们进行任何测试以找出哪种设计,消息传递,要约等能够产生最佳结果之前,很难记住数字营销是什么样的。进行A / B测试时,您将两个或多个体验版本相互比较,以查看哪种体验效果最好。通常,这些经历中的一种充当“控制”,即不变的体验,使您可以看到与完全不进行更改相比,您的测试体验的好坏。
在个性化的世界中,您的控制通常是一种通用的体验(对每个人来说都是相同的),而您的测试体验是一种个性化的体验。因此,测试是任何成功的个性化策略的基本要素。即使您有时可以假设它,也不能确定是否进行个性化体验而不是常规体验会比常规体验更好。
我们经常争辩说,仅A / B测试是一种过时的方法。我们认为,几乎应该将其与个性化结合起来,以帮助您找到最适合您每个关键细分市场(甚至每个人)的体验,而不是那种对普通人而言效果最好的体验。但是,无论您是将测试和个性化结合起来,还是仅进行测试,我们都提供了一些技巧,可以帮助您从业余测试员成长为专业人士。
预先确定要测量的内容
在开始测试之前,请考虑您希望从测试中看到的结果。显然,您希望取得积极的结果,但是您想具体影响哪些指标?对您要改进的方面有一个扎实的想法,而不只是为了测试而进行测试,这一点很重要。在确定了您希望对哪些指标产生积极影响之后,理想情况下,考虑了多少指标之后,请考虑您认为哪些其他指标可能受到不利影响以及您允许多少指标?
例如,假设您正在测试一封电子邮件捕获弹出消息,如下所示:a / b测试和个性化
当然,您希望将新闻订阅人数增加3%。这是此广告系列的主要目标。但是您的每个指标并非孤立存在。通过引入该弹出窗口,您可能还会影响您关注的其他指标。访问者在注册您的电子邮件后可能会离开而无需继续购物-这意味着那些可能在购买之前就已经做出了购买许可的访问者。或者,它们可能会因弹出窗口而烦恼,并因此而迅速离开您的网站。
为列表获得更多的电子邮件地址对您的业务具有长期价值,但是您可以接受多少(如果有的话)跳出率的提高?
值得事先考虑任何活动的潜在负面影响(并在适当时获得任何必要的批准)。这样,如果您在测试过程中发现任何负面影响,您将能够知道什么时候停止测试,以免造成太多损害。
根据您的业务周期确定测试持续时间
大多数企业会根据当天的情况看到网站活动发生巨大变化。考虑到这一点,对于我们在任何给定星期的星期四至星期日进行测试都没有意义,因为结果无法控制从一周开始到结束的任何行为变化。进行一个半星期的测试(例如,在星期一开始测试,然后在下周的星期三结束测试)也是没有意义的,因为结果将反映出测试的两个星期一,两个星期二和两个星期三数据,但只有一个星期四,一个星期五等。这会使结果倾斜。
一个好的经验法则是,永远不要在不到一周的时间内进行测试-确保您看到一周中的每一天都反映在数据中-并且要以整周的倍数运行测试。
但是,如果某些企业的每月活动变化很大,则可能需要运行更长的测试。例如,如果您有一个基于订阅的业务,所有订阅都在月底进行续订,那么您可能需要运行至少一个月的测试,以确保您控制着业务特有的行为模式。
避免过早结束测试
如果未向您显示预期的结果(或过早宣布胜利),可能会提早结束测试,但是有些活动需要更长的时间才能生效。
零售商发现,从有人看到要约到实际执行要花费一些时间。结果看起来像这样:
测试和个性化
如果查看在看到消息的第一个小时内采取行动的用户,则该控件的效果要优于实验。换句话说,那些没有看到消息的人的转换率要比看到这些消息的人高。但是随着时间的流逝,看到报价的人的转化率增加了。
我们可以推断出要约花了一些时间才能生效,因为最低订单价值比站点上的AOV高得多。购物者需要一些时间来考虑购买,并确定他们将如何花费更多才能达到最低要求。换句话说,要约并未在同一会话中产生转化,但会影响以后的转化。
在这种情况下,重要的是保持测试运行,直到看到促销活动的人员能够采取行动为止。对A / B测试解决方案的工作原理有很好的了解,再加上对自己站点的了解,应该可以帮助您在这一领域做出最佳判断。
了解结果在说什么
高级测试人员可能熟悉A / B测试的结果的含义,但是我们其他人可能很难理解数字的真实含义。重要的是要知道您的结果意味着什么,以便您可以对测试后的进行方式做出正确的决定。
每个A / B测试工具都不相同,因此您需要了解特定解决方案的基础。大多数解决方案都无法预测将所有流量转换为测试体验时所能看到的提升-这些结果最终将高于或低于您在测试中看到的结果。取而代之的是,结果告诉您,您可以放心X%(通常是95%)相信测试体验会胜过控制体验。某些解决方案可以预测测试结束时可以预期的提升时间间隔,但是请务必记住,仅因为您在测试期间看到了5%的转换率提升,并不意味着您会体验到相同的提升。确切的升力向前。
但这并不意味着我们可以有95%的把握,我们将在RPU收到32.4%的提升,当我们结束测试,并让我们的100%的流量看到重新设计的经验。这只是意味着我们可以确信,重新设计的体验会在一定程度上击败控制体验。
检查新奇效果
我们都知道,生活中,新事物之所以能引起我们的注意,仅仅是因为它是新事物,而不是因为它比旧事物更好。在有限的关注范围内,对“新事物”的兴奋很快就会消退。数字体验也是如此。一种新的体验可以比旧的体验产生令人印象深刻的结果,只是因为游客不愿看到它。查看测试结果时,请确保确定是否有任何正面结果可能仅仅是由于新颖性造成的。
一种简单的测试方法是按新访客和回访者对结果进行细分。如果您发现某个广告系列对回访者而不是新访问者产生了强烈的积极影响,那么回访者很可能会被新体验的新颖性吸引,并且您看到的结果不会永远持续下去。
当然,仅仅由于新颖性效应而使竞选活动做得很好,并不是没有继续前进的理由。这只是意味着您应该认识到,尽管您可能会看到初步的颠簸,但这并不是长期影响。在这一点上,您需要做出一个判断电话,确定它是否与您的目标相符。如果您要在零售网站上测试促销活动,而该促销活动很快将被新的促销活动取代,那么新颖性很好。如果您要测试经过重新设计的网站体验,并且打算长期提高自己的指标,那么可能就不是您想要的。
使用机器学习算法来提升您的测试
当然,在2019年及以后会有很多场合继续使用传统的A / B测试(例如,当您测试新的品牌色彩或新的网站设计时),但是在许多情况下,我们现在可以转向机器学习。例如,如果您试图找到一个要约或消息显示在您的首页(或网站上的其他突出位置)上,从而为大多数网站访问量带来最佳效果,那么A / B测试将告诉您那。但是,您难道不希望找到一条最有可能吸引您网站上每个人的 消息吗?A / B测试不能完全做到这一点,但是机器学习算法可以做到。
该算法无需在两个或多个经验之间进行测试,让其运行,然后选择效果最佳的选择,而是使用预测性机器学习来评估参与促销,形象,要约或体验的可能性,并将其与其潜在的业务价值-最终最终为每个人选择最佳的内容。本质上,您为算法提供了几种不同的体验,可以在网站的特定区域中显示,并为每个单独的访问者选择理想的体验。
最后的想法
无论您要进行测试以找到对每个人,特定细分市场或每个人都可以产生良好结果的体验,请使用这些提示来帮助您进行更成功的测试。