纽约时报如何使用机器学习使其付费墙更智能


当《纽约时报》付费专区推出时,所有用户的计量表数都是一样的。从那时起,《纽约时报》已经转型为一家数据驱动的数字公司,其付费墙现在成功地使用了一种名为 Dynamic Meter 的因果机器学习模型来设置个性化的电表限制,从而打造更智能的付费墙。


该公司的付费墙战略围绕着订阅漏斗的概念:
漏斗的顶端是尚未在《纽约时报》上拥有账户的未注册用户。一旦他们达到了未注册状态的仪表限制,他们就会看到一堵注册墙,阻止他们进入,并要求他们在我们这里建立一个账户,或者如果他们已经有一个账户,则要求他们登录。这样做使他们能够获得更多的免费内容。
而且,由于他们的活动现在与他们的注册ID相关联,这使我们能够更好地了解他们目前对时代内容的胃口。
这些用户信息对任何机器学习应用都是很有价值的,而且也为动态仪表提供了动力。
一旦注册用户达到了他们的收费标准,他们就会收到一个带有订阅提议的付费墙。动态仪表模型控制的正是这一时刻。该模型从注册用户的第一方参与数据中学习,并确定适当的仪表限制,以优化一个或多个业务K.P.I.s(关键绩效指标)。

动态仪表模型必须发挥双重作用:
它应该支持我们帮助人们了解世界的使命和我们获取订阅的商业目标。这是通过同时优化两个指标来实现的:注册用户对纽约时报内容的参与度和付费墙在特定时间内产生的订阅数量。
这两个指标有一个内在的权衡,因为提供更多的付费墙自然会带来更多的订阅,但要以文章的阅读量为代价。

这种权衡在随机对照试验(R.C.T.)收集的数据中清晰可见:
随着注册用户的米数限制的增加,以平均页面浏览量衡量的参与度变得更大。这伴随着订阅转换率的降低,主要是因为遇到付费墙的注册用户数量减少。
相反,由于更严格的仪表限制,更多的摩擦也影响了读者的习惯,有可能让他们对我们的内容不感兴趣。这反过来又影响了他们在长期内转化为订阅者的潜力。

从本质上讲,动态仪表必须对转换和参与进行优化,同时平衡两者之间的权衡。

鉴于我们正在对两个目标进行优化,即订阅倾向和参与度,我们训练两个机器学习模型,我们称之为 "基础学习者"(公式1)。
这些基础学习者的结构类似于一个流行的元学习者模型,称为 "S-学习者"。
这样的模型通过使用特征X和处理变量T来预测目标变量。
这里,处理变量T是一个分类变量,指定给每个注册用户的仪表限制。
这些特征完全是由关于他们参与《纽约时报》内容的第一方数据决定的。
我们在模型中不使用任何人口统计学或心理学特征,以避免对受保护阶层的不公平偏见(我们致力于以公平和负责任的方式在《纽约时报》使用机器学习;你可以在这里here找到关于我们在评论审核方面的机器学习方法的讨论)。

使用具有特征X和相应待遇T的用户的R.C.T.数据,我们可以拟合两个机器学习模型,f和g,分别预测订阅倾向(p)和归一化参与(e)。
为了同时使这两个目标最大化,我们用一个凸的线性组合将它们转换成一个单一的目标s,该目标引入了权重系数δ,其值从0到1(公式2)。
它作为一个摩擦参数,允许我们明确地设定我们希望给予订阅的重要性,而不是参与。
一旦设定了一定的δ,处方政策就会给用户分配一个待遇,使综合目标函数s最大化(公式3)。
该策略可以针对不同的δ值反复应用,给出一组形成帕累托前沿的最佳解决方案。帕累托前沿通常是凸的,包含了至少在一个目标函数中优于其他所有解决方案,当我们沿着这个前沿移动时,其中一个目标函数会减少,而另一个则会增加。

详细点击标题