使用本福特定律实现虚假欺诈数据分析 - kdnuggets


自然,  树木的形状,云层的形成,自然资源的分布等  通常看起来是随机的。
但是,自然是由引人入胜的数学模式组成的。
斐波那契数就是一个这样的例子,斐波那契数被广泛研究,并与众多自然现象和存在相关联。
类似地,自然界中还有另一种引人入胜的数学存在,也就是本福德定律,它无视随机性:
 

根据本福德定律,一组数字中的前几位具有非随机分布。

 
如果您设定一组数字(例如,一组今天报纸上的所有数字或费米太空望远镜记录的物体的亮度),并且仅保留这些数字的前几个数字;新的仅首位数字的频率分布将遵循此模式:

以1为首位数字的数的出现机率约为总数的30%,接近期望值9个数字1/93倍。推广来说,越大的数,以它为首几位的数出现的机率就越低。它可用于检查各种数据是否有造假。
对于在特定类别中选择的每组数字,该数字在集合中的第一位数字的分布将遵循本福德定律。他们唯一不遵守该规则的时间就是是在数据被人为制造的时候。

纽康姆是第一个发现此模式的人,几十年后,本福德又重新发现了它。要了解这一发现的故事,我建议您观看  E04:数字;Netflix的短剧《 Connected》。

因此,所得税部门使用本福德定律来发现会计欺诈行为,选举委员会也采用本福德定律来检查选举的公平性,发现价格违规行为,发现严重的假货和其他欺诈/公平使用案例。

在机器学习时代,深入学习的研究人员正在使用本福德定律将假冒的视频和图像与原始视频和图像分开,并确保互联网安全。
有很多文献和研究可以理解本福德定律,但简而言之。对于一组数字,这些数字的前几位将一次又一次遵循设定的模式。