什么是 PageRank 算法?


谷歌创始人拉里佩奇和谢尔盖布林需要一种算法来对页面进行排名并为用户提供最佳搜索结果:PageRank算法。

使用 PageRank 算法,每个页面都会根据链接到它的其他页面的数量和重要性获得排名。页面排名较高的页面比排名较低的页面增加了它们链接到的页面的排名。

在图数据库术语中,PageRank 算法用于根据传入关系的数量和相关源节点的排名来衡量每个节点的重要性。PageRank 算法实际输出的是一个概率分布,表示通过随机遍历图形访问任何特定节点的可能性。

所以,这基本上是一个图节点的人气竞赛。

PageRank的一个广泛使用的类型是个性化的PageRank,它在推荐系统中非常有用。通过个性化的PageRank,你可以约束随机行走,让它只从特定集合中的一个节点开始,并且只跳到特定集合中的一个节点。这种类型的PageRank从该组特定节点的角度带出中心节点。例如,Twitter使用个性化的PageRank来推荐在线关注的人。
一部深受欢迎的电影的续集会自动比随机的新标题更受欢迎,因为它已经有一个成熟的粉丝群体。

PageRank可以作为一种影响力的衡量标准,可以在各种应用上使用,而不仅仅是在网站和电影排名上。

PageRank的使用案例
如果社交网络或搜索引擎不是您正在开发的产品,请查看如何在其他各种用例或知识图谱中利用 PageRank 来推断这些利基市场中的知识。

1、推荐引擎
在推荐引擎中,PageRank 算法可用于推荐符合目标用户偏好或当前在所有其他用户中流行的产品。该算法考虑购买次数和购买或评论产品的用户的可靠性。
可靠的用户具有有效的使用历史和评论,而不可靠的用户是虚假客户,其目的是人为地夸大某些产品的指标,使它们看起来更受欢迎。

2、数据沿袭
了解文档在数据沿袭图中的重要性有两个重要的应用:影响分析和系统可靠性。
在添加新的数据属性、迁移或重大更新的情况下,例如在获取后合并数据源,影响分析可以帮助评估此类更改的上下游影响。
PageRank 还可以帮助识别需要保持高度可靠的高影响节点,因为它们在整个组织的许多其他地方使用。

3、欺诈识别
欺诈检测中,PageRank 可用作机器学习算法的附加特征(输入),以改进分类并减少误报。
使用共享卡参与欺诈交易的用户更有可能成为欺诈者。因此,这些特定交易中涉及的节点等级可能是一条有价值的信息,可用于机器学习模型,以预测和检测与网络中已知欺诈者有联系的个人之间的欺诈行为。
还可以根据流经每个节点的资金量对节点进行排名,以标记比特定用户的平均资金流动量多得多的交易。

4、身份和访问管理
在管理权限时,限制对敏感资产的访问非常重要,因为利用这些资产可能会给公司造成代价高昂的损失。在很多系统中,由于缺乏时间和资源,往往会把高权限给实际上并不需要的人。
PageRank 可以帮助识别许多用户可以访问哪些敏感资产,以确定实际上谁需要访问并删除其余用户的权限。

5、网络优化
关键基础设施是可以表示为高度相互依赖的节点和关系网络的系统。由于它们的性质,一个节点中的故障可能会导致其他节点中的一连串故障。PageRank 可以帮助识别可能发生故障的节点以及它们是否会级联到网络中的其他节点。

6、网络安全
因为绝对消除系统中的所有威胁是不可行的。PageRank 可以帮助计算某些恶性事件导致严重攻击的概率。正如 PageRank 的最初目的是确定哪些站点由于所有其他站点都指向它而更有可能被随机点击,在安全系统中,它可以用来指出更可能执行哪种攻击,以及攻击的后果哪些攻击会更严重。