profanity-check:一款侮辱性语言检查开源库包

18-12-29 banq
    

一个快速、强大的Python库,用于检查字符串中的亵渎语言或冒犯性语言。

profanity-check使用线性SVM模型训练在200k人类标记的干净和亵渎或侮辱性等文本字符串样本。它的模型简单但令人惊讶的有效,意味着profanity-check既健壮又极其高效。

1. 优点是不需要事先输入明确的过滤字眼名单!

许多侮辱性检测库使用硬编码的坏词列表来检测和过侮辱性渎性语言。例如, profanity使用的是这个词表,甚至 better-profanity仍然使用一个词表。这种方法显然存在明显的问题,虽然它们可能具有高效性,但这些词库根本不准确。

2.性能

 profanity-filter这样的其他库使用更复杂的方法,这些方法更准确但是以性能为代价。profanity-check比profanity-filter速度性能方面快很多倍。

点击标题进入此开源库包。