如何利用机器学习抵制垃圾信息(下)

avatar 998013
KenzieK
1029
2
如何利用机器学习抵制垃圾信息(下)

(4)聚类

我们已经开发了轻量级的聚类模型,用于早期检测可疑的用户和机器人。这项技术也解决了我们分类模型的缺口,除非用新的标记数据重新训练,否则这些模型不知道新出现的模式。我们根据能够成功隔离可疑群体的属性对用户进行聚类,并具有较高的准确性。专家们通过探索可疑用户的行为和他们使用资源创建垃圾内容来识别这些属性。这个模型使用PySpark和SparkSQL实现,每天执行。

(5)垃圾邮件用户-域模型

用户与域之间的互动被一个各种各样的二方图明确地捕获。我们将用户和域表示为图中的节点,如果用户创建或保存了一个带有该域链接的Pin,则在用户和域之间建立一条边缘。这个图有利于我们通过半监督学习来同时识别垃圾邮件的用户和域名。我们使用一小部分有标签的用户和域来运行一个标签传播算法,并为没有标签的用户和域学习分数。我们在Spark中实现这个迭代算法,并定期运行。

(6)测量方法

我们通过计算带有垃圾邮件链接或由从事垃圾邮件活动的用户创建的Pin数量来衡量Pinterest上的垃圾邮件流行程度。我们定期对印象图钉和用户进行抽样和人工审查。我们通过从印象深刻的头域开始采样和审查,然后在一段时间内将覆盖范围扩大到尾域,从而扩大我们的测量范围。这些样本被用来测量整体垃圾邮件的流行程度,以及训练我们的机器学习模型。

总结

Pinterest的使命是为每个人带来灵感,创造他们热爱的生活。我们努力保护我们的Pinners的体验,迅速和适当地对我们一系列最新的机器学习模型所识别的恶意用户和垃圾内容采取行动。我们计划继续投资于发展我们的社区准则和技术,以应对不可避免的新挑战,并为我们数百万有价值的用户带来最佳体验。
  • 10
2条回复