下载客户端

为什么图计算能正面硬刚黑色产业薅羊毛？

2022-07-22 13:36

来源：澎湃新闻·澎湃号·湃客

原创亲爱的数据亲爱的数据

原创：谭婧

全文审核专家：朱小坤

场景一：电商给新用户的补贴，黑产账户薅走了。

场景二：每当竞争店铺花钱打广告，就立刻雇佣黑产账户一顿疯狂恶意点击，竞争店铺在线广告费一会就花没了。

场景三：一个不咋地的商品，好评一千条，虚假评论误导消费，我浏览完商品评价，都差点信了，好在兜里没钱，买不了。

数字时代，黑色产业团伙就在身边，伺机而动，假账户，薅羊毛，刷流量。

要像破案一样，掌握黑产行动规律，得用图计算技术。

头部电商APP的注册账号可以高达四亿以上，不免混入不明身份之辈，比如黑产操控的账户。

从几亿账户中找到“异常”账户谈何容易，而一个很好用的破案线索叫作“关系”。

“找关系”的本质是在图这种数据结构上挖掘信息，也可以称呼为“图挖掘”。

黑产账户常常团伙作案，且早学会了伪装。除了作假，黑产账户会有正常的浏览和购买，专门迷惑人。

可以说，这些黑产账户有智商，但不高。

它们的“智商”足以让常规系统无法辨别。

如何用图挖掘技术“找到”它们呢？

用一个想法巧妙的图挖掘算法。

这一算法原理好比浓缩咖啡。把一大杯咖啡，浓缩成一小杯。记住“浓缩”这个动词，很关键。

浓缩的过程，是把不可疑的用户从图里不断移出来。

把一张全局大图浓缩出最可疑的小图，黑产控制的账户就藏匿在里面。

电商场景的图里可以有很多类别的顶点，商店，商品，账号，品牌，设备等等。

我们只选两种顶点，一种是商品，一种是购买商品的所用的设备（手机，笔记本电脑都行）。

最开始，建一个“下单手机”和“商品”的二部图（只含有两类顶点的图）。

在某个电商APP里面下过单的所有手机都以编号的形式 “画”在图里。

下单手机和商品之间的关系包括购买，浏览，收藏，加购。

第二步，引入“可疑度”来量化每个下单手机作弊的可能性。

下单手机的可疑度怎么计算呢？一台手机下单的次数（也称顶点入度），计算每个顶点的可疑度。

算法设计可疑度的巧妙之处，就是能分辨得出作弊和非作弊的边界，从而找到作弊团体。

最开始的时候，图里既有作弊的账户，也有正常消费者的账户。毕竟，作弊的人是少数。

一个用户关心的商品占平台商品总量的很少很少一部分，所以呈现出一张稀疏的二部图。

电商的二部图的全局规模很大，顶点数量可达到几十亿，边数量可达几百亿。当之无愧工业级图数据。

我们的目的，就是找到那张“边”最密集的局部图。

我要用一个与顶点数量无关的量来刻画最后的结果。就好比，液体浓度和盛液体的容器没有关系。

不断删除可疑度最低的顶点。相当于，在不断地浓缩可疑度的浓度。

第三步，再用贪心算法的思路，动态删除最小可疑度顶点。

于是，可疑度小的顶点被一一删除，留下那些可疑度大的顶点。

这个图挖掘算法叫啥名字？

这是Fraudar算法，来源于2016年的KDD会议，是美国卡耐基梅隆大学克里斯托·法拉特（Christos Faloutsos）教授团队论文，并获得了当年的最佳论文奖。

图计算正面硬刚黑产薅羊毛的行动还在继续，随之而来的是图深度学习技术的灿然一新。

作弊手法绝不会一成不变，Fraudar算法不能抓到所有的黑产账户。

Fraudar算法只用到了图结构的信息，还有更多信息没有用起来。

有的账户频繁切换IP，频繁切换手机的操作系统等等，这些都是逃避”抓捕“的异常行为。

加入特征，用图深度神经网（比如GraphSAGE）做分类任务，区分“好人”“坏人”，这样就能找到更多黑产账号。

最后，多轮分析和验证，证明抓出来的账户是黑产账户，以免误伤好账号。

图深度学习一种强有力的工具，用于反黑产时，像一面照妖镜。

能把图深度学习用得好的企业，那都是高手。根据亲爱的数据可靠消息，你手机里的那些知名的APP，淘宝，支付宝，京东商城，小红书等等都在使用这一技术。

（完）

全文审核专家：

最后，再介绍一下主编自己吧，

我是谭婧，科技和科普题材作者。

为了在时代中发现故事，

我围追科技大神，堵截科技公司。