人人网是如何识别马甲的

偶然看到了一篇Paper,是关于人人和北大合作针对社交网络中马甲的检测的相关研究。
paper: Uncovering Social Network Sybils in the Wild

根据这篇paper,在人人的早期,采用的都是一些最传统的方法来检测马甲账号,例如扫描内容中的敏感关键词和url的黑名单,同时提供机制能够让用户检举垃圾内容和垃圾账号。总的来说,主要的思路是根据用户发出的内容来判断用户是否属于马甲账号。

从2010年底开始,人人和代亚非老师的实验室合作,研究了新的检测马甲的技术。基本的思想是从用户的行为或者属性特征上去判断。文中提到了4个重要特征:

Invitation Frequency
因为马甲账号想在Social Network中起到大的作用,就必须添加更多的好友,增强它的影响力。所以,马甲账号在添加好友这个行为上会比普通账号更加的aggressive。文中甚至提到了一个非常简单的规则:即如果一个用户一天添加好友的数量>50,那么它就很有可能是马甲。

image

Outgoing Requests Accepted
即发出去的好友请求被接受的概率。很简单的道理,马甲账号发出的好友请求的接受率一定会低于普通用户。但现实中,会有一些马甲账号它们的接受率能够保持在高水准上。原因大概有2个:第一是很多的马甲账号为了吸引好友,都使用美女(或者美男)作为自己的头像。这自然会吸引相当一部分的屌丝用户上当。另一个原因,则是马甲账号往往会给那些好友数量很多的明星账号发送好友请求,而这些账号往往并不对好友请求做筛选。关于这一点,后面我会更详细说明。

image

Incoming Requests Accepted
同样的,为了更多的增加好友,马甲账号接受好友请求的概率几乎是100%。如下图所示:

image

Clustering Coefficient
Social Network有一个很重要的网络结构特性,就是存在大量的community。普通用户往往处于几个community中,它的好友之间往往是相互认识的。而马甲账号添加的好友都是随机的,好友之间认识的概率很小。所以,从网络结构看,马甲账号的聚集系数(CC)要远小于普通用户。

image

利用以上4个特征,采用很简单的规则就可以定制出一个近似实时的马甲账号检测系统:
We compare these results to those of a threshold-based detector:
outgoing requests accepted ratio < 0.5 ∧ frequency > 20 ∧ cc < 0.01.  Our results show that a properly tuned threshold-based detector can achieve performance similar to the computationally expensive SVM.

除此以外,文章还提到了一些很有意思的观察
根据以前的经验,人们认为马甲账号大概是这样创建的:首先随机的产生一个账号,然后快速的添加其它的马甲账号做为好友,这样很快就能够让马甲账号具有很大的好友数量。但实际中,马甲账号变得更加精明,它不再大量的和其它马甲账号相关联,而是慢慢的添加真实的用户作为好友,让自己自然无缝的融入到真实的社交网络中。

这两种马甲,我在实际数据中都观察到了。我一般将前者称为普通马甲,后者称为高级马甲。普通马甲很容易辨认,它的好友虽然多,但是一眼看去就能发现都是差不多的马甲账号,另外,它们的UGC内容也基本上都是广告。而高级马甲则不同,它们的好友很多都是真实的用户,甚至会和真实的用户进行简单的互动,比如送礼物之类。同时,所产生的内容也不全是垃圾广告内容,而是其中掺杂了一些正常内容,例如转发好友的内容。很多高级马甲如果不仔细观察的话,人工的方式都很难做出正确的判断。

这里有个问题,高级马甲是如何与真实用户建立连接的呢?前文提到过,一种方法是使用吸引屌丝用户的头像,而第二种更有效的方法则是选择网络中好友数很高的这批用户发送好友请求。在人人网或者是facebook这样的双向Social Network中,存在着一些达人用户,这些用户很活跃,并且有大量的粉丝用户。他们很难像普通用户一样严格的对自己的好友进行过滤和筛选,相反,他们往往会不加思考的接受所有的好友请求。这是双向Social Network的一个弊病。高级马甲所针对的就是这些用户,向他们发送好友请求不仅仅很容易被接受,更大的好处是,和这些节点称为好友,会使得马甲账号在整个网络中处于非常中心的位置,扩大自己的影响。

如何识别高级马甲,这会是一个很有意思的问题。

结语

文章中提到的特征我相信都非常的有效。但人人是否真的在实际的系统中采用了这套规则,我持保留态度。根据以前与大学合作的经验来看,这种合作成果大部分都很难应用到实际中。另外,文中提到2010年的8月到2011年的1月,使用这个系统一共检测到了10万的马甲。这个数字比较joke,如果半年才有10万的马甲账号,只能说明人人实在是不够流行。这个值肯定是有所保留的。

Advertisements
相册 | 此条目发表在Paper分类目录,贴了, , 标签。将固定链接加入收藏夹。

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s