伪Power-Law

我曾经在分析中见过这样一个分布图。它看上去似乎满足Power-Law。在图的左侧,曲线迅速的衰减,而在图的右侧,缓缓的趋紧于0,可以一直延伸x轴到几万。

但问题是,这个分布中的x=1的值过大,它的衰减过于陡峭。事实上,该图对应的分布,x=1的统计数量占到了整个统计总数的97%。这远远超过了一般的Power-Law。比如Zipf‘s Law,它的x=1的量大概是x=2的量的2倍。而上图中,x=1是x=2的41倍。

如果去除x=1的量,那么分布会变成:

这才更像是一个真正的冥律分布。

而第一张图产生的原因,在于网络中的垃圾信息太多了,站到了绝对多数。垃圾信息往往相关的链接会很少,所以导致了大量x=1的数据。

Advertisements
相册 | 此条目发表在Social Network分类目录。将固定链接加入收藏夹。

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s