Hadoop in Twitter

twitter用hadoop在干这些事(我对1,4,5比较感兴趣):

image

下面这张图我有强烈的共鸣:

image

用MP去做graph的迭代算法,绝对是自己想不开啊…

image

这张图有点意思。用Scribe将日志导入到hadoop中,hadoop在这主要是一个整理清洗日志的工作,看图中的意思,主要是按照个人,device或者位置将日志归并成一个个的session,然后放到Vertica中。Vertica我记得是一个列存储,专门做OLAP的,应该是在这里有一些aggregation的任务,最终得到一些分析结果,可能返回给产品人员。通过这种方式,观察每天active user的变化。

Advertisements
相册 | 此条目发表在Analyzing Big Data with Twitter分类目录,贴了, 标签。将固定链接加入收藏夹。

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s