常用的graph data的文件格式

聊聊常见的一些保存graph数据的文件格式。

一种常见的方式是使用xml/json来保存图数据,或者自定义一些标签。比如,大牛Newman就自定义了一种称为GML的格式,如下:

image

这一类格式好处在于除了保存图的关系/拓扑结构以外,还能够定义标签保存节点和边的属性信息。缺点在于太浪费空间了。我自己很少用这样的格式,因为所得的文件实在是太大了。

抛除这样标签+结构化的格式,更精简的格式如下:

1,2
1,3
2,3
2,4
4,3
4,5
5,2
5,6
6,3

每一行代表着一条边。一般从数据库中导出的数据大多是这个样子的。文件的第一列中很多项都是重复的,空间仍然有些浪费。

再精简一些,可以得到:

1,2
2,3,4
1,3
4,3,5
5,2,6
6,3

每行的第一个值代表from_id,后面的都是to_id。每行相当于存储了多条边。

另外,有一次看到某位老师发布的数据,它的格式也很有意思,大概如下:

1,2
2
3
2,2
3
4
4,2
3
5

第一行的第一个int表示from_id,后面的int表示有多少了to_id,之后的每一行都是这个from_id对应的to_id。

 

— END. —

Advertisements
相册 | 此条目发表在Graph Process分类目录,贴了, 标签。将固定链接加入收藏夹。

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s