多尺度、跨地域的多变量数据可视化(Visualizing Multiple Varia

栏目:可视化资讯丨时间:06-19丨来源:未知丨作者:admin

128

#玩转大数据#多变量数据往往伴随着其他数据形式而出现,譬如时变多变量数据、空间多变量数据等等。多变量可视化如平行坐标、散点图矩阵等已经被广泛熟知和应用,却鲜有方法能够同时表现伴随的时空或层次信息。这篇文章 [1] 以地理空间多变量数据为核心,提出了一种新颖的可视化形式,以呈现多尺度、跨地域的数据分布与联系。

 

文章有两个核心的概念,分别是“尺度”(scale)与“地域”(geography)。所谓尺度,指的是不同粒度、层面上的数据聚集(aggregation)。譬如某公司的销售数据,每一年、每一季度、每个月的总结都属于不同的数据尺度。而地域性指的是数据在地理空间上的分布差异,如华南、华北、西北等地区的气候数据各不相同。为了表现多个变量的分布与相关性,文章利用了散点图矩阵的基本架构,在对角元素上表现单变量的分布,在非对角元素上表现变量之间的关系。而在每个单元格中,作者用不同的符号(glyph)代表数据的尺度差异或是地域分布信息。

图1. 多尺度数据的符号设计

图1. 多尺度数据的符号设计

对于多尺度数据,文章列举了几种不同的尺度以及相应的符号设计方案(见图1)。以空间多尺度为例(图1(c)),当数据从国家、地区、省份、城市等多个层面进行聚集后,其中呈现出来的变量关系都有所不同。用色调区分正负相关性,颜色深浅刻画相关性强弱,就能得到图1(d)所示的多尺度相关性符号。图2列举了几种不同的颜色变化规律,用户可以清楚地看到相关性是如何随尺度的不同而发生改变的。当变量数目扩展至多个时,便得到如图5(a)所示的多尺度符号矩阵。

图2. 数据在不同尺度下的变化规律

图2. 数据在不同尺度下的变化规律

对于地域分布信息,作者设计了像素化的地图(如图3)来表现局部地区的数据差异。首先对于每个数据,寻找它在地域上的相近点组成一个“局部数据子集”(local subset,如图3(a))。以相关性为例,变量在不同的子集中存在不同的相关性,表现在地域上即是局部相关性地图(如图3(b)),其中颜色越深相关性越强。为了更高效地表达这一视图,我们将其像素化就得到了图3(c)所示的地域像素图。用户能够从中了解跨地域的数据差异。进一步扩展变量数目,就得到了如图4(b)所示的跨地域符号矩阵,矩阵的上下部分分别给出了每一对变量的散点图以及局部相关性图。

图3. 跨地域的数据差异可视化

图3. 跨地域的数据差异可视化

为提高方法的可扩展性,两种符号矩阵都具有变量数目自适应的能力。当变量数目减少时,像素地图的分辨率会越来越高;反之,地图的粒度会随着变量增多而增大。直到屏幕空间不足以表现细节时,每个单元格只包含一个色块以表现全局的相关性。多尺度矩阵也类似,在最低分辨率时只表达变量关系对尺度的敏感性。

图4. 多尺度、跨地域的多变量符号矩阵

图4. 多尺度、跨地域的多变量符号矩阵

总的来说,该文章提出了一种有效的可视化方法,使得用户可以在多变量分析的同时,了解数据在不同尺度、不同地理空间中的分布差异。事实上,该方法并不仅限于空间多变量数据。具有时间、分类等具有多尺度信息,或是在非维度空间形成数据子集的,都可以利用该方法进行可视化分析。但另一方面,散点图矩阵的尺寸随变量数的平方增大,使得该方法在维度可扩展性上不尽如人意。无论如何,该方法提供了一种“在多变量可视化中表现时空信息”的新思路,值得我们品味和探讨。

[1] Goodwin, S.; Dykes, J.; Slingsby, A.; Turkay, C., “Visualizing Multiple Variables Across Scale and Geography,” in Visualization and Computer Graphics, IEEE Transactions on , vol.22, no.1, pp.599-608, Jan. 31 2016.

来源:北京大学可视化与可视分析博客

 
大数据

光环IT学院,专注IT培训16年,培养IT行业精英! —

光环IT学院

注:本站文章采用原创+网络转载两个方式,对于转载的文章,由于网络信息过多,无法100%找到原始出处。如果本站文章有侵犯了您的权益,请联系我们删除或授权。

请遵守理性,宽容,换位思考的原则

2017-06-19 16:27 发布 丨 人浏览

热点推荐

微信
公众号

微信扫码,即可关注

反馈
意见
回到
顶部