数据可视化之美 -- 读笔2

  1. 数据可视化之美 - 读书笔记二
    1. 第四章:
      1. 为什么要使用颜色:
    2. 第五章:
    3. 第六章
    4. 第七章
    5. 第八章

数据可视化之美 - 读书笔记二

第四章:

色彩是可视化中滥用和忽视最严重的工具之一

为什么要使用颜色:

对于简单数据集,单一色彩是足够的,甚至是最好的。散点图是数据集的无损表示。但是可视化描述的现实世界的范畴要宽泛的多。

数据可视化的典型挑战是把高纬度的数据投影到低纬度的画布上。

对于多维数据,色彩可以表达单位空间内额外的维度,并且可以即时达到这个维度。颜色差异可以在 200ms 内被检测,甚至在你注意到它之前。

色彩本身是多维的,不过多维的效果不好,例如红蓝绿。最好颜色不要超过 2 个维度。因为:

  • 双颜色色盲的人数比例不少

  • 我们对于各维度颜色感知不同,有的对黄色感知弱,有的对于蓝色感知能力弱

在对色彩空间进行抽样时,我们不妨使用自然界真实的颜色来表示。自然界存在了人类通过肉眼凝视了几百万年的色彩板,远远出现在 RGB 色彩空间之前。

不要忽略时间这个维度,时间可以把图像变成动画。

第五章:

讲述了一个优化纽约地图的故事

第一步,减少尺寸,视觉上还是很复杂

第二步,受伦敦地铁启发,改成 90 度和 45 度,放弃了真实的地图

第三步:清除所有无用数据。按区将地图视觉分隔,城市是按照区域分隔的。

第四步:保留所有的主干道,并且将曲折的街道地图上变直,只是为了表达关系。

第五步:赋予情感,用户一些纽约标识帮助乘客辨别方向

第六步:考虑各种尺寸和设备上显示的效果,进行微调。并且根据纽约特点还专门制作了夜间地铁图。

第六章

展现了飞行图,就是将飞机的空中的飞行的路线进行绘制

第七章

数据挖掘和数据可视化密不可分。在数据中挖掘复杂的模式并对它可视化,可以便于人们利用计算机的计算能力和思维能力。
这章就从 18 个人参加了 14 个不同的社交活动挖掘他们的社交结构。

提出问题:

  • 谁和谁是朋友

  • 属于哪些社交圈

  • 谁在社交圈起到关键作用

最普通就是将人和活动连线:


我们只能得到:

  • 3 号参加活动比 18 号多

  • 参加 8 号活动的人做多

深入挖掘的话,我们可以将活动之间的关系描绘出来,同时参加两个活动的话,活动之间就有联系。参加两个活动的女士越多,活动关系越强。

同时参加一个活动比较多的,女士就表示关系越密切。从最密切往最不密切绘制,将所有人纳入。连线越粗表示越密切。

我们可以得出:

  • 两个社交聚类,相互之间有连接,有的人是核心,有的人是桥接

  • 6 号可能不会被 12 号影响

  • 4 号拥有最高的内部影响

  • 9 号是粘合剂

  • 16,17,18 可能是新来的,他们的信息肯定不是核心的

简直 Amazing,居然可以挖掘出这么多内容

社交分析图可以用来做很多事,比如购物页,购买了该产品的还买了

人们的选择揭示了我们是谁以及我们喜欢谁。我们做出的决定可以识别我们的一些方面,能识别我们属于那些组。物以类聚,人以群分。

作者通过对购买了奥巴马的书以及反对奥巴马的书。以及书籍之前的联系关系就可以得出党群之间的敌对程度(两拨书之间联系的书没有了)。支持奥巴马的人不愿意买其他党派的书。仅仅花了 1 个小时的分析亚马逊的购书记录就得到了非常有力的数据。

第八章

美国众议员 6 届会议的投票数据得出政党之间的关系的变化。

总结:

  • 做好准备,花费很多时间整理数据

  • 尽可能自动化

  • 想清楚如何表示时间

  • 决定什么时候是足够好

  • 以记者的方式记录数据(忠实度)

这里的数据处理方法是按照上一章的方法,图形显示用的 GraphViz 的Force-Directed 算法,将他们看成是正极电子,互斥力的大小来表示距离


转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 981909093@qq.com

文章标题:数据可视化之美 -- 读笔2

文章字数:1.2k

本文作者:泽鹿

发布时间:2019-08-28, 16:45:23

最后更新:2019-08-28, 16:45:23

原始链接:http://panyifei.github.io/2019/08/28/读书笔记/数据可视化之美/2/

版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。

目录
×

喜欢就点赞,疼爱就打赏