数据可视化之美 -- 读笔2
数据可视化之美 - 读书笔记二
第四章:
色彩是可视化中滥用和忽视最严重的工具之一
为什么要使用颜色:
对于简单数据集,单一色彩是足够的,甚至是最好的。散点图是数据集的无损表示。但是可视化描述的现实世界的范畴要宽泛的多。
数据可视化的典型挑战是把高纬度的数据投影到低纬度的画布上。
对于多维数据,色彩可以表达单位空间内额外的维度,并且可以即时达到这个维度。颜色差异可以在 200ms 内被检测,甚至在你注意到它之前。
色彩本身是多维的,不过多维的效果不好,例如红蓝绿。最好颜色不要超过 2 个维度。因为:
双颜色色盲的人数比例不少
我们对于各维度颜色感知不同,有的对黄色感知弱,有的对于蓝色感知能力弱
在对色彩空间进行抽样时,我们不妨使用自然界真实的颜色来表示。自然界存在了人类通过肉眼凝视了几百万年的色彩板,远远出现在 RGB 色彩空间之前。
不要忽略时间这个维度,时间可以把图像变成动画。
第五章:
讲述了一个优化纽约地图的故事
第一步,减少尺寸,视觉上还是很复杂
第二步,受伦敦地铁启发,改成 90 度和 45 度,放弃了真实的地图
第三步:清除所有无用数据。按区将地图视觉分隔,城市是按照区域分隔的。
第四步:保留所有的主干道,并且将曲折的街道地图上变直,只是为了表达关系。
第五步:赋予情感,用户一些纽约标识帮助乘客辨别方向
第六步:考虑各种尺寸和设备上显示的效果,进行微调。并且根据纽约特点还专门制作了夜间地铁图。
第六章
展现了飞行图,就是将飞机的空中的飞行的路线进行绘制
第七章
数据挖掘和数据可视化密不可分。在数据中挖掘复杂的模式并对它可视化,可以便于人们利用计算机的计算能力和思维能力。
这章就从 18 个人参加了 14 个不同的社交活动挖掘他们的社交结构。
提出问题:
谁和谁是朋友
属于哪些社交圈
谁在社交圈起到关键作用
最普通就是将人和活动连线:
我们只能得到:
3 号参加活动比 18 号多
参加 8 号活动的人做多
深入挖掘的话,我们可以将活动之间的关系描绘出来,同时参加两个活动的话,活动之间就有联系。参加两个活动的女士越多,活动关系越强。
同时参加一个活动比较多的,女士就表示关系越密切。从最密切往最不密切绘制,将所有人纳入。连线越粗表示越密切。
我们可以得出:
两个社交聚类,相互之间有连接,有的人是核心,有的人是桥接
6 号可能不会被 12 号影响
4 号拥有最高的内部影响
9 号是粘合剂
16,17,18 可能是新来的,他们的信息肯定不是核心的
简直 Amazing,居然可以挖掘出这么多内容
社交分析图可以用来做很多事,比如购物页,购买了该产品的还买了
人们的选择揭示了我们是谁以及我们喜欢谁。我们做出的决定可以识别我们的一些方面,能识别我们属于那些组。物以类聚,人以群分。
作者通过对购买了奥巴马的书以及反对奥巴马的书。以及书籍之前的联系关系就可以得出党群之间的敌对程度(两拨书之间联系的书没有了)。支持奥巴马的人不愿意买其他党派的书。仅仅花了 1 个小时的分析亚马逊的购书记录就得到了非常有力的数据。
第八章
美国众议员 6 届会议的投票数据得出政党之间的关系的变化。
总结:
做好准备,花费很多时间整理数据
尽可能自动化
想清楚如何表示时间
决定什么时候是足够好
以记者的方式记录数据(忠实度)
这里的数据处理方法是按照上一章的方法,图形显示用的 GraphViz 的Force-Directed 算法,将他们看成是正极电子,互斥力的大小来表示距离
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 981909093@qq.com
文章标题:数据可视化之美 -- 读笔2
文章字数:1.2k
本文作者:泽鹿
发布时间:2019-08-28, 16:45:23
最后更新:2019-08-28, 16:45:23
原始链接:http://panyifei.github.io/2019/08/28/读书笔记/数据可视化之美/2/版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。