数据之美 -- 读笔3

  1. 了解数据
    1. 分类数据的可视化
    2. 时序数据的可视化
    3. 空间数据的可视化
    4. 多元变量
    5. 数据的分布

探索可视化主要是考虑下面 4 点:

  • 拥有什么数据

  • 关于数据想要了解什么

  • 应该使用哪种可视化方式

  • 看见了什么,有意义吗

了解数据

首先是收集数据,这一步理论上会占用最多的时间。

然后是给自己一个命题再去看数据。给自己一个出发点,然后在研究的过程中慢慢发散。

选择可视化方式不必抱着精确和最容易阅读不放,尝试一些不同的东西。当然传统的可视化图是探索数据的出色工具。

分类数据的可视化

最基础的选择是条形图。

为了看整体与部分的关系可以用饼图或者堆叠条形图。

较多个分类的话可是使用马赛克图。比如如下这张图你能看出,是儿童监护人的,小学教育水平的,用 email 的占比小于不用 email 的人。

时序数据的可视化

最基础的还是条形图。
然后可以尝试散点图,折线图。

LOESS 曲线法?

图形的选择其实主要是看数据。

当出现循环的时候我们可以选择星状图,雷达图。如果想要看到全部的数据以及具体日期的,可以选择日历热区图。

日历热区图与折线图相比,优点是很容易看到指定的日期。缺点是用颜色作为视觉暗示,难以区分小的差异。

空间数据的可视化

多元变量

有些可视化方法可以分析多元变量,但是并不直观,比如马赛克图,比如散点图也可以,比如热区图。

所以还是建议变成少量变量分析多次。在一张图表上可能不适合使用过多的视觉暗示,如下图,x 轴是 NBA 球员使用时长,y 轴是他们的场均得分,大小是场均助攻数,颜色是场均篮板数。

能显示多种关系的有热区图:

如果,通常会先对一个类别进行排序,能看出失误率与场均得分有负相关性,出场时间,使用率和场均得分有正相关性。

虽然两个变量的关系简单易懂,但是通常变量之间关系是复杂的。数据中没有包含的变量可能会带来变化。在相关性和因果关系方面,要考虑全部的背景,然后再指定因果关系。

数据的分布

箱型图如上所示,最大值最小值是上下四分位数加上和减去 1 又 1/2 的四分位间距得到的。

四分位间距为上四分位数减去下四分位数。


转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 981909093@qq.com

文章标题:数据之美 -- 读笔3

文章字数:711

本文作者:泽鹿

发布时间:2019-08-28, 16:45:23

最后更新:2019-08-28, 16:45:23

原始链接:http://panyifei.github.io/2019/08/28/读书笔记/数据之美/3/

版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。

目录
×

喜欢就点赞,疼爱就打赏