数据之美 -- 读笔3
探索可视化主要是考虑下面 4 点:
拥有什么数据
关于数据想要了解什么
应该使用哪种可视化方式
看见了什么,有意义吗
了解数据
首先是收集数据,这一步理论上会占用最多的时间。
然后是给自己一个命题再去看数据。给自己一个出发点,然后在研究的过程中慢慢发散。
选择可视化方式不必抱着精确和最容易阅读不放,尝试一些不同的东西。当然传统的可视化图是探索数据的出色工具。
分类数据的可视化
最基础的选择是条形图。
为了看整体与部分的关系可以用饼图或者堆叠条形图。
较多个分类的话可是使用马赛克图。比如如下这张图你能看出,是儿童监护人的,小学教育水平的,用 email 的占比小于不用 email 的人。
时序数据的可视化
最基础的还是条形图。
然后可以尝试散点图,折线图。
LOESS 曲线法?
图形的选择其实主要是看数据。
当出现循环的时候我们可以选择星状图,雷达图。如果想要看到全部的数据以及具体日期的,可以选择日历热区图。
日历热区图与折线图相比,优点是很容易看到指定的日期。缺点是用颜色作为视觉暗示,难以区分小的差异。
空间数据的可视化
无
多元变量
有些可视化方法可以分析多元变量,但是并不直观,比如马赛克图,比如散点图也可以,比如热区图。
所以还是建议变成少量变量分析多次。在一张图表上可能不适合使用过多的视觉暗示,如下图,x 轴是 NBA 球员使用时长,y 轴是他们的场均得分,大小是场均助攻数,颜色是场均篮板数。
能显示多种关系的有热区图:
如果,通常会先对一个类别进行排序,能看出失误率与场均得分有负相关性,出场时间,使用率和场均得分有正相关性。
虽然两个变量的关系简单易懂,但是通常变量之间关系是复杂的。数据中没有包含的变量可能会带来变化。在相关性和因果关系方面,要考虑全部的背景,然后再指定因果关系。
数据的分布
箱型图如上所示,最大值最小值是上下四分位数加上和减去 1 又 1/2 的四分位间距得到的。
四分位间距为上四分位数减去下四分位数。
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 981909093@qq.com
文章标题:数据之美 -- 读笔3
文章字数:711
本文作者:泽鹿
发布时间:2019-08-28, 16:45:23
最后更新:2019-08-28, 16:45:23
原始链接:http://panyifei.github.io/2019/08/28/读书笔记/数据之美/3/版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。