大数据,成就未来Matplotlib数据可视化基础2大数据挖掘专家1分析特征间的关系目录了解绘图基础语法与常用参数2分析特征内部数据分布与分散状况3小结43大数据挖掘专家掌握pyplot基础语法基本绘图流程4大数据挖掘专家第一部分主要作用是构建出一张空白的画布,并可以选择是否将整个画布划分为多个部分,方便在同一幅图上绘制多个图形的情况。最简单的绘图可以省略第一部分,而后直接在默认的画布上进行图形绘制。掌握pyplot基础语法1.创建画布与创建子图函数名称函数作用plt.figure创建一个空白画布,可以指定画布大小,像素。figure.add_subplot创建并选中子图,可以指定子图的行数,列数,与选中图片编号。5大数据挖掘专家第二部分是绘图的主体部分。其中添加标题,坐标轴名称,绘制图形等步骤是并列的,没有先后顺序,可以先绘制图形,也可以先添加各类标签。但是添加图例一定要在绘制图形之后。掌握pyplot基础语法2.添加画布内容函数名称函数作用plt.title在当前图形中添加标题,可以指定标题的名称、位置、颜色、字体大小等参数。plt.xlabel在当前图形中添加x轴名称,可以指定位置、颜色、字体大小等参数。plt.ylabel在当前图形中添加y轴名称,可以指定位置、颜色、字体大小等参数。plt.xlim指定当前图形x轴的范围,只能确定一个数值区间,而无法使用字符串标识。plt.ylim指定当前图形y轴的范围,只能确定一个数值区间,而无法使用字符串标识。plt.xticks指定x轴刻度的数目与取值。plt.yticks指定y轴刻度的数目与取值。plt.legend指定当前图形的图例,可以指定图例的大小、位置、标签。6大数据挖掘专家第三部分主要用于保存和显示图形。掌握pyplot基础语法3.存与展示图形函数名称函数作用plt.savafig保存绘制的图片,可以指定图片的分辨率、边缘的颜色等参数。plt.show在本机显示图形。7大数据挖掘专家pyplot使用rc配置文件来自定义图形的各种默认属性,被称为rc配置或rc参数。在pyplot中几乎所有的默认属性都是可以控制的,例如视图窗口大小以及每英寸点数、线条宽度、颜色和样式、坐标轴、坐标和网格属性、文本、字体等。设置pyplot的动态rc参数8大数据挖掘专家设置pyplot的动态rc参数线条的常用rc参数名称、解释与取值rc参数名称解释取值lines.linewidth线条宽度取0-10之间的数值,默认为1.5。lines.linestyle线条样式可取“-”“--”“-.”“:”四种。默认为“-”。lines.marker线条上点的形状可取“o”“D”“h”“.”“,”“S”等20种,默认为None。lines.markersize点的大小取0-10之间的数值,默认为1。9大数据挖掘专家设置pyplot的动态rc参数常用线条类型解释linestyle取值意义linestyle取值意义-实线-.点线--长虚线:短虚线10大数据挖掘专家marker取值意义marker取值意义‘o’圆圈‘.’点‘D’菱形‘s’正方形‘h’六边形1‘*’星号‘H’六边形2‘d’小菱形‘-’水平线‘v’一角朝下的三角形‘8’八边形‘’一角朝左的三角形‘p’五边形‘’一角朝右的三角形‘,’像素‘^’一角朝上的三角形‘+’加号‘\’竖线‘None’无‘x’X设置pyplot的动态rc参数线条标记解释11大数据挖掘专家由于默认的pyplot字体并不支持中文字符的显示,因此需要通过设置font.sans-serif参数改变绘图时的字体,使得图形可以正常显示中文。同时,由于更改字体后,会导致坐标轴中的部分字符无法显示,因此需要同时更改axes.unicode_minus参数。•plt.rcParams['font.sans-serif']='SimHei'##设置中文显示•plt.rcParams['axes.unicode_minus']=False除了设置线条和字体的rc参数外,还有设置文本、箱线图、坐标轴、刻度、图例、标记、图片、图像保存等rc参数。具体参数与取值可以参考官方文档。设置pyplot的动态rc参数注意事项12大数据挖掘专家1分析特征间的关系目录了解绘图基础语法与常用参数2分析特征内部数据分布与分散状况3小结413大数据挖掘专家散点图(scatterdiagram)又称为散点分布图,是以一个特征为横坐标,另一个特征为纵坐标,利用坐标点(散点)的分布形态反映特征间的统计关系的一种图形。值是由点在图表中的位置表示,类别是由图表中的不同标记表示,通常用于比较跨类别的数据。绘制散点图散点图14大数据挖掘专家matplotlib.pyplot.scatter(x,y,s=None,c=None,marker=None,alpha=None,**kwargs)常用参数及说明如下表所示。绘制散点图scatter函数参数名称说明x,y接收array。表示x轴和y轴对应的数据。无默认。s接收数值或者一维的array。指定点的大小,若传入一维array则表示每个点的大小。默认为None。c接收颜色或者一维的array。指定点的颜色,若传入一维array则表示每个点的颜色。默认为Nonemarker接收特定string。表示绘制的点的类型。默认为None。alpha接收0-1的小数。表示点的透明度。默认为None。15大数据挖掘专家折线图(linechart)是一种将数据点按照顺序连接起来的图形。可以看作是将散点图,按照x轴坐标顺序连接起来的图形。折线图的主要功能是查看因变量y随着自变量x改变的趋势,最适合用于显示随时间(根据常用比例设置)而变化的连续数据。同时还可以看出数量的差异,增长趋势的变化。绘制折线图折线图16大数据挖掘专家matplotlib.pyplot.plot(*args,**kwargs)plot函数在官方文档的语法中只要求填入不定长参数,实际可以填入的主要参数主要如下。绘制折线图plot函数参数名称说明x,y接收array。表示x轴和y轴对应的数据。无默认。color接收特定string。指定线条的颜色。默认为None。linestyle接收特定string。指定线条类型。默认为“-”。marker接收特定string。表示绘制的点的类型。默认为None。alpha接收0-1的小数。表示点的透明度。默认为None。17大数据挖掘专家color参数的8种常用颜色的缩写。绘制折线图plot函数颜色缩写代表的颜色颜色缩写代表的颜色b蓝色m品红g绿色y黄色r红色k黑色c青色w白色18大数据挖掘专家国民生产总值数据总共有三大产业的国民生产总值,以及农业、工业、建筑、批发、交通、餐饮、金融、房地产和其他行业各个季度的增加值。通过散点图分析三大行业的国民生产总值可以发现我国产业结构。通过比较各行业间季度的增加值则可以发现国民经济的主要贡献行业。任务实现1.绘制2000-2017各产业与行业的国民生产总值散点图19大数据挖掘专家通过绘制2000-2017各产业与行业的国民生产总值折线图,分别能够发现我国经济各产业与各行业增长趋势。任务实现2.绘制2000-2017各产业与行业的国民生产总值折线图20大数据挖掘专家1分析特征间的关系目录了解绘图基础语法与常用参数2分析特征内部数据分布与分散状况3小结421大数据挖掘专家直方图(Histogram)又称质量分布图,是统计报告图的一种,由一系列高度不等的纵向条纹或线段表示数据分布的情况,一般用横轴表示数据所属类别,纵轴表示数量或者占比。用直方图可以比较直观地看出产品质量特性的分布状态,便于判断其总体质量分布情况。直方图可以发现分布表无法发现的数据模式、样本的频率分布和总体的分布。绘制直方图直方图22大数据挖掘专家matplotlib.pyplot.bar(left,height,width=0.8,bottom=None,hold=None,data=None,**kwargs)常用参数及说明如下表所示。绘制直方图bar函数参数名称说明left接收array。表示x轴数据。无默认。height接收array。表示x轴所代表数据的数量。无默认。width接收0-1之间的float。指定直方图宽度。默认为0.8。color接收特定string或者包含颜色字符串的array。表示直方图颜色。默认为None。23大数据挖掘专家饼图(PieGraph)是将各项的大小与各项总和的比例显示在一张“饼”中,以“饼”的大小来确定每一项的占比。饼图可以比较清楚地反映出部分与部分、部分与整体之间的比例关系,易于显示每组数据相对于总数的大小,而且显现方式直观。绘制饼图饼图24大数据挖掘专家matplotlib.pyplot.pie(x,explode=None,labels=None,colors=None,autopct=None,pctdistance=0.6,shadow=False,labeldistance=1.1,startangle=None,radius=None,…)常用参数及说明如下表所示。绘制饼图pie函数参数名称说明参数名称说明x接收array。表示用于绘制撇的数据。无默认。autopct接收特定string。指定数值的显示方式。默认为None。explode接收array。表示指定项离饼图圆心为n个半径。默认为None。pctdistance接收float。指定每一项的比例和距离饼图圆心n个半径。默认为0.6。labels接收array。指定每一项的名称。默认为None。labeldistance接收float。指定每一项的名称和距离饼图圆心多少个半径。默认为1.1。color接收特定string或者包含颜色字符串的array。表示饼图颜色。默认为None。radius接收float。表示饼图的半径。默认为1。25大数据挖掘专家箱线图(boxplot)也称箱须图,其绘制需使用常用的统计量,能提供有关数据位置和分散情况的关键信息,尤其在比较不同特征时,更可表现其分散程度差异。箱线图利用数据中的五个统计量(最小值、下四分位数、中位数、上四分位数和最大值)来描述数据,它也可以粗略地看出数据是否具有对称性、分布的分散程度等信息,特别可以用于对几个样本的比较。绘制箱线图箱线图26大数据挖掘专家matplotlib.pyplot.boxplot(x,notch=None,sym=None,vert=None,whis=None,positions=None,widths=None,patch_artist=None,meanline=None,labels=None,…)常用参数及说明如下表所示。绘制箱线图boxplot函数参数名称说明参数名称说明x接收array。表示用于绘制箱线图的数据。无默认。positions接收array。表示图形位置。默认为None。notch接收boolean。表示中间箱体是否有缺口。默认为None。widths接收scalar或者array。表示每个箱体的宽度。默认为None。sym接收特定sting。指定异常点形状。默认为None。labels接收array。指定每一个箱线图的标签。默认为None。vert接收boolean。表示图形是横向纵向或者横向。默认为None。meanline接收boolean。表示是否显示均值线。默认为False。27大数据挖掘专家通过直方图分析2000年第一季度和2017年第一季度之间的三大产业的国民生产总值,可以发现各产业绝对数值之间的关系,并通过对比发现产业结构的变化。同理可以得出行业间的绝对数值关系以及17年来行业发展状况。任务实现1.绘制国民生产总值构成分布直方图28大数据挖掘专家通过分析2000年与2017年不同的产业和行业在国民生产总值中的占比,可以发现我国产业结构变化和行业变迁。任务实现2.绘制国民生产总值构成分布饼图29大数据挖掘