Press "Enter" to skip to content

可视化神器Seaborn的超全介绍

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

作者:Huangwei AI

来源:Python与机器学习之路

 

基本信息

 

Seaborn是一个用Python制作统计图形的库。它建立在matplotlib之上,并与panda数据结构紧密集成

 

以下是seaborn提供的一些功能:

 

 

一个面向数据集的API,用于检查多个变量之间的关系

 

专门支持使用分类变量来显示观察结果或汇总统计数据

 

用于可视化单变量或双变量分布以及在数据子集之间进行比较的选项

 

各类因变量线性回归模型的自动估计与作图

 

方便查看复杂数据集的整体结构

 

用于构建多图块网格的高级抽象,使您可以轻松地构建复杂的可视化

 

对matplotlib图形样式与几个内置主题的简洁控制

 

选择调色板的工具,忠实地揭示您的数据模式

 

 

Seaborn的目标是使可视化成为探索和理解数据的核心部分。它的面向数据集的绘图功能对包含整个数据集的数据流和数组进行操作,并在内部执行必要的语义映射和统计聚合以生成信息图。

 

下面是一个例子:

 

import as sns

sns.set()

tips = sns.load_dataset(“tips”)

sns.relplot(x=”total_bill”, y=”tip”, col=”time”,

hue=”smoker”,, size=”size”,

data=tips);

 

 

 

这里发生了一些事情。让我们一个一个来看:

 

1. 我们导入seaborn,这是这个简单示例所需的唯一库。

 

import seaborn as sns

 

在幕后,seaborn使用matplotlib绘制图片。许多任务只能通过seaborn函数来完成,但是进一步的定制可能需要直接使用matplotlib。下面将更详细地解释这一点。对于交互式工作,建议在matplotlib模式下使用Jupyter/IPython接口,否则必须调用matplotlib.pyplot.show来查看图片。

 

2. 我们应用默认的默认seaborn主题、缩放和调色板。

 

sns.set()

 

这将使用matplotlib rcParam系统,并将影响所有matplotlib图的外观,即使您没有使用seaborn创建它们。除了默认主题之外,还有其他几个选项,您可以独立控制绘图的样式和比例,以便在表示上下文中快速转换您的工作(例如,在演讲期间生成具有可读字体的绘图)。如果您喜欢matplotlib的默认设置,或者喜欢不同的主题,可以跳过这一步,仍然使用seaborn绘图函数。

 

3. 我们加载一个示例数据集

 

tips = sns.load_dataset("tips")

 

文档中的大多数代码将使用load_dataset()函数来快速访问示例数据集。这些数据集没有什幺特别的;它们只是pandas的数据仓库,我们可以把pandas装进去用read_csv或手工构建它们。许多示例使用“tips”数据集,它非常乏味,但对于演示非常有用。tips数据集说明了组织数据集的“整洁”方法。如果您的数据集以这种方式组织,您将从seaborn中获得最大的好处,下面将对此进行更详细的说明

 

4. 我们绘制了具有多个语义变量的分面散点图。

 

sns.relplot(x=”total_bill”, y=”tip”, col=”time”,

hue=”smoker”,, size=”size”,

data=tips)

 

 

这个特殊的图显示了tips数据集中五个变量之间的关系。其中三个是数值型的,两个是分类型的。两个数值变量(total_bill和tip)确定轴上每个点的位置,第三个变量(size)确定每个点的大小。一个分类变量将数据集分割成两个不同的轴(facet),另一个分类变量确定每个点的颜色和形状。

 

所有这些都是通过对seaborn函数relplot()的单个调用完成的。请注意,我们只提供了数据集中变量的名称以及希望它们在图中扮演的角色。与直接使用matplotlib不同,不需要将变量转换为可视化的参数(例如,为每个类别使用的特定颜色或标记)。翻译是由seaborn自动完成的。这让用户能够专注于他们想要图片回答的问题。

 

replot函数和kind参数

 

没有通用的最佳数据可视化方法。不同的问题最好通过不同的可视化来回答。Seaborn试图简化在不同的可视表示之间的切换,这些表示可以使用相同的面向数据集的API进行参数化。

 

之所以使用 relplot()
函数来命名,是因为它被设计成可视化许多不同的统计关系。虽然散点图是一种非常有效的方法,但是一个变量表示时间度量的关系最好用一条线表示。 relplot()
函数有一个方便参数  kind
,可以方便地切换到这个替代表示:

 

dots = sns.load_dataset(“dots”)

sns.relplot(x=”time”, y=”firing_rate”, col=”align”,

hue=”choice”, size=”coherence”,,

facet_kws=dict(sharex=False),

kind=”line”, legend=”full”, data=dots);

 

 

 

请注意大小和样式参数是如何在散点和线图中共享的,但是它们对这两种可视化的影响是不同的(改变标记区域和符号与线宽和虚线)。我们不需要记住这些细节,让我们专注于情节的整体结构和我们想要传达的信息。

 

统计估计和误差条

 

通常我们感兴趣的是一个变量作为其他变量的函数的平均值。许多海运函数可以自动执行统计估计,这是必要的,以回答这些问题:

 

fmri = sns.load_dataset(“fmri”)

sns.relplot(x=”timepoint”, y=”signal”, col=”region”,

hue=”event”,,

kind=”line”, data=fmri);

 

 

 

当统计值被估计时,seaborn将使用bootstrapping来计算置信区间并绘制代表估计不确定性的误差条。

 

seaborn的统计估计超越了描述性统计。例如,还可以使用 lmplot()
增强散点图,使其包含线性回归模型(及其不确定性):

 

sns.lmplot(x=”total_bill”, y=”tip”, col=”time”, hue=”smoker”,

data=tips

 

 

 

专业分类图

 

标准散点图和线状图显示数值变量之间的关系,但许多数据分析涉及分类变量。在seaborn中有几种专门的绘图类型,它们经过了优化,用于可视化这类数据。可以通过 catplot()
访问它们。与 relplot()
类似, catplot()
的思想是公开一个通用的面向数据集的API,该API在一个数值变量和一个(或多个)分类变量之间关系的不同表示上进行泛化。

 

这些表示在表示底层数据时提供了不同的粒度级别。在最精细的层次上,你可能希望通过绘制散点图来调整点在分类轴上的位置,这样它们就不会重叠:

 

sns.catplot(x=”day”, y=”total_bill”, hue=”smoker”,

kind=”swarm”, data=tips);

 

 

 

或者,你可以使用核密度估计来表示采样点的底层分布:

 

sns.catplot(x=”day”, y=”total_bill”, hue=”smoker”,

kind=”violin”, split=True, data=tips);

 

 

 

或者你可以在每个嵌套的类别中显示唯一的平均值和它的置信区间:

 

sns.catplot(x=”day”, y=”total_bill”, hue=”smoker”,

kind=”bar”, data=tips);

 

 

 

可视化数据集结构

 

在seaborn中还有另外两种图形级别的函数,可用于对多个图块进行可视化。它们都是面向数据集结构的。一个是 jointplot()
,专注于单一的关系:

 

iris = sns.load_dataset(“iris”)

sns.jointplot(x=”sepal_length”, y=”petal_length”, data=iris);

 

 

 

另一个是 pairplot()
,它具有更广阔的视图,显示了所有成对关系和边缘分布,可选地以某个分类变量为条件:

 

sns.pairplot(data=iris, hue="species");

 

 

在可视化表示方面, jointplot()
和 pairplot()
都有一些不同的选项,它们都是建立在类的基础上的,这些类允许更彻底地定制多个plot图形(分别是 JointGrid
和 PairGrid
)。

 

Be First to Comment

发表评论

邮箱地址不会被公开。 必填项已用*标注