技术原理

ggplot2教程:使用ggplot2包进行数据可视化

数据可视化是数据科学家技能集的一个重要组成部分,您需要在成为数据科学家的过程中掌握这些技能。它是统计和设计相结合的一种有意义的方式来解释数据与图表。在这个ggplot2教程中,我们将看到如何使用R.

提供的gglot2包可视化数据,数据无处不在…。我怎么理解?假设印度储备银行希望了解不同银行部门发生的欺诈案件的相关信息。约翰是一位为印度储备银行工作的数据科学家,他被指派完成这项任务的责任。他必须使用一套数据,其中包括银行名称、所属部门、欺诈案件数量、欺诈案件造成的损失金额和其他类似属性。约翰必须处理一个问题,但是他不能通过看表格直接理解数据。他希望将发生在国有银行的欺诈案件的百分比与发生在私营银行的欺诈案件的百分比进行比较。约翰被一个绝妙的想法打动了,他决定借助数据可视化工具以图形方式可视化数据,并很容易探索不同银行部门与欺诈案件之间的关系。”我们看到数据可视化工具有助于探索数据,除了解释数据外,

这个博客还将涵盖以下主题:

用于数据可视化的可视化工具类型使用ggplot2的图形可视化语法

让我们首先从可视化的类型开始这个博客。

ggplot2教程:统计中的可视化类型

,我们通常有两种可视化:

探索性数据可视化:可视化地探索数据以在数据实体之间找到模式

解释性数据可视化:使用简单的图形显示识别的模式。GGPLOT2教程:我有什么数据可视化工具?”我们有许多可视化工具来制作美观的图形。让我们来看看其中的一些:

付费工具:这些工具最初的购买成本可能很高,但它们提供的解决方案绝对值得花钱。

Tableau:Tableau是一个数据可视化怪物,它为巨大而快速移动的数据集提供交互式可视化效果

Qlikview:与Tableau类似,它提供强大的可视化和BI报告。它为整个BI解决方案提供单一产品。

开源工具:虽然不如付费工具有效,但这些工具确实有助于解决所有必要的问题。Python中的

可视化包:R:ggplot2

ggvis ggplot2中的Matplotlib Seaborn可视化包教程:任何语言中的图形语法

在构造有意义的句子时要记住规则,例如:

>“我是约翰”是有意义的,因为它遵循正确的语法。

>“am John I”是没有意义的,因为它不遵守语法规则。

同样,我们也有“图形语法”需要遵循创建完美的图形。图形组件描述数据语法的

元素正在绘制的数据集美观我们绘制数据几何图形的比例用于划分数据方面组的可视元素

GGPLOT2教程:使用GGPLOT2

可视化ggplot2包是Hadley Wickham为R编写的图形语法的一个简化实现。

它处理了许多繁琐的细节,这些细节使绘制变得麻烦(如绘制图例),并且提供了一个强大的图形模型,使生成复杂的多层图形变得容易。

所以,让我们深入研究R代码:

首先通过调用install.packages安装包(“ggplot2”)安装包现在我们需要使用library()函数加载包。我们将使用“出生体重”数据集,它是“统计模型”包的一部分。因此,我们也必须安装并加载这个包。install.packages(“statisticalModeling”)库(statisticalModeling)让我们通过调用head()函数来查看“出生体重”数据集的前六行。头(出生体重)婴儿收入母亲年龄吸烟怀孕母亲##1 120水平12不吸烟284 100##31228级吸烟者279115##4 108 1 23级吸烟者282 125##6 120水平2 25不吸烟289 125 str(出生体重)

这将为我们提供数据集

的结构“data.frame”:884 obs。共6个变量:##$收入:chr“1级”“4级”“2级”“1级”。。。##$烟:chr“不吸烟”“不吸烟”“吸烟”“吸烟”。。。##$mother U wt:国际号码100 135 115 140 125 136 124 128 99…”“现在,让我们开始绘制!!!!”

“Plot1:简单条形图(显示婴儿体重分布)ggplot(data=出生体重,aes(x=婴儿体重)) geom_Bar()”

“上述代码有三个部分:

data:我们提供数据集aes的名称:这是我们提供美感的地方,即。将显示“baby_wt”(baby weight)几何体分布的“x-scale”:我们使用的几何体是条形图,可以使用geom_bar()函数调用它

“”basic_barplot - Data visualization with ggplot2 tutorial- Edureka“”

“”

“”ggplot2教程:条形图

只要看这个条形图,我们就可以很容易地说重量在55-175之间。

图2:简单条形图(显示母亲年龄分布)ggplot(data=出生体重,aes(x=母亲年龄)) geom-bar()我们使用的是相同的组件,但这次我们是在x轴上绘制母亲的年龄(母亲年龄)。”

“”basic_barplot2 - Data visualization with ggplot2 tutorial- Edureka“”

“”

“”ggplot2教程:条形图

此图显示母亲的年龄在15-45岁之间。

图3:彩色条形图ggplot(data=出生体重,aes(x=母亲年龄)) 上述代码中的几何条形图(fill=“aquamarine4”,我们正在使用geom_bar()函数中的fill属性为条形图提供颜色。”

“”colorful_barplot - Data visualization with ggplot tutorial- Edureka“”

“”

“”ggplot2教程:条形图

与上面的情节相同,但看起来更漂亮,不是吗

“绘图4:条形图(颜色变化w、 r.t.公司收入水平)ggplot(数据=出生体重,aes(x=母亲年龄,fill=收入)) geom_bar()在这种情况下,我们使用“fill”作为美学,并将变量“income”分配给这个美学

“”barplot_variation - Data visualization with ggplot tutorial- Edureka“”

“”

“”ggplot2教程:条形图

我们看到收入水平在母亲年龄分布上的变化,即。在每个条形图中,我们还描述了收入水平的变化。

图5:倒条形图ggplot(data=出生体重,aes(x=母亲年龄,fill=income)) geom_bar() coord_flip()只是为了好玩,让我们使用coord_flip()

barplot_invert - Data visualization with ggplot tutorial- Edureka

ggplot2翻转轴教程:条形图

我们观察到什么?没什么好说的…

我们也将使用“mtcars”数据集。因此,让我们观察这个数据集的前六行。

头部(mtcars)###mpg cyl disp hp drat wt qsec vs am gear carb##马自达RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4##大同710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1##大黄蜂运动版约18.7 3.15 3.440 17.02 0 3 24: 线条图(两条线条曲线的比较)ggplot(data=出生体重,aes(x=母亲体重,y=婴儿体重,col=烟度)) geom_smooth()烟度被指定为颜色美感。因为我们正在创建线条图,这将创建两条不同颜色的线条。”

“”lineplot_variation - Data visualization with ggplot tutorial- Edureka“”

“”

“”ggplot2教程:线图

我们看到,如果母亲是非吸烟者,那么婴儿的体重会更高。

图15:Jitter plot ggplot(data=出生体重,aes(x=烟,y=婴儿体重,col=烟)) geom Jitter()几何图形使用的是Jitter plot。我们可以使用geom_jitter()创建抖动图。Jitter是一个随机值,分配给各个点以将它们分开,这样它们就不会直接绘制在彼此的顶部。”

“”

“”

“”jitterplot - Data visualization with ggplot tutorial- Edureka“”

“”

“”ggplot2教程:抖动图

在进行统计分析和建模之前,必须直观地观察不同数据元素之间的关系。这有助于我们从数据中获得有意义的见解,从而建立更好的模型。R的ggplot2包就是这样一个数据可视化工具,它帮助我们理解数据。

查看Edureka的R认证培训,Edureka是一家值得信赖的在线学习公司,拥有遍布全球的25万名满意的学习者。Edureka的数据分析与R培训将帮助您获得R编程、数据操作、探索性数据分析、数据可视化、数据挖掘、回归、情绪分析方面的专业知识,并将RStudio用于零售、社交媒体的真实案例研究

你也可能喜欢

发表评论

您的电子邮件地址不会被公开。 必填项已用 * 标注

提示:点击验证后方可评论!

插入图片
大数据人工智能培训课程 投稿者
我还没有学会写个人说明!
最近文章
  • * 没有更多文章了
  • 热门搜索

    分类目录