技术原理

AWS中的大数据-大数据智能解决方案

成为一名认证专业的

数据的理念根本不是什么新鲜事,它无处不在。大数据的影响无处不在,从商业到科学,从政府到艺术等等。在处理和分析大数据方面,没有比AWS更好的伙伴了。在本文中,我将展示AWS如何应对大数据的挑战,我将介绍的指针如下:

什么是大数据?为什么要在AWS中使用大数据?AWS如何解决大数据挑战?演示

什么是大数据

big data characteristics

您可以将大数据视为高容量、高速度和/或多种多样的信息资产,它们需要经济高效、创新的信息处理形式,以增强洞察力、决策能力,以及过程自动化。

大数据由5个重要的V组成,它们定义了大数据的特征。在转到AWS之前,让我们先讨论这些问题。

Five-Vs-of-Big-Data-What-is-Big-Data-Edureka什么是AWS

AWS Logo - Aws Migration - EdurekaAWS由许多不同的云计算产品和服务组成。高利润的亚马逊部门提供服务器、存储、网络、远程计算、电子邮件、移动开发和安全。此外。AWS包括两个主要产品:EC2(Amazon的虚拟机服务)和S3(Amazon的存储系统)。它是如此之大,目前在计算世界中,它的规模至少是其最接近的竞争对手的10倍,并且拥有像Netflix和Instagram这样的流行网站。

AWS market - Big Data in AWS - Edureka

AWS被分为12个全球区域,每个区域都有多个可用性区域,其服务器位于其中。这些服务区域是分开的,以便允许用户设置其服务的地理限制,但也可以通过分散存储数据的物理位置来提供安全性。

为什么要在AWS中使用大数据

的科学家、开发人员和来自许多不同领域的其他技术爱好者正在利用AWS进行大数据分析,并应对数字信息不断增长的挑战。AWS为您提供云计算服务组合,通过显著降低成本、扩展以满足需求和提高创新速度来帮助管理大数据。

Amazon Web服务提供完全集成的云计算服务组合。此外,它还可以帮助您构建、保护和部署大数据应用程序。而且,使用AWS,您不需要采购硬件,也不需要维护和扩展基础设施。因此,您可以将资源集中在发现新的见解上。由于新功能不断增加,您将始终能够利用最新技术,而无需作出长期投资承诺。

AWS如何解决大数据挑战?用于大数据

的AWS解决方案AWS有许多用于所有开发和部署目的的解决方案。此外,在数据科学和大数据领域,AWS在大数据处理的不同方面也有了新的进展。在开始使用工具之前,让我们先了解AWS可以为其提供解决方案的大数据的不同方面。

数据摄取Ingestion - Big Data in AWS - Edureka收集原始数据事务、日志、移动设备等是许多组织在处理大数据时面临的第一个挑战。一个好的大数据平台使这一步变得更容易,允许开发人员以任何速度摄取从结构化到非结构化的各种数据,从实时到批量。

数据存储Data Storage - Big Data in AWS - Edureka任何大数据平台都需要一个安全、可扩展的,以及持久存储库,用于在处理任务之前或之后存储数据。根据您的具体要求,您可能还需要临时存储传输中的数据。

数据处理Data processing - Big Data in AWS - Edureka这是将数据从原始状态转换为可使用格式 - 的步骤,通常是通过排序、聚合、连接,甚至执行更高级的功能和算法。结果天然气数据集经过存储以供进一步处理,或通过商业智能和数据可视化工具供使用。

可视化

visualization - Big Data in AWS - Edureka

大数据都是为了从数据资产中获取高价值、可操作的见解。理想情况下,数据可以通过自助业务智能和灵活的数据可视化工具提供给利益相关者,这些工具允许快速轻松地探索数据集。

AWS大数据工具

在前几节中,我们研究了AWS可以提供解决方案的大数据领域。另外,AWS在其武库中有多种工具和服务,使客户能够使用大数据的能力。

让我们看看AWS提供的各种解决方案,以处理涉及处理大数据的不同阶段

摄取运动

AWS Kinesis - Big Data in AWS - EdurekaAmazon运动消防是一个提供实时性的完全管理的服务直接将数据流传输到Amazon S3。Kinesis Firehose可自动缩放以匹配流数据的容量和吞吐量,无需持续管理。您可以将kinisis Firehose配置为在Amazon S3中存储流数据之前对其进行转换。

Snowball“big data characteristics1”您可以使用AWS Snowball安全高效地将大量数据从本地存储平台和Hadoop群集迁移到S3存储桶。在AWS管理控制台中创建作业后,您将自动获得一个雪球设备。雪球到达后,将其连接到本地网络,在本地数据源上安装雪球客户端,然后使用雪球客户端选择文件目录并将其传输到雪球设备。

存储Amazon S3

big data characteristics2”Amazon S3是一个安全的、高度可扩展的,具有毫秒数据访问延迟的持久对象存储。S3可以存储来自任何网站和移动应用程序、公司应用程序的任何类型的数据,以及来自物联网传感器或设备的数据。它还可以存储和检索任何数量的数据,具有无与伦比的可用性,并且从头开始构建,提供99.999999999%(11 9%)的持久性。

2。AWS Glue

big data characteristics3”Glue是一个完全托管的服务,它提供了一个数据目录,使数据池中的数据可以被发现。此外,它还可以执行提取、转换和加载(ETL)以准备分析数据。此外,内置的数据目录类似于所有数据资产的持久元数据存储,使得所有数据都可以在单个视图中搜索和查询。

处理

EMREMR - Big Data in AWS - Edureka对于使用Spark和Hadoop的大数据处理,Amazon EMR提供了一个托管服务,使其变得简单、快速,以及处理大量数据的成本效益。此外,EMR支持19个不同的开源项目,包括Hadoop、Spark,并且它还配备了用于数据工程、数据科学开发和协作的托管EMR笔记本。

Redshiftredshift - Big Data in AWS - Edureka用于数据仓库,Amazon Redshift提供运行复杂程序的能力,针对PB级结构化数据的分析查询。此外,它还包括Redshift频谱,它可以直接对S3中的结构化或非结构化数据执行SQL查询,而无需进行不必要的数据移动。

可视化

Amazon QuickSightquicksight - Big Data in AWS - Edureka

对于仪表盘和可视化,Amazon QuickSight为您提供了快速的,云技术商业分析服务。它使构建令人惊叹的可视化效果和丰富的仪表板变得容易。此外,您可以从任何浏览器或移动设备访问它们。

演示-分析澳大利亚濒危动植物物种的数据在这个演示中,我们将使用来自澳大利亚各州和地区的濒危动植物物种的样本数据。在这里,我们将创建一个EMR集群,并将其配置为运行多步骤Apache配置单元作业。EMR集群将在其中安装Apache配置单元。这个集群将使用EMRFS作为文件系统,以便其数据输入和输出位置映射到S3存储桶。集群还将使用同一个S3存储桶来存储日志文件。

我们现在将在集群中创建许多EMR步骤来处理一组示例数据。在这里,每个步骤都将运行一个配置单元脚本,最后的输出将保存到S3 bucket中。这些步骤将生成MapReduce日志,这是因为配置单元命令在运行时转换为MapReduce作业。每个步骤的日志文件都是从它生成的容器中聚合的。

示例数据

这个用例的示例数据集可以从澳大利亚政府的开放数据网站上公开获取。这个数据集是关于来自澳大利亚不同州和地区的濒危动植物物种。这里可以看到并下载此数据集和CSV文件字段的说明。

处理步骤

这里的第一个EMR作业步骤涉及在S3中创建配置单元表作为基础源文件的架构。在第二个作业步骤中,我们现在将对数据运行一个成功的查询。类似地,我们将运行第三个和第四个查询。

我们将在一小时内重复这四个步骤几次,模拟多步骤批处理作业的连续运行。然而,在现实场景中,每个批处理运行之间的时间差通常可能要高得多。连续运行之间的时间间隔很小,这是为了加速我们的测试。

S3 Bucket和文件夹

big data characteristics8”

在创建EMR集群之前,我们必须创建一个S3 Bucket来托管它的文件。在我们的例子中,我们将此bucket命名为“arvind1 bucket”此bucket下的文件夹如下所示,在用于S3的AWS控制台中:

big data characteristics9”

输入文件夹保存示例数据

脚本文件夹包含用于EMR作业步骤

的配置单元脚本文件输出文件夹显然将保存配置单元程序输出

EMR集群使用logs文件夹保存其日志文件。

配置单元脚本用于EMR作业步骤

1。此作业步骤运行配置单元脚本以创建外部配置单元表。此表描述基础CSV数据文件的表格架构。脚本如下:

创建外部表“濒危物种”(`scientific name`string,`common name`string,`current scientific name`string,`threated status`string,`act`string,`nsw`string,`nt`string,`qld`string,`sa`string,`tas`string,`vic`string,`wa`string,`aci`string,`cki`string,`ci`string,`csi`string,`jbt`string,`nfi`string,`hmi`string,`aat`string,`cma`string,`listed sprat taxonid`bigint,`current sprat taxonid`bigint,`kingdom`string,`class`string,`profile`string,`date extracted`string,`nsl name`string,`family`string,`genus`string,`species`string,`infractific rank`string,`infraspecies`string,`species author`string,`infraspecies author`string)行格式分隔字段,以“,”结尾,存储为INPUTFORMAT'org.apache.hadoop.mapred.TextInputFormat'OUTPUTFORMAT'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'LOCATION's3://arvind1 bucket/script/'

2。此作业步骤运行一个查询,以计算新南威尔士州(NSW)五大濒危物种。蜂巢查询文件名为濒危物种nsw.q,如下所示:

选择物种,计数(nsw)为濒危物种的数量,其中(nsw='是'或nsw='濒危')和“受威胁状态”='濒危'组,按物种计数(nsw)>1顺序,按濒危物种数量描述限制5

3。此作业步骤运行一个查询,以计算澳大利亚每个植物家族的濒危植物物种总数。配置单元查询文件名为“濒危植物物种.q”,如下所示

选择“家族”,将(物种)计数为“濒危物种”中的濒危物种数量2,其中kingdom='Plantae'和“濒危状态”='濒危'一个一个家族

4。这一步列出了澳大利亚昆士兰州。脚本文件被调用灭绝动物如下所示:

选择“common name”,来自濒危物种的“学名”,其中kingdom='Animalia'和(qld='Yes'或qld='extract'),“威胁状态”='extract'日志聚合

,这里我们还上传了一个名为JSON的文件logAggregation.json日志聚合在S3 bucket的scripts文件夹中。我们使用这个文件来聚合YARN日志文件。在纱中配置了日志聚合-网站.xml群集启动时的配置文件。的内容logAggregation.json日志聚合文件如下:

[{“分类”:“纱线位置”,“属性”:{”纱线原木-聚合启用“:”true“,”纱线原木-聚合.retain-秒“:”-1“,“纱线管理器遥控器-app log dir”:“s3://arvind1 bucket/logs”}]

创建s3 bucket并将数据和脚本文件复制到各自的文件夹后,现在是设置EMR集群的时候了。以下快照描述了我们创建群集时的过程,其中大多数是默认设置。第一个映像中的

EMR cluster Setup

create EMR cluster - Big Data in AWS - Edureka

要在AWS控制台中配置群集,我们保留了EMR推荐的所有应用程序,包括配置单元。我们不需要使用AWS Glue来存储配置单元元数据,现在也不需要添加任何作业步骤。但是,我们需要为Hive添加一个软件设置。在这里,您必须仔细观察我们如何在此字段中指定日志聚合JSON文件的路径。

Five-Vs-of-Big-Data-What-is-Big-Data-Edureka1”

在下一步中,我们保留了所有默认设置。为了我们的测试,集群将有一个主节点和两个核心节点。这里的每个节点都是m3.xl大实例,具有10 GB的根卷。在下一步中,我们将命名集群arvind1集群,并为其日志文件指定自定义的s3位置。

最后,我们为访问集群的主节点指定了EC2密钥对。EMR、EC2实例配置文件和自动缩放选项的默认IAM角色没有更改。此外,主节点和核心节点默认使用可用的安全组。通常,这是EMR集群的默认设置。一旦一切就绪,集群将处于“等待”状态,如下所示:

Five-Vs-of-Big-Data-What-is-Big-Data-Edureka2”

提交配置单元作业步骤

Five-Vs-of-Big-Data-What-is-Big-Data-Edureka3”之后,我们需要允许SSH访问。

打开Amazon EMR控制台https://console.aws.amazon.com/elasticmapreduce/。选择集群。选择群集的名称。在“安全和访问”下,选择“主链接”的安全组。从列表中选择ElasticMapReduce主控形状。选择入站,编辑。使用以下设置查找规则并选择x图标将其删除:键入SSH Port 22 Source Custom0.0.0.0/0滚动到规则列表的底部,然后选择“添加规则”。选择“类型”作为“类型”嘘,这个自动为协议输入TCP,为端口范围输入22。选择“我的”作为“源”IP.这个自动添加客户端计算机的IP地址作为源地址。或者,您可以添加一系列自定义受信任客户端IP地址,并选择添加该规则以为其他客户端创建其他规则。在许多网络环境中,动态分配IP地址,因此可能需要定期编辑安全组规则以更新受信任客户端的IP地址。选择“保存”。或者,从列表中选择ElasticMapReduce slave并重复上述步骤,以允许SSH客户端从受信任的客户端访问核心和任务节点。”

“自从EMR集群启动并运行以来,我们添加了四个作业步骤。这些是EMR会一个接一个运行的步骤。下图显示了来自AWS EMR控制台的步骤:

Five-Vs-of-Big-Data-What-is-Big-Data-Edureka4”

添加四个步骤后,我们可以检查这些步骤的完成状态。即使这些步骤的执行有一些问题,在这种情况下,也可以使用这些步骤的日志文件来解决。

所以这是我在本文AWS中关于大数据的部分。我希望你已经理解了我在这里所解释的一切。

如果你在AWS相关的大数据中发现了这一点,你可以查看Edureka关于AWS架构师认证培训的现场和讲师指导的课程,该课程由行业从业人员共同创建。

有问题要问我们吗?请在本文的注释部分提到如何在AWS中部署Java Web应用程序,我们将回电给您

你也可能喜欢

发表评论

您的电子邮件地址不会被公开。 必填项已用 * 标注

提示:点击验证后方可评论!

插入图片
人工智能培训四个月骗局 投稿者
我还没有学会写个人说明!
最近文章
  • * 没有更多文章了
  • 热门搜索

    分类目录