技术原理

如何使用Amazon EMR创建Hadoop集群?

在本文中,我们将介绍如何使用Amazon EMR创建Hadoop集群,如何轻松地运行和扩展Hadoop和大数据应用程序。本文将介绍以下指针,

如何使用Amazon EMR创建Hadoop集群?演示:在AWS

中创建一个EMR集群继续,如何使用Amazon EMR创建Hadoop集群

“如何用Amazon EMR创建Hadoop集群?”

“当我们在Google或Yahoo中搜索某个东西时,我们确实能在几秒钟内得到响应。谷歌、雅虎和其他搜索引擎怎么可能如此迅速地从不断增长的网络中返回结果呢?搜索引擎在互联网上爬行,下载网页并创建索引,如下所示。对于我们的任何查询,他们都使用索引来找出包含我们正在搜索的文本的所有网页。通过查看右侧下面的索引,我们可以清楚地知道Hadoop存在web页面1、2和3。

Image - How To Create Hadoop Cluster With Amazon EMR - Edureka,然后,使用基于页面连接方式的PageRanking算法来计算在顶部显示哪个页面,在底部显示哪个页面。在下面的场景中,W1是“最受欢迎的”,因为每个人都链接到它,W4是“最不受欢迎的”,因为没有人链接到它。因此,W1显示在搜索结果的顶部,W4显示在底部。

Image - How To Create Hadoop Cluster With Amazon EMR - Edureka随着网页的爆炸式增长,这些搜索引擎正在寻找创建索引和进行网页排名计算的挑战。这就是Hadoop在雅虎诞生的地方,后来成为ASF(Apache软件基金会)下的自由和开源软件(FOSS)。在ASF的领导下,很多公司开始对Hadoop感兴趣,并开始致力于改进它。Hadoop是开始大数据革命的一个,但许多其他软件,如Spark、Hive、Pig、Sqoop、Zookeeper、HBase、Cassandra、Flume等,开始发展以解决Hadoop的局限性和不足。

网络搜索引擎是第一个使用Hadoop的,但后来,随着越来越多的数据被生成,许多用例开始演变。让我们以一个电子商务应用程序为例,该应用程序用于向用户推荐书籍。如下图所示,user1购买了book1、book2和book3,user2购买了一些书籍等等。仔细观察,我们可以发现user1和user2有着与购买book1和book2相似的品味。因此,book3可以推荐给user2,book4可以推荐给user1。这叫做协同过滤,一种机器学习算法。我们可以翻开下面的图表,得到类似的书籍。

Image - How To Create Hadoop Cluster With Amazon EMR - Edureka在上面的例子中,我们创建了索引、页面排名并向用户推荐,数据的大小很小,因此我们能够可视化数据并从中推断出一些结果。随着数据量的日益增大和失控,像Hadoop这样的大数据工具应运而生,

Hadoop解决了很多问题,但是安装Hadoop和其他大数据软件从来都不是一件容易的事情。有很多配置参数需要调整,比如集成、安装和配置问题。这是Cloudera、MapR和Databricks等公司提供帮助的地方。它们使安装大数据软件变得更容易,并且确实提供了商业支持,例如,假设在生产中发生了一些事情。Amazon EMR(Elastic MapReduce)使使用Hadoop等变得更加容易。Elastic MapReduce这个名称有点用错了,因为EMR还支持其他分布式计算模型,如弹性分布式数据集,而不仅仅是MapReduce。

在本教程中,我们将探讨如何在AWS云上设置EMR群集,在即将到来的教程中,我们将探讨如何运行Spark,配置单元和其他程序在上面。

接下来如何用Amazon EMR创建Hadoop集群

“演示:在AWS

中创建EMR集群步骤1:转到EMR管理控制台并单击“创建集群”。在控制台中,终止的集群i的元数据小s还免费存了两个月。这允许克隆并重新创建终止的群集。

Image - How To Create Hadoop Cluster With Amazon EMR - Edureka

步骤2:在“快速选项”屏幕中,单击“转到高级选项”以指定有关群集的更多详细信息。

步骤3:在“高级选项”选项卡中,我们可以选择在EMR集群上安装不同的软件。对于SQL接口,可以选择配置单元。对于数据流语言接口,可以选择Pig。对于分布式应用协调,可以选择ZooKeeper等。此选项卡还允许我们添加步骤,这是一项可选任务。步骤是使用MapReduce、Pig、Hive等进行大数据处理的作业。创建集群后,可以将它们添加到此选项卡中或稍后添加。单击“下一步”选择EMR群集所需的硬件。

Image - How To Create Hadoop Cluster With Amazon EMR - Edureka

步骤4:Hadoop遵循主工作程序体系结构,其中主工作程序执行所有协调,如调度和分配工作以及检查其进度,而工作程序执行处理和存储数据的实际工作。单一主节点是单一故障点(SPOF)。Amazon EMR支持多主机的高可用性(HA)。上一步允许在EMR中设置多主集群。

EMR允许两种类型的节点,Core和Task。核心节点用于处理和存储数据,任务节点用于处理数据。对于本教程,我们只能选择一个核心节点,而不选择任何任务节点,因为这对我们来说成本较低。此外,选择现货实例而不是按需,因为现货实例更便宜。Spot实例的缺点是,AWS可以在两分钟内自动终止它们。这对于练习来说是很好的,在一些实际场景中也是这样。Spot实例将自动终止,因为它们的优先级低于其他实例类型。单击“下一步”。

步骤5:指定群集名称。然后点击“下一步”。请注意,“终止保护”在默认情况下处于启用状态,这将确保在终止群集时引入几个步骤不会意外删除EMR群集。

Image - How To Create Hadoop Cluster With Amazon EMR - Edureka

步骤6:在选项卡中,为EMR群集指定不同的安全选项。要登录到EC2实例,需要选择密钥对。EMR将自动创建适当的角色和安全组,并将它们附加到主EC2节点和辅助EC2节点。点击“Create cluster”。

创建集群需要几分钟,因为必须购买EC2实例,并且必须安装和配置不同的大数据软件。最初,集群状态将处于“开始”状态,并转到“等待”状态。在“等待”状态下,EMR集群只是在等待我们提交不同的大数据处理作业,如MR、Spark、Hive等。

Image - How To Create Hadoop Cluster With Amazon EMR - Edureka

,另外,请从EC2管理控制台注意,主EC2实例和工作EC2实例应处于运行状态。这些是作为EMR集群创建的一部分创建的Spot实例。同样的EC2也可以从EMR管理控制台的Hardware选项卡上看到。注意,在Hardware选项卡中,Spot EC2实例的价格是0.032$/小时。Spot实例的价格随时间不断变化,远低于按需EC2定价。

Image - How To Create Hadoop Cluster With Amazon EMR - Edureka

Image - How To Create Hadoop Cluster With Amazon EMR - Edureka

第7步:既然EMR集群添加成功,就可以添加步骤或大数据处理作业。转到“步骤”选项卡,单击“添加步骤”,然后选择步骤类型(MR、Hive、Spark等)。我们将在即将到来的教程中探讨同样的问题。现在,请单击“取消”。

Image - How To Create Hadoop Cluster With Amazon EMR - Edureka

Image - How To Create Hadoop Cluster With Amazon EMR - Edureka1”

步骤8:现在我们已经了解了如何启动EMR,让我们看看如何停止相同的操作。

步骤8.1:单击“终止”。

步骤8.2:如前几步所述,EMR cl的“终止保护”已打开uster和Terminate按钮已被禁用。单击更改。

Image - How To Create Hadoop Cluster With Amazon EMR - Edureka2”

步骤8.3:选择“关闭”单选按钮并单击勾号。现在应该启用终止按钮。这是EMR引入的附加步骤,只是为了确保我们不会意外删除EMR集群。

Image - How To Create Hadoop Cluster With Amazon EMR - Edureka3”

Image - How To Create Hadoop Cluster With Amazon EMR - Edureka

请注意,EMR集群将处于终止状态,ec2将被终止。最后,EMR集群将被移动到终止状态,从这里我们停止使用AWS计费。确保终止集群,以免产生额外的AWS成本。

Image - How To Create Hadoop Cluster With Amazon EMR - Edureka

Image - How To Create Hadoop Cluster With Amazon EMR - Edureka

结论

在本教程中,我们已经看到了如何在几分钟内从web控制台(浏览器)启动EMR集群,同样可以使用AWS CLI、AWS SDK或使用AWS云层形成。需要注意的是,可以在几分钟内建立一个EMR集群,并且可以立即开始大数据处理,一旦处理完成,输出可以存储在S3或DynamoDB中,因此集群将关闭以停止计费。由于这种定价模式和易用性,EMR对于那些正在进行大数据处理的人来说是一个巨大的打击。不需要大量购买服务器,获取大数据软件的许可证并对其进行维护。

就是这样的人,这就为我们带来了如何用Amazon EMR创建Hadoop集群的文章的结尾?如果你想获得这方面的专业知识,爱德华雷卡已经提出了一个课程,其中包括确切的,你将需要破解解决方案架构师考试!您可以查看AWS解决方案架构师培训课程的详细信息。

如果您对本博客有任何疑问,请随时在下面的评论部分提出问题,我们将非常乐意尽早回复您。“

你也可能喜欢

发表评论

您的电子邮件地址不会被公开。 必填项已用 * 标注

提示:点击验证后方可评论!

插入图片
新西兰人工智能专业大学排名 投稿者
我还没有学会写个人说明!
最近文章
  • * 没有更多文章了
  • 热门搜索

    分类目录