技术原理

AWS数据管道教程-数据工作流编排服务

AWS数据管道教程

随着技术的进步和易连接性的提高,生成的数据量正在急剧上升。在这座数据大山的深处,隐藏着公司可以用来扩展和改进业务的“俘虏式智能”。公司需要移动、排序、筛选、重新格式化、分析和报告数据,以便从中获取价值。为了在市场上站稳脚跟,他们可能不得不反复快速地这样做。亚马逊提供的AWS数据管道服务是一个完美的解决方案。

让我们看看本AWS数据管道教程中涉及的主题:

需要AWS数据管道什么是AWS数据管道?AWS数据管道的好处AWS数据管道组件演示-从DynamoDb

导出数据对AWS数据管道

数据的需求呈指数级增长,而且增长速度也更快。各种规模的公司都意识到管理、处理,与过去相比,存储和迁移数据变得更加复杂和耗时。因此,下面列出了一些公司在不断增长的数据中面临的问题:

data - AWS Data Pipeline - Edureka大量数据:有很多原始和未处理的数据。有日志文件、人口统计数据、从传感器收集的数据、事务历史记录等等。

data - AWS Data Pipeline - Edureka多种格式:数据有多种格式。将非结构化数据转换为兼容格式是一项复杂而耗时的任务。

data - AWS Data Pipeline - Edureka不同的数据存储:有多种数据存储选项。公司有自己的数据仓库,基于云的存储,如Amazon S3,Amazon关系数据库服务(RDS)和运行在EC2实例上的数据库服务器。

data - AWS Data Pipeline - Edureka费时又费钱:管理大量数据是费时而且非常昂贵的。在数据的转换、存储和处理上花费了大量的资金,

这些因素使得企业自行管理数据变得更加复杂和具有挑战性。这就是AWS数据管道可能有用的地方。它使用户更容易集成分布在多个AWS服务中的数据,并从单个位置对其进行分析。因此,通过这个AWS数据管道教程,我们可以探索数据管道及其组件。

AWS数据管道教程| AWS初学者教程| Edureka

这个视频将帮助您了解如何处理,使用AWS数据管道从同一位置轻松存储和分析数据。

什么是AWS数据管道

datapipelinelogo - AWS Data Pipeline Tutorial- EdurekaAWS数据管道是一个web服务,它帮助您以指定的间隔在不同的AWS计算和存储服务以及本地数据源之间可靠地处理和移动数据。

使用AWS数据管道,您可以从存储数据的位置轻松地访问数据,对其进行转换和处理按规模高效地将结果传输到AWS服务,如Amazon S3、Amazon RDS、amazondymodb和Amazon EMR。它允许您创建具有容错性、可重复性和高可用性的复杂数据处理工作负载。

现在为什么选择AWS数据管道

“AWS数据管道的优点”

Benefits - AWS DataPipeline Tutorial- Edureka

在AWS接口中提供了一个拖放控制台AWS数据管道是建立在一个分布式的、高度可用的基础设施上的,专门为您的活动的容错执行而设计它提供了多种功能,如调度、依赖性跟踪和错误处理AWS数据管道使得将工作分派到一台或多台机器上变得同样容易,在串行或并行方式下,AWS数据管道使用成本低,并且以较低的月费率计费,它提供了对执行数据管道逻辑

的计算资源的完全控制,因此,尽管有一些好处,让我们来看看AWS数据管道的不同组件及其如何协同工作来管理数据。

想让你的“云”知识更上一层楼吗?立即获得云认证!”AWS数据管道的

组件

AWS数据管道是一个web服务,您可以使用它来自动化数据的移动和转换。您可以定义数据驱动的工作流,以便任务可以依赖于先前任务的成功完成。您可以定义数据转换的参数,而AWS数据管道将强制执行您设置的逻辑。

datapipeline - AWS Data Pipeline Tutorial - Edureka图1:AWS数据管道-AWS数据管道教程-Edureka

基本上,您总是从选择数据节点开始设计管道。然后数据管道与计算服务一起转换数据。大多数情况下,在这个步骤中会生成很多额外的数据。因此,您可以选择使用输出数据节点,在这些节点中,可以存储和访问转换数据的结果。

数据节点:在AWS数据管道中,数据节点定义管道活动用作输入或输出的数据的位置和类型。它支持像:

DynamoDBDataNode SqlDataNode RedshiftDataNode S3DataNode这样的数据节点,现在让我们考虑一个实时示例来理解其他组件

“用例:从不同的数据源收集数据,执行Amazon Elastic MapReduce(EMR)分析并生成周报。

pipeline - AWS Data Pipeline - Edureka

在这个用例中,我们正在设计一个管道,从Amazon S3和DynamoDB等数据源提取数据,以执行EMR分析并生成数据的周报。

现在我斜体化的单词称为活动。或者,对于要运行的这些活动,我们可以添加前置条件。

活动:活动是一个管道组件,它定义了使用计算资源按计划执行的工作,通常是输入和输出数据节点。活动的例子有:

将数据从一个位置移动到另一个位置运行配置单元查询生成Amazon EMR报告

先决条件:先决条件是包含条件语句的管道组件,这些条件语句必须为true才能运行活动。

在管道活动尝试之前检查源数据是否存在要在相应的数据库表是否存在

资源时复制它:资源是执行管道活动指定的工作的计算资源。

执行管道活动定义的工作的EC2实例执行管道活动定义的工作的Amazon EMR群集执行管道活动

定义的工作最后,我们有称为操作的组件。

操作:操作是管道组件在发生某些事件(如成功、失败或延迟的活动)时采取的步骤。

根据成功、失败或延迟的活动向主题发送SNS通知,从而触发取消挂起或未完成的活动,资源或数据节点

既然您已经了解了AWS数据管道及其组件的基本概念,让我们看看它是如何工作的。在AWS数据管道教程文章的演示部分中,关于AWS数据管道

演示,我们将看到如何将DynamoDB表的内容复制到S3 Bucket中,AWS数据管道触发一个动作来启动带有多个EC2实例的EMR集群(确保在完成后终止它们以避免收费)。EMR cluster从dynamoDB获取数据并写入S3 bucket。

创建AWS数据管道

步骤1:使用示例测试数据创建dynamoDB表。

DynamoDB - AWS Data Pipeline - Edureka

步骤2:为要复制的dynamoDB表的数据创建S3 bucket。

S3bucket - AWS Data Pipeline - Edureka

步骤3:访问AWS数据来自AWS管理控制台的管道控制台&单击“开始”创建数据管道。

data - AWS Data Pipeline - Edureka1”

步骤4:创建数据管道。为您的管道提供适当的名称和适当的描述。指定源和目标数据节点路径。安排数据管道并单击激活。

data - AWS Data Pipeline - Edureka2”

监视和测试

你也可能喜欢

发表评论

您的电子邮件地址不会被公开。 必填项已用 * 标注

提示:点击验证后方可评论!

插入图片
人工智能是什么的一个分支,它试图 投稿者
我还没有学会写个人说明!
最近文章
  • * 没有更多文章了
  • 热门搜索

    分类目录