技术原理

Talend教程-数据集成的未来

在当今数据驱动的世界中,

无论大小,都会从各种组织、机器和小工具生成大量数据。例如,你的手机,每次你浏览网页,都会生成一些数据。你知道一架商用飞机每小时能产生高达500GB的数据吗?我希望现在你能想象这个数据有多大!这就是它被称为大数据的原因。但是,除非您对所有这些数据执行ETL操作,否则它们都是非常无用的!相信我,这当然不是件容易的事。此外,当今业务的实时性和快节奏性,增加了拥有这样一种工具的需求,这种工具可以快速、轻松地集成系统。好吧,这就是泰兰德的救命稻草。通过这篇关于Talend的博客教程,我将解释Talend如何帮助构建、测试、部署、调度和监视这些数据。

,但是在我继续之前,让我列出今天要讨论的主题:

什么是Talend?Talend Open Studio TOS安装简介TOS GUI Talend Job Talend Components and Connectors Metadata Context Variables Talend

中的第一个作业您还可以通过Talend数据集成教程的记录,在这里,我们的Talend培训专家用示例详细解释了这些主题。

Talend Data集成教程| Talend初学者教程| Edureka

什么是Talend?–Talend教程

Talend是一个开源软件集成平台/供应商,提供数据集成和数据管理解决方案。该公司为大数据、云存储、数据集成、数据管理、主数据管理、数据质量、数据准备和企业应用提供各种集成软件和服务。其总部位于加利福尼亚州红木市。

以下是Talend的一些主要功能:

Talend features - Talend Tutorial - Edureka

它被认为是云计算和大数据集成软件领域的下一代领导者。它提供的软件可以帮助公司通过使数据更易访问、提高其质量并将其快速移动到实时决策所需的位置来实现数据驱动。您可以将Talend视为这个数据驱动世界的关键基础设施。它是一种开源的方法,通过提供强大的软件解决方案,打破了传统的专有模式。它使灵活性能够满足所有组织的需求。作为开源软件,它得到了一个庞大的开发者社区的支持。Talend在GNU公共许可证或Apache许可证下发布其核心模块的代码。从这里开始,社区内的开发人员可以对产品进行更改和增强,进而使其他Talend用户受益。

Talend提供的各种产品有:

talend products - Talend Tutorial - Edureka

在上述所有产品中,Talend OpenStudio(TOS)是主要的使用产品。在这个Talend教程博客中,我将解释如何使用Talend Open Studio进行数据集成。

Talend Open Studio(TOS)简介–Talend教程

Talend Open Studio是一个基于Eclipse RCP的开源项目。它支持面向ETL的实现,通常用于本地部署,广泛用于操作系统、ETL过程和数据迁移之间的集成。Talend Open Studio for Data Integration的设计方式使其能够轻松地组合、转换和更新组织中不同位置的数据。它充当一个代码生成器,在Java中生成数据转换脚本和底层程序。它提供了一个交互式和用户友好的GUI,允许您访问包含Talend中执行的每个进程的定义和配置的元数据存储库。下面是Talend Open Studio的基本架构。Talend Open Studio architecture - Talend Tutorial - Edureka

现在让我们尝试在CentOS上下载并安装Talend Open Studio。

TOS安装–Talend教程

步骤1:转到:https://www.talend.com/download。

Installation Step 1 - Talend Tutorial - Edureka步骤2:单击“下载免费工具”。Installation Step 3 - Talend Tutorial - Edureka

步骤3:再次单击“下载免费工具”以获取zip文件。

步骤4:现在提取zip文件。Installation Step 4 - Talend Tutorial - Edureka

步骤5:现在转到提取的文件夹双击TOS-DI-linux-gtk-x86-u64文件。Installation Step 5 - Talend Tutorial - Edureka

步骤6:让安装完成。

Installation Step 6 - Talend Tutorial - Edureka步骤7:单击“创建新项目”并为项目指定有意义的名称。

Installation Step 7 - Talend Tutorial - Edureka步骤8:单击“完成”转到打开的工作室GUI。

步骤9:右键单击“欢迎”选项卡并选择“关闭”。Installation Step 9 - Talend Tutorial - Edureka

步骤10:现在您应该可以看到TOS主页。“Talend features - Talend Tutorial - Edureka1”

TOS图形用户界面–Talend教程

既然您已经下载并安装了Talend Open Studio,让我为您介绍一下它的图形用户界面。Talend OpenStudio由四个主要部分组成,如下所示。

Talend features - Talend Tutorial - Edureka2”

存储库

存储库收集所有技术项,这些技术项可用于描述Talend中的业务模型或设计作业,并以树结构显示。从存储库中,您可以访问各种业务模型、作业设计、可重用例程、文档以及数据库连接。换句话说,存储库充当项目中任何作业设计或业务建模所需的所有元素的中心存储。

设计窗口

此窗口进一步由以下部分组成:“Talend features - Talend Tutorial - Edureka3”

工作区:在此您可以放置作业的设计和业务模型。设计器选项卡:当您创建以图形模式显示作业的作业时,默认情况下会打开此选项卡。代码选项卡:此选项卡帮助您可视化代码并突出显示可能的语言错误。调色板

组件调色板停靠在设计工作区的顶部,以帮助您绘制与工作流需求相对应的模型。根据您的工作或业务模型,您可以将各种技术组件或形状拖放到设计工作区中。有800多个组件可供您选择。

配置选项卡

配置选项卡出现在设计窗口的下半部分。TOS中有各种配置选项卡。每个选项卡都会打开一个视图,其中显示工作区中当前元素的属性。最常用的配置选项卡是:configurational tab - Talend Tutorial - Edureka

作业选项卡:

作业选项卡在设计器窗口中提供有关当前作业的各种信息,包括名称、版本、创建日期和时间等。

上下文选项卡

上下文选项卡用于设置上下文变量和使用它们的不同上下文。

组件选项卡

组件选项卡显示配置组件所需的所有参数。基本上,它收集与设计工作区中所选图形元素相关的所有信息。

运行选项卡

运行选项卡显示作业的执行进度。这里显示的日志包括任何开始、结束和错误消息。

这里您可能会问“什么是作业”,因为到目前为止,我已经多次使用这个术语。所以,在深入研究之前,让我先简要介绍一下Talend作业。

Talend作业–Talend教程

Talend中的“作业”基本上是客户需求转化为技术流程。从技术上讲,它是使用Talend构建的任何进程的基本可执行单元。如您所知,TOS在后端将所有内容转换为Java代码。对于作业,每个作业都转换为一个Java类。让我演示如何在Talend中创建作业。

步骤:右键单击存储库中的“作业设计”并选择“创建作业”。job creation - Talend Tutorial - Edureka为作业指定一个有意义的名称及其用途和说明,然后单击“完成”。job details - Talend Tutorial - Edureka完成作业创建后,您将我可以访问调色板中的组件。现在,您可以从选项板中拖动所需的任何组件并将其放到工作区中。adding components - Talend Tutorial - Edureka

,但是,为了将组件添加到作业中,首先,您需要知道组件的确切含义、如何将多个组件一起使用并连接它们。因此,在本Talend教程的下一部分中,我将向您介绍Talend中提供的各种组件和连接器。

Talend组件和连接器–Talend教程

让我们从组件开始。

组件是用于在Talend中执行单个操作的功能部件。在面板上,无论您看到什么,都是组件的图形表示。你可以使用他们与一个简单的拖放。在后端,组件是作为作业(基本上是Java类)的一部分生成的Java代码片段。这些Java代码在保存作业时自动编译。根据需要,Talend作业可能包含一个或多个组件。您需要知道的一件事是,Talend提供了800多个组件,您可以从中进行选择。为了便于访问,所有这些组件都被推广到少数组或族。在这个Talend教程博客中,我将向您介绍每个系列中一些最重要和最常用的组件。

数据库

这个系列提供了Talend组件,这些组件涵盖了各种需求,如打开连接、读写表、提交事务,为错误处理等执行回滚。Talend支持40多个RDBMS,其中一些是MySQL、MS-SQL-Server、Hive、Amazon、Azure等。以下是一些主要使用的MySQL组件:

tMysqlConnection:此组件为当前事务打开到数据库的新连接。tMysqlInput:这个组件读取一个数据库并根据查询提取字段。tMysqlOutput:该组件写入、更新、更改或抑制数据库中的条目。tMysqlClose:这个组件关闭在连接的数据库中提交的事务。文件

这个系列将读取和写入所有类型文件(如分隔文件、位置文件、XML文件、Excel文件等)中数据的各种组件组合在一起。此外,它还提供了许多组件,这些组件有助于执行各种任务,如不归档,删除、复制、比较等。这个家族进一步分为输入、输出和管理等子家族。这个系列中很少有主要使用的组件是:

tfileinputdimited:这个组件逐行读取给定的文件,其中的字段使用一些指定的字符分隔。tFileInputExcel:此组件读取Excel文件(.xls或.xlsx)并逐行提取数据。tFileOutputXML:此组件将数据输出到XML类型的文件。tFileList:此组件基于filemask模式检索一组文件或文件夹并迭代它们。tFileArchive:此组件根据定义的参数调整一个或多个文件的大小,并将创建的存档文件放置在所选目录中。Internet

此系列包括所有有助于通过各种方式(如Web服务、RSS流、SCP、MOM、电子邮件、FTP等)从Internet访问信息的组件。此系列中很少使用的主要组件是:

tFTPGet:此组件有助于通过FTP连接检索指定的文件。tFTPPut:此组件通过FTP连接复制所选文件。tHttpRequest:这个组件向服务器端发送一个HTTP请求,并从服务器端接收相应的响应。发送邮件:此组件用于向定义的收件人发送电子邮件和附件。Logs&Errors

这个系列将所有专用于捕获日志信息和处理作业错误的组件组合在一起。以下是这个系列中主要使用的组件:

tLogRow:这个组件允许您将行数据写入作业日志文件或控制台窗口。tLogRowCatcher:这个组件收集日志数据并封装它以将其传递给def不止一份工作。它们在存储库中集中维护,使它们可以被普遍访问。

外部上下文变量

外部上下文变量是那些保存在外部文件中并在运行时加载到Studio作业中的上下文变量。

现在,我想你已经准备好设计你在Talend的第一份工作了。

在Talend教程博客的下一节中,我将一步一步地向你展示一个简单的Talend工作,你可以很容易地执行。

Talend的第一份工作-Talend教程

下面是一个演示,你将首先建立一个连接使用数据库,从两个不同的外部excel文件读取数据,合并它们,然后将其插入数据库表。然后在新的excel文件中写入新表的内容。最后,在传输完成后关闭连接。

让我们看看如何执行它,一步一步:

步骤1:在本演示中,我使用外部上下文文件获取数据库详细信息。为此,首先需要创建一个包含所有必要数据库详细信息的上下文文件。

Talend features - Talend Tutorial - Edureka9”

步骤2:创建新作业。转到“Contexts”选项卡,添加以下详细信息:

context - Talend Tutorial - Edureka

步骤3:现在,在工作区中添加“PreJob”和“tMysqlConnection”组件,并将它们链接在一起,如下所示。这将在执行实际作业之前建立与数据库的连接。然后转到“tMysqlConnection”组件的“Component”选项卡并添加必要的详细信息:

Database connection - Talend Tutorial - Edureka

步骤4:在工作区中添加两个“tFileInputExcel”文件和一个“tMap”组件,并如图所示链接它们。

Adding ExcelFile components - Talend Tutorial - Edureka步骤5:现在转到“Repository”并展开“Metadata”部分。右键单击“文件Excel”,选择“创建文件Excel”,然后提供必要的详细信息,如下所示。完成后,单击“下一步”Excel metadata - Talend Tutorial - Edureka“步骤6:提供源文件路径并单击“下一步”excel metadata - Talend Tutorial - Edureka“步骤7:选中“Header”以跳过标题行(如果适用)。单击“下一步”excel metadata - Talend Tutorial - Edureka“步骤8:最后为‘schema’提供一个名称并单击‘Finish’。”

“”

步骤9:转到“tFileInputExcel”组件的“组件”选项卡。选择“Property Type”作为“Repository”,然后选择刚才创建的元数据。“Excel input details - Talend Tutorial - Edureka“步骤10:对其他输入文件重复相同的步骤。第11步:双击“tMap”组件并映射输入和输出表,如图所示:tmap config - Talend Tutorial - Edureka第12步:添加“tMysqlOutput”和“tFileOutputExcel”组件并链接它们,如图所示:mySql output and excel output - Talend Tutorial - Edureka第13步:转到“tMysqlOutput”的“组件”选项卡并输入详细信息,如图所示:sqloutput - Talend Tutorial - Edureka第14步:转到“组件”选项卡,并提供如下详细信息:Excel out component - Talend Tutorial - Edureka步骤15:最后要完成作业,请添加一个“Postjob”和一个“tMysqlClose”组件,如图所示postJob - Talend Tutorial - Edureka“步骤16:转到'tMysqlClose'组件的'Component'选项卡,选择需要关闭的连接。”MysqlClose component - Talend Tutorial - Edureka“步骤17:现在转到“运行”选项卡并执行作业。”final job - Talend Tutorial - Edureka“所以,这就把我们带到了Talend教程博客的末尾。我尽力使这些概念简洁明了。希望它能帮助你了解塔伦德和它的各种特点。关于演示,如果您需要练习的数据集,您只需要删除一个注释。如果你发现了这个相关的Talend教程博客,请查看Edureka提供的Talend for DI和大数据认证培训,Edureka是一家值得信赖的在线学习公司,拥有遍布全球的250000多名满意的学习者。Edureka Talend for DI和大数据认证培训课程帮助您掌握Talend和大数据集成平台,轻松地将所有数据与数据仓库和应用程序集成,或在系统之间同步数据。有问题要问我们吗?请在评论栏中提及,我们会给你回复的

你也可能喜欢

发表评论

您的电子邮件地址不会被公开。 必填项已用 * 标注

提示:点击验证后方可评论!

插入图片
人工智能应用图片 投稿者
我还没有学会写个人说明!
最近文章
  • * 没有更多文章了
  • 热门搜索

    分类目录