技术原理

2020年Talend面试前75名问答

Talend据说是云与数据集成软件领域的下一代领导者,目前拥有19.3%的市场份额。这意味着,在不久的将来,对塔伦德认证的专业人士的需求将会很大。我认为这是一个很好的时机来抓住这个机会,为自己在竞争中脱颖而出做好准备。在这个Talend面试问题博客中,我选出了75个最有助于你完成面试的问题。我已经将这个Talend面试问题列表分为4个部分:

一般Talend面试问题数据集成Talend面试问题大数据Talend面试问题多项选择题

Talend面试问题和答案| Talend教程| Edureka

这个Edureka视频Talend面试问题将帮助您了解最常见的Talend问题及其答案,这些问题将使您在面试过程中脱颖而出。

概述-Talend面试问题为什么使用Talend而不是市场上提供的其他ETL工具。“KDSP”以下是Talend的几个优点:

的功能Talend ETL工具特性描述更快的Talend自动化任务并为您进一步维护它们。较低的开销Talend提供了可以免费下载的开源工具。此外,随着进程的加快,开发人员的比率也会降低。经得起未来考验的Talend包含了您今天和将来可能需要满足市场需求的所有内容。统一平台TALNED满足我们基于组织需求的产品共同基础的需求。庞大的社区是开源的,它有庞大的社区支持。什么是塔伦德?”

“Talend是一个开源软件集成平台/供应商。”

“它提供数据集成和数据管理解决方案。该公司为大数据、云存储、数据集成、数据管理、主数据管理、数据质量、数据准备和企业应用提供各种集成软件和服务。但Talend的第一个产品,即用于数据集成的Talend OpenStudio,被更广泛地称为Talend。什么是Talend开放工作室?”

“Talend Open Studio是一个基于Eclipse RCP的开源项目。它支持面向ETL的实现,通常是为本地部署提供的,它充当代码生成器,用Java生成数据转换脚本和底层程序。它提供了一个交互式和用户友好的GUI,允许您访问元数据存储库,其中包含在Talend中执行的每个进程的定义和配置。

Talend中的项目是什么

“Project”是最高的物理结构,它将所有类型的业务模型、作业、元数据、例程,上下文变量或任何其他技术资源。

用Talend描述作业设计。

作业是使用Talend构建的任何东西的基本可执行单元。从技术上讲,它是一个单独的Java类,通过图形表示定义可用信息的工作和范围。它通过将业务需求转换为代码、例程和程序。

什么是Talend中的“组件

“组件是用于在Talend中执行单个操作的功能部件。在面板上,无论您看到什么,都是组件的图形表示。你可以使用他们与一个简单的拖放。在后端,组件是作为作业(基本上是Java类)的一部分生成的Java代码片段。这些Java代码是在保存作业时由Talend自动编译的。

解释了Talend中可用的各种类型的连接。

在Talend中定义了是必须处理数据、数据输出还是作业的逻辑序列。Talend提供的各种类型的连接是:

行:行连接处理实际的数据流。以下是Talend支持的行连接类型:主查找筛选器拒绝ErrorRejects输出Uniques/Duplicates多个输入/输出迭代:迭代连接用于对目录中包含的文件、文件中包含的行或数据库项执行循环。触发器:触发器连接用于创建作业或子对象之间的依赖关系,这些作业或子对象是根据触发器的性质依次触发的。触发器连接一般分为两类:子对象触发器OnSubjobOK OnSubjobError Run if Component触发器OnComponentOK OnComponentError Run if链接:链接连接用于将表架构信息传输到ELT映射器组件。区分“OnComponentOk”和“OnSubjobOk”。OnComponentOk OnSubjobOk 1。属于组件触发器1。属于子任务触发器2。链接的子作业只有在前一个组件成功完成其执行2时才开始执行。链接的子作业只有在前一个子作业完全完成其执行3时才开始执行。此链接可用于作业3中的任何组件。此链接只能与子作业的第一个组件一起使用为什么Talend称为代码生成器?”

“Talend提供了一个用户友好的GUI,您可以简单地拖放组件来设计作业。执行作业时,Talend Studio会自动将其转换为后端的Java类。作业中的每个组件都被分为三部分(begin、main和end)。这就是为什么Talend studio被称为代码生成器。

Talend支持哪些类型的模式

“Talend支持的一些主要模式类型是:

存储库模式:此模式可以跨多个作业重用,所做的任何更改都将自动反映到使用它的所有作业中。泛型架构:此架构没有绑定到任何特定的源,而是用作跨多种类型数据源的共享资源。固定模式:这些是只读模式,将与某些组件一起预定义。解释例程。

例程是可重用的Java代码。使用例程,您可以用Java编写自定义代码,以优化数据处理,提高作业容量,以及扩展Talend Studio功能。

Talend支持两种类型的例程:

系统例程:这些是只读代码,您可以在任何作业中直接调用它们。用户例程:这些例程可以由用户通过创建新例程或调整现有例程来自定义创建。您能在运行时在Talend中定义模式吗?”无法在运行时定义

“架构。由于模式定义了数据的移动,所以必须在配置组件时定义它。

区分“内置”和“存储库”。内置存储库1。本地存储在作业1中。集中存储在存储库2中。只能由本地作业使用2。可由项目3中的任何作业全局使用。可在作业3中轻松更新。数据在作业中是只读的什么是上下文变量?为什么在Talend中使用它们?“

“上下文变量是Talend使用的用户定义参数,在运行时传递到作业中。当作业从开发环境升级到测试和生产环境时,这些变量可能会更改其值。上下文变量可以通过三种方式定义:

嵌入式上下文变量存储库上下文变量外部上下文变量可以定义一个可从多个作业访问的变量吗

“是的,可以通过在例程中声明一个静态变量来实现。然后需要在例程本身中为该变量添加setter/getter方法。完成后,可以从多个作业访问此变量。

什么是子作业,如何将数据从父作业传递到子作业

“子作业可以定义为单个组件或由数据流连接的多个组件。一个作业至少可以有一个子作业。要将值从父作业传递给子作业,需要使用上下文变量iables.

定义TOS中“Outline View”的用法。Talend Open Studio中的

Outline View用于跟踪组件中可用的返回值。这还包括在tSetGlobal组件中配置的用户定义值。

解释tMap组件。列出可以使用它执行的不同功能。

tMap是Talend中属于“处理”系列的核心组件之一。它主要用于将输入数据映射到输出数据。tMap可以执行以下功能:

添加或删除列使用约束对任何类型的字段过滤器输入和输出数据应用转换规则拒绝数据多路复用和解多路复用数据连接并交换tMap和tJoin之间的区别数据。tMap tJoin 1。它是一个强大的组件,可以处理复杂的情况1。只能处理基本联接情况2。可以接受多个输入链接(一个是主链接,其余是查找链接)2。只能接受两个输入链接(主链接和查找)3。可以有多个输出链接3。只能有两个输出链接(主链接和拒绝链接)4。支持多种类型的连接模型,如unique连接、first连接、all连接等。仅支持唯一联接5。支持内连接和左外连接5。仅支持内部联接6。可以使用筛选表达式6筛选数据。不能这样做什么是调度程序?”调度程序是一种软件,它从队列中选择进程并将它们加载到内存中执行。Talend不提供内置的调度程序。

数据集成-Talend访谈问题描述了ETL过程。

ETL代表提取、转换和加载。它是指将原始数据从源移动到数据仓库、商业智能系统或大数据平台所需的三个过程。

提取:此步骤涉及访问所有存储系统(如RDBMS、Excel文件、XML文件、平面文件等)中的数据,对整个数据进行分析,并对其应用各种功能,将其转换为所需的格式。加载:在此步骤中,通过使用最少的资源,将处理后的数据(即提取和转换的数据)加载到通常是数据库的目标数据存储库中。区分ETL和ELT。ETL ELT 1。首先提取数据,然后在将其加载到目标系统1之前对其进行转换。首先提取数据,然后将其加载到目标系统中,在目标系统中进一步转换数据2。随着数据大小的增加,处理速度减慢,因为整个ETL过程需要等到转换超过2。处理不依赖于数据3的大小。易于实施3。需要对工具有深入的了解才能实施4。不提供数据湖支持4。提供数据湖支持5。支持关系数据5。支持非结构化数据在SFTP连接中可以使用ASCII或二进制传输模式吗?”

“不,传输模式不能用于SFTP连接。SFTP不支持任何类型的传输模式,因为它是SSH的扩展,并且假设有一个底层安全通道。

如何在Talend中调度作业

“要先在Talend中计划作业,需要将作业导出为独立程序。然后使用操作系统的本地调度工具(Windows任务调度程序、Linux、Cron等)可以调度作业。

解释tDenormalizeSortedRow的用途。

tDenormalizeSortedRow属于组件的“处理”系列。它有助于综合排序的输入流以节省内存。它将所有输入排序的行组合在一个组中,其中不同的值与项分隔符联接。

区分“插入或更新”和“更新或插入”。

插入或更新:在此操作中,first Talend尝试插入记录,但如果已存在具有匹配主键的记录,然后它更新该记录。

更新或插入:在这个操作中,Talend首先尝试用匹配的主键更新记录,但如果没有主键,则插入该记录。

Expla使用tContextLoad。

tContextLoad属于“Misc”组件系列。此组件有助于动态修改活动上下文的值。基本上,它用于从流加载上下文。如果输入中定义的参数没有在上下文中定义,并且上下文没有在传入数据中初始化,则发送警告。

讨论XMX和XMS参数之间的区别。

XMS参数用于在Java中指定初始堆大小,而XMX参数用于在Java.

表达式编辑器在Talend中有什么用途“从表达式编辑器,所有的表达式,如输入,变量或输出,和约束语句可以很容易地查看和编辑。Expression Editor提供了一个用于编写任何函数或转换的专用视图。数据转换所需的必要表达式可以直接在Expression Editor中编写,也可以打开Expression Builder对话框,您可以在其中编写数据转换表达式。

解释Talend中的错误处理。

处理Talend中错误的方法很少:

对于简单作业,可以依赖Talend Open Studio的异常抛出过程,该过程在运行视图中显示为红色堆栈跟踪。每个子任务和组件都必须返回一个代码来引导额外的处理。Subjob Ok/Error和Component Ok/Error链接可用于将错误指向错误处理例程。处理错误的基本方法是定义一个错误处理子作业,该子作业应在错误发生时执行。区分tJava、tJavaRow和tJavaFlex组件的使用。函数tJava tJavaRow tJavaFlex 1。可用于集成自定义Java代码Yes Yes Yes 2。只在子作业开始时执行一次是否3。需要输入流否是否4。仅当仅当定义输出架构时才需要输出流5。可以用作作业的第一个组件是否是6。可以用作不同的子作业是否是7。只允许主流或迭代器流同时主8。有三部分Java代码No No Yes 9。是否可以自动传播数据否否是如何远程执行Talend作业?”

“您可以从命令行远程执行Talend作业。您只需导出作业及其依赖项,然后从终端访问其指令文件即可。

在加载数据之前,是否可以从输入文件中排除页眉和页脚

“是的,可以在从输入文件加载数据之前轻松排除页眉和页脚。

”解释解决“堆空间问题”的过程。当JVM试图向堆空间区域添加比可用空间更多的数据时,

会出现“堆空间问题”。要解决此问题,需要修改分配给Talend Studio的内存。然后您必须根据您的系统和需要修改相关的Studio.ini配置文件。

tXMLMap组件的用途是什么

“此组件将数据从单个或多个源转换并路由到单个或多个目标。它是一个高级组件,用于转换和路由XML数据流。尤其是当我们需要处理大量的XML数据源时,

大数据——Talend访谈问题区分了用于数据集成的TOS和用于大数据的TOS。

Talend Open Studio for Big data是Talend用于数据集成的超集。它包含了TOS为DI提供的所有功能,以及一些额外的功能,如对大数据技术的支持。也就是说,TOS for DI只生成Java代码,而TOS for BD和Java代码一起生成MapReduce代码。

Talend支持哪些大数据技术

”在TOS for BD中,大数据家族确实非常庞大,使用最多的技术很少有:

Cassandra CouchDB Google Storage HBase HDFS Hive MapRDB MongoDB Pig Sqoop等在Talend中并行运行多个作业?”

“因为Talend是一个java代码生成器,所以可以在多个线程中执行各种作业和subsubobs来减少作业的运行时间。基本上,Talend数据集成中有三种并行执行方式:

多线程tParallelize组件自动并行化连接到HDFS需要哪些强制配置

要连接到HDFS,必须提供以下详细信息:

分发名称节点URI用户名要协调Talend Studio和HBase之间的事务,必须使用哪个服务?”

“Zookeeper服务对于协调TOS和HBase之间的事务是必需的。”

“用于Pig脚本的语言的名称是什么?”

“Pig拉丁语用于Pig中的脚本编写。”

“何时使用tKafkaCreateTopic组件?”

“这个组件创建一个Kafka主题,其他Kafka组件也可以使用它。它允许您可视化地生成命令,以在主题级别创建具有各种属性的主题。

解释tPigLoad组件的用途。

一旦数据经过验证,此组件将帮助您在单个事务中将原始输入数据加载到输出流。它为当前事务设置到数据源的连接。

在主作业完成执行后,需要使用哪个组件自动关闭配置单元连接

“使用tPostJob和tHiveClose组件,您可以自动关闭配置单元连接。”

“MCQ–Talend访谈问题,在Talend Studio中,您可以在哪里找到创建作业所需的组件?

存储库

运行视图

设计器工作区

选项板[Ans]在“组件”视图中,从何处可以更改组件的名称?基本设置高级设置文档视图[Ans]HDFS组件只能用于大数据批处理或大数据流作业。True False[Ans]可以从哪个角度对Talend Studio执行配置单元表内容的分析?分析集成大数据中介作业名称旁边的星号在设计工作区中表示什么?它是一个活动作业作业包含未保存的更改[an]作业当前正在运行作业包含错误假设您已使用MapReduce框架设计了大数据批处理。现在您想使用MapReduce在集群上执行它。在运行视图的Hadoop配置选项卡中,哪些配置是必需的?名称节点[Ans]数据节点资源管理器作业跟踪器[Ans]如何查找组件的配置错误消息?右键单击组件并选择“显示问题”将鼠标悬停在设计器视图[Ans]中的错误符号上打开错误视图打开作业视图在tMap配置窗口中连接两个输入列的过程是什么?将一列从主输入表拖动到另一个输入表中的列[Ans]右键单击输入表中的一列并选择“连接”选择两个不同输入表中的两列,单击鼠标右键,选择“连接”选择两个不同输入表中的两列将其拖动到输出表以导入文件从FTP,下列哪些是必需的组件?tFTPConnection、tFTPPut tFTPConnection、tFTPFileList、tFTPGet tFTPConnection、tFTPGet[Ans]tFTPConnection、tFTPExists、tFTPGet假设您有三个作业,其中作业1和作业2并行执行。作业3仅在作业1和2完成其执行后执行。以下哪个组件可用于设置此设置?tUnite tPostJob[Ans]tRunJob tParallelize[Ans]对于tFileInputDelimited组件,默认的字段分隔符参数是什么?分号[Ans]管道逗号冒号保存对tMap配置的更改时,有时Talend会要求您确认是否传播更改。为什么?因为您的更改会影响输出架构,而源组件应该具有匹配的架构,因为您的更改会影响输出架构,而目标组件应该具有匹配的架构[Ans]

你也可能喜欢

发表评论

您的电子邮件地址不会被公开。 必填项已用 * 标注

提示:点击验证后方可评论!

插入图片
人工智能专业 投稿者
我还没有学会写个人说明!
最近文章
  • * 没有更多文章了
  • 热门搜索

    分类目录