Skip to content
标签
数据处理
工具
字数
9956 字
阅读时间
38 分钟

一、概述

Kettle是一款国外开源的ETL工具,java编写,可以在Window、Linux、Unix上运行,绿色无需安装数据抽取高效稳定

Kettle 中文名称叫水壶,允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么而不是你想怎么做

Kettle中有两种脚本文件,transformationjob,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

Kettle(现在已经更名为PDI,Pentaho Data Integration-Pentaho数据集成)。

ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)

市面上常用的ETL工具有很多,比如Sqoop,DataX,Kettle,Talend等

1.1 核心组件

名称描述
Spoon通过图形接口,用于编辑作业和转换的桌面应用
Pan一个独立的命令程序,用于执行由Spoon编辑的转换和作业
Kitchen一个独立的命硬程序,用于执行由Spoon编辑的作业
Carte一个轻量级的Web容器,用于建立专用、远程的ETL Server。

1.2 概念模型设计

有两种设计:

TransFormation(转换):完成针对数据的基础转换

Job(作业): 完成对整个工作流的控制

作业是步骤流,转换是数据流。

作业的每一个步骤,必须等到之前的步骤已完成,才会继续执行,转换是一次性将所有的控件全部启动(一个控件对应一个线程),数据流会从第一个控件开始,遍历记录的方式流向最后的控件。

1.3 目录文件说明

目录名称功能作用
classes生命周期监听、注册表扩展、日志的配置文件
Data Integration.app数据集成应用
Data Service JDBC DriverJDBC驱动程序的数据服务
docs文档
launcherKettle的启动的jar和启动配置
lib支持库 jar包
libswtKettle兼容多系统的图形库jar
plugins插件
pwd集群配置文件
samples自带例子(例子中有多种转换很不错哦)
simple-jndijndi连接配置
system系统配置
uiUI配置
文件名称功能作用
Carte.bat/Carte.sh集群启动
Encr.bat/encr.shkettle提供的加密算法
Import.bat/import.sh脚本引用,命令导入
Kitchen.bat/kitchen运行作业
Pan.bat/pan.sh运行转换
set-pentaho-env.bat/set-pentaho-env.sh环境变量设置
Spoon.bat/spoon.shUI界面启动脚本
SpoonDebug.bat/spoonDebug.sh以Debug的方式运行Kettle

1.4 核心概念

可视化编程

Kettle可以被归类为可视化编程语言(Visula Programming Languages,VPL),因为Kettle可以使用图形化的方式定义复杂的ETL程序和工作流。 可视化编程一直是Kettle里的核心概念,它可以让你快速构建复杂的ETL作业和减低维护工作量。它通过隐藏很多技术细节,使IT领域更贴近于商务领域。 Kettle里的代码就是转换和作业

转换

转换(transaformation)负责数据的输入、转换、校验和输出等工作。Kettle 中使用转换完成数据 ETL 全部工作。转换由多个步骤 (Step) 组成,如文本文件输入,过滤输出行,执行 SQL 脚本等。各个步骤使用 (Hop) 来链接。 跳定义了一个数据流通道,即数据由一个步骤 (跳) 向下一个步骤。在 Kettle 中数据的最小单位是数据行(row),数据流中流动其实是缓存的行集 (RowSet) 。

步骤

步骤(控件)是转换里的基本的组成部分 一个步骤有如下几个关键特性: ①步骤需要有一个名字,这个名字在同一个转换范围内唯一。 ②每个步骤都会读、写数据行(唯一例外是“生成记录”步骤,该步骤只写数据)。 ③步骤将数据写到与之相连的一个或多个输出(hop),再传送到跳的另一端的步骤。 ④大多数的步骤都可以有多个输出跳。一个步骤的数据发送可以被设置为分发和复制,分发是目标步骤轮流接收记录,复制是所有的记录被同时发送到所有的目标步骤。

跳就是步骤之间带箭头的连线,跳定义了步骤之间的数据通路。

跳实际上是两个步骤之间的被称之为行集的数据行缓存,行集的大小可以在转换的设置里定义。当行集满了,向行集写数据的步骤将停止写入,直到行集里又有了空间。当行集空了,从行集读取数据的步骤停止读取,直到行集里又有可读的数据行。

元数据

每个步骤在输出数据行时都有对字段的描述,这种描述就是数据行的元数据。 通常包含下面一些信息。 ①名称:数据行里的字段名是唯一的。 ②数据类型:字段的数据类型。 ③格式:数据显示的方式,如Integer的#、0.00。 ④长度:字符串的长度或者BigNumber类型的长度。 ⑤精度:BigNumber数据类型的十进制精度。 ⑥货币符号:¥ ⑦小数点符号:十进制数据的小数点格式。不同文化背景下小数点符号是不同的,一般是点(.)或逗号(,)。 ⑧分组符号:数值类型数据的分组符号,不同文化背景下数字里的分组符号也是不同的,一般是点(.)或逗号(,)或单引号(’)

数据类型

数据以数据行的形式沿着步骤移动。一个数据行是零到多个字段的集合,字段包含下面几种数据类型。 ①String:字符类型数据 ②Number:双精度浮点数。 ③Integer:带符号长整型(64位)。 ④BigNumber:任意精度数据。 ⑤Date:带毫秒精度的日期时间值。 ⑥Boolean:取值为true和false的布尔值。 ⑦Binary:二进制字段可以包含图像、声音、视频及其他类型的二进制数据。

并行

跳的这种基于行集缓存的规则允许每个步骤都是由一个独立的线程运行,这样并发程度最高。这一规则也允许数据以最小消耗内存的数据流的方式来处理。在数据仓库里,我们经常要处理大量数据,所以这种高并发低消耗的方式也是ETL工具的核心需求。 对于kettle的转换,不能定义一个执行顺序,因为所有步骤都以并发方式执行:当转换启动后,所有步骤都同时启动,从它们的输入跳中读取数据,并把处理过的数据写到输出跳,直到输入跳里不再有数据,就中止步骤的运行。当所有的步骤都中止了,整个转换就中止了。

作业

作业 (Job),负责定义一个完成整个工作流的控制,比如将转换的结果发送邮件给相关人员。因为转换(transformation)以并行方式执行,所以必须存在一个串行的调度工具来执行转换,这就是 Kettle中的作业。

1.5 常见问题处理

mysql数据乱码问题

将作业或者转换信息存入mysql后,查询是发现是乱码的。这时可以修改mysql的编码。

二、输入控件

输入是转换里面的第一个分类,输入控件也是转换中的第一大控件,用来抽取数据或者生成数据。输入是ETL里面的E(Extract),主要做数据提取的工作。

2.1 csv文件输入

image-20220624113527452

① 步骤名称:可以修改,但是在同一个转换里面要保证唯一性,见名知意;

② 文件名:选择对应的csv文件;

③ 列分隔符:默认是逗号;

④ 封闭符:结束行数据的读写;

⑤ NIO缓存大小:文件如果行数过多,需要调整此参数;

⑥ 包含列头行:意思是文件中第一行是字段名称行,表头不进行读写;

⑦ 行号字段:如果文件第一行不是字段名称或者需要从某行开始读写,可在此输入行号。

⑧ 并发运行?:选择并发,可提高读写速度;

⑨ 字段中有回车换行?:不要选择,会将换行符做数据读出;

⑩ 文件编码:如果预览数据出现乱码,可更换文件编码;

2.2 文本文件输入

使用文本文件输入控件步骤:

1) 添加需要转换的日志文件

2) 按照日志文件格式,指定分隔符

3) 获取下字段,并给字段设置合适的格式

4) 最后点下预览记录,看看能否读到数据

image-20220624113657818

image-20220624113703000

image-20220624113709272

2.3 Excel输入

使用Excel输入控件步骤:

1) 按照读取的源文件格式指定对应的表格类型为xls还是xlsx

2) 选择并添加对应的excel文件

3) 获取excel的sheet工作表

4) 获取字段,并给每个字段设置合适的格式

5) 预览数据

image-20220624113744963

image-20220624113752099

image-20220624113802043

2.4 XML输入

XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。

XPath 使用路径表达式在 XML 文档中选取节点。常用的路径表达式:

img

使用步骤

  1. 浏览获取xml文件,将xml文件添加到kettle中

  2. 获取xml文档的所有路径,设置合适的循环读取路径

  3. 获取字段,获得自己想要读取的所有字段,并且设置适当的格式

  4. 预览数据,看看能否读取到自己想要的数据

image-20220624113905937

image-20220624113911915

image-20220624113917765

2.5 Json输入

JSONPath类似于XPath在xml文档中的定位,JsonPath表达式通常是用来路径检索或设置Json的。其表达式可以接受“dot–notation”(点记法)和“bracket–notation”(括号记法)格式

点记法:$.store.book[0].title

括号记法:$[‘store’][‘book’][0][‘title’]

img

使用步骤:

  1. 浏览获取JSON文件,将json文件获取到kettle中

  2. 根据JSON Path点记法,获取到需要的字段,并且设置合适格式

    image-20220624114242997image-20220624114258870image-20220624114311747image-20220624114326197

2.6 表输入

1)创建数据库连接

​ 表输入可以说是kettle中用到最多的一种输入控件,因为企业中大部分的数据都会存在数据库中。kettle可以连接市面上常见的各种数据库,比如Oracle,Mysql,SqlServer等。但是在连接各个数据库之前,需要先配置好对应的数据库驱动,以mysql为例

需要将mysql的驱动包放入kettle的lib文件夹下,并重启kettle。

创建db连接,填入数据库信息并测试,无误后进行保存。

image-20220624114659032

数据库连接默认只对本转换有效,换一个转换以后,这个连接就没法用了,还需要新建数据库连接,所以需要将建好的这个数据库连接进行共享

image-20220624114729223

2)表输入

双击表输入控件,选择刚刚创建的数据库连接,然后在SQL框里输入合适的查询语句,然后点击预览按钮

image-20220624114821766

image-20220624114835860

三、输出控件

输出控件也是转换中的第二大控件,用来存储数据。输出是ETL里面的L(Load),主要做数据加载的工作。

3.1 Excel输出

Kettle中自带了两个Excel输出,一个Excel输出,另一个是Microsoft Excel输出。

Excel输出只能输出xls文件(适合Excel2003),Microsoft Excel输出可以输出xls和xlsx文件(适合Excel2007及以后)

步骤:

1) 选择合适的扩展名

2) 点击浏览,补全输出文件的路径已经文件名

image-20220624135642042

3.2 文本文件输出

将数据输出成文本的控件,操作步骤:

1. 设置对应的目录和文件名

2. 设置合适的扩展名,比如txt,csv等

3. 在内容框里设置合适的分隔符,比如分号,逗号,TAB等

4. 在字段框里获取字段,并且给每个字段设置合适的格式

image-20220624135824708

image-20220624135836146

image-20220624135847118

3.3 SQL文件输出

SQL文件输出一般跟表输入做连接,然后将数据库表的表结构和数据以sql文件的形式导出

1. 选择合适的数据库连接

2. 选择目标表

3. 勾选增加创建表语句和每个语句另起一行

4. 填写输出文件的路径和文件名

5. 扩展名默认为sql,这个不需要更改

image-20220624135926515

3.4 表输出

表输出控件可以将kettle数据行中的数据直接写入到数据库中的表中,企业里做ETL工作会经常用到此控件。

1. 选择合适的数据库连接

2. 选择目标表,目标表可以提前在数据库中手动创建好,也可以输入一个数据库不存在的表,然后点击下面的SQL按钮,利用kettle现场创建

3. 如果目标表的表结构和输入的数据结构不一致,还可以自己指定数据库字段

image-20220624135955776

3.5 更新&插入/更新

更新和插入/更新,这两个控件是kettle提供的将数据库已经存在的记录与数据流里面的记录进行对比的控件。企业级ETL经常会用到这两个控件来进行数据库更新的操作 两者区别: 更新是将数据库表中的数据和数据流中的数据做对比,如果不同就更新,如果数据流中的数据比数据库表中的数据多,那么就报错。 插入/更新的功能和更新一样,只不过优化了数据不存在就插入的功能,因此企业里更多的也是使用插入/更新。

image-20220624140057494

image-20220624140114334

1. 选择正确的数据库连接

2. 选择目标表

3. 输入两个表来进行比较的字段,一般来说都是用主键来进行比较

4. 输入要更新的字段

3.6 删除

删除控件可以删除数据库表中指定条件的数据,企业里一般用此控件做数据库表数据删除或者跟另外一个表数据做对比,然后进行去重的操作。

1. 选择数据库连接

2. 选择目标表

3. 设置数据流跟目标表要删除数据的对应字段

img

四、转换控件

转换控件是转换里面的第四个分类,转换控件也是转换中的第三大控件,用来转换数据。转换是ETL里面的T(Transform),主要做数据转换,数据清洗的工作。ETL整个过程中,Transform的工作量最大,耗费的时间也比较久,大概可以占到整个ETL的三分之二。

4.1 Concat fields

转换控件Concat fields,顾名思义,就是将多个字段连接起来形成一个新的字段。

image-20220624140321582

4.2 值映射

值映射就是把字段的一个值映射成其他的值。在数据质量规范上使用非常多,比如很多系统对应性别sex字段的定义不同。所以我们需要利用此控件,将同一个字段的不同的值,映射转换成我们需要的值。

1. 选择映射的字段

2. 还可以自定义映射完以后的新字段名

3. 可以设置不匹配时的默认值

4. 设置映射的值

img

4.3 增加常量&增加序列

增加常量就是在本身的数据流里面添加一列数据,该列的数据都是相同的值。

增加序列是给数据流添加一个序列字段,可以自定义该序列字段的递增步长。

img

img

4.4 字段选择

字段选择是从数据流中选择字段、改变名称、修改数据类型。

img

img

img

4.5 计算器

计算器是一个函数集合创建新的字段,还可以设置字段是否移除临时字段)。我们可以通过计算器里面的多个计算函数对已有字段进行计算,得出新字段。

img

img

4.6 字符串剪切&替换&操作

转换控件中有三个关于字符串的控件,分别是剪切字符串,字符串操作,字符串替换

剪切字符串是指定输入流字段裁剪的位置剪切出新的字段。

img

字符串替换是指定搜索内容和替换内容,如果输入流的字段匹配上搜索内容就进行替换生成新字段。

img

字符串操作是去除字符串两端的空格和大小写切换,并生成新的字段。

img

4.7 排序记录&去除重复记录

去除重复记录是去除数据流里面相同的数据行。但是此控件使用之前要求必须先对数据进行排序,对数据排序用的控件是排序记录,排序记录控件可以按照指定字段的升序或者降序对数据流进行排序。因此排序记录+去除重复记录控件常常配合组队使用。

img img

4.8 唯一行

唯一行(哈希值)就是删除数据流重复的行。此控件的效果和(排序记录+去除重复记录)的效果是一样的,但是实现的原理不同。排序记录+去除重复记录对比的是每两行之间的数据,而唯一行(哈希值)是给每一行的数据建立哈希值,通过哈希值来比较数据是否重复,因此唯一行(哈希值)去重效率比较高,也更建议大家使用。

img

4.9 拆分字段

拆分字段是把字段按照分隔符拆分成两个或多个字段。需要注意的是,字段拆分以后,原字段就会从数据流中消失。

img

4.10 列拆分为多行

列拆分为多行就是把****指定字段*按指定*分隔符*进行拆分为*多行****,然后其他字段直接复制。具体效果如下图:

img

img

1. 选择要拆分的字段

2. 设置合适的分割符

3. 设置分割以后的新字段名

4. 选择是否输出新数据的排列行号,行号是否重置

img

4.11 行扁平化 多行合并为一行

行扁平化就是把同一组的多行数据合并成为一行,可以理解为列拆分为多行的逆向操作。但是需要注意的是行扁平化控件使用有两个条件:

  1. 使用之前需要对数据进行排序

  2. 每个分组的数据条数要保证一致,否则数据会有错乱

img

1. 选择扁平化的字段

2. 填写目标字段,字段个数跟每个分组的数据一致

4.12 列转行

列转行,顾名思义多列转一行,就是如果数据一列有相同的值,按照指定的字段,将其中一列的字段内容变成不同的列,然后把多行数据转换为一行数据的过程。具体效果如下图:

img img

注意:列转行之前数据流必须按照分组字段进行排序,否则数据会错乱!

image-20220624141020960

1. 关键字段:从数据内容变成列名的字段

2. 分组字段:列转行,转变以后的分组字段

3. 目标字段:增加的列的列名字段

4. 数据字段:目标字段的数据字段

5. 关键字值:数据字段查询时的关键字,也可以理解为key

6. 类型:要给目标字段设置合适的类型,否则会报错

4.13 行转列

行转列,一行转多列,就是把数据字段的字段名转换为一列,把数据行变为数据列。我们也可以简单理解为行转列控件是列转行控件的逆向操作。具体如下图:

img

img

img

1. Key字段:行转列,生成的列名字段名

2. 字段名称:原本数据流中的字段名

3. Key值:Key字段的值,这个是自己自定义的,一般都跟前面的字段名称一样

4. Value字段:对应的Key值的数据列的列名

五、应用控件

应用是转换控件里面的第五个分类,这个分类下是Kettle自带的一些工具类

5.1 替换NULL值

替换NULL值,顾名思义就是将数据里面的null值替换成其他的值。

1. 可以选择替换数据流中所有字段的null值

2. 也可以选择字段,在下面的字段框里面,根据不同的字段,将null值替换成不同的值

img

5.2 写日志

写日志控件主要是调试的时候使用,此控件可以将数据流的每行数据打印到控制台,方便我们调试整个程序。

1. 选择日志级别

2. 可以输入自定义输出的语句

3. 选择要输出打印的字段

img

img

六、流程控件

流程是转换里面的第六个分类,流程分类下的控件主要用来控制数据流程和数据流向。

6.1 Switch/case

Switch/case控件,最典型的数据分类控件,可以利用某一个字段的数据的不同的值,让数据流从一路到多路。

img

1. 选择需要判断的字段

2. 选择判断字段的值的类型

3. 填写分类数据的判断条件和目标步骤

6.2 过滤记录

和Switch/case做对比的话,过滤记录相当于if-else,可以自定义输入一个判断条件,然后将数据流中的数据一路分为两路。

img

  1. 在下面先填写数据的判断条件

  2. 然后再上面选择下判断条件为true或者false的输出步骤

6.3 空操作

空操作,顾名思义就是什么也不做,此控件一般作为数据流的终点。

img

6.4 中止

中止是数据流的终点,如果有数据流到此控件处,整个转换程序将中止,并且在控制台输出报错信息。此控件一般用来校验数据,或者调试程序。

img

七、查询控件

查询是转换里面的第九个分类,查询控件是用来查询数据源里面的数据,并合并到主数据流中。

7.1 数据库查询

数据库查询就是从数据库里面查询出数据,然后跟数据流中的数据进行左连接的一个过程。左连接的意思是数据流中原本的数据全部有,但是数据库查询控件查询出来的数据不一定全部会列出,只能按照输入的匹配条件来进行关联。

img

  1. 选择合适的数据库链接

  2. 输入要去数据库里面查询的表名

  3. 输入两个表进行左连接的连接条件

  4. 获取返回字段,得到查询表返回的值

7.2 流查询

流查询控件就是查询两条数据流中的数据,然后按照指定的字段做等值匹配。注意:流查询在查询前把数据都加载到内存中,并且只能进行等值查询。

img

  1. 输入查询的数据流

  2. 输入两个流进行匹配的字段(等值匹配)

  3. 输入查询出的字段

八、连接控件

连接是转换里面的第十个分类,连接分类下的控件一般都是将多个数据集通过关键字进行连接起来,形成一个数据集的过程。

8.1 合并记录

合并记录是用于将两个不同来源的数据合并,这两个来源的数据分别为旧数据新数据,该步骤将旧数据和新数据按照指定的关键字匹配、比较、合并。注意旧数据和新数据需要事先按照关键字段排序,并且旧数据和新数据要有相同的字段名称

​ 合并后的数据将包括旧数据来源和新数据来源里的所有数据,对于变化的数据,使用新数据代替旧数据,同时在结果里用一个标示字段,来指定新旧数据的比较结果。

img

  1. 旧数据源:选择旧数据来源的步骤

  2. 新数据源:选择新数据来源的步骤

  3. 标志字段:设置标志字段的名称,标志字段用于保存比较的结果,比较结果有下列几种

① “identical” – 旧数据和新数据一样

② “changed” – 数据发生了变化;

③ “new” – 新数据中有而旧数据中没有的记录

④ “deleted” –旧数据中有而新数据中没有的记录

  1. 关键字段:用于定位判断两个数据源中的同一条记录的字段。

  2. 比较字段:对于两个数据源中的同一条记录,指定需要比较的字段

8.2 记录集连接

记录集连接可以对两个步骤中的数据流进行左连接,右连接,内连接,外连接。此控件功能比较强大,企业做ETL开发会经常用到此控件,但是需要注意在进行记录集连接之前,需要对记录集的数据进行排序,并且排序的字段还一定要选两个表关联的字段,否则数据错乱,出现null值。

img

  1. 选择需要连接的两个数据流的步骤

  2. 选择连接类型,一共有四个:INNER,LEFT OUTER,RIGHT OUTER,FULL OUTER

  3. 从两个数据流步骤里面选出连接字段

九、统计控件

统计是转换里面的第十三个分类,统计控件可以提供数据的采样和统计功能。

9.1 分组

分组控件的功能类似于GROUP BY,可以按照指定的一个或者几个字段进行分组,然后其余字段可以按照聚合函数进行合并计算。注意,在进行分组之前,数据最好先进行排序。

img

  1. 选择分组字段

  2. 给其余字段选择合适的聚合函数进行计算

十、映射控件

映射是转换里面的第十八个分类,映射可以用来定义子转换,方便代码封装和重用。

10.1 映射

映射(子转换)是用来配置子转换,对子转换进行调用的一个步骤。

img

​ 映射输入规范是输入字段,由调用的转换输入。

img

映射输出规范是向调用的转换输出所有列,不做任何处理。

img

十一、脚本控件

脚本是转换的第七个分类,脚本就是直接通过写程序代码完成一些复杂的操作。

11.1 执行sql脚本

执行sql脚本控件就是连接到数据库里面,然后执行自己写的一些sql语句

img

  1. 选择合适的数据库连接

  2. 填入要执行的sql语句

十二、作业

12.1 组成部分

作业

一个作业包含一个或者多个作业项,这些作业项以某种顺序来执行。作业执行顺序由作业项之间的跳(job hop)和每个作业项的执行结果来决定。

作业项

业项是作业的基本构成部分。如同转换的步骤,作业项也可以使用图标的方式图形化展示。但是,作业项和转换步骤有下面几点不同:

  1. 转换步骤与步骤之间是数据流,作业项之间是步骤流。

  2. 转换启动以后,所有步骤一起并行启动等待数据行的输入,而作业项是严格按照执行顺序启动,一个作业项执行完以后,再执行下一个作业项。

  3. 在作业项之间可以传递一个结果对象(result object)。这个结果对象里面包含了数据行,它们不是以数据流的方式来传递的。而是等待一个作业项执行完了,再传递个下一个作业项。

  4. 因为作业顺序执行作业项,所以必须定义一个起点。有一个叫“开始”的作业项就定义了这个点。一个作业只能定一个开始作业项。

作业跳

作业的跳是作业项之间的连接线,他定义了作业的执行路径。作业里每个作业项的不同运行结果决定了做作业的不同执行路径。作业跳一共分为下面三种情况:

①无条件执行:不论上一个作业项执行成功还是失败,下一个作业项都会执行。这是一种蓝色的连接线,上面有一个锁的图标。

img

②当运行结果为真时执行:当上一个作业项的执行结果为真时,执行下一个作业项。通常在需要无错误执行的情况下使用。这是一种绿色的连接线,上面有一个对钩号的图标。

img

③当运行结果为假时执行:当上一个作业项的执行结果为假或者没有成功执行是,执行下一个作业项。这是一种红色的连接线,上面有一个红色的停止图标。

img

在图标上单击就可以对跳进行设置。

12.2 案例一 发送邮件

使用作业执行上述转换,并且额外在表stu2中添加一条数据,整个作业运行成功的话发邮件提醒

(1)新建一个作业

img

(2) 按图示拉取组件

img

(3)双击Start编辑Start

img

(4)双击转换,选择案例1保存的文件

img

(5)双击SQL,编辑SQL语句

img

(6)双击发送邮件,编辑发送邮件的设置信息

img img

img

(7)保存作业并执行,然后去mysql查看结果和邮件信息

12.3 案例二 Hive-HDFS

将hive表的数据输出到hdfs

(1)因为涉及到hive和hbase的读写,需要先修改相关配置文件。

修改kettle安装目录下的data-integration\plugins\pentaho-big-data-plugin下的plugin.properties,设置active.hadoop.configuration=hdp26,并将如下配置文件拷贝到data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp26下

img

(2)启动hdfs,yarn,zookeeper,hbase集群的所有进程,启动hiveserver2服务

sh
[atguigu@hadoop102 ~]$ hadoop.sh start   //自己写的hadoop启动脚本
[atguigu@hadoop102 ~]$ zk.sh start 		//自己写的zookeeper启动脚本
[atguigu@hadoop102 ~]$ /opt/module/hbase-1.3.1/bin/start-hbase.sh
[atguigu@hadoop102 ~]$ /opt/module/hive/bin/hiveserver2

(3)进入beeline,查看10000端口开启情况

sh
[atguigu@hadoop102 ~]$ /opt/module/hive/bin/beeline
Beeline version 1.2.1 by Apache Hive
beeline> !connect jdbc:hive2://hadoop102:10000(回车)
Connecting to jdbc:hive2://hadoop102:10000
Enter username for jdbc:hive2://hadoop102:10000: atguigu(输入atguigu)
Enter password for jdbc:hive2://hadoop102:10000:(直接回车)
Connected to: Apache Hive (version 1.2.1)
Driver: Hive JDBC (version 1.2.1)
Transaction isolation: TRANSACTION_REPEATABLE_READ
0: jdbc:hive2://hadoop102:10000>(到了这里说明成功开启10000端口)

(4)创建两张表dept和emp

sql
CREATE TABLE dept(deptno int, dname string,loc string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t';

CREATE TABLE emp(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm int,
deptno int)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t';

(5)插入数据

sql
insert into dept values(10,'accounting','NEW YORK'),(20,'RESEARCH','DALLAS'),(30,'SALES','CHICAGO'),(40,'OPERATIONS','BOSTON');

insert into emp values
(7369,'SMITH','CLERK',7902,'1980-12-17',800,NULL,20),
(7499,'ALLEN','SALESMAN',7698,'1980-12-17',1600,300,30),
(7521,'WARD','SALESMAN',7698,'1980-12-17',1250,500,30),
(7566,'JONES','MANAGER',7839,'1980-12-17',2975,NULL,20);

(6)按下图建立流程图

img

(7)设置表输入,连接hive

img

img

(8)设置排序属性

img

(9)设置连接属性

img

(10)设置字段选择

img

(11)设置文件输出,点击浏览按钮

img

选择存储路径为HDFS,并且新建一个Hadoop Cluster连接

img

按照集群配置输入对应的参数

img

选择创建好的大数据集群连接

img

然后再依次设置文本文件输出控件的文件,内容,字段三个设置页,注意一定要获取字段

img img

img

(12)保存并运行转换,然后查看hdfs

img

12.4 案例三 HDFS-Hbase

读取hdfs文件并将sal大于1000的数据保存到hbase中

(1) 在HBase中创建一张表用于存放数据

sh
[atguigu@hadoop102 ~]$ /opt/module/hbase-1.3.1/bin/hbase shell

hbase(main):004:0> create 'people','info'

(2)按下图建立流程图

img

(3)设置文件输入,连接hdfs

img

img

注意千万别忘记获取字段,然后给字段设置格式

img

(4)设置过滤记录

img

(5)设置HBase output控件

​ 1.选择一个大数据集群连接

​ 2.选择上面复制过来的hbase-site.xml

​ 3.去第二个配置页面创建映射,然后保存映射(选择rowkey字段)

​ 4.再回第一个配置页选择Hbase表以及刚刚创建好的映射

img

img

注意:若报错没有权限往hdfs写文件,在Spoon.bat中第119行添加参数

"-DHADOOP_USER_NAME=atguigu" "-Dfile.encoding=UTF-8" (6)保存转换并运行,然户去hbase里面查看数据

img

十三、资源库

13.1 数据库资源库

数据库资源库是将作业和转换相关的信息存储在数据库中,执行的时候直接去数据库读取信息,很容易跨平台使用

1)点击右上角connect,选择Other Resporitory -》 选择Database Repository -》 建立新连接 -》 填好之后,点击finish,会在指定的库中创建很多表,至此数据库资源库创建完成 -》 连接资源库,默认账号密码为admin

13.2 将转换和任务导入资源库

1)选择从xml文件导入

13.3 文件资源库

将作业和转换相关的信息存储在指定的目录中,其实和XML的方式一样,创建方式跟创建数据库资源库步骤类似,只是不需要用户密码就可以访问,跨平台使用比较麻烦

选择connect -》 Other Repositories -》 选择File Repository -》 填写信息

十四、Kettle调优

调整JVM大小进行性能优化,修改Kettle根目录下的Spoon脚本。

img

参数参考:

-Xmx2048m:设置JVM最大可用内存为2048M。

-Xms1024m:设置JVM促使内存为1024m。此值可以设置与-Xmx相同,以避免每次垃圾回收完成后JVM重新分配内存。

-Xmn2g:设置年轻代大小为2G。整个JVM内存大小=年轻代大小 + 年老代大小 + 持久代大小。持久代一般固定大小为64m,所以增大年轻代后,将会减小年老代大小。此值对系统性能影响较大,Sun官方推荐配置为整个堆的3/8。

-Xss128k:设置每个线程的堆栈大小。JDK5.0以后每个线程堆栈大小为1M,以前每个线程堆栈大小为256K。更具应用的线程所需内存大小进行调整。在相同物理内存下,减小这个值能生成更多的线程。但是操作系统对一个进程内的线程数还是有限制的,不能无限生成,经验值在3000~5000左右。

2、 调整提交(Commit)记录数大小进行优化,Kettle默认Commit数量为:1000,可以根据数据量大小来设置Commitsize:1000~50000

3、尽量使用数据库连接池;

4、尽量提高批处理的commit size;

5、尽量使用缓存,缓存尽量大一些(主要是文本文件和数据流);

6、Kettle是Java做的,尽量用大一点的内存参数启动Kettle;

7、可以使用sql来做的一些操作尽量用sql;

Group , merge , stream lookup,split field这些操作都是比较慢的,想办法避免他们.,能用sql就用sql;

8、插入大量数据的时候尽量把索引删掉;

9、尽量避免使用update , delete操作,尤其是update,如果可以把update变成先delete, 后insert;

10、能使用truncate table的时候,就不要使用deleteall row这种类似sql合理的分区,如果删除操作是基于某一个分区的,就不要使用delete row这种方式(不管是deletesql还是delete步骤),直接把分区drop掉,再重新创建;

11、尽量缩小输入的数据集的大小(增量更新也是为了这个目的);

12、尽量使用数据库原生的方式装载文本文件(Oracle的sqlloader, mysql的bulk loader步骤)。

十五、安装

15.1 常规安装