文档详情

kettle4.2.0基础教程

小**
实名认证
店铺
DOC
684.50KB
约11页
文档ID:97988451
kettle4.2.0基础教程_第1页
1/11

kettle4.2.0探索1.Kettle介绍1.1. 什么是kettleKettle也叫PDI,在2006年Kettle加入了开源的BI组织Pentaho,正式命名为PDI,英文全称为PentahoDataIntegerationKettle是“KettleE.T.T.L.Environment只取首字母的缩写,这意味着它被设计用来帮助你实现你的ETTL需要:抽取、转换、装入和加载数据;翻译成中文名称应该叫水壶,名字的起源正如该项目的主程序员MATT在一个论坛里说的哪样:希望把各种数据放到一个壶里然后以一种指定的格式流出Spoon是一个图形用户界面,它允许你运行转换或者任务,其中转换是用Pan工具来运行,任务是用Kitchen来运行Pan是一个数据转换引擎,它可以执行很多功能,例如:从不同的数据源读取、操作和写入数据Kitchen是一个可以运行利用XML或数据资源库描述的任务通常任务是在规定的时间间隔内用批处理的模式自动运行1.2. Kettle的安装要运行kettle工具必须安装Sun公司的JAVA运行环境,kettle4.2.0需要运行java1.6或者更高版本,Kettle的下载可以到http://kettle.pentaho.org/取得最新版本。

kettle不需要安装,安装好java环境后,在操作系统环境变量path中配置jre路径,把kettle工具压缩包解压后可直接使用1.3. 运行Spoon下面是在不同的平台上运行Spoon所支持的脚本:Spoon.bat:在windows平台运行SpoonSpoon.sh:在Linux、AppleOSX、Solaris平台运行Spoon1.4. 资源库资源库是用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在资源库中资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称资源库有两种形式:一、Kettledatabaserepository,即保存在各种常见的数据库资源库类型,用户通过用户名/密码来访问资源库中的资源,默认的用户名/密码是admin/admin和guest/guest二、Kettlefilerepository,保存在服务器硬盘文件夹内的资源库类型,此类型的资源库无需用户进行登录,直接进行操作当然,资源库并不是必须的,如果没有资源库,用户还可以把转换任务保存在xml文件中为了方便管理,建议用户建立并使用数据库类型资源库Kettledatabaserepository。

乜温馨提示:一、在删除资源库中单个内容时,不会提示“是否确定需要删除”,需要特别注意二、win7系统下,“Kettlefilerepository”类型资源库创建文件夹后,无法删除文件夹,不确定是Kettle工具本身的bug或者是在win7操作系统下的bug三、“Kettledatabaserepository”类型资源库虽然有需要用户和密码进行登录,但目前还没有相应的权限控制1.5.资源库的创建点击新建选择数据库类型资源库Kettledatabaserepository,点击“确定”在“资源信息库”窗口中,点击“新建”按钮,新建一个数据库连接在“DatabaseConnection”窗口,选择数据库类型,并填写数据库连接的相关信息,本实例选用oracle数据库匸]databaseConnectionGeneralAdvancedOptionsPooling匚lusteringConnectiDnName:Co-nneDtionType-;NeoviewINetezzaGradeOracleROEPaloMOLAPSeirvEtrPoEtgreEQLRemedyActionRequestSystemSAPERPSystemSQLiteSyb酣©SybsselQTeradataUniverse-databaseV&irticaAccess:Native(JDBQODBCOCTJINDITestSettings-HostNameslocalhos^Datab呂Name:orciTables-paceforDataTablespaceforIndicesPortNumber:1521UwrName:keitlePasEword:**-*±**-挣正剌丢Cancel点击test按钮进行数据库连接测试UDatabaseConnectionGener;aAdvancedOptionsPeelingClusteringConnectionName:oracleIkctiluresourceConnectionType:INeoviev/NetezzaOracleOracleRDBPaloMOLAPSerirver匚4寸门2乙门I⑥DatabaseConnectionTestSettirgsHostNam&!:IocaIhostDatabaseName:lESfe奁按封数毎.车[c:rsde_lkettle_re5ource]主机名:Iocalhost端口:1521数垢耳药“7aceforDatapaceforFnclicesumber:lam?:4>4>4>ODB匚OCIJNDIJ355v/crd:******4>Cancel数据库连接正确后,点击“确定”,再点击“OK”回到“资源库信息窗口”,点击“创建或更新”按钮%ProgressInfo「martionDryrun?Doyouwanttodo-adryruntoevaluatethegeneratedSQLbeforeexecution?%%在弹出的“简单SQL编辑器”窗口中,点击“执行”按钮,执行相应的资源库创建脚本。

用户可以查看这些脚本具体是进行了什么操作:创建了42张表,并插入了一些相关信息数据,如R_USER表里插入了admin和guest两个用户的信息,这两个用户也是该资源库的登录用户,想深入研究资源库的用户可以并一步去了解相关内容)苣年说l诜長詰.口対丁以丫另割旳SQL歸——Repositoryzsreatinn-^upgTadsDDL:——N口thingwasexeat-Ednornodifledinthetargetrepzisit-口咛databasE.—KittheOHbuttontoexecn.itcthegeneratedSQLorClosetoreqectt-hcchanges.——Pleasenotethat,itispossibletochange/edit.thegeneratedSQIbeforeeKecutionCREATETAEHER_REP3GIT0RY_L0G'ID_REPOE-ITOR¥_LCGINTEGER.REP_7EE5I0NViRCHAE?2(255).LOG_DftTEDATE.LOGlUSEE?VAR3HAR2(2Ebl.OPmATIDN_DESCCIOB..PRIMARYKEY(rD_REPOEITORV_IOG:|CREATETAELLER_7ERSIUN|4时|卜friFJo%%在弹出“SQL语句运行结果”窗口,点击“确定”按钮SQL语旬返回下面运行结果执彳亍的SQL:匚REATETABLER_REFOSITORY_LOG丿ID_REPOSITORY_LOGINTEGER,REP_VERSIONVARCHAR2C255),LOG_DATEDATE.LOG_UEERVAR01^122(255).0PER4TI0N_DESCCLOB”PRIMARYKEY(ID_REPOSITORY_LOG)执彳〒的SQL:CREATETABLER_VERSIONID_VERSIONINTEGER,MAJOR_VERSIONINTEGER.MINOR_VERSIONINTEGER.UPGR4DE_DATEDATE,IS_UPGRADECHAR(L).PRIMARYKEY(ID_VERSION)k行的SQL;INSERTINTOR_VERSION(ID_VERSION,MAJOR_VERSION,拔彳亍的SQL:CREATETABLER_DATABASE_TYPE,rrrL°1分削的£QL瓏幻1丁列DCFESTETABLEINVERSION再点击“关闭”按钮,关闭“简单SQL编辑器”窗口ID_E?EFOSITOE?_DOGINTEGERREP_TEHSICINVARCHAE2(255)KlG^DATEDATEKiGlUSERVftECHARZ(255)C(PEFAriC(N_DEECCLC'EPRIHARY(ID_REPOGITOR7_LOG)ID_9ERGI0NINTEGERuxTrvotrir口匸TAkTtut*口厂口~d-MT-在“资源库信息”窗口,填写资源库的ID和名称,然后点击“确定”按钮。

—温馨提示:建议使用英名,因为使用中文容易出现乱码,而使得退出后,下次登录资源库时无法找到相应的配置,遇到此类情况,可根据下一章节“资源库名称乱码问题解决方法”进行相关修改设置O赍源库信息删陰选拦数曲库凌orade_kettle_reisourcereserve备付金諭创建或更新取^口在“资源库连接RepositoryConnection”窗口,选择刚才创建的资源库“备付金系统”,填写用户名和密码,新建的资源库的默认用户和密码有两个,admin/admin和guest/guest,然后点击“确定OK”按钮,即可登录资源库ORepoEitoryCcrnectionRepository:JOS団G-howthi&dialogatstartupOKCancel为了资源库的安全,我们需要修改资源库用户的登录密码,“Tools”弓“资源库”弓“探索资源库”,可以使用快捷键CTRL+E文眸[E镰辑视图Action||1°血[1厂固旦覘Database卜r直抹聞/核6对頷T舖库卜1CTRL-R浏览器向导rw)卜CTRLDCTRLE冏转摂3^(0)...JobsClearSharedCbjectCacheExportRepository...ImportRepository...在资源库探索“Repositoryexplorer”窗口,选择“Security”选项卡,然后选择需要修改的用户再点击编辑按钮填写新密码,然后点击“OK”按钮即可完成用户密码的修改1.6.资源库名称乱码问题解决方法如果在创建资源库时,名称使用的是中文,容易出现乱码或者出现异常报错等情况情况一、乱码j]Reposito-ryCornectionRepository:z@Gfile_ll*土严呼1UserName:adminPassword:1団G-howthisdialogstEtartupOK匚目ntmlQError[1=11回UnexpectederrorreadingrepositorydeiinitionsErr&rreadinginfarmati-onfromfile:nInvalidByte1of1-byteUTF-8s^equen匚已卜|艇◎「砂D)RepositoryConnection[童4Repository:/Q冒显示資UserNam-e:adminPas-sword:[解决方法:根据以下路径“c:\DocumentsandSettings\\.kettle\repositories.xm”文件,打开后找到乱码内容,如下图所示,把乱码删除后修改成中文即可。

1.7.运行日志转换运行日志有4张表,JOB日志有3张表,可根据需要设置自己所需日志表和表字段,这些表的表名称和表字段可以根据需要进行修改,为了统一管理,建议把表名称和表字段固日志类型日志表名称日志内容转换转换的各个步骤执行结果转换转换的性能日志转换转换的各个渠道执行结果转换转换的执行结果的接口执行结果的各个渠道执行结果的执行结果1.7.1.转换运行日志打开转换,设置转换运行日志,方法有三种一、编辑—设置—日志二、右键T转换设置T日志三、快捷键CTRL+TT日志1・7・2・JOB运行日志打开JOB,设置JOB运行日志,方法有三种一、编辑—设置—日志二、右键T作业设置T日志三、快捷键CTRL+JT日志。

下载提示
相关文档
正为您匹配相似的精品文档