2013/09/17

[TOSDI]Talend Open Studio for Data Integration

最近この表題のETLツールを色々いじっているんですが、自分なりに理解できてきたところがあるので折角なので記事にしようと思いました。

と、その前にこのアプリがなんなのかを紹介したいと思います。
今回はアプリの紹介だけのエントリになります。

.

前提として「ETLツール」をご存じない方がいるかもしれないのでまずETLツールとは何かを紹介しますね。
ちょっと手抜きをしてWikipediaからかなり引用します。

ETLとは

Extract/Transform/Load(略称:ETL)とは、データウェアハウスにおける以下のような工程を指す。
Extract
外部の情報源からデータを抽出
Transform
抽出したデータをビジネスでの必要に応じて変換・加工
Load
最終的ターゲット(すなわちデータウェアハウス)に変換・加工済みのデータをロード
Wikipedia: http://ja.wikipedia.org/wiki/Extract/Transform/Load より引用

「データウェアハウス」前提で書いてありますが、もともとの成り立ちはDWH向けに作られたのは事実でしょうけれど、ほとんどの製品は必ずしもDWHでしか使わないものではないと思います。

ETLツール

つまりETLツールとは上記ETLを実行できるツールのことを指すということになります。
ETLシステムはほとんどどんなプログラミング言語でも作成できるが、一から作るのは非常に大変である。このためETLツールを購入する企業が増えている。
確立されたETLフレームワークを使うことで、コネクティビティとスケーラビリティが向上する。よいETLツールは様々な関係データベースを扱え、様々なファイルフォーマットを扱える。ETLツールは、企業アプリケーション統合やエンタープライズ・サービス・バスに統合され始めており、システムは全体として Extract/Transform/Load 以上の機能をカバーするようになりつつある。ETL製品は、データプロファイリング、データ品質、メタデータ機能などを含むようになっている。
Wikipedia: http://ja.wikipedia.org/wiki/Extract/Transform/Load より引用
簡単に言うと、「ETLツールとはETLを簡単にできるようになるもので、ETL以外の便利機能が付いているものが増えてるよ」ということです。
(引用した文の中にETLツール、ETLシステム、ETLフレームワーク、ETL製品などと言葉が濫立していて、どういう区分けで言葉遣いを変えているのかは私ははっきりはわかりませんが、ETL製品=有償ソフトウェアという意味で使っているようです。)
あえて付け加えて言うと、「多くのETLツールがGUIを備えていて、データの流れが視覚的にわかりやすくなる」と言う点が大事だと思っています。

そして「Talend Open Studio for Data Integration」の名前もこのページに「オープンソースのETLフレームワーク」のひとつとして紹介されています。

Talend製品群

「Talend Open Studio for Data Integration」がこんなに長い名前であるのにはわけがあります。

まず、「Talend Open Studio for Data Integration」はフランスのTalend社の製品の一つです。
(私は製品=有償ソフトウェアという意味で使いません。)
Talend社は「ETLツール」だけでなく「データ品質管理」「マスタデータ管理」など複数の製品を作っており、それらを組み合わせることで企業のデータ管理の統合ソリューションを成立させようとしています。
他にどんなソフトウェアがあるかはTalend社のサイトを見ていただければと思います。
(日本法人もあり、サイトの大部分は日本語化されています。)
http://jp.talend.com/

そしてTalend社は大部分のソフトウェアについて、有償版と無償版を提供していて、これら製品群の中で無償版のものに「Talend Open Studio for ~」の名前をつけています。(有償版のものは「Talend Enterprise ~」または「Platform for ~」)

有償版と無償版の違いはほとんどの場合「追加機能の有無」と「サポートの有無」だと思われます。
有償版のお値段はサイト上で公開されていませんので、どこか取り扱いのある国内代理店さんにお問い合わせいただければと思います。
(私も見積をもらったことがありますが、単品ではビックリするほどの値段ではありませんでした。もちろん個人で払える値段ではありませんが。)

(遠回りしましたが)Talend社の製品群の中で無償のETLツールが「Talend Open Studio for Data Integration」です。
製品公式ページは以下のURLです。有償版と無償版の違いもここに書かれています。
http://jp.talend.com/products/data-integration

Talend Open Studio for Data Integration

さて、いよいよ本題です。といっても言いたいことは残りわずかです。
以下略してTOSDIと書きます。

TOSDIはEclipseベースで作られていて、つまりJavaで動きます。
ほとんどの主要OS(Linux、MacOSX、Windows)で動き、ほとんどの主要DBMSと接続できます。
(ただし、有償版でないと接続できないものも一部ある模様)
また、DBMSだけでなくCSVやExcelなどのファイルもデータソース、ロード先として利用できます。
日本語版があり、大部分が日本語化されています。

必要スキル

TOSDIを扱うにあたって最低限必要なスキルは利用するDBMSに関する基礎知識です。
当然SQL文は理解/記述できたほうが有利です。

基本的な作業はGUIで出来るのでプログラミングの知識は不要ですが、パーツにJavaのコードを埋め込むことでより高度なデータ操作を行うことができます。
GUIで組み立てた一連の(ジョブと呼ぶ)流れは、当然内部的にJavaのコードが生成されているのですが、これも作成中いつでも参照することができます。
エラーはJavaのエラーや例外で出力されます。

つまり何がいいたいかというと、このツールを使いこなすには「SQLだけでなくJavaの知識があったほうがいい」ということです。


今回はここまで。
次回は紹介の続きで、「基本的な作業はGUIで出来る」っていうのを動画を交えて紹介しようと思います。


Talend Open Studio for Data Integration関連エントリまとめ

.

0 件のコメント:

コメントを投稿