はじめに
今回の記事は、OCI Data Integrationのパイプラインを利用して、2つの対象データ・ソースを1つのCSVファイルとして統合した後に、そのCSVファイル名に統合した日付を動的に命名できるように設定をしてみたいと思います。
パイプラインとは
パイプラインは、データ処理を円滑に進めるために、タスクとアクティビティを順番に並べたり、同時に進めたりする設計上の手段です。
これにより、特定のプロセスを始めて終わるまでの一連のステップをスムーズに管理できます。
以下の内容については、Oracle社の公式ページから引用させて頂いております。
パイプラインは、データ統合でタスクおよびアクティビティを1つ以上のシーケンスで接続したり、開始から終了、データ処理をオーケストレーションするために並行して接続するための設計時リソースです。
引用元:Oracle Cloud Infrastructureドキュメント パイプラインとは
本記事の前提条件
- すでにData Integrationの構築をしている状態
- データ・フローの作成はしている
CSVファイルとデータ・フローの確認
本記事で使用するデータ・ソースは、以下の2つのCSVファイルとデータ・フローを作成し、用意しています。
【CSVファイル】
- EMPLOYEE_TABLE.csvファイル(従業員テーブル)
- JOB_TABLE.csvファイル(JOBテーブル)
統合タスクの作成
パイプラインで連携するために、作成したデータ・フローに対して、
統合タスクの作成をしていきます。
プロジェクトの「詳細」直下にある「タスク」を選択して、
「タスクの作成」を押下します。タイプは、「統合」を選択します。
次に、画面直下の「データ・フロー」 > 「編集」を押下し、作成した
データ・フローを選択します。
パイプラインの作成
CSVファイルのファイル名に、統合した日付を命名するためのパイプラインを作成していきます。
まずは。プロジェクトの「詳細」直下にある「パイプライン」を選択して、「パイプラインの作成」を押下します。
ビジュアル・エディタが開いたら、最初に画面左側にある「演算子アイコン」の「式」のアイコンを、ビジュアル・エディタにドラッグアンドドロップします。
続いて、「式」のアイコンから「式の編集」をクリックし、式ビルダーに以下の関数を設定します。
DATE_FORMAT(CURRENT_TIMESTAMP,’%Y%m%d%H%M%S’) || ‘_Test’ || ‘.csv’
上記の関数を設定することで、統合した日付の命名がファイル名に作成されます。
※今回は、統合したファイルの日付_Test.csvというファイル名にしています。
最後に、「統合」アイコンをドラッグアンドドラップして、以下のスクリーンショット通りに繋げます。
パイプラインタスクの作成
統合タスクの作成と同様に、作成したパイプラインのタスクの作成をしていきます。
プロジェクトの「詳細」直下にある「タスク」を選択して、
「タスクの作成」を押下します。タイプは、「パイプライン」を選択します。
次に、「パイプラインの選択」では、作成したパイプラインにチェックをつけます。
アプリケーションへの公開
「統合タスク」と「パイプラインタスク」をアプリケーションへ公開します。
以下のスクリーンショット通り、作成した各タスクを「アプリケーションに公開」を順次選択し、押下します。
【タスクの実行とファイル名の確認】
アプリケーションへ公開した「パイプラインタスク」を選択して、
「実行」を押下してみます。
出力先をオブジェクトストレージにしているので、出力先のバケットを確認すると、以下のスクリーンショット通り、統合した日付_Test.csvとして、出力されているのが確認できました。
まとめ
ここでは、OCI Data Integrationのパイプラインで動的ファイル名を生成し、
タスクが実行されるたびに新しいターゲット・ファイルを作成することができました。
これをスケジュールして定期的に実行してみてはどうでしょうか。