CData Sync csvファイルのレプリケーション

[更新: 2025年8月21日]

本記事では、当社にて実施した検証の一部データを公開しております。ご参考としてご活用いただけますと幸いです。

1. はじめに

本記事は、CData Syncを用いたデータ抽出および加工の基本的な設定手順について解説いたします。

実際の検証データをもとに、設定例や操作手順をまとめております。

注釈

個別の要件定義や設計、開発・設定のサポートは、CData Syncのサービスには含まれませんのでご注意ください。


2. 検証環境の概要

2.1 検証条件

  • CData Syncバージョン: 25.1.9285.0

  • 仮想サーバーの構築や Windows Server OS の基本設定については、本記事では割愛いたします。

  • GUIは日本語表示で解説しております。

  • 解説に登場するデータベース情報は、前項をご参照ください。

  • カスタムクエリの例は参考用としてご提示しております。クエリの開発や設計はサービスに含まれておりませんのでご注意ください。

  • カスタムクエリのご利用により生じた損害については、直接的・間接的を問わず一切の責任を負いかねます。

注釈

Windows Server OS のグループポリシーやセキュリティ設定は、OS管理者が別途設定する必要があります。


3. CData Syncの概要と前提

CData Syncは、データベースやSaaSサービス、ファイルからデータを抽出・加工・転送できるETL/ELTツールです。

本記事では、CData Syncがインストール済みのWindows Server OSサーバー上で、サブスクリプションキーの設定が完了していることを前提に解説いたします。


4. csvファイルのレプリケーション手順

4.1 csvファイルをデータベース化

4.1.1 シナリオ概要

部署Uでは、各支店ごとに統一フォーマットのCSVファイルを作成し、ファイル保管を行っています。

同部署では以下の課題があり、暫定的な対応策について部署Dに相談し、一定期間は下記の対応を実施することとなりました。

  • 多くの支店で情報システム担当者が不在であるため、現時点ではCSVファイルによる運用を継続する。

  • CSVファイルは各支店で保管されており、バックアップの有無は支店の判断に委ねられている。→ レプリケーションにより統一的な複製を保持する。

  • 部署Uには情報システム担当者が在籍しており、毎月CSVファイルを操作し、統合したExcelファイルを作成している。→ 今後はデータベース操作を前提とする運用に変更する。

  • 今後、支店数が増加する可能性がある。→ ファイル指定ではなく、部署DのCData Syncサーバー内ローカルディレクトリへの保管指定に変更する。

上記シナリオを想定し、設定手順および結果を以下に記載いたします。


4.1.2 接続の追加

CSVファイルを接続するため、「接続の追加」を実施します。

分析用途の利便性も考慮し、「Aggregate Files」オプションを有効化します。

接続の追加 | 接続

接続の追加の画像

4.1.3 csvファイル

各支店からCSVファイルがローカルフォルダに保管されました。

ローカルフォルダのディレクトリ/ファイル

ローカルフォルダのディレクトリの画像 ローカルフォルダのファイルの画像 ローカルフォルダのファイルの画像

4.1.4 ジョブの追加

「test05」ジョブを作成し、ローカルフォルダ内のCSVファイルを「test04」データベースへレプリケーションするジョブを追加します。

ジョブの追加

ジョブの追加の画像

4.1.5 タスクの追加

ジョブを実行し、課題解決に資するようカラムの追加設定を行います。

タスクを追加

タスクを追加の画像

4.1.6 テーブル名の変更

分析用途に合わせ、部署Uからの要望に基づきテーブル名を「ReportFiles」へ変更しました。

この変更はカスタムクエリにより設定しています。

カスタムクエリ
REPLICATE [test04].[ReportFiles] SELECT * FROM [AggregatedFiles]

4.1.7 ジョブの設定

データベースには最新情報のみを保持する運用について、部署Uと合意済みです。

CSVファイルもデータ追加のみを前提とし、更新・削除は想定していないため、暫定的にテーブルデータを削除する設定としています。

レプリケートオプションの編集

レプリケートオプションの編集の画像

4.1.8 スケジュール設定

CSVファイルは毎日18時頃に集計・更新される予定です。

部署Uからはレプリケーションの実行時刻を19時以降とする要望があり、毎日23時に実行するスケジュールを設定しました。

スケジュールの編集

スケジュールの編集の画像

4.1.9 実行結果

手動実行時には、「test04」データベースにテーブルが新規作成され(初回のみ)、レプリケーションが実行されます。

ReportFilesテーブル

ReportFilesテーブルの画像

4.2 csvファイルの追加による実行結果

新たに支店「bird」が追加されたため、同支店のCSVファイルがローカルフォルダに追加されました。

フォーマットは従来と同一であり、変更点はローカルフォルダ内のファイル数のみです。


4.2.1 csvファイルの追加

bird支店からCSVファイルが保管されました。

ローカルフォルダ

ローカルフォルダの画像

4.2.2 手動実行結果

手動実行により、bird支店のファイルを含めたレプリケーションが実行されます。

ReportFilesテーブル

ReportFilesテーブルの画像