What is Data Fabric?
データがますます複雑化・分散化するにつれて、それに伴う課題に対応するための新しいデータ管理手法が登場しています。そのひとつが「データファブリック」と呼ばれる手法で、Gartnerはこれをトップトレンドのひとつに挙げています。 2021年のデータおよびアナリティクス分野における10のテクノロジートレンド.
データファブリックとは何か
データファブリックとは、組織内のすべてのデータ接続とデータソース、さらにそれらのデータ間に存在する関係性を包括する統合レイヤーです。単一のテクノロジーではなく、複数の異なるテクノロジーを活用する設計コンセプトであり、それらが同時に機能することで、すべてのデータを容易に検索できるようにします。データファブリックは組織全体のあらゆるデータの状況を把握しているため、事実上、あらゆる分析クエリに対応できます。
メタデータはデータファブリックの中核です。
データファブリックは、豊富なメタデータによって価値を最大限に引き出します。メタデータとは「データに関するデータ」のことで、データの内容や構造といった情報を指し、データライフサイクルのすべての段階において不可欠です。データファブリックにおいては、メタデータが相互運用可能なコンポーネントを接続するだけでなく、データファブリックの成功度合いを測る指標となり、改善すべき領域を示す役割を果たすことが期待されています。
そのため、データファブリックはGartnerが定義する2種類のメタデータ、「アクティブ」と「パッシブ」に依存しています。パッシブメタデータとは、データモデル、スキーマ、用語集など、あらかじめ定められた用途のために設計されたメタデータであり、ログや監査情報などの実行時メタデータも含まれます。一方、アクティブメタデータはAIによって駆動されます。データファブリックにおいては、このアクティブメタデータがデータファブリック設計の継続的な改善を推進する原動力となります。
Gartnerは、データファブリックは可能な限りパッシブメタデータをアクティブメタデータへ変換すべきだと推奨しています。これは、「利用可能なメタデータを継続的に分析して主要な指標や統計情報を抽出し、グラフモデルを構築する」ことや、「主要なメタデータ指標を活用して、時間とともに学習し、データ管理や統合に関する高度な予測を生成するAI/MLアルゴリズムを実現する」といった形で表れます。いずれの場合も、メタデータは組織全体でのデータ流通を改善するうえで、能動的な役割を果たします。
データファブリックにおいてメタデータは極めて重要な役割を担うため、テクノロジー選定の際には、メタデータが重要な判断基準となるべきです。組織は、成功するデータファブリックを構築するために、オープンAPIやオープンスタンダードを用いてメタデータを共有できるテクノロジーを優先すべきです。
なぜデータファブリックが必要なのですか?
データファブリックの目的が、検索性とアクセシビリティを高めるためにデータを統合することであるならば、なぜ組織はデータファブリックではなく、データレイクやデータウェアハウスを使ってすべてのデータを統合できないのか、疑問に思うかもしれません。まず前提として、データファブリックと他の一般的なデータリポジトリは相互に排他的なものではなく、実際にはそれらと併用することでデータファブリックは最も効果を発揮します。
しかし実際のところ、組織が単一の集中型ストレージに依存することを前提とするのは現実的ではありません。多くの組織では、複数のパブリッククラウドを併用していたり、オンプレミスとクラウドストレージを組み合わせて利用しています。さらに、組織はソーシャルメディアやIoTなど、さまざまなデータソースからデータを取り込んでいます。
これまで、多数のデータストレージやアクセスポイントをまとめるために用いられてきた他のソリューションは、十分な成果を上げられていませんでした。組織はポイントツーポイントの統合を試みてきましたが、新たな統合が追加されるたびに多大なコストと保守作業が発生し、拡張性にも乏しいものでした。また、データハブもこの課題を解決しようとした別のアーキテクチャソリューションですが、データ品質が低下するリスクを高めてしまうケースが多くありました。
データファブリックの利点
データファブリックの利点は、組織のほぼすべての領域に波及し、主に3つのカテゴリーに分類されます。
- セルフサービスによるデータアクセスとインサイトの向上
これは、おそらくデータファブリックの中で最も具体的な利点です。データファブリックは、データ統合を強化し、組織がより大量のデータを日常的に一括分析できるようにすることで、新たな、より頻繁な分析インサイトを得られる可能性を大幅に高めます。さらに、データファブリックにより、ビジネス部門はデータ探索のための単一のアクセスポイントを利用できるようになり、複数のデータサイロからデータを収集するために IT 部門へ依頼する必要がなくなります。ビジネスユーザーが必要なデータを自ら見つけられるようになることで、組織全体でさらなるイノベーションや新たな分析プロジェクトが促進され、その経済的効果は非常に大きなものとなります。 - 自動化されたガバナンス
データファブリックの一部として、データガバナンスレイヤーが組み込まれており、すべてのデータアクセスポイントに一貫して適用されます。その結果、組織は信頼性とデータの透明性を高めることができ、組織全体にわたってデータポリシーを自動的に適用できるようになります。AIの成熟度に応じて、組織は特定の文書やポリシーで使用されている言語に基づいて、データファブリックを用いてデータガバナンスを自動適用することも可能です。これにより、組織はわずか数分でコンプライアンスを証明し、将来的に発生し得る多額の罰金を回避することができます。 - データエンジニアリングタスクの自動化
従来のエンドツーエンドのデータ統合や手作業によるデータパイプラインの監視とは異なり、データファブリックは大部分を自律的に動作し、作成や保守が必要なコードは存在しません。これにより、データエンジニアの貴重な時間を大幅に節約できるだけでなく、コーディングに伴って避けられない人為的ミスも排除できます。メタデータを活用することで、データファブリックはデータ統合を自動的に最適化し、データ配信の改善に加えて、ワークロードのバランシングやエラスティックなスケーリングも実現します。さらに、データファブリックは組織固有のニーズに応じてデータディスカバリータスクの自動化も支援し、データアセットが価値を生み出すまでの時間を短縮します。要するに、データファブリックはデータエンジニアリングに必要な作業の多くを軽減します。
データファブリックの主な構成要素
前述のとおり、データファブリックは単一のテクノロジーではなく、複数のテクノロジーを組み合わせたものです。メタデータを基盤となるスレッドとして活用することで、これらのテクノロジーは、Garterが定義する特定の機能要件を満たす必要があります。
- データカタログ
データカタログは、データファブリックにおいて極めて重要な構成要素です。組織があらゆる種類のメタデータにアクセスし、それらを可視化できるようにするとともに、すべてのデータアセットのインベントリとして機能します。そのため、データカタログは、データを異なる環境間で共有するために必要な、適切なメタデータのコンテキストをデータに付与する役割を果たします。また、データカタログは、特定のデータタイプに対してメタデータを自動的に付加したり、特定のメタデータを抽出して保存したりすることも可能にします。 - ナレッジグラフ
ナレッジグラフは、データファブリックに意味づけを与える要素です。ナレッジグラフは、組織全体におけるデータの利用状況に関するセマンティクスを付加することで、アナリティクスリーダーがデータを容易に解釈できるようにします。ナレッジグラフを活用することで、組織は複数のデータリポジトリにまたがる関係性をより的確に把握でき、それらをAI/MLアルゴリズムに取り込み、データモデルの構築に活用することができます。 - アクティブメタデータ管理テクノロジー
アクティブメタデータ管理テクノロジーは、アクティブメタデータによって導き出されるデータファブリックへの改善提案を可視化するうえで不可欠です。これにより、データエンジニアリングによる継続的な手動修正を行うことなく、データファブリックを自動的かつ継続的に改善することが可能になります。 - データ準備と配信レイヤー
データファブリックにおけるデータ準備および配信レイヤーは、ユーザーがデータを利用可能な状態にするための領域です。このレイヤーに選定されるテクノロジーは、IT部門のユーザーだけでなく、あらゆるタイプのユーザーが利用できるものであることが重要です。特にビジネスユーザーは、データ準備を推進するうえで重要な役割を担うべき存在であり、業務に根ざした独自の文脈を持つからこそ、データを最適に変換し、アナリティクスに活用することができます。これを実現するために、組織はETLではなく、ELTのアプローチを採用すべきです。これにより、生データを抽出して各リポジトリにロードした後にデータ変換を行うことが可能となり、ユーザーはデータをどのように変換するかをより主体的に判断できるようになります。このようなELTスタイルと、ユーザーフレンドリーなデータ準備を実現できるデータエンジニアリングプラットフォームを選定することは、データファブリックの構築を目指す組織にとって最優先事項であるべきです。 - オーケストレーションとDataOps
データをある場所から別の場所へ、継続的かつタイムリーに流通させるためには、適切なプロセスやスケジューリングが必要です。それを担うのが、データファブリックにおけるオーケストレーションとDataOpsレイヤーです。多くの場合、これらの機能はシームレスなデータ準備に不可欠であるため、データ準備やデータエンジニアリングプラットフォームに組み込まれています。組織は、タイムリーで最新のデータが常に提供されるよう、日常的なデータ準備パイプラインの多くを「設定したらあとは任せる」形で運用できるべきです。
Trifacta の始め方
データファブリックへの取り組みを始めることは不安に感じられるかもしれませんが、多くの場合、すでに良い出発点があります。それが ELT プロセスです。これらのプロセスを通じて、これまでデータ統合作業の大部分を担ってきたはずであり、そこからプロセスの調整(ELT スタイルへの移行など)を行い、メタデータ、ガバナンス、データ準備といった不足部分を補うために必要なテクノロジーを追加していくことができます。
次のステップは、豊富なメタデータを伴ったデータをコアに継続的に追加していくことです。これは、データファブリックを本格的に構築していくための重要な段階です。アクティブメタデータや機械学習モデルは、より大きな取り組みが必要となる領域かもしれませんが、焦らず進めることが重要です。一度に多くを抱え込むよりも、小さく始めて、時間をかけてデータファブリックを育てていく方が望ましいでしょう。
確かなことがひとつあります。Gartnerがデータファブリックを2021年のトレンドのひとつに挙げたのには理由があります。この手法は多くの課題を解決し、今後さらに普及していくと考えられます。