BLOG
PagerDutyとDataOps:より良いデータで組織の意思決定を改善することを可能にします。

投稿:2022年10月26日   |    更新:2022年10月31日

はじめに

多くの企業で業務のデジタル化が進んでおり、その大半はクラウドに移行しています。 この変革に伴い、データチームはこれまで以上に大規模で複雑なデータセットを分析し、下流のチームが日常的により迅速かつ正確な意思決定を行えるようにしなければならなくなりました。その結果、ほとんどの組織では、顧客データ、製品データ、利用データ、広告データ、財務データなどを扱う必要があります。これらのデータセットは、構造化されているものもあれば、半構造化されているものもあり、また非構造化されているものもあります。要するに、様々なタイプのデータが、複数のソースから無限に、しかも高速に到着しているのだ。

このようなビッグデータの量、速度、多様性(一般に3Vと呼ばれる)の増大により、データライフサイクルの管理に対する従来のアプローチでは不十分となり始めたのです。同時に、2000年代前半の終わりごろから、ソフトウェア開発チームは、ソフトウェア開発ライフサイクルにアジャイル手法を採用しはじめました。これらの方法論は、DevOps(DevelopmentとOperationsの合成語)として知られるようになりました。 次の図は、DevOpsのプロセスを高いレベルで示しています。

DevOps3.svg

デブオプスプロセス

一方、データの専門家は、隣のソフトウェア開発の同僚を見習い、DevOpsの方法論と概念を自分たちの複雑なデータ環境に適用し始めました。 これが、DataOpsのアプローチをもたらしたのです。

では、DataOpsとは何でしょうか?

DataOpsは、ソフトウェアおよびデータエンジニアリング、品質保証、インフラストラクチャの運用を単一の軽快な組織に統合するプラクティスです。DataOpsは、組織がデータアプリケーションを開発・展開する方法を最適化します。プロセスの進化、組織の連携、複数のテクノロジーを活用し、データの作成、移動、変換、消費に関わるすべての人(開発者、データエンジニア、データサイエンティスト、アナリスト、ビジネスユーザー)が関係を構築できるようにします。DataOpsは、コラボレーションを促進し、サイロを取り除き、より良いビジネス上の意思決定を行うために組織全体でデータを使用する能力をチームに提供します。全体として、DataOpsは、チームがデータを収集して準備し、分析し、完全なデータセットからより迅速かつ正確な意思決定を行えるようにします。また、DataOpsは、データの品質を監視することで、データのダウンタイムや障害を低減します。

DataOpsは、組織のデータ環境に共通するさまざまな課題に対応します。その中には、以下のようなものがあります。

  1. サイロを取り払い、チーム間のコラボレーションを促進する。 データエンジニア、サイエンティスト、アナリストが協力しなければならない。 文化的な大転換が必要です。企業は、社員がデータドリブンのアイデアで迅速に反復することを認める必要があります。
  2. 効率性と俊敏性の向上 - チーム間のコミュニケーションとコラボレーションを強化し、自動化を利用することで、バグや不具合への対応を劇的に減らすことができます。
  3. データの品質を向上させる。 DataOpsは、データ専門家がデータを自動的にフォーマットする機能を提供し、複数のデータソースを使用して、チームがデータを分析し、より良い意思決定を行うのを支援します。
  4. データチームがデータ品質を監視しているため、データのダウンタイムや障害が発生しない。
データ観測可能性とは?

「データ観測性」は、複数のツールやデータライフサイクル全体にわたって、組織のデータの健全性を監視・管理するためのツールや手法を提供します。データ観測性によって、組織は、問題がビジネスユーザーに影響を与える前に、リアルタイムで積極的に問題を修正することができます。

Data ObservabilityとDataOpsの関係とは?

データ観測可能性は、DataOpsを可能にするフレームワークです。 DataOpsチームは、アジャイルアプローチを使用して、エンタープライズデータからビジネス価値を引き出します。しかし、誤ったデータや不正確なデータに問題があると、特に問題(別名:データダウンタイム)がビジネスに影響を与える前に検出されない場合、深刻な問題が発生する可能性があります。幸いなことに、AIを活用したデータ観測機能により、組織はデータダウンタイムを検出、解決、防止することができます。

Data Observabilityツールは、データに関するものである。鮮度、統計的分布、ボリューム、スキーマ、そして系統。 データ観測ツールの正しい使用は、より質の高いデータ、信頼性の向上、そして運用面でより成熟した環境をもたらす。

DataOpsのステークホルダーは誰ですか?

確かに、組織内のすべての部門間の関係を構築する強力な中央データチームを構築することは、データ運用の成熟度を達成するための重要な要因です。データチームは通常、最も関連性の高いデータセットを公開し、意思決定、分析、およびデータモデルが単一の真実の源から行われるようにします。一方、データアナリストやビジネス部門のユーザーは、質問をしたりデータから答えを引き出したりして、これらのデータセットを利用します。注意深く意図的に役割と責任を定義することは、組織が矛盾、重複、非効率を避けるのに役立ちます。

データオプス ペルソナ

ここでは、データのライフサイクルに関わる最も一般的なプロフィール(別名:ペルソナ)を紹介します。

  • データエンジニア。 データエンジニアは、データを収集し、パイプラインを構築してソースシステムからデータストアに取り込み、アナリストやデータサイエンティストがデータにアクセスできるようにする役割を担っています。データのクレンジングと変換を行い、コアデータセットを公開します。クリーンで精選され、必要な人がアクセスできるデータをタイムリーに提供するのが、ERPの役割です。最も伝統的なデータ環境では、ETL(Extraction, Transformation, and Loading)の頭文字をとってETLと呼ばれます。
  • データサイエンティスト。 統計学の知識を応用し、予測・処方モデルを構築します。統計学以外にも、データマイニング、機械学習、深層学習などの専門家であることが多い。例えば、金融業界では、数学に強いことから、伝統的に「クオンツ」と呼ばれています。
  • データアナリスト/ビジネスアナリスト。 データの専門家で、通常、事業部門または機能部門(販売、マーケティングなど)に所属しています。 組織の運営方法、戦略目標、データが必要な場所や方法などに精通している。 ビジネス上の質問をデータクエリに変換します。 エグゼクティブが目標を達成するために必要な情報や主要な指標を深く理解しています。フロントエンドBI(ビジネスインテリジェンス)ツールのエキスパートです。
  • データプラットフォーム管理者。 インフラが正常に動作し、十分な容量があり、インフラに依存しているすべての部門に高品質のサービスを提供できるように管理する。トランザクション・データベース、データウェアハウス、データレイク、BIツールなどを担当する。さらに、アクセスポリシーの策定、インフラストラクチャの管理、ライセンスコストの管理も行います。
  • Line of Business データ消費者。 データの最終的な利用者であり、通常、意思決定のためにデータを使用する。BIツールに依存し、データの内容に基づいて行動を起こす責任がある。例えば、営業リーダーは、営業活動に基づいて、特定の地域にもっと投資することを決定するかもしれない。マーケティング・マネジャーは、ROI指標に基づいて、特定のタイプのキャンペーンにキャンペーン資金を割り当てることを決定するかもしれない。
  • チーフ・データ・オフィサー。 データチーム全体の運営を監督する。通常、CEO、CTO、場合によってはCIOにレポートする。

DataOps_Roles_at_PagerDuty.svg

PagerDutyのDataOpsプロセスにおけるステークホルダーたち

上の図は、PagerDutyのDataOpsプロセスにおいて、ステークホルダーを従来の責任範囲に配置したものです。 間違いなく、組織によって重なる部分は様々でしょう。

PagerDutyのDataOps

PagerDutyでは、PagerDutyと数少ないテクノロジーパートナーを活用したDataOpsの実践を行いました。PagerDutyとDataOpsの原則を適用することで、私たちは以下のことを実現しました。

  • 複数のデータウェアハウスから単一のデータウェアハウスに移行し、MuleSoft、Segment、Fivetran、Kafka、Sparkパイプラインからのデータセットを単一のソースオブトゥルースに統合することができます。
  • 自動化とデータテクノロジーのパートナーシップを活用することで、複数のデータワークロードから得られるデータのSLAを満たすことができます。
  • Observability を活用して、ユーザーが知る前にデータを検出し、解決し、インシデントを予防することができます。
  • データチームのフォーカスを、管理業務からデータ駆動型の洞察とデータサイエンスにシフトする。
  • データ利用事例の急増に対応するため、データ環境の将来性を高める。 BIから新しい人工知能(AI)アプリケーションまで、複数の部署に所属する400人以上の社内ユーザーと数千人の顧客からの要求に対応するためです。

DataOps_at_PagerDuty.svg

PagerDutyにおけるDataOpsの環境

上の図は、私たちのDataOps環境を構成する主要なコンポーネントのいくつかを描いたものです。 各組織のデータニーズやデータ環境はそれぞれ異なりますが、私たちの問題やアーキテクチャがそれほどユニークでないことはお分かりいただけるでしょう(複数のデータウェアハウス、複数のETLツール、厳しいSLA、データセットに対する膨大な要求)。おそらく皆さんは、すでにご自身のデータ環境とアーキテクチャの類似点や、共有されている高レベルの問題をいくつか発見していることでしょう。

PagerDutyはDataOps環境でも活用できます。

PagerDutyデジタルオペレーションプラットフォームは、データの問題が発生するとすぐにデータチームと下流のデータユーザーや消費者に警告を発し、データのダウンタイムを防ぎます。現在公開されている6つのDataOpsまたはデータ関連の統合をエコシステム内で発表できることを嬉しく思います。これらのテクノロジーパートナーは、組織全体におけるデータパイプラインとデータ品質の問題を解決します。 コラボレーションを改善し、摩擦を減らし、アライメントを改善することでデータの失敗を減らします。

- Monte Carlo: エンド・トゥ・エンドのデータ観測性を提供し、データのダウンタイムを事前に解決します。

  • Lightup : 企業がクラウドスケールで優れたデータ品質を達成できるよう支援します。
  • アリゼ : 機械学習(ML)モデルの問題を監視し、トラブルシューティングし、解決するための観測可能なプラットフォームです。
  • WhyLabs: データおよびモデルの監視を提供することで、コストのかかるAIの失敗を防止します。
  • Prefect: リアルタイムアラートによるデータパイプラインの構築と監視
  • アストロノマー パイプラインのリアルタイムデータ監視により、データのダウンタイムを削減します。

PagerDuty_DataOps_Partners.svg

PagerDuty DataOpsエコシステム

最も重要なことは、これらの新しいDataOpsとPagerDutyの統合は、データパイプラインオーケストレーション、テストとプロダクション品質、デプロイの自動化、データサイエンス/ MLモデル管理などの主要な領域をカバーしているということです。 PagerDutyとこれらのPagerDutyエコシステムテクノロジーパートナーを組み合わせることで、部門横断的なチーム間の緊密なコラボレーションを促進し、より少ないデータダウンタイムでより良い、より迅速な意思決定を達成することができますので、是非お試しください。 同様に、PagerDutyインテグレーションを構築しようと考えている場合は、開発者アカウントにサインアップして開始してください。

この記事はPagerDuty社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。

book-markカテゴリー :ベストプラクティス
book-markタグ: