BLOG
PagerDuty Global Event OrchestrationでMTTRを短縮、自動化を新しいレベルへ

投稿:2023年4月18日   |    更新:2023年4月25日

PagerDutyのGlobal Event Orchestrationの一般提供が開始されました。Global Event Orchestrationの強力な意思決定エンジンは、イベントを充実させ、そのルーティングを制御し、イベントデータに基づいて自己修復アクションをトリガーします。チームは、PagerDuty内のどれか、または全てのサービスでこの機能を使えます。この機能はEvent Orchestrationへの継続的な投資であり、クラス最高の自動化機能を顧客に提供するというPagerDutyのコミットメントを示しています。

早期アクセスプログラムのお客様は、Global Event Orchestrationの価値を既に実感しており、MTTRの短縮や、規模に応じたインシデントレスポンスの標準化の向上などをアピールしています。RiskifiedのTechnical LeadであるKiril Yurovnik氏は次のように述べています。 「イベント数が増える中、特に現在の経済情勢でITプロセスの最適化を目指す企業にとって、ノイズや手間を最小限に抑えることが必須です。早期入手プログラムの一環としてPagerDutyのGlobal Event Orchestrationを使っていますが、その結果は強力です。Riskifiedは、特に非本番環境からのノイズ除去をスケールアップできたので、私たちのチームは次のイノベーションに費やす貴重な時間を確保できるようになりました」

Global Event Orchestrationsとは?

Global Event Orchestrationは、Service Event Orchestrationと同様に、イベントが処理される際に何が起こるかを決定する複雑なルールを、ユーザーが定義できるようにするものです。違いは、Global Event Orchestrationがインジェスト時にイベント情報を強化することです。そしてデータが正規化されると、さまざまな基準に基づいてイベントがサービスにルーティングされます。これによりレスポンダーたちは、対応プロセスを開始するために可能な限り最高のイベントデータを得られます。

Global Event Orchestrationには、インシデント対応のスケーリングを成功させる3つの主要コンポーネントがあります。

Global Orchestration Rulesにより、ユーザーはサービス全体でイベントにアクションを適用できます。各チームは、サービス全体でイベントデータを処理するルールを作成し、処理されたデータを使ってイベントルーティングを改善できます。これにより、組織は自動修復を確立し改善できます。つまり、インシデントの解決に人間が関与する必要がないのです。また、よりインテリジェントなルーティングにより、インシデントの影響範囲を小さくできます。

強化されたインテグレーションキー管理機能により、さまざまな監視ツールのインテグレーションキーを管理する作業負荷が軽減されます。これにより、ユーザーはインテグレーションキーを1つのイベントオーケストレーションに組み合わせることができます。さらに良いことに、強化されたインテグレーションキー管理は、全てのPagerDutyプランで利用できるようになりました。

追加のAPIにより、大規模な管理が可能になります。チームは、イベントソースやGlobal Orchestration Ruleの管理に、REST APIを使えます。これらのAPIはどちらもTerraformをサポートしています。またこれらのAPIは、Event Orchestration/Service Orchestration管理用のREST APIに追加されます。

HylandのCloud Infrastructure Engineer、Brian Longは次のように述べています。「PagerDutyのGlobal Event Orchestrationの活用は、イベントルーティングのプロセスを効率的かつスケーラブルにし、ITオペレーションと支出を最適化する上で非常に重要です。Global Event Orchestrationを使うことで、私たちの組織は、通知から『resolved』(解決済み)の条件を検出して、解決として実行することができ、これらの条件を設定する必要がある場所の数を少なくとも3分の1まで減らせました。これにより、設定作業ではなくイノベーションに集中する時間を確保できます」

Global Event Orchestrationは、私のチームにどう役立ちますか?

Global Event Orchestrationを使うと、チームは次のことを確認できます:

  • 体系化されたインシデント対応プロセス:分散したチーム間で十分に理解されたインシデント対応を誰でもできるようにし、作業を分けられる。
  • インシデントの減少:エコシステム内の全てのサービスからのコンテキストイベントデータを使って、抑制の精度を向上させる。
  • より迅速な解決:チーム全体に自動化を適用し、標準に沿った情報の強化とデータの正規化により大規模な自動診断を可能にする。

チームがGlobal Event Orchestrationを使う方法は、組織構造によって異なる場合があります。機能は、ITOps、SRE、NOCのチームと開発者のチーム、2つの異なるチームに対応しています。

ITOpsチームは、イベントの正規化機能を利用して、全てのイベントが受信時に同じように見えるようにできます。

SREチームは、技術エコシステム内の任意、あるいは全てのサービスにわたって自動化を作成・拡張できます。これにより、組織全体での自動化のスケーリングと標準化がこれまでになく簡単になります。

NOCなどのL1対応チームでは、Global Event Orchestrationは、大量に押し寄せてくるイベントの処理に貢献します。イベントは、特定の条件を満たした場合にNOCにルーティングできます。そして、イベントがルールやネストされたルールのレベルを通過すると、自動化によってL1レスポンダーに診断結果を提供できます。インシデントの修正がよく知られている場合、組織は自動修復を作成できます。

開発者チームは、インシデントの発生が少なくなり、解決が速くなります。自動修復により、開発者チームが必要としているサービスに影響が及ぶ前に、インシデントを解決できます。また、詳細なルーティング基準により、インシデントがチーム間で手戻ることはありません。自動化、NOC、L1レスポンダーが問題を解決できない場合、インシデントは対象分野の専門(SME)に送られます。また、SMEがインシデントの対応を開始する頃には、既に診断情報が得られているため、解決までの時間を短縮できます。

今日から始めるにはどうしたらいいのでしょうか?

Global Event Orchestrationは、PagerDuty AIOpsの全てのお客様が一般に利用できます。実際に動作する様子をご覧になりたい方は、4月14日(金)にTwitchでご参加ください

PagerDuty AIOpsは、チームが経験するインシデントの数を減らし、解決を早め、生産性を向上するのに役立ちます。長時間の実装や継続的なメンテナンスは必要ありません。PagerDuty AIOpsを試すには、こちらからトライアルをリクエストするか、製品ツアーに参加することができます。営業に相談したい場合は、このフォームからお問い合わせください。

Global Event Orchestrationの詳細については、このウェビナーに登録してください。PagerDuty AIOpsのお客様で、初めてGlobal Event Orchestrationを作成する場合は、この[ナレッジベースの記事]で(https://support.pagerduty.com/docs/event-orchestration)開始方法を確認できます。


この記事はPagerDuty社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。