BLOG
インシデント対応の未来は、自動化、フレキシブル、プロアクティブである

投稿:2022年6月7日   |    更新:2022年9月14日

お客様が重要なリアルタイムオペレーションのバックボーンとしてPagerDutyを頼りにされていることを私たちは理解しており、ありとあらゆるエンハンスによってインシデント対応が合理化されるようにしたいと考えています。お客様が消火活動に費やす時間を減らし、より多くの時間をイノベーションに費やすことができるよう、どのように支援できるでしょうか。

PagerDutyのバリューの1つは「Champion the Customer」であり、私たちはこれを非常に真剣に受け止めています。機能を構築し改善する際、私たちはお客様に何が起こっているかを常に把握することを心がけています。夜も眠れずにいるのはなぜか。今、何が必要なのか。最近状況は変化したのか。そして、明日の目標を達成するために、私たちはどのようなお手伝いができるのか。

Incident Response製品担当VPであるDan McCallと対談し、PagerDutyの優れたインシデント対応ソリューションのレガシーを構築するための哲学について聞きました。DanのチームがPagerDutyで構築している全ての機能について聞くには、彼のセッション「Incident Response Keynote: Automated, Flexible, Proactive(インシデント対応の基調講演:自動化、フレキシブル、プロアクティブ)」をご覧ください。

Q:お客様と話していて出てきたパターンはあるのでしょうか?何が一番人気なのでしょうか?

お客様が、効率性を最大に高め、労力を最小に留め、普遍的にデータ駆動型になることで大規模なレジリエンスを実現したいと話しているのを何度も聞いています。興味深いのは、DevOpsの旅を始めたばかりでも、何年も続けている場合でも、この傾向にあることです。仕方ないことです。複雑さが増し、インシデントが発生する頻度も高くなっていますが、顧客に与える影響はさまざまですから。ある企業では、適切な人材を適切なタイミングで確保することを目標とし、また別の企業では、進行中のプロセスを合理化し、レスポンダーの健康への影響を抑制するために対応を細かく調整することを優先します。

しかし、私が最もよく耳にするのは、レジリエンスの実現や効率性の向上は、最良の時期に解決すべき困難な課題ですが、「大量退職時代」のために全てが一段と難しくなったということです。実際、当社の最新の顧客調査では、回答者の64%が今年離職率が上昇したと回答しています。もちろん、離職者が増えることでチームに負担がかかることは言うまでもありません。新しい人材を採用し、定着させるにはリソースが必要ですし、人員不足の状態が続くと、さらに手作業が増え、燃え尽きるという悪循環に陥る可能性があります。そして、このような状況は、運用をより健全で成熟した状態にすることをより一層急がせます。

Q:運用の成熟というのは、どういう意味でしょうか?

運用の成熟とは、チームにより良い、より予測可能な体験を提供することであり、離職や燃え尽きの背後にある根本的な問題に対処し、それに先んじることができるよう、プロセスと行動で潜在的な離職をある程度好転させることなのです。

このデジタル運用成熟度モデルは、私たちのプラットフォーム上のチームや組織を調査し、私たちが観察した行動を体系化したものです。

運用の成熟度についてあまりよくご存じないお客様から、「良い」とはどのようなものかとよくご質問を受けます。このモデルにより、組織は運用成熟度を定義し、スペクトラムのどこに位置するかを特定し、改善のためにどこに焦点を当てるべきかを理解することができます。

image1-1

これをさらに一歩進めて、より具体的なものにするために、当社の製品分析チームは、当社のプラットフォーム上のデータを使って運用成熟度モデルを作成しました。その結果、リアクティブ(反応型)チームはプロアクティブ(予防型)チームよりも常に高い離職率を示しており、前四半期ではその差は2倍以上でした。大退職を背景にこのことを考えると、私たちの製品が、お客様の最も差し迫った業務上の課題に対して大きな変化をもたらすことが、これまで以上に明確になります。Scott BastekとTejere Oteriの講演「リアクティブからプロアクティブへ(そしてその先へ!)」を是非ご覧ください。

Q:お客様からお聞きした内容は、インシデント対応ソリューションの将来のビジョンをどのように形成していますか?

お客様がこのような変革を成し遂げ、運用を成熟させるために、私たちの製品はどのような方向性を持つべきかを考えたとき、私のチームのビジョンは、インシデント対応をもっと充実させることです。

  • 自動化 無駄や非効率をなくす
  • フレキシブル 多くのユニークなビジネスニーズに大規模に対応する
  • プロアクティブ ビジネスの混乱を予測・防止する

そして、お客様がPagerDutyを知り、愛してくださるという核心に忠実であり続けながら、これを実行するつもりなのです。

Q:自動化は、多くの人々にとって多くのことを意味します。自動化されたインシデント対応について考えるとき、それはあなたにとってどのような意味を持つのでしょうか?

私にとっての自動化されたインシデント対応は、人間と機械がよりよく協調することです。これを説明するために、私はよく「ケンタウロスチェス」という概念を考えています。つまり、AIはチェスで人間に勝つことができるが、AIとペアになった人間は純粋なAIに勝つことができる、というものです。

防御の第一線としての自動化は、人間と機械の間で重要なワークロードのバランスを取り、必要なときには人間がよりスマートに働き、そうでないときには負担を軽減することを可能にします。インシデント対応プロセスには、手作業やよく知られたタスクがたくさんあります。私たちの目標は、人間から不必要な負担を取り除くことであり、それによって人間は仕事に集中し、より良い成果を上げることができるようになります。

その一例として、モバイルアプリからAutomated Diagnostics(自動診断)を呼び出すことができます。自動化により、レスポンダーがインシデントにたどり着くまでに、既に診断が実行され、準備が整っています。

自動化とAIは、本来ならチームが行うべきでない作業を代行することができます。繰り返しの多い手作業を減らすことで、従業員はより積極的に仕事に取り組むようになり、燃え尽き症候群や離職率の低下にもつながります。また、イノベーションを起こすための思考と集中の時間が増えるということは、インシデントから学び、プロセスを改善して、望むレジリエンスを構築するために必要な余分なサイクルを確保できるということでもあるのです。

Q:PagerDutyは、いくつかの買収に積極的に投資していますが、これはロードマップとどのように結びついているのでしょうか?

2020年にRundeck、今年初めにCatalyticを買収したことで、本当に強力なパートナーシップを活用し、お客様にとって良い体験を紡ぎ出すことができ、興奮しています。

インシデント対応については、Rundeck社の製品(現在はProcess Automationとして知られています)を活用し、収集、イベントオーケストレーション、モバイル、そしてウェブエクスペリエンスに至るまで、インシデント対応体験にAutomation Actionsを深く組み込むために、Rundeck社の同僚と協力しています。

第一線のレスポンダーは、インシデントのトリアージや修復の際に、同じ診断ステップを繰り返し行うことが多く、価値の高い作業から時間を奪い、専門家はイノベーションを行う代わりに消火活動を続け、MTTRを長引かせます。そのため、インシデント対応のライフサイクルに自動化を活用できるよう、できるだけシンプルで軽快なシステムを構築することが、私たちにとって非常に重要でした。自動診断をさまざまな方法で呼び出すことができるため、チームは暗記や手作業に費やしていた時間を節約できます。そればかりか、レスポンダーがデスクに到着するまでに結果を出すことができます。

Catalyticでは、別のアプローチをとっています。インシデントが発生したとき、組織は通常、実行すべき重要な手順のチェックリストを持っていますが、それらはしばしば手作業で、特に午前2時の熱気の中で思い出すのは困難です。これらの手順を探し、覚えておくことは、対応チームの主な焦点であるインシデントの解決から注意をそらすことになります。私たちは数年前から軽量なレスポンスプレイを提供していますが、お客様からインシデント対応プロセスのステップをより柔軟に自動化する方法を尋ねられたことがあり、このたびIncident Workflowsを導入することになりました。

今年後半には、Catalytic社の買収で得た新しいワークフローエンジンをベースに、軽量なレスポンスプレイを強力なインシデントワークフローにアップグレードする予定です。このワークフローでは、「if-this-that」ロジックを使用して組織的な対応を定義することができ、レスポンダーの追加、ステークホルダーの登録、コンファレンスブリッジの開始など、一般的なインシデントアクションのシーケンスを組織的な対応に簡単に構成することができます。

Incident Workflowsは、インシデントの優先度、ステータス、緊急度など、さまざまなユースケースに応じて組織独自のプロセスを反映できるようカスタマイズすることが可能です。また、インシデントから学んだことをワークフローに反映させ、次回インシデントが発生したときのために、繰り返しの多い平凡なタスクを自動化することも可能です。

Q:今回の発表の中で、お客様が最も喜ぶのはどれでしょうか?

1つだけ選ぶのは難しいので、2つほど紹介させていただきます。まず、レスポンスプレイの未来についてですが、これはお客様にとってうれしいはずです。インシデントワークフローは、パワフルなUIと優先度などに基づくモジュール式の柔軟性により、レスポンスプレイの機能レベルを段階的に向上させることができる、と既に素晴らしいフィードバックをいただいています。個人的には、お客様がインシデントワークフローをどのように活用され、またどのように自分たちのものにされるか、とても楽しみにしています。この「プラットフォーム方式」で構築したことの素晴らしい点のひとつは、重大インシデントでの有用性を紹介していますが、それ以外にもさまざまな方法で使用できることです。Summitでの私のセッションで、Wayfair社のレジリエンスマネージャーであるStephanie Gridley氏が、P1とP5の両方のインシデントに対するこの機能の使い方を詳しく説明しています。

また、Status Update Notification Templates(ステータスの更新通知用テンプレート)など、お客様が長い間望んでいたコアな機能の更新を見ることができて、喜んでいただけたのではないでしょうか。さらに興味深いのは、これらの機能が最終的に相互に影響し合って、さらにクールなことができるようになったときです。機能が互いに関連して機能することで、部分の総和よりも大きな相乗効果が得られるのです。

今年のIncident Response製品ロードマップに何があるか知りたい方は、Danのバーチャル基調講演「Incident Response Keynote: Automated, Flexible, Proactive」をお聞きください。PagerDuty Summitにはまだ間に合います。こちらからお申込みください。


この記事はPagerDuty社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。

book-markカテゴリー :ベストプラクティス
book-markタグ: