BLOG
積極的なインシデント対応で障害を未然に防ぐ

投稿:2020年6月30日   |    更新:2022年3月9日

もし各種業務とその依存関係を俯瞰的に把握し、インシデントや障害が起こりそうな指標を見極める能力を持っていたら、あなたの日常生活にどのような影響を与えるでしょうか。想定外の事態に対応するのではなく、混乱に先手を打つために数分、数時間の猶予が与えられたら、ビジネスにとってどのような意味があるのでしょうか。企業にとって、プロアクティブ(積極的)なインシデント対応を可能にすることは、費用の節約、ブランドの評判の保護、対応チームの燃え尽きを減らすことに直結します。

プロアクティブであるということは、技術スタッフとビジネススタッフの両方に、デジタルサービスの方向性を示すのに必要なツールを提供することを意味し、問題が発生した場合に、無知の状態からスタートしないようにします。一刻を争うデジタルの世界では、オンコール対応者は、インフラや対応手順をその場で学ぶことはできません。だからこそ、デジタル対応の心構え、準備が非常に重要なのです。

そして、それは遠い夢のように思われていたかもしれませんが、プロアクティブなインシデント管理はもはや単なるおとぎ話ではありません。2020年春発表のPagerDutyの最新の機能強化では、すべてのチームにまたがるデジタルサービス、依存関係、ハイパーケアを提供し、問題が収益に影響を与える前に対処するのに必要な運用上の指標を得ることができます。PagerDutyがどのようにそれを可能にするか見てみましょう。

イノベーションを掘り下げる

ダイナミックサービスディレクトリ内のサービスプロファイル

昨年秋、当社はすべてのサービスを1カ所で追跡して管理する方法として、Dynamic Service Directoryを導入しました。このディレクトリを構築したのは、IT技術スタックの複雑さと変化の速さが増しているため、従来の作業方法、つまりコンポーネントを追跡するための集中化された手動のアプローチでは、クラウドネイティブの世界では拡張性がないからです。

別のチームによる発見とマッピングを含む、時間のかかる手動のアプローチの代わりに、PagerDutyのDynamic Service Directoryは、プラットフォームの定期的な使用を通じて収集されたサービス情報を提示します。ディレクトリは自動化を可能にする豊富なAPIを持っているだけでなく、中央集権ではなくチームベースでもあります。

回答者が利用できる情報量を増やすために、Service Profileと呼ばれるDynamic Service Directoryの新しい機能強化をリリースしました。Service Profileは、各サービスの周りに情報アーキテクチャを作成することで、サービスに意味とコンテキストをもたらします。これにより、エンジニアリングマネージャーとオンコール対応者は、チームの所有権、オンコール対応者、過去のアラートやインシデント、依存するサービス、ランブック、優先する通信チャネルなどの各サービスの情報を確認することができます。

proactive-incident-response-2

サービス依存関係

組織の規模が大きくなるにつれて、複雑で横断的な大規模インシデントを解明したり、インフラがどのように接続されているかを理解することが難しくなり、潜在的な脆弱性につながる可能性があります。また、チームが最善の努力をしても、手動で管理されたWikiや静的なCMDB(構成管理データベース)では、依存関係の状態についての視点が限られています(時代遅れとまではいかないまでも)。

だからこそ、PagerDuty に Service Dependencies(サービスの依存関係)を導入しました。Service Dependencies は、問題の特定、トリアージ、修正を迅速に行うために、サービス間の関係を理解することを可能にします。ユーザーは直感的なユーザーインターフェイスを介して複数のサービスと依存関係のレベルをナビゲートし、誰がいつサービスを変更したかなどの重要な情報を公開することができます。Service Dependencies は対処の自動化を推進し、脆弱性に関する貴重な洞察を平時に提供し、組織が独自のインフラについて持っているメンタルモデルと一致させることができます。

proactive-incident-response-3

サービスダッシュボード

従来型のIT組織では、エンジニアリングチームがインシデントがサービスにどのような影響を与えるかを認識していなかったり、不確かであったりすることは珍しくありません。このような理解がなければ、ビジネス関係者の期待に先手を打ったり、チームを改善に集中させることができません。

エンジニアリングチームがこの問題を克服するために、新たに提供されたサービスダッシュボードでは、運用上のメトリクスと KPI を可視化して、部門間の連携とビジネス成果の向上を実現します。この一元化された表示により、サービスの構築者と運用者は、製品の可用性、リソース配分をより効果的に管理し、チームとサービスの継続的な改善を推進するために協力し合うことができます。

proactive-incident-response-4

新しいビジビリティコンソール

現在、多くのお客様がワークフローを物理的な目に見えるネットワークオペレーションセンター(NOC)から仮想環境に移行し、NOCオペレーターが自宅で作業する必要性を感じています。しかし、これらのオペレーターは、サービスパフォーマンスの統合されたビューをまだ必要としています。

PagerDutyのVisibility Consoleは、アーリーアクセスとしてユーザーにデジタルオペレーションのリアルタイムビューを提供します。改訂され適応されたエクスペリエンスには、高度なフィルタリングとカスタマイズ可能なレイアウトも含まれています。この強力なコンソールは、運用の準備を促進するだけでなく、ハイブリッド運用組織のNOCとアプリケーションチーム間のギャップを埋めるのにも役立ちます。最も重要なことは、このツールにより、チームはインシデント対応に積極的なアプローチを取ることができ、ハイパーケアの瞬間に顧客のニーズを満たすために必要なコンテキストを提供することができるようになります。

proactive-incident-response-1

プロアクティブなインシデント対応を行うためには、インシデントが発生したときに対応できるように、チームが管理しているワークフロー、自動化、サービスに関する情報を持っている必要があります。現在の経済環境では、コスト削減、顧客との関係の維持、企業の回復力の確保という点で、このアプローチがもたらす影響を過小評価すべきではありません。

これらの新機能は、プロアクティブなインシデント対応を実現するために PagerDuty を使用する多くの方法のほんの一例です。もしあなたの企業にとってこれらのツールのどれかが有効だと思われたなら、無料トライアルを試してみるか、当社までご連絡ください。

本記事は米国PagerDuty社のサイトで公開されているものをDigitalStacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。

book-markカテゴリー :ニュース&告知