Blog
ブログ

2018年7月30日  (更新日:2022年3月10日)

Panopta統合ガイドを追加しました

Panoptaは、ITインフラストラクチャの要件に関係なく、お客様に合わせて拡張できるSaaSベースの監視ソリューションです。グローバルに分散した監視ネットワークから、業界最高の精度を誇るWebサイトの稼働時間とパフォーマンスの監視と共に稼働します。ローカルサーバのリソースを測定するエージェントをインストールすることでより深い洞察を得ることができます。プライベートインフラストラクチャがセキュアなファイアウォールの背後に置かれていても、仮想アプライアンスでファイアウォールの裏側の監視を行うこともできます。

詳しくはこちら

続きを読む
インテグレーション&ガイド
2018年11月16日  (更新日:2022年3月10日)

Business Insiderの記事でPagerDutyが取り上げられています

Business Insiderの記事「 2018年、ユニコーンになった米テック企業35社 」でPagerDutyが取り上げられています。こちらをご覧ください。

“2018年、ユニコーンになった米テック企業35社” (November 14, 2018)

続きを読む
ニュース&告知
2021年7月12日  (更新日:2022年3月10日)

PagerDuty Summit 2021の概要 Part 2

2021年6月に開催されたPagerDuty Summit 2021から、注目セッションのご紹介のパート2です。

パート2では2つのセッションを取り上げます。最初のセッション「The power of PagerDuty in alert noise suppression」(アラートノイズ抑制におけるPagerDutyの力)は、Hudson’s Bay Company社のPlatform Visibility and Command Center Monitoring部門のディレクターであるMarcelo LaRosa氏が登壇しました。このセッションで彼は、測定対象を管理することで生産性と従業員の満足度がどう向上したかを共有しました。 ノイズ抑制に関しては日本の皆さんも興味のあるところだと思います。

さらにご紹介する2番目のセッションは「How PagerDuty & Rundeck Drives Operation Maturity」(PagerDuty&Rundeckが運用の成熟度を高める方法)です。こちらはTrimbleのCloud Engineering and Infrastructure部門のディレクターであるAndrea Valenti氏と、TrimbleのシニアリードDevOpsエンジニアであるAli Soheili氏の講演です。

The power of PagerDuty in alert noise suppression: (アラートノイズ抑制におけるPagerDutyの力)

Hudson’s Bay Company社のMarcelo LaRosa氏 ©PagerDuty

「The power of PagerDuty in alert noise suppression」(アラートノイズ抑制におけるPagerDutyの力)の講演は、Hudson’s Bay Company社のPlatform Visibility and Command Center Monitoring部門ののディレクターであるMarcelo LaRosa氏によって行われました。

最初にLaRosa氏は、「誰もノイズなんか聞きたくない、特にモニタリングでは」と述べました。 彼は、受信する必要のないアラートを処理するためにアクションを実行する必要があり、アクション可能なアラートのみを受け取るようにする必要があると述べました。

最初に行う必要があるのは、PagerDutyでデータを収集することです。分析内で、レポートを選択し、月次データを取得する必要があります。彼は、「少なくとも1年分のデータを取得し、通常の月よりもアラートが多い可能性がある場所を確認すること」を提案しました。次に、その月次データを取得したら、特定のサービスごとに月次統計を分析する必要があります。彼は、高い頻度でアラートを出す上位3つのサービスを確認し、各サービスのCSVレポートをプルダウンして、ピボットテーブルビューを作成することを強く勧めました。

アラートノイズの問題を改善するための手順 ©PagerDuty

そのデータを入手した後に、彼はトップ3のアラートサービスのオーナーとの個別の会議を設定すべきだと強調しました。「サービスオーナーの知識に応じて、アラートをP1 / P2またはP3などとして優先し、警告を設定し、アラートをグループ化するなど、分類法を改善する必要があります」。そして彼が最後に提案したのは「メンテナンス」です。 彼は、改善のための、PagerDutyを使った反復的なモニタリングを確立することを提案しました。彼のチームでは、毎日、毎週、毎月のリズムを確立し、定期的にアラートをチェックしています。そして、ある時点で何かがトップ10に入っているのを見ると、すぐにそのデータの再分析を開始します。

最後に、彼は「継続的改善はまさにそれ自体、継続的に改善すべきである」と私たちに思い出させました。 彼は、こうした説明したプロセスを継続することを強く推奨しました。 「最初の数カ月は大変かもしれませんが、大量のアラートと戦ったあとは簡単になります。こうしたたくさんのレポートを取得する方法はおそらく自動化できます。 自然と会議ができるようになり、意見が出てきます。 その意見が広まり、人々が私たちを求め始めると、何か大きなことをやったんだと感じるようになります」。

How PagerDuty & Rundeck drives operational maturity: (PagerDuty&Rundeckで運用の習熟度を上げる)

このセッションでは、建設をはじめ複数の業種にサービス提供している国際企業で、大規模なDXを遂げているTrimble社のシニアリードDevOpsエンジニアであるAli Soheili氏と、同社のクラウドエンジニアリングおよびインフラストラクチャのディレクターであるAndrea Valenti氏が講演しました。彼らのプラットフォーム 「Trimble Project and Program Management」(Trimble PPM。同社の「Connected constructions Portfolio」の一部)は、PagerDutyとRundeckを使いインシデント対応プロセスを自動化しています。彼らがどうやってインシデント解決までの時間を短縮し、エスカレーションを削減したかを学ぶことができます。

まず、Andrea Valenti氏は同社の重要な目標のひとつとして、CEOのRob Painterの言葉を引用し「私たちがサービスを提供する業界のライフサイクルをつなぐこと」と述べました。PPMは、そのTrimbleにおけるSREの変革の最前線です。彼はPagerDutyとRundeckの導入の経緯を説明しました。特定の部門内だけでなくTrimble全体で、PagerDutyとRundeckの両方を長い間使用してきた経験があります。

TrimbleでのPagerDutyとRundeckの導入と自動化の歴史 ©PagerDuty

また、特に同社の「e-Builder」SaaSアプリケーション群で、すでに数年間PagerDutyを使用していると述べました。Rundeckについてはヨーロッパグループの輸送部門で最初のプロジェクトを開始したときかに使い始めたそうです。PPMでは、エンタープライズレベルでのセキュリティと統合を進めることが彼らにとって最重要なポイントであるため、彼らはさらに2つの製品を活用することを決めました。

Trimbleは、2018年以降、複数のアプリケーションの統合ポートフォリオの運用を開始しました©PagerDuty

2018年からは複数のアプリケーション、e-Builder、ProjectSight、Prolog、Prolianceの統合ポートフォリオの運用を開始しました。その運用は、全グループが独自の方法、独自のツール、独自の解釈とアイデンティティを持っているため、非常に困難でした。そこでSREグループはまず複数のグループでプロビジョニングとデプロイメントについて一貫性のある命名法を決めました。これはまだ継続中ですが、ほぼ確立しています。同時にインシデント管理についても命名法を決めました。以前はイベントがなぜ起きたかをチームごとに別々の見方で調べていました。そのためインシデントの状況を特定すること困難でした。そこで彼らは、イベント管理や各グループがもたらす多様性を消してしまうのではなく、決断をするようになりました。インシデントの概念にフォーカスして、全イベントをPagerDutyに集約することを決めたそうです。

次に、Ali Soheili氏は、SREチームを単一のクラウドチームに変えるべき3つの理由を共有しました。

Rundeckを使いビジネスオペレーションを自動化したことで得られた効果 ©PagerDuty

次に、インシデント管理がどう設定されているかを説明しました。同社ではNew Relicをはじめ複数の監視ソリューションがさまざまな部門で使われていました。Rundeckの利用目的の1つはそのオペレーションの自動化でした。彼らはそれらをセルフサービスとしてRundeckで自動化しました。結果として複数のチームがこれらのセルフサービスジョブを利用できるようになり、時間を大幅に節約できます。例えばあるケースでは、開発チームのオペレーションには5日間のサイクルタイムがありましたが、数分に短縮されました。コスト削減も大事な目的であり、このセルフサービスを使用するメリットの1つです。

次の図はPagerDutyとRundeckを使用して実行した自己修復の例です。

PagerDutyとRundeckを使用して実行した自己修復の2つの例 ©PagerDuty

最後に、Andrea Valenti氏は、RundeckとPagerDutyの利用について学んだことを共有しました。

自動的に修復をする実用的なフレームワークを用意してください。小さくて簡単なものでも、インシデントの優先順位付けで最上位に当たるP1をダウングレードする際に再利用できます。 SME(Subject Matter Experts)のセカンドラインが待機していることを確認してください。 PagerDutyを使用すると、複数の監視ツールからの情報を集約でき、インスタンスを表示する方法を1つに絞ることができます。

すべての画像の著作権はPagerDutyにあります。

PagerDuty Summit 2021のサイトでは詳しい資料と動画を公開していますので、こちらをご覧ください。

続きを読む
ニュース&告知
2021年7月2日  (更新日:2022年3月10日)

PagerDuty Summit 2021の概要 Part1

2021年6月に開催されたPagerDuty Summit 2021から、注目セッションの様子をご紹介します。 パート1では、CEOのJennifer Tejadaによる基調講演「DigitalOps Now」と、データサイエンスのシニアディレクターであるMitra Goswamiのセッション「The Power of AIOps」の要約を掲載します。

PagerDuty Summit 2021 基調講演: DigitalOps Now by Jennifer Tejada , CEO of PagerDuty

PagerDutyのCEOであるJennifer Tejadaが、近年のAIOpsのニーズの増大とそれにPagerDutyがどう対応するかを解説 ©PagerDuty

最初の講演「DigitalOps Now」でJenniferは、大手企業がデジタルアクセラレーション、DevOpsトランスフォーメーション、クラウド移行への投資を増やし続けており、75パーセント以上が今後1年半の間にAIOpsに投資すると予想されていると述べました。

ここでゲストとして招待されたNetflixのDelivery Engineering担当ディレクターであるAmy Smidutz氏は自分のチームとNetflixがプラットフォームの信頼性を確保するためにPagerDutyにどう頼ってきたかを共有しました。PagerDutyの機能によりチームとサービスを結びつけることで、インシデントが起きた時に反応するのではなく、予測して計画を立てることができます。

PagerDutyの新しい製品「Service Graph」ではビジネスと技術サービスを担う組織を一望できる ©PagerDuty

続いてJenniferはPagerDutyの新製品である「Service Graph」を紹介しました。これは、フルサービスのオーナーシップを強化するための、ビジネスと技術サービスの関係の全体的なマップです。最も意味のある、または問題のある組織の領域をセグメント化し、これらのプロセスを推進するデータソースを直接リンクして、ビジネスサービスと技術サービスの間に新しい接続を作成します。Jenniferはもう一つ、無駄な時間とエスカレーションを減らし、人の介入を必要とせずに対応を自動化する「Runbook Action」を発表しました。

ここでゲストとして招待されたZoom、Box、Tenable、UiPathの投資家兼取締役でゴールドマン・サックス・グループのKim Hammonds氏は、デジタルトランスフォーメーションがどこまで進んだか、そしてまだどこまで行かなければならないかについて、彼女の考えを共有しました。デジタルトランスフォーメーションを主導するための種を撒くには、第1に稼働時間、可用性、回復力、災害復旧などのすべてが機能する必要があります。そして2番目に重要なのは、世界中の誰もがサイバーセキュリティの脅威に対処しているためのサイバーセキュリティです。3つ目はカスタマーエクスペリエンスです。そして4つ目は何が起こっているかをデータから理解し、データを使って顧客により良いサービスを提供する方法を理解することです。

ゴールドマン・サックス・グループの会長兼CEOであるDavid M. Solomon氏が登壇 ©PagerDuty

ここでさらにスペシャルゲストとして、ゴールドマン・サックス・グループの会長兼CEOであるDavid M. Solomon氏が登壇しました。彼は「PagerDutyのようなツールを使うことで、エンジニアがトラブルシュートに備えて定期的につながっている状況を確実に担保できる」と述べました。彼は、ゴールドマン・サックス・グループが個人を対象にしたビジネスを拡大しているとも述べ、その理由は、「デジタルの世界は個人が白紙の状態で参加することを可能にし、さらに経済的生活を統合するためのツールを提供するからだ」とのことです。彼は、現在定着している消費者金融サービスの世界で巨大なデジタルによる破壊が起きると信じています。彼はまた、消費者がやりたいことは摩擦の少ないデジタルアプリケーションによって、はるかにシームレスな方法で経済的生活を管理することだ、と考えています。

PagerDuty自身のチーフプロダクトオフィサーであるSean Scottが、最新のデジタルオペレーションについて紹介 ©PagerDuty

続いて、PagerDutyのチーフプロダクトオフィサーであるSean Scottが登壇し、組織内で発生する重要で喫緊の作業に現代のデジタルオペレーションが対処している状況を紹介しました。彼は、2019年から2021年の間に重大インシデントが21%増加したことが分かったと述べました。各インシデントの解決には、平均2時間かかり、組織の管理には年間15万ドル以上の費用がかかりました。また、昨年はレスポンダーが以前より不規則に働くことが増え、3分の1以上が24時間体制で問題に対処するために1日2時間余分に働いていることも分かりました。従業員は過労になると仕事を辞める可能性が高くなります。そこで、対策が必要です。

この点での最大のニュースが昨年9月のPagerDutyによるRundeck買収でした。お客様からのフィードバックによると、彼らは労力を減らし、エスカレーションを減らし、運用全体の保守とサポートを民主化する必要がありました。そのため、PagerDutyはそのニーズに投資したのです。RundeckチームとPagerDutyによる自動化が統合されたことで、インシデント解決時間の短縮と開発者の作業の中断を減らせます。お客様の一部はすでにこの価値を理解していると思います。

PagerDutyがRundeckのテクノロジーをマージすることで実現しつつある主なイノベーション ©PagerDuty

6カ月後、彼らのチームは、PagerDutyプラットフォームにこのテクノロジーを統合したことで大きなイノベーションを提供し続けました。

Sean Scottは、Salesforce ServiceCloud用の新しいPagerDutyアプリケーションを提供するSalesforceとの戦略的パートナーシップも発表しました。この新しいパートナーシップにより、最前線のカスタマーサービスエージェントと主要な内部の利害関係者に、Salesforce Service Cloud内で直接に強力なPagerDutyエクスペリエンスを提供します。この機能は、昨年、プロフェッショナルレベルのカスタマーサービスプランナーに新しい価値を追加し、新しいビジネスレベルのカスタマーサービスプランにも統合されます。これは、サポートエンジニアのデスク統合と監視統合に役立つものです。

彼はさらに架空の大手小売業者のビジネスを想定し、PagerDutyの新機能をデモしました。

最後に彼は「PagerDutyはあなたをデジタルの勝者にするパートナーであり、私たちは一緒に完璧な顧客体験を提供することができます」と述べてセッションを結びました。

PagerDuty Summit 2021 基調講演: Power of AIOps

PagerDutyのデータサイエンスのシニアディレクターであるMitra GoswamiがAIOpsの威力について解説 ©PagerDuty

注目のセッション「The Power of AIOps」では、PagerDutyのデータサイエンスのシニアディレクターであるMitra Goswamiが、AIOpsの威力について、その理由と、この分野で最も大きな影響を与える可能性のあるAIの使用例について説明しました。

「AIOpsという言葉は2016年にGartnerが作り出したもので、「ビッグデータと機械学習を組み合わせて、イベント相関、異常検出、因果関係の判断など、IT運用プロセスを自動化するもの」です。この定義は組織によって異なります。Gartner自身は数年後に『AIOpsなしではIT運用の未来はない』と主張しました」。

彼女は次に、PagerDutyがAIOpsをどう強化するかを説明しました。

「この旅を始めたとき、当社はお客様と話し合い、AIOpsの3つの問題点を共有しました。お客様は『まず大事なことはセットアップと開発の容易さだ』と言いました。この点は、PagerDutyは実装が非常に簡単で、すぐに使えます。2番目に大きな問題点は『原因をすばやく発見すること』です。この点についてPagerDutyは新たに3つのソリューションを採用しました。3つ目の問題は、お客様がAIと機械学習のソリューションの信頼度を高めてほしいと考えていることです。(AIという)ブラックボックスで重要な決定を下すことになるので信頼性が高いことを求めています」。

彼女はまた、開発者にとっての3つの問題と、AIOpsソリューションを必要とする理由を共有しました。「最初の問題点は『アラートが殺到すること』です。インシデントが発生すると、開発者は数百または場合によっては数千のアラートを受け取ります。そのため、関連性のある有用な情報を確認することは非常に困難です。2番目は開発者から見て『高レベルの重要なコンテキストが不足している』ことです。十分な時間があるかどうか分からず、狭い部分しか見られない場合、それらはいくつかの重要なコンテキストへの配慮を欠くかもしれません。 3番目は、インシデントを以前の変更に関連付けることができないことです。インシデントの80%が変更イベントによって引き起こされており、現在のすべての情報が右側の同じ場所にないため、インシデントが発生しているときにアクティブな変更と履歴の変更をそれらのインシデントに関連付けることは非常に難しいのです。以上の課題を解決してできるだけ短期間に素因を見つけられるようにするために、AIOpsソリューションが必要です。」

彼女はここでPagerDuty式の「素因分析(RCA)」を共有しました。これは、「勧告、修復、最適化」という3つのアプローチに基づいています。彼女は、「素因の勧告」はこの旅の非常に重要なステップであると述べました。そして目標は、開発者が素因に対処し、できるだけ早くイノベーションに戻ることができるようにすることです。

より高速な素因分析(RCA)により、MTTRが大幅に削減されます ©PagerDuty

彼女は次のように述べています。「効果的な素因分析(RCA)は、開発者の日常生活に直接的な影響を及ぼします。より高速な素因分析により、解決までの時間(MTTR)が短縮され、重大なインシデント解決プロセスの中で起きてほしくない燃え尽き症候群やストレスも回避されます」。

彼女はまた、「RCAをするための3つの方法」についても説明しました。「1つ目はノイズの低減です。PagerDutyのソリューションは、同様のアラートを集約し、関連するインシデントをマージすることに基づいています。そのため、開発者は、何千ものシステムがアラートを開始したときにも波に呑まれることなく、重要で関連性のあることに集中できます。2つ目は、インシデントの分類です。3つ目は変更イベントとインシデントの相関度を示すことです。レスポンダーは潜在的な要因を特定し、無関係な変更を排除できます」。

彼女はまた、Event Intelligenceパッケージとそのデジタル運用計画で利用できる「Intelligent Alert Grouping」機能を紹介しました。チームがシステムの複雑さの増大に合わせて増員できない場合、アラートによる疲労が士気を落とし、何が実行可能かを特定するのを困難にする、という問題に言及しました。この問題を解決するために、PagerDutyのアルゴリズムは、インバウンドのシグナルのパターンとレスポンダーの動作の両方から、アラートをグループ化する方法を学習します。

Incident Alert Groupingは、関連するアラートを単一のインシデントに自動的にグループ化できます ©PagerDuty

彼女が次に言及したのは、新機能の「Incident Outliers」です。これは、レスポンダーが対応に集中している間は、過去の同様のインシデントの経験に関するコンテキストの情報を得る機会が不足することです。解決策は、インシデントをRare、Novel、またはFrequentに自動分類する最適化されたモデルを用意することです。

Incident Outlierは、各インシデントをrare、novel、またはfrequentに分類できる機能です ©PagerDuty

3番目の新機能は、「Change Events & Correlation」です。このソリューションは、お客様の履歴データとアクティブな変更を確認する、最適化されたモデルを提供します。お客様は過去の変更に関するウィンドウを移動することができ、変更をインシデントに関連付けられるようになります。

「Change Events & Correlation」は、お客様がインシデントの原因となる可能性のある変更を特定するのに役立つ機能です ©PagerDuty

最後に、Mitraは、PagerDutyがAIOpsをどう改善しようとしているのかについて言及しました。「PagerDutyの巨大な分析プラットフォームの強みを活用しており、そのアルゴリズムはお客様との信頼関係を構築するために、誤報の50〜60%を即座に削減しています。また、新しい機械学習機能を開発し、お客様と対話できるようにするハイブリッドな方法を導入しています。そうした施策により、多くの力をお客様に還元し、AIOpsソリューションの信頼度を向上させています」。

すべての画像の著作権はPagerDutyにあります。

PagerDuty Summit 2021のサイトでは詳しい資料と動画を公開していますので、こちらをご覧ください。

続きを読む
ニュース&告知
2017年12月13日  (更新日:2022年3月10日)

クラウドとオンプレミスのハイブリッド環境のインシデント管理

2018年、サーバインフラストラクチャはハイブリッド化されているでしょう。 インシデント管理ソリューションもハイブリッド環境への対応が必要です。オンプレミスサーバのみを管理する場合、仮想ネットワークやマイクロサービスが混在していない場合は、インシデント管理は簡単です。しかし、そんな時代はもう終わりました。

今日、ほぼすべてのインフラストラクチャは、ある意味でハイブリッドなのです。 オンプレミスのサーバとデバイスは、パブリックまたはプライベートクラウドとシームレスに稼働します。ネットワークは物理層から抽象化されています。ストレージはスケールアウトされ、多くのサーバに分散しています。複数のデータセンターに分散配置されているかもしれません。

この環境で管理者がすべきことは何でしょうか。簡単なのは、ハイブリッド対応のインシデント管理ソリューションを採用することです。では、今日のハイブリッドインフラストラクチャのインシデント管理を最適化するためのヒントをお教えしましょう。

ハイブリッド環境におけるインシデント管理の課題

ハイブリッド環境におけるインシデント管理に特徴的な課題を説明しましょう。

インシデント管理チームは、インフラストラクチャ全体に物理的にアクセスするとは限りません**。インフラストラクチャが複数のデータセンターにまたがる場合や、クラウドを含む場合、管理者がアラートを発呼するデバイスと同じ場所にいない可能性があります。 すべてのインフラストラクチャを完全に制御することはできません**。パブリックまたはプライベートクラウドは、他の誰かのサーバ上にホストされている可能性があります。 物理デバイスは抽象化されています**。その結果、アラートがソフトウェアの問題、ハードウェアの問題、またはその両方によって引き起こされているかどうかを判断するのが難しくなります。たとえば、仮想サーバ上のファイルシステムの問題に関するアラートの原因には、ホスト上のディスクのハードウェア障害、ゲスト上のソフトウェアファイルシステムのエラー、またはその組み合わせなどがありえます。 インフラストラクチャは変化します**。新しいデバイスが追加または削除されたり、ストレージが拡張されたり、コンテナがスピンアップやスイングしたりするなど、絶えずスケーリングされています。

ハイブリッド環境の課題を解決する

ハイブリッドインフラストラクチャインシデント管理戦略を計画する際に考慮すべきいくつかの提案を示しましょう。

原因に応じてアラートをルーティングできるインテリジェントなインシデント管理プラットフォーム(PagerDutyなど)を採用します。そうすれば、あるデータセンターで生成されたアラートは、別の場所のチームではなく、そのデータセンターを管理している管理者に確実に届きます。 柔軟な監視とアラート設定を提供し、既存の環境と容易に統合できるインシデント管理プラットフォームを導入します。これにより、インフラストラクチャのさまざまな部分にさまざまなツールを統合できるようになり、その特定の部分に最も適したツールが決まることになります。パブリッククラウドサーバでは、AWS CloudWatchを使用することができ、Nagiosはオンプレミスサーバを処理できます。SnortまたはOSSECはネットワークイベントを監視できます。PagerDutyを例にとると、既存のハイブリッドインフラストラクチャと統合できる150以上のインテグレーションがすぐに利用できます。 すべてのアラートをセントラルハブに送信します。複数の監視プラットフォームを使用している場合は、アラートをグループまたはクラスタで一緒に表示する必要があります。さもなければ、管理が困難になり、関連する問題の間のリンクを導き出すことが不可能になります。PagerDutyのようなプラットフォームは、ハイブリッド環境全体からさまざまなアラートを受信して正規化する集中ハブを提供しこれを解決します。 インシデント管理ソリューションが拡張できることを確認します。インフラストラクチャのサイズは一定ではないため、アラートの変化する量を受信して格納できるプラットフォームが必要です。 ベンダー依存は推奨できません。特定のオペレーティングシステムやベンダー製品のみをサポートするインシデント管理ソリューションは、ハイブリッドインフラストラクチャでは機能しません。ハイブリッド環境は、通常、さまざまなハードウェアとソフトウェアのコンポーネントで構成され、部品をすばやく交換できるのが利点です。 PagerDutyのようなソリューションは、ベンダー固有の監視ソフトウェアと統合し、柔軟なインシデント管理インターフェイスを使用してアラートを変換できるためハイブリッド環境でも便利に使えます。

以上の課題のいくつかは、まだハイブリッド化していない組織にとって今のところまだ重要ではないように思えるかもしれません。しかし、明確な傾向はハイブリッド環境にに向かっています。 インフラストラクチャを監視する能力に影響を与えることなく、インシデント管理ソリューションを早期に準備すれば、ハイブリッド環境に完全に移行できるようになります。

注)インシデントとアラート

インシデントの定義は、

「システムの運用を通して提供されるサービスの中断、サービス品質の低下、 またはその可能性がある出来事」、つまり、「ディスクの使用率があらかじめ決めたしきい値を上回った」などの、システム利用者には影響がなくても、サービスの品質が落ちる可能性がある出来事もインシデントとなります。

アラートとは監視システムが、そのシステムの監視対象のある定量情報(メトリック)があらかじめ設定されたしきい値と超えた場合に管理者に送る通知を指します。ある1つのアラートまたは複数のアラートの組み合わせが1つのインシデントの予兆または症状として発生します。

続きを読む
インシデント&アラート
2018年7月31日  (更新日:2022年3月10日)

Opsviewインテグレーションガイドを追加しました

Opsviewは監視システムNagiosのフォークです。PagerDutyとのインテグレーションはNagiosとの場合とよく似ています。PagerDutyをNagiosとインテグレーションすることで、Nagiosのアラートを問題解決に適した担当者に直接通知することができます。

詳しくはこちら

続きを読む
インテグレーション&ガイド
2018年8月13日  (更新日:2022年3月10日)    |    インテグレーション&ガイド

Opsmaticインテグレーションガイドを追加しました

Opsmaticは自動ドリフト検出による構成監視と、ホストの状態比較をするツール、活動を視覚化するためのツールを提供します。Opsmaticを使うと、チーム全体の視認性が向上し、問題をより迅速に解決することができます。PagerDutyを設定して、Opsmaticフィードとタイムラインビューに、通知、Ack、解決アラートをプッシュできます。 さらに、失敗したポリシーチェック、保存された検索結果を基に自動的にインシデントを作ったり、あるいはキーイベントをトリガーとして手動でPagerDutyでインシデントを作るよう設定することもできます。

詳しくはこちら

2018年2月8日  (更新日:2022年3月10日)    |    DevOps

デジタルオペレーションを人間的に

午前3時、あなたは暖かく居心地良い布団の中で、枕に垂らしたよだれに気づかぬまま、深い夢の中で癒されています。

ところが突然、あなたは目が覚め、心臓が高鳴ります。電話が最大音量で鳴っています。隣で寝ていたパートナーは目を開けて寝返りを打ち枕を頭にぶつけ、眠りに戻る前にあなたを睨みつけます。あなたは電話を黙らすために手を伸ばし、アラートの発生を知ります――夜間のバッチジョブがまたトラブったようです。 あなたは一言怨嗟の声を上げ、ノートパソコンの前に座って2時間の仕事に就きます。気が付けば夜明け。あなたは睡眠不足で疲れていますが、数時間後にはオフィスにいなければなりません。

いつものことですか?

微妙なワークライフバランス

今日の常時稼働の世界では、これがオンコール担当者の日常です。健全なITエコシステムを維持するのは、昼夜を問わず準備ができていることを要求する厳しい仕事です。最近のPagerDutyの報告書「グローバルITワークライフバランスの現状」によれば、ITエンジニア800人を調査したところ、51.3%は週に10回以上、仕事や生活が中断されたと答えています。 IT運用は担当者の健康を犠牲にしながらインフラとアプリケーションの健全性に重点を置いてきました。オンコール対応者は勤務時間中と時間外に関わらず、週末にもアラートを受信し、疲れ、欲求不満が高まり、睡眠不足に陥っています。担当者だけがストレスを感じているわけではありません。その家族も同様に影響を受けています。

これは広範な問題です。調査の回答者の94%が、アラートが家庭生活に影響を与えると答えました。ほぼ同数の回答者(94.5%)は、アラートによる中断が仕事の生産性に悪影響を及ぼしていると回答し、72%は彼らの上司は担当者が抱えている問題をほとんど知らないと答えています。

これは憂慮すべき数字です。これらのストレス要因がタイムリーに対処されない場合、従業員は燃え尽き、仕事と生活のバランスを求めて退社してしまうでしょう。私たちの調査によると、回答者の23.1%が現在の会社のワークライフバランスが悪い場合、新しい仕事を探すだろうということが分かりました。熟練した担当者を新たに雇うためのコストは30万ドル以上にのぼるため、スキルの高い従業員を維持することは会社の利益のために重要です。

チームを健全に保つための洞察を得る

PagerDutyはオンコール担当者が直面する課題を認識し、企業がIT運用とオンコール担当者の健康を全体的に改善するのを支援するため、データ分析とアドバイザリー・コンサルティングを組み合わせたPagerDutyオペレーションヘルスマネジメント(OHM)サービスを開始しました。 OHMサービスは、PagerDutyの幅広い分析機能のポートフォリオの一環として、企業に最も価値のある資産、つまり人材について、実践的な洞察と助言を提供します。私たちはIT運用を人間的にし、その背後にいる人々の生活の改善に導きます。

各企業はオペレーションヘルススコアと呼ばれるスコアを使い、我々が特許出願中のアルゴリズムと機械学習、ドメインの専門知識とピアベンチマークデータを活用し、業務の健全性を定量化することができます。OHMサービスを通じて、企業は組織やプロセスの改善点を把握し、オンコール担当者とチーム、サービスの健全性を損なう問題を特定して修正することができるようになります。

チームの健康、生産性、そして幸せを向上させたいとお望みならば、今すぐ無料のオペレーション健康度アセスメントをご覧ください。

本記事は米国PagerDuty社のサイトで公開されているブログをそのまま日本語に翻訳したものです。原文はこちらを参照してください。

2018年6月25日  (更新日:2022年3月10日)    |    インテグレーション&ガイド

Observiumインテグレーションガイドを追加しました

bserviumは、シスコ、Windows、Linux、HP、Juniper、Dell、FreeBSD、Brocade、Netscaler、NetAppなどを含む幅広い種類のデバイス、プラットフォーム、オペレーティングシステムをサポートする省保守型自動検出ネットワーク監視プラットフォームです。Observiumは、ネットワークの健全性と状態を美しく強力かつシンプルで直観的なインターフェースで提供することを重視しています。

詳しくはこちら

2018年3月26日  (更新日:2022年3月10日)    |    インテグレーション&ガイド

NS1インテグレーションガイドを追加しました

NS1はDNSとトラフィックの管理のためのプラットフォームです。リアルタイム性を要求されるネットワークで、名前解決と転送を高速化し、リアルタイムアプリケーションのUXを高めます。またDNSの構成管理をインテリジェント化します。PagerDutyとの連携法を紹介します。

詳しくはこちら

2018年2月21日  (更新日:2022年3月10日)    |    インテグレーション&ガイド

New Relicアラート・インテグレーション・ガイドを追加しました

New Relic は、オールインワンのサーバーおよびWebアプリ性能管理ツール です。リアル・ユーザーの監視とアプリケーションの監視、および可用性の監視を1つのソリューションにまとめ、開発者と運用チームがWebアプリケーションのパフォーマンスをリアルタイムで管理できるようにします。このガイドでは、New Relicの新しいアラートシステムとPagerDutyを統合する手順について説明します。

詳しくはこちら

2018年8月10日  (更新日:2022年3月10日)    |    インテグレーション&ガイド

Neustarインテグレーションガイドを追加しました

Neustar Web Performance Management は、WebサイトとWebアプリケーションのパフォーマンスをテスト、監視、測定します。オンコール・スタッフのローテーションのスケジュール作成や、モバイル端末から即座にもWebサイトの障害対応をすることができるような機能を追加するために、NeustarはPagerDutyと連携して、PagerDutyのオンコール・スケジューリング、アラート、インシデント追跡のソリューションを「PagerDuty Connect」を介して統合できるようにしました。

詳しくはこちら

2019年9月17日  (更新日:2022年3月10日)    |    インシデント&アラート

ビジネス関係者にもインシデントの最新状況を知らせる

by Adam Keller

想像してみてください。航空会社のデータセンターでチケット発券システムがダウンするような重大なITインシデントが起こりました。舞台裏では、エンジニアが問題の診断と修正を急いでいます。しかし、昨今のシステムは非常に複雑であるため、問題の解決には予想よりも長い時間がかかり、システムがダウンしてから数時間が経過しています。

一方、乗客は長い列を作り、地上係員に怒りをぶつけ、ソーシャルメディアで人々とフラストレーションを共有しています。カスタマーサービス要員には何が起こっているのかわからず、乗客と同様の情報にしか与えられていないにもかかわらず、なんとか状況を説明して全員を落ち着かせようと最善を尽くしています。

ここで、顧客が直面しているのは技術的なインシデント対応で、カスタマーサービス要員、フライトクルー、手荷物係などの内部関係者に情報を提供するなどのビジネス的な対応は存在しないか、あっても行き当たりばったりなので、インシデントの影響を悪化させ、会社のブランドや評判に深刻な損害を与えてしまいます。

そこで我々は、PagerDuty Solution for Business Responseをご用意しました。

ビジネス対応のためのPagerDutyソリューション

この例のように、ビジネスや顧客に影響を与える重大なインシデントが発生した場合、技術面の対応者(つまり、プライマリレスポンダー)だけが行動を起こす必要があるのではありません。会社全体の関係者(エンジニアと非エンジニア)も動員する必要があります。

これらの「二次対応者」は、例えばメディアへの説明ポイントをまとめるなど、ビジネス上の負の影響を軽減するために、最新のインシデント解決の進捗状況を知る必要があります。航空会社の例では、顧客サービスチームとチケット発券業者は、このインシデントがビジネスにどのような影響を与えるかを理解し、ホテルクーポンの提供や乗客の再予約が必要かどうかを決定する必要があります。

PagerDuty Solution for Business Responseは、インシデント対応に当たる技術チームの手をわずらわせることなく、簡潔で実用的なステータス更新を、それを知る必要のある人と自動的に共有することにより、インシデント発生時のビジネス部門と顧客とのコミュニケーションを円滑にします。

「顧客がデジタル製品に24時間年中無休でアクセスできることをますます期待するにつれて、システムダウンの潜在的な悪影響が増大します。インシデント発生中、技術的な対応はビジネス的な対応とうまく統合されないことが多く、このコミュニケーションのギャップは消費者の体験を左右します。PagerDutyのビジネスレスポンスソリューションは、技術とビジネス利害関係者の両方にインシデントを迅速に通知し、問題を修復するための調整されたアクションを実行できるよう構築されました」。

–Rachel Stephens、RedMonkアナリスト

ユーザーは、通知方法をカスタマイズすることもできます。たとえば、PagerDutyのWebサイトのステータスダッシュボードを表示するだけでなく、SMSやメール、PagerDutyモバイルアプリを介してプッシュ通知を受信するように設定できるため、特定のインシデントが発生したことをリアルタイムで知ることができます。

リアルタイム更新のステータスダッシュボード

PagerDutyのステータスダッシュボードには、事前に選択されたビジネスサービスの健全度が表示されるため、従業員はシステムの現在の状態を一目で把握し、過去に起こったことを確認し、メンテナンスやアップグレードなどの今後のサービス変更予定を確認できます。エンジニアは、技術的アクションとビジネスアクションの協調が最も重要なときに両方を調整する洗練されたインシデントレスポンスプレイとフローを設定することもできます。

PagerDutyのビジネス対応ソリューションの利点

Modern Incident Response製品の上に構築されたPagerDuty Solution for Business Responseは、ユーザーにインシデントの状況認識をシームレスかつ自動的に通知するので、技術面の対応者とビジネス関係者/利害関係者の両方がリアルタイムのインシデント情報を使用して対応を調整できます。追加の有料アドオンは必要ありません。利点は次のとおりです。

顧客との関係を積極的に管理することで、企業とブランドに対する顧客の信頼が高まります。関係者と従業員は、顧客から質問される前にインシデントを認識します リアルタイムでインシデントに対応できるようにすることで、ビジネス関係者と対応エンジニアの生産性を向上 顧客に影響を与えるインシデントが発生した場合に、技術的対応とともに、ビジネス対応活動を迅速に開始できる サービスの健全度が一目でわかるライブステータスダッシュボード リアルタイムのターゲットを絞ったステータス更新とビジネス部門自らの関与により、IT部門の負担なしで主要な利害関係者と積極的に関与する機能

Business Responseが実際にどのように機能するか、さらにお知りになりたい方は、次のビデオをご覧ください。

サブスクライバー(情報購読者)の追加、ステータス更新の追加、ステータスダッシュボードでビジネス対応を調整する:https://youtu.be/MaUmLBgLDBE 利害関係者チームや関連対象者向けの特定のビジネスサービスのみを含むカスタムダッシュボードを作成する:https://youtu.be/Ug1s_fsheu4 サブスクリプションの管理と通知ルールの表示:https://youtu.be/XX2aP200wSw ユーザーとチームを追加して、ステータス更新の受信と公開をする:https://youtu.be/C39wNKK_RMw

PagerDuty Solution for Business Responseは、Modern Incident Responseプランのお客様が利用できるようになりました。ステータスのボタンをクリックするだけで準備完了です。この機能にご興味がある場合は担当者に連絡し、詳細についてサポート技術情報をご覧ください。

本記事は米国PagerDuty社のサイトで公開されているものをDigitalStacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。

2018年1月23日  (更新日:2022年3月10日)    |    インテグレーション&ガイド

JIRAのインストレーションガイドを追加しました

JIRA Software は、組織内のチーム間のコラボレーションを可能にするプロジェクト管理ツールです。 このガイドでは、JIRA で作成された新しい問題がPagerDutyで新しいインシデントを作成し、JIRA で「完了」という問題をPagerDutyで解決するように、JIRAとPagerDutyを設定するプロセスについて説明します。

詳しくはこちら

2018年5月1日  (更新日:2022年3月10日)    |    インテグレーション&ガイド

JIRAクラウドエクステンションガイドを追加しました

JIRAソフトウェアは、組織内のチームコラボレーションを有効にするプロジェクト管理ツールです。 このガイドでは、PagerDutyインシデントからJIRAのイシューを作成できるように、JIRAエクステンションを設定するプロセスについて説明します。

詳しくはこちら

2018年2月23日  (更新日:2022年3月10日)    |    インテグレーション&ガイド

JIRAサーバエクステンションガイドを追加しました

JIRA Software は、組織内のチーム間のコラボレーションを可能にするプロジェクト管理ツールです。 このガイドは、JIRA サーバで使用する場合のインテグレーションについて述べてい説明します。JIRA Cloudとのインテグレーションは、JIRA Cloud Extension Guideをご覧ください。

詳しくはこちら

2018年7月4日  (更新日:2022年3月10日)    |    インテグレーション&ガイド

Dead Man’s Snitchインテグレーションガイドを追加しました

Dead Man’s Snitchは、バックアップまたはバッチ処理のようなスケジュールされたタスクが実行されない、または失敗した時に通知する、簡単に構成可能な監視ツールです。 Dead Man’s SnitchとPagerDutyの統合は簡単に実現できます。

詳しくはこちら

2018年7月18日  (更新日:2022年3月10日)    |    インテグレーション&ガイド

IPSentryインテグレーションガイドを追加しました

IPSentryは、世界中の何千もの情報システム専門家、システム管理者、ITソリューションプロバイダが使用するWindowsベースのネットワーク監視ソフトウェアパッケージです。インターネットとイントラネットのサーバー、ルーター、モデム、データベース、サービス、イベントログなどを1日24時間連続して監視する強力なネットワーク管理ツールで、ネットワークとデバイスが適切に機能していることを保証します。問題が検出された場合は、できるだけ早く原因を知るために、さまざまなアラート、通知、およびアクションをトリガーすることができます。

詳しくはこちら