Blog
ブログ

2018年7月25日  (更新日:2022年3月11日)

Rigorインテグレーションガイドを追加しました

Rigorは、Webサイト、モバイルアプリ、APIを強力に監視して、ユーザーが問題に遭遇する前にウェブサイトの問題を発見し、サードパーティプラグインが原因となるエラーを特定し、詳細な障害診断を提供してダウンタイムのトラブルシューティングを支援します。

詳しくはこちら

続きを読む
インテグレーション&ガイド
2018年7月13日  (更新日:2022年3月11日)

Riemannインテグレーションガイドを追加しました

Riemannは強力なストリーム処理言語を使用して、サーバーやアプリケーションからのイベントを集約します。 Riemannは、コードで発生した例外の通知、Webアプリケーションのレイテンシ分布の追跡、メモリやCPUによって任意のホスト上のプロセスの参照や、キープロセスがチェックインできないときにのアラート送信などだけでなく、他にもさまざまなユースケースがあります。

詳しくはこちら

続きを読む
インテグレーション&ガイド
2017年12月20日  (更新日:2022年3月11日)

小売業向けインシデント管理法

近年、1年で最も忙しいショッピングデー「ブラック フライデー」(注)にシステム障害が多発しています。

有名ブランドのWebサイトの停止やシステムトラブルの記事を目した管理者は、他人事とは思えないでしょう。大規模な小売業者でもスムーズにインフラストラクチャーを稼動させるのに苦労しているというのに、中小企業はどうすれば障害を防止できるでしょうか。

幸いにも、手はあります。適切なインシデント管理手順に従うことで、小規模のチームでも必然的に起こる業務の中断による影響を最小限に抑えることができます。

ここでは小売業者のニーズに焦点を当てて解決法を紹介します。

(注;ブラックフライデー(英語: Black Friday)とは、小売店などで大規模な安売りが実施される11月の第4金曜日のことである。 アメリカ合衆国では感謝祭(11月の第4木曜日)の翌日にあたり、正式の休暇日ではないが休暇になることが多い。当日は感謝祭プレゼントの売れ残り一掃セール日にもなっている。買い物客が殺到して小売店が繁盛することで知られ、特にアメリカの小売業界では1年で最も売り上げを見込める日とされている。また、年末商戦の幕開けを告げるイベントでもある。 )

小売業者の優先順位の定義

小売業者の効果的な監視とインシデント管理を行うために、管理者はまず、インフラストラクチャの可用性と稼働時間に関して小売業者の最も重要な要件が何であるかを理解しなければなりません。

実店舗とオンラインショップの両方を備えた最新の小売業者にとっては、以下を確実に行うことが不可欠です。

顧客がアクセスするWebサイトを常に正常に稼動させる。** 顧客が接触するサイトがパブリックなインターネット上にあり、DDoS攻撃など悪意のあるトラフィックスパイクからクラッシュする可能性や不正侵入の脅威があるからです。Webサイトは販売促進のために実店舗のみの小売業者にも不可欠です。顧客は通常、オンラインで購入するか店舗に足を運ぶかにかかわらず、購入を計画するためにWebサイトを使用します。

バックエンドシステムの稼動を維持する**。在庫の追跡やトランザクション履歴の保存などのタスクを処理するバックエンドサーバも、ビジネスオペレーションにとって不可欠です。一般にバックエンドサーバはプライベートネットワーク上で実行できるため、パブリックサイトよりも攻撃者から保護しやすいですが、一方で別の脆弱性も持っています。非常に機密性の高い情報が保管されていたりするので、効果的なモニタリングが不可欠です。

POSシステムの安定稼働を確保する**。小売業者はPOS端末がクラッシュした場合、販売を続けられなくなります。POSシステムを稼働させ続けるには、ローカルネットワーク接続から物理的なセキュリティ、さらに電源供給まで、複雑な変数の組み合わせを効果的に管理する必要があります。

IoT資産を保護する**。小売業もIoTを活用してワークフローをパーソナライズし、自動化することでデバイスとセンサーの安定稼働と接続性を保証し、業務を強化します。高度に自動化されたIoTデバイスベースのビジネスオペレーションへの移行は、システム監視の分野でも新たな課題となります。

これらは、取引完了を確実にするための小売業者の第一の要件です。ここでは、監視とインシデント管理を使用して重要な課題に対処する方法について説明します。

システムダウンの防止

小売業のシステムインフラの重要な部分を円滑に運用するためのガイドラインを紹介します。

インフラストラクチャ全体の可視性を最大化する**。非常に多くの要素があるため、小売業者は特に複雑で多様なITインフラを持つ傾向があります。それはWebサイトだけでなく、バックエンドシステムや各種専用デバイス、センサーなども含みます。このようなインフラストラクチャを把握するために、全面的な可視化が必要です。監視情報はそれを理解する唯一の方法であるため、1カ所に集中させる必要があります。

柔軟な監視ソリューションを導入する**。多様なインフラストラクチャには、多様な監視ツールが必要です。小売業者は、インフラストラクチャのさまざまな部分にすべて監視エージェントをインストールし、収集した監視情報を中央の管理プラットフォームへ転送し、正規化する必要があります。

リアルタイムに対応する**。小売業者にとっては、販売サイトやPOSシステムの数時間(またはわずか数分)のダウンタイムが非常にコストの高い影響を与えます。ダウンタイムの直接的な結果として失われた売上に加えて、企業も評判にも損害を与えます。したがって、影響は数カ月続く可能性があります。これらのリスクを軽減するために、インシデント管理システムとワークフローが鋭い洞察を基にしたリアルタイム応答を可能にし、サービスができるだけ迅速に復元されるようにする必要があります。

効果的コミュニケーションを図る**。小売業におけるインシデント管理の課題のひとつは、企業のインフラストラクチャが、特に店舗や倉庫の大規模なネットワークを持つ小売業者にとって、非常に大きく広く分散する傾向があることです。インフラストラクチャの稼動を維持する管理者も分散しがちです。この課題に取り組むには、シームレスなコミュニケーションツールを提供するインシデント管理システムが必要で、ChatOpsなどの共同作業ワークフローを活用すべきです。そうすれば、広範囲に広がった大規模な管理者チームでも、問題を解決するときに効果的にコミュニケートできます。

ダウンタイムをもたらす脅威を完全に排除することは決してできないと言っても過言ではありません。しかし、最新技術による監視とインシデント管理のソリューションは、小売業者が大規模なサービス障害の話題の提供者にならないために重要な役割を果たします。

続きを読む
インシデント&アラート
2017年9月17日  (更新日:2022年3月11日)

Summit 2017で発表されたPagerDutyの新機能

ビジネスは事実上ソフトウェアの上で行われるので、デジタルエクスペリエンス の質は組織の成功を左右します。 だからこそ、組織はデジタルの問題を解決するためにビジネス全体のスタッフ全員を動員するのですが、それは数時間、数分ではなく、数秒で動員しなければなりません。

そのため、PagerDuty Summit 2017では、これらのニーズを満たすまったく新しいエキサイティングなプロダクトイノベーションを発表しました。アプリケーションの学習、エンドツーエンドのレスポンスの自動化、およびリアルタイムでビジネス全体の人員動員を統合する新しい機能により、最も重要な場面での非効率をなくし、ビジネスがイノベーションに立ち戻ることに貢献します。

クイックツアーで新しい機能をすべてチェックしてみましょう。

レスポンダー向け:インテリジェントでリアルタイムな意思決定支援

インシデント発生時の不安の最大の原因の1つは、起こっていることを診断するための適切な情報の入手方法を知らないことです。 インフラストラクチャの複雑さとシステムデータの圧倒的な増加は、これをさらに困難にしています。 アラートグループ化、類似のインシデント、及び新しいユーザーエクスペリエンスを備えたPagerDutyは、インシデント発生時、必要な時に正確に提供するシステムとアサインの仕組みをインテリジェントに搭載しています。

アラートのグループ化

問題を冷静に分析しようとしている時に望むことは、電話通知が鳴り続けないようにすることです。 今回、ルールベースの自動化と機械学習によって、関連するアラートが1つのインシデントに自動的にグループ化されるので、レスポンダーは集中的にコンテキストを取得し、問題をトリアージし、応答を開始することができるようになります。

Similar Incidents

マシンデータはインシデントのトリアージ処理を開始する際の中心となりますが、全体像を把握するためには同様の問題を誰が処理したのか、それを解決するためにどのような手順を取ったのかなど、人的情報が必要です。 Similar Incidentsにより、レスポンダーはインシデント優先順位、影響、修復手順など、以前の関連する問題と概要を確認することができます。

ライブインシデントページの再設計

インシデントの影響が大きく、レスポンスが複雑になるにつれ、進行中のすべての状況を把握することが難しくなります。 新しいインシデントページでは、プラットフォーム全体のユーザーエクスペリエンスが大幅に改善されましたた。新しいインシデントページでは、フレッシュなデザイン、リアルタイムの更新、および改善された情報アーキテクチャーによってさらに使いやすさが向上しています。 レスポンダーに対するメリットは、探している情報が容易に発見でき、何が起きているのか最新の見解を常に確認できる点です。 この新しいエクスペリエンスは現在のすべてのプランで利用が可能です。 インシデントが発生した場合、画面の下部にある「Try Something New!」ボタンをクリックしてみてください。

レスポンスチームとツールチェーンオーナーのために:自動精密応答

1分ごとに数千ドルを喪失するようなビジネスを繰り広げている中で、できるだけ迅速にサービスを回復させることが最優先事項となります。 すなわち、可能な限りすべて自動化することで、チームは誰がページを見ているかを調べることなく、問題の解決に集中できるようになります。 新しいイベントとインシデントの自動化により、PagerDutyでのインシデント対応はこれまで以上に高速で、簡単で、正確です。

レスポンスオートメーション

イベントルーティング

複数の場所でビジネスロジックを管理するのは煩わしくて非効率的なだけではなく、可視性が低下し、構成エラーのリスクも高まります。 高度に要求されたイベント管理機能であるイベントルーティングにより、すべてのイベントをPagerDutyに送信し、イベントのペイロードに基づき問題を異なるチームやサービスに自動的にルーティングできます。PagerDutyで定義されたすべてのイベントの自動化により、特定のイベントがどのように処理されるのか一目瞭然です。

Dynamic Notifications

真夜中に目を覚ます必要はありません。異なるイベントではさまざまなレベルの対応が必要ですが、先月リリースされたすべてのスタンダード以上のプランでDynamic Notificationsが利用可能で、イベントデータが通知やエスカレーションに変換される方法をカスタマイズできます。 これにより、大量のアラートによる疲れを減らし、重複したサービスを少なくし、レスポンダーの負荷を軽減します。

組織全体のために:ビジネス全体のオーケストレーションプラクティス

主要なインシデント対応にはITレスポンダーだけでなく、顧客との関係を管理してブランドの評判を保護するために積極的な対策を講じる必要があるなど、ビジネス全体のステークホルダーとの調整も含まれています。 レスポンスは、サポート、カスタマーサクセス、法律やマーケティングなど、さまざまな部門に及んでいます。顧客のエクスペリエンスを保護するという統一目標に、すべてのスタッフを集中させる必要があるからです。

そのため、オープンソースのインシデントレスポンスドキュメンテーションを技術的なレスポンス以上のものに拡張しました 。 これによリ、何千もの最高のオペレーションチームのベストプラクティスに基づくインシデント対応の究極のガイドを活用し、サービスの中断が発生した場合に組織がどのように動くべきかを学ぶことができます。 さらに過去数週間にわたり、PagerDutyのリーダーたちは、 カスタマーサクセスから企業のコミュニケーション方法まで、私たちが日々の仕事でどのようにレスポンスに取り組んでいるか、独自の視点を共有しています。

新しいものを確認する

PagerDutyプラットフォームの最新機能の概要を楽しんでいただければ幸いです。 Dynamic Notifications、新しいインシデントページ、および更新されたレスポンスドキュメントは現在入手可能です。他の機能を誰よりも先に試したい場合は、 こちらからご連絡ください。

※このコンテンツは www.pagerduty.com/blog/の抄訳です。

続きを読む
ニュース&告知
2018年6月4日  (更新日:2022年3月11日)

Red Canaryインテグレーションガイドを追加しました

Red Canaryは、最先端のエンドポイント検出技術と、他のセキュリティツールに欠けている脅威を検出するために必要な人間の専門知識を組み合わせることで、Fortune 100クラスのセキュリティをあらゆる組織にもたらします。Red Canaryの独自のエンドポイント検出および対応ソリューションは、組織全体で何が起きているのかを理解し、エンドポイントを脅威から守るために必要な情報を顧客に提供します。

詳しくはこちら

続きを読む
インテグレーション&ガイド
2018年3月1日  (更新日:2022年3月11日)

Raygunインテグレーションガイドを追加しました

アプリケーションのパフォーマンスとエラーの追跡を1つのプラットフォームで。Raygunは問題を自動的に検出して診断することにより、より速くより強固で堅牢なソフトウェアを構築するのに役立ちます。

詳しくはこちら

続きを読む
インテグレーション&ガイド
2018年6月8日  (更新日:2022年3月11日)    |    インテグレーション&ガイド

Puppet インテグレーションガイドを追加しました

Puppetは、ソフトウェアがどこで実行されるかに関係なく、標準的な方法で配布・稼働できるようにします。 Puppetのアプローチでは、可読性の高い共通の言語を使用して、アプリやインフラストラクチャの外観を定義します。 それを基に、データセンター全体で実施したい変更、共有、テストを実施できます。 また、あらゆる段階で、意思決定とコンプライアンスの証明に必要な可視性とレポートを提供する機能を備えています。

詳しくはこちら

2018年8月2日  (更新日:2022年3月11日)    |    インテグレーション&ガイド

Pulsewayインテグレーションガイドを追加致しました

Pulseway(以前のPC Monitor)は、スマートフォン、タブレット、Windowsベースの監視ソリューションです。 これは、ダッシュボードから完全な透明性と完全なコントロールを提供することを強調しています。非常に高い顧客満足度を誇り、管理ニーズに合わせて複数のプラットフォームを有効にすることに集中しています。

詳しくはこちら

2018年3月15日  (更新日:2022年3月11日)    |    インテグレーション&ガイド

Prometheusインストレーションガイドを追加しました

Prometheusは、オープンソースのシステム監視とアラートツールキットです。多次元データモデル、多次元構造を活用するための柔軟なクエリ言語、分散ストレージに依存せず、時系列のコレクションはHTTP経由のプルモデルを介して行われます。時系列のプッシュは中間ゲートウェイ経由でサポートされ、ターゲットはサービスの検出や静的な設定が可能で、グラフ化とダッシュボードの複数のモードがサポートされています。

詳しくはこちら

2019年4月11日  (更新日:2022年3月11日)    |    ベストプラクティス

Postmortem(事後検証) パート2:学習する文化を取り入れる方法

事後検証(ポストモーテム)シリーズのパート2では、リーダーシップを発揮することから文化面での変化を起こすことまで、継続的な学習の文化を確立する方法を掘り下げます。*

文化は私たちが物事を一つにする方法です。それは一貫した形で目標を満たす幸せで健康的なチームを作るための秘密のソースです。組織の中で定義し、育て、変革するのは最も難しいことです。真の文化的変化には、ポリシーを作って伝えること以上のことが必要です。コラボレーション、永続性、そして実験が必要です。

PagerDutyの私たちはアジャイルの方法論とDevOpsプラクティスの大ファンです。私たちは、ソフトウェア開発から文化の変化まで、継続的な改善の原則を適用しました。反復的な評価とコラボレーションを通じて、文化を正しい方向にシフトさせることができます。

これは別のコアなDevOpsプラクティスである事後検証に思い至らせます。事後検証の成功は単なるプロセスにかかっているのではなく、誠実さ、学び、説明責任の文化に基づいています。企業文化の変革には経営陣の参加が必要ですが、自分の役割に関係なく文化の変革を先導することができます。

身近なところから始めよう

あなたの会社のプロセスの全面的な見直しに着手する前に、どこから始めるのかを把握することは重要です。インシデント後の報告には事後検証プロセスを使用していますか? あなたが従うステップは何ですか? 誰が関与していますか? 失敗についての会話は通常どのように行われますか? あなたのチームがこれらの議論をすれば、関係者の責任を問わない事後検証を実施する文化への移行を始められると思います。

多くの企業は、重大インシデントの後に、何が起こったのかを検討する会議を開くでしょう。これらの議論の過程で少数の個人がインシデントに対する責任を負わされるのを見ることになるかもしれません。一般的に、全員がもう少し詳しく知る前に、将来問題を避けるための計画を立ててしまいます。さらに重要なことに、少数の人々があなたが避けたいと思う、かなり不愉快な気分で立ち去ります。

あなたのチームに迅速な監査ができるように事後検証の実施のためのステップバイステップガイドを見てください。現在していることや、現在何をしているけれど微調整する必要があるかもしれないこと、そしてしていないことは何でしょう?

責任を問わないことをリーダーに求める

事後検証を組織にまったく新しいやり方として紹介するにせよ、既存のプロセスを改善するために動いているにせよ、文化の変革は難しいものです。伝統的には変革より管理が優先されると思います、しかしボトムアップでの変革は通常もっと成功をもたらすものです。 あなたの役割が何であれ、新しいプロセスを導入するための最初のステップは、経営陣からの承認を得ることです。

変革について思慮深い推論を用いリーダーに近づくことが、その変革が持つはずの重要性と影響を強化するのを助けます。 そのための対話で重要な点は次のとおりです。

責任追及がどれほど有害であるかを明確にし、定量化し、そして責任追及のビジネス上の価値を説明する。

問題を「引き起こした」ことを理由に個人を罰する慣習は、問題が発生したときに人々が責任追及されることを恐れて発言しなくなるように仕向けます。結果としてインシデントを認識して解決するまでの平均時間が長くなり、最終的にはインシデントの影響が大きくなり、深刻な影響を受ける可能性があります。問題が発生したらできるだけ早く解決できるように、リーダーは人々に発言を求めてください。

組織は責任追及される恐れを排除し、共同学習および反復的な設計の改善を促すことによって、システムの回復力を急速に向上させ、イノベーションのスピードを上げることができます。

さらに、バカみたいに聞こえるかもしれませんが、新しい事後検証プロセスを売りこむときに、管理側のせいにしないことを忘れないでください。リーダーがチームに加わっていることを確認してください。インシデント後に誤って責任追及を示唆した場合には、彼らがそのフィードバックを受け取るのを納得するというリーダーシップの確約を得ることが重要です。

ゴールは、継続的改善の文化を作るためにリーダーに確実に参加してもらうことです。

Pro tip___:責任追及をしないという概念を会社の価値にマップできるかどうかを確認してください。例えばPagerDutyの文化的価値観の1つは、特に中断と継続的な改善を受け入れ、常に学習に集中することです。このような責任を問わない事後検証の概念は、これらの価値を支えることに直接対応できます。

チームを指導する

これでリーダーシップが完成しました。組織で大きな文化の変革を遂げることができました。次のステップはあなたのチームの個々のコントリビューターの参加を確保することです。彼らがまだ、インシデントの責任を追及されることを恐れているかもしれないことに留意してください。その恐れは、ポリシーだけでは消えないでしょう。インシデント対応後にどんな方法でも誰も罰せられることはない、という経営陣からのコミットメントを得ていることを必ず共有してください。責任をもっと意識して、責任が認められたらお互いに声をかけて協力することで、同僚との信頼関係を築きましょう。

(グループ内での心理的安全性の重要性について読んでください。)

変革を繰り返す

文化の変革は一晩では起こりません。実験を成功させた結果を新しいプラクティスと共有し、次にそれらのプラクティスをチーム間でゆっくりと拡張するなど、小規模から始めて新しいプラクティスを組織に繰り返し導入します。

始め方:

チームを1人選び、完璧な事後検証の実験を始めましょう。** 始めるには、「事後検証記録の書き方」ガイドを使用してヒントを共有してください。スキルを磨き、他の人に教えます。

小さなインシデントから始めましょう。** 小さなインシデントのビジネスへの影響は小さいため、インシデントの原因として個人をスケープゴートにする圧力は少なくなります。

責任追及する人を批判しないでください**。上記で推奨されているように、個人に責任を負わせがちな人を探してください。必ず声をかけて、チームがこのインシデントに対して新しい、責任追及のないアプローチを使用することを決定したことを伝えてください。

覚えておいてください:責任追及のない事後検証へのグループの信頼を築くために最初は単純なものから始めてください。チームにとって最適なものを試し、次のラウンドで繰り返します。

共有することはケアすること

組織のためでも、単一のチームのためであっても、文化的シフトを促すには大きなエネルギーを必要とします。試みられ、テストされ、そして最終的に採用される前に、それが「難しい」という単なる認識のために、変革は時に強く非難されることがあります。

インシデントレポートを共有することは、最初は直感に反するように思われるかもしれません。成功というより失敗のストーリーを共有するように思えますからね。でもそれとは全く反対に、チームは失敗から学んでシステムを改善し、失敗の発生率を減らせます。

インシデントを個人的な失敗としてではなく、具体的な改善をもたらす学習機会として再考することです。それは士気を高め、ひいては従業員の定着率と生産性を高めます。

批判しないことがアカウンタビリティを育てる

自由に情報を共有し、透明性を促すことで、説明責任を養う環境を支えられます。事後検証のあとに起きることは、システムの健全性にとって重要です。事後検証の行動項目が網羅されたと思われた時点でSLAを設定することは、チームがタスクを迅速に割り当て、優先順位を付けるのに役立ちます。また、許可を待たずにチームが行動に移れるようにします。

Pro-tip*:このSLAをすべてのエンジニアリング部門に伝達し、将来の参考にするために必ず文書化してください。

PagerDutyでは、Sev-1インシデントの再発防止に必要な優先順位の高いアクションアイテム(行動項目)は、インシデントから15日以内に完了することを期待しています。Sev-2インシデントから得たアクションアイテムは30日以内に対処されるべきです。

カルチャーのチャンピオンになる

あなたの会社の文化を良い方向に変えることは、実現が最も難しい仕事のひとつです。信じられないほど微妙で、高レベルの共感を必要とし、そして感情的に疲れることです。継続的に学習する、責任を問わない文化を促進することは、より幸せなチームとより良いソフトウェアにつながるので、組織にとって最も重要でやりがいのある作業でもあります。

評価、コラボレーション、コミュニケーション、そして実証という具体的なステップを適用すれば組織を正しい方向に変えることができます。

現在の事後検証プロセスの状況を知ることから始めましょう

リーダーとチームの了承を得て、責任を問わない事後検証を試しましょう

1チームまたは小規模なインシデントで試してみてください

実証結果を共有して、変化を広めてください

責任を問わない事後検証を採用する方法の詳細については、包括的な「Postmortem Guide」をご覧ください。あなたがどのようにして文化の変化にアプローチし、誠実さを広めているかをお聞きしたいです。当社のフォーラムにアクセスしてコミュニティと情報共有してください

本記事は米国PagerDuty社のサイトで公開されているものをDigitalStacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。

2018年5月9日  (更新日:2022年3月11日)    |    インテグレーション&ガイド

Postmanインテグレーションガイドを追加しました

Postmanは、API開発者がAPIを共有、テスト、文書化、監視するための不可欠なツールチェーンであり、世界中の300万人以上の開発者が使用しています。Postman ProとPagerDutyとのインテグレーションにより、Postman Monitorの結果でPagerDutyのインシデントと確認応答(Ack)をトリガーすることができます。

詳しくはこちら

2018年5月15日  (更新日:2022年3月11日)    |    インテグレーション&ガイド

Pivotal Cloud Foundryインテグレーションガイドを追加しました

PivotalのCloud-Nativeプラットフォームは、世界で最も賞賛されている多くのブランドのソフトウェア革新を推進しています。世界各地のコミュニティに数百万の開発者がいる中、Pivotalテクノロジーは、何十億人ものユーザーに日常使用されています。 シリコンバレーの最も優れた企業のソフトウェア開発文化を10年以上にわたり形成した後、今日、Pivo​​talは、世界がソフトウェアを作る方法を改革するグローバルなテクノロジーの動きをリードしています。

詳しくはこちら

2018年3月20日  (更新日:2022年3月11日)    |    インテグレーション&ガイド

Pingdom BeepManagerインテグレーションガイドを追加しました

PingdomはWebサイトやインフラの死活や稼働時間を監視できる簡単で便利なツールです。本ガイドは2016年6月26日以前に作成されたPingdomアカウント向けの統合の方法を説明しています。同日以降に作成されたPingdomアカウントはこのPingdom BeepManagerではなく、Pingdom Webhooksインテグレーションを使ってください。

詳しくはこちら

2020年5月28日  (更新日:2022年3月11日)    |    インテグレーション&ガイド

Kafkaサービスのためのインテリジェントなヘルスチェック

ヘルスチェックは、回復力を維持し、システムの継続的な運用を確保するために不可欠です。理想的には、ヘルスチェックはシステム内の問題を可能な限り早期に検出して、システムが自動的に修正するか、サービスオーナーに問題を通知して手動で解決できるようにしなければなりません。

Amazonの主任ソフトウェアエンジニアであるDavid Yanacek氏が述べているように、システムに適切なヘルスチェックを作成することは難しいかもしれません。しかし、適切に行われていれば、ヘルスチェックは効果的にサービスのダウンタイムを減らし、サービスが依存している顧客に与える影響を軽減することができます。

この記事の主な焦点は、PagerDutyのEvent Ingestion Admin(EIA)サービスのために実装されたヘルスチェックになります。EIAはイベントAPIの管理インターフェイスで、ユーザーは様々なイベントタイプの情報や、イベントが当社のシステム内に読み込まれ処理されている間のイベントの状態を見ることができます。今回は、様々なKafkaトピックからイベントを読み込み、それらのイベントをElastiCacheに保存するEIAのConsumerアプリケーションに焦点を当ててみたいと思います。このブログを読んだ後には、Kafkaに依存したシステムのヘルスチェックの書き方や、発生する可能性のある合併症への対処法が見えてくると思います。

何が不健全なのか?

EIAの問題は、Elixirロガーが新しいログを処理できないためにシステムが予期せずクラッシュした後に表面化しました。また、EIA が Kafka からの新しいメッセージの読み込みを停止する可能性が常にあることも知っていましたし、問題がより深刻になるまで気づかないことも知っていました。

このように、EIA のヘルスチェックで解決しなければならない問題が 2 つありました。(1) Kafka Consumerがforwardしていることを確認すること、(2)Elixir ロガープロセスが黙ってクラッシュすることなく動作し続けることです。これらのいずれかが機能しなくなった場合、健全性チェックは失敗し、システムを安定した状態に戻すために必要なアクションが発動されます。

問題が検出されると、問題を修正するのは非常に簡単です。次のコードは、ヘルスチェックのエンドポイントが何をすべきかをシンプルに示しています。

図1: ヘルスチェックエンドポイント

ヘルスチェックの先頭には Consul と呼ばれるネットワークツールがあります。これは、サービスの発見、ヘルスチェック、ロードバランシングなどを提供する役割を担っています。私たちのケースでは、Consul は基本的にConsumerアプリケーションの ナイーブなアプローチ

EIA は多数の Kafka トピックを読み込み、各トピックには 64~100 のパーティションがあります。各トピックのConsumerごとに別のコンテナをスピンアップし、それぞれが独自のヘルスチェックを持ち、ヘルス状態に基づいて個別に再起動することができます。

まず、Elixir GenServer(汎用サーバ)を作成することから始めました。GenServerは、アプリケーション内の他のプロセスと通信しながら、コードを非同期に保存、状態表示、実行できるプロセスです。特に、ヘルスチェックのGenServerは、イベントの現在の状態を更新し、現在の状態に基づいてアプリが健全かどうかを判断する役割を担っています。

これを行うためには、いくつかのステップを踏まなければなりませんでした。イベントが取り込まれて処理されるたびに、GenServerの状態は、イベントが正常に処理された最後の時間を示すタイムスタンプで更新されます。Consulが このアプローチにはいくつかの問題がありました。2つのConsumerが同じ速度でメッセージを読み込んで処理することはありません。例えば、 それに比べて、 一度失敗したら、試してみて、もう一度試してみる

時間ベースのアプローチでは十分ではないことがわかったので、次のアイデアは Kafka のConsumerオフセットを利用することでした。使用するオフセットには、現在の(最新の)オフセットとコミットされたオフセットの 2 種類があります。現在のオフセットはトピックに送信された最後のメッセージを指し、コミットされたオフセットはConsumerによって正常に処理された最後のメッセージを指します。

Consumerアプリが正常に動作しているかどうかを確認するために、forwardしているかどうかを確認したいと考えました。最新のオフセットが移動している(つまり、新しいメッセージを読み込んでいる)ので、コミットされたオフセットも同様に移動している(つまり、新しいメッセージを処理している)ことになります。このソリューションでは、メッセージがいつ入ってきたかどうかは問題ではないので、最初のアプローチからの問題が解決されます。

このソリューションを実装するために、ヘルスチェックのGenServerは、より複雑な情報をステートに保存する必要がありました。以下はステートを抜粋したものです。

ステートには、メタデータ(異なるオフセットを取得するために必要)とパーティション情報という2つの主要なコンポーネントが保存されています。各パーティションには、コミットされたオフセットと最新のオフセット、そしてパーティションの健全性を決定するフラグが格納されています。新しいイベントが入るたびに、GenServer は新しいオフセットで更新されます。ネットワークツールがヘルスチェックのエンドポイントにpingすると、ステートはすべてのパーティションが不健康であるかどうかをチェックするために繰り返されます。もしそうであれば、Consumerコンテナは再起動されます。

プリプロダクション環境でテストを実行した結果、ヘルスチェックは正常に機能していました。これらの変更を本番環境に適用した後、GenServer が本番環境のトラフィックに追いつけず、ヘルスチェックプロセスがクラッシュし続け、アプリケーションが不安定な状態になっていることがすぐに明らかになりました。私たちは変更を元に戻し、振り出しに戻りました。

3度目のチャンス

以前のアプローチでの最大のボトルネックは、EIA が処理しなければならないトラフィックの量でした。幸いなことに、その答は手元のソリューションからそう遠くないものでした。各イベントの後にGenServerの状態を更新する代わりに、ヘルスチェックは10秒ごとに各パーティションを更新してチェックすることができました。これがどのように実現されたのか、ヘルスチェックの主な機能を見てみましょう。

画像3: ヘルスチェックの実装

GenServerが初期化されると、状態のパーティションデータはNULLに設定されます。最初にConsulがヘルスエンドポイントにpingを打つと、GenServerは各パーティションのコミットされたオフセットと最新のオフセットをフェッチしてステートにセットします。それ以降の実行では、Kafka の各パーティションの現在のコミットされたオフセットと最新のオフセットが、ステートに保存された古いオフセットと比較されます。forwardしている場合は、パーティションの健康状態がtrueに更新され、ステートがオフセットで更新されます。各パーティションを見て更新すると、ステートは反復され、トピック全体が健全かどうかをチェックし、適切な値をConsulに返します。

この方法では、EIA が消費するイベントの数は問題にならないので、健康チェックの GenServer は以前よりもかなり少ない作業をすることになります。これは本番に向けてプッシュバックされ、無事に動作しました!

別れの想い

プロセス全体を通して私が得た重要なポイントの1つは、問題に対する答が最初は必ずしも明らかではないということです。システムとその要件によっては、それが正しいものになるまでに何度も反復する余地があります。Kafka を初めて使う人にとって、システムが健全かどうかを判断するためにツールを活用する創造的な方法を考え出すことは、興味深く、最終的には非常にやりがいのあることでした。もしあなたがKafkaに依存したサービスで同じようなことをしようとしているのであれば、私たちが学んだ教訓を共有して、あなたのプロセスがどのように進んだかを聞いて、あなたを助けたいと思います。

本記事は米国PagerDuty社のサイトで公開されているものをDigitalStacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。

2019年8月19日  (更新日:2022年3月11日)    |    ニュース&告知

2019年6月リリース新機能の概要:いつでもどこでも、リアルタイムで作業

6月の新機能リリースでは、チームがどこにいてもリアルタイムで作業できるように設計された新しい一連の機能強化を発表いたしました。移動しながらモバイルデバイスを使っていても、いつものようにデスクにいても、使いやすさを犠牲にすることなく業務の革新を続けていきます。

あなたのやり方で

PagerDutyを使用すると、チームはデスクトップから、もしくはチャットやモバイルを介して、どこからでもリアルタイムの作業を管理できます。

モバイルチームとエスカレーションポリシー

iOSモバイルデバイス用のPagerDutyモバイルチームとエスカレーションポリシーが更新されました(Androidは近日公開予定)。これで、iOSモバイルデバイスで次のすべてを直感的に実行できるようになりました。

チームメンバーとオンコール担当者がすぐ分かる 問題の現状把握と解決を容易にするため、適切な対応者とその連絡先を特定する チームのエスカレーションポリシーの明示

再設計されたモバイルオンコールシフトとスケジュール

モバイルオンコールのシフトとスケジュールの全体を確認し、タップしてスケジュールやエスカレーションポリシーの詳細を表示し、簡単に変更できます。

モバイルビューとインシデント対応者の追加

誰がインシデントに対処しているのかを確認し、アプリから対応者(ユーザーまたはエスカレーションポリシー)を追加して、問題を迅速に解決するために必要な支援を受けることができます。

モバイルビューインシデントステータスの更新

その他の新たな機能は、企業全体のコミュニケーションを自動化して、チームが重要なインシデントについて組織全体で認識を共有するのに役立ちます。iOS向けの最近のリリースに続いて、Androidデバイスを使用する利害関係者も、インシデント購読者を管理し、インシデントのステータスの更新を表示して、関連する解決活動について常に情報を得てデジタルビジネスの健全性を把握できます。

モバイルスワイプジェスチャー

インシデントに対するモバイルスワイプジェスチャーの改善により、Androidでは設定メニューから、iOSではスワイプから表示、タップと確認で、左スワイプや右スワイプのアクションを設定できるようになりました。

モバイル複数選択ワークフロー

Mobile multi-select workflowsで、一度に複数のインシデントをトリアージ、スヌーズ、マージ、受任することができます。これにより、ノイズを削減し、PagerDutyイベントインテリジェンスにフィードバックを提供して、トリアージとスマートな応答を迅速に行えます。

新インテグレーションーCloudability、Demisto、Salesforce(coming soon)

私達はFinOpsやSecOpsなど、さまざまな利用法をツールチェーンで接続する際に、より高い可視性と柔軟性を持つことができるように、新たなインテグレーションへの投資も続けています。さらに、Salesforceとのインテグレーションも間もなく開始されます。そのほか、新しく強化されたインテグレーションには、CloudabilityとDemistoがあります。

PagerDutyとCloudabilityのインテグレーション により、クラウド関連の意思決定と予測、計画、および購買能力の適切でタイムリーな最適化アクションを実行できます。このインテグレーションにより、クラウド使用料請求に異常が検出されたときに、リアルタイムで使用量を最適化することができます。

PagerDutyとCloudabilityのインテグレーションにより、次のことが可能になります。

豊富なクラウド請求イベントデータをCloudabilityからPagerDutyにリアルタイムで送信する Cloudabilityインスタンス内の異常を検出する 対応するPagerDutyサービスで新しいインシデントをトリガーする アラートを単一のインシデントに自動的にグループ化する Cloudabilityで検出された異常に対処するようオンコールの担当者に通知する

PagerDutyとDemistoのインテグレーション により、自動化されたデジタル運用管理とセキュリティとITチームにわたる集中的なインシデント監視が可能になります。また、DevSecOpsツールスタック内で機動的なセキュリティ対策を実施するのに役立ちます。

PagerDutyイベントの取り込みと作成、解決を自動化 Demistoインスタンス内のPagerDutyからオンコールスケジュール、連絡方法、通知の詳細にアクセスする 何百ものDemisto製品統合を活用して、部門を超えて対応を調整する ChatOpsを介して対話的に数千のコマンドを実行する 実行スクリプトを作成する。コントロールルームでコマンドを実行したり、スクリプトをプレイブックに関連付けたりする

PagerDutyとSalesforce Salesforce Service Cloudとのインテグレーションはまもなく登場します。内部プロセスがあなたの顧客経験に影響を与えないようにしてください。PagerDutyはSalesforce Service Cloudとのまったく新しいインテグレーションを開始し、カスタマーサービスチームがリアルタイムのサポートを受けられるようにします。双方向のインテグレーションにより、PagerDutyとSalesforceケースの同期が維持され、エージェントは必要に応じて適切なリソースを毎回適切な時期に活用できます。

インシデント対応

より大きなコンテキスト

コンテキスト検索

Contextual Searchでは、チーム、エスカレーションポリシー、ユーザーなどの簡単なタグ付けメタデータをPagerDutyオブジェクトに追加して、対応者とマネージャーが目的のオブジェクトをナビゲートして整理しやすくするとともに、インシデントをすばやく簡単に再アサインできます。タグ付けはコンテキスト検索と連動しているため、インシデントに対応者を追加するときにエスカレーションポリシーをフィルタリングできます。次のスクリーンショットは、PagerDutyオブジェクトのタグ付けの概要を示しています。

Contextual Search APIは現在、特に関心のある利用者への早期アクセス提供となっており、2019年夏に一般利用可能になる予定です。

チームタグの作成と追加

エスカレーションポリシーのタグ

ユーザータグ

タグでオブジェクトを絞り込む

タグを使用してインシデントを再アサイン

モバイルでのエスカレーションポリシーのコンテキストサーチ

Mobile Contextual Searchを使用して、アラートを受信すればいつでもどこでも、タグでエスカレーションポリシーをフィルタリングしたり、検索を使用してインシデントを適切な担当者にすばやく再アサインできるようになりました。

セルフサービスの拡張性

ユーザセッション管理API

User Session Management APIエンドポイントにアクセスしてユーザーセッションを取得、削除できます。これらのエンドポイントは、組織外のユーザーをそのユーザーに関連付けられているすべてのPagerDutyセッションから安全に削除する、ユーザーオフボーディングワークフローの活用に不可欠です。

リアルタイムの可視性

可視化コンソールのパフォーマンスとカスタマイズ

可視化コンソールのパフォーマンスが新たに強化されたことで、エンジニアとビジネス担当者の間で、テクニカルインシデントがデジタルエクスペリエンスにどのような影響を与えるかをリアルタイムで共有することができます。可視化コンソールのすべてのモジュールがライブアップデートされるようになったため、手動でのリロードや自動更新は不要になりました。さらに、コンソールレイアウトの変更は自動的に維持されるようになり、レイアウトの変更を手動で保存する必要がなくなりました。

6月リリースの新機能を使い始めるには、あなたのアカウント担当者に連絡を取り、詳細についてはKnowledge Baseをチェックしてください。

最後に、私たちは定期的に、四半期ごとのPagerDuty Pulse Webinarで、製品、インテグレーション、その他新機能のすべてを紹介しています。今すぐregister todayで登録しましょう。

本記事は米国PagerDuty社のサイトで公開されているものをDigitalStacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。

2018年9月5日  (更新日:2022年3月10日)    |    ニュース&告知

Summit 2018の事例紹介トラックに登場する顧客企業について

ソリューションと顧客マーケティング担当ディレクターである私の一番の仕事は、世界中の熱心なPagerDutyの顧客全員と会うことです。 PagerDutyがどのようにしてより俊敏で、より顧客中心の、より革新的なものになったのかなどに関する彼らの話は、本当に感動的です!

そのために、 Summit 2018では、顧客がユニークで創造的な方法で組織内でPagerDutyをどう使ったかを紹介する一般向けのトラックがあります。 Summit 2018は皆のために、あなたがスタートアップや大企業、ハイテク業界や他の業界で働いていても、何かが得られることを保証します! 登場するお客様を紹介します。

American Eagle

あなたが町で見かけるキュートな服は、衣類やアクセサリーを専門とするアメリカのオムニコマース企業であるAmerican Eagle Outfitters(AEO)のものである可能性があります。 新学期からホリディシーズンまで、カレンダーのQ4はAEOの最も忙しい時間です。Matt Kundrat氏のチームは、販売チャネルをサポートするすべてのアプリケーションが週7日で24時間いつでも利用できるようにする責任があります。Mattが説明してくれるのは、AEOがワークライフバランスを維持しながらピークシーズンにどう対応しているか、ということで、そう、維持できるんです!

FanDuel

あなたがデイリーのファンタジースポーツが好きなら、FanDuelが向いています。 同社のサイトでゲームが進行中にログインすると、トーナメントに参加したり、他のコンテストに参加したりすることができます。ただし、それはWebサイトやアプリが稼働している場合だけです。 そうでないときは、FanDuelサポートチームがこれについて確実に把握します! しかし、テクニカルチームが5つのタイムゾーンに離れている場合、サポートチームは各テクニカルチームに顧客対応の問題をどうに通知したらよいでしょうか? Business Operations ManagerのLuke Kanter氏がその方法をシェアします。

Fitch Group

Fitch Groupは金融情報サービスの世界的リーダーであり、中でも著名な信用格付け機関であるFitch Ratingsはよく知られています。 そのため、迅速なイノベーションは同グループの競争上の差別化要因です。 しかし、同社は機密性の高いデータを扱うため、強力なセキュリティとのバランスを取る必要があります。 Director of IT Product Development and Head of DevOpsであるMir Ali氏は、Fitch GroupのDevSecOpsの流れについて、背景から主な学習とベストプラクティスまでを通して説明します。

Funding Circle

Funding Circleは、ピアツーピアレンディング(融資)のリーダーとして、投資家から50億ドル以上を調達して中小企業に融資しています。 これをできるだけ簡単にすることが同社の最優先事項であり、同社のエンジニアチームが革新を継続的に提供できるようにするのが、Paul Whyte氏の責務です。Funding CircleがPagerDutyを活用して、ソフトウェアの品質とパフォーマンス、ビジネスの重要な指標を真に理解しているその方法を、聞きましょう。

GE Digital

多くの人は、フィットネス-トラッカー、スマートサーモスタット、Alexaのおかげで、Internet of Things(IoT)に精通するようになりました。 しかし、産業用IoTの規模は、特に製造業や重工業にとって、さらに大きくなることが約束されています。 GE Digitalは、産業用インターネット向けのデジタルトランスフォーメーションに役立つエンジンです。Cloud Architecture and Automation LeaderのBen Hwang氏から同社のアプローチとPagerDutyが組織内でどうに使用されているかについての講演を聞きましょう。

Good Eggs

あなたが私のような人なら、スーパーマーケットに走るのと並んで待つのが嫌でしょう。Good Eggsのおかげで、これはもう不要です。 同社は、あなたの食べ物が適切な温度に保たれるように特別な冷蔵配送トラックを使用して、生鮮食料品を戸口まで届けます。 新鮮さはミッションクリティカルなので、Good Eggsはトラックの冷蔵庫が常に動作するようにする必要があります。PagerDutyはその監視を支援するために使われています。 センサー、トラック、PagerDutyの詳細については、Good EggsのAssistant Director of OperationsのTannia Hernandez氏と、Facility Manager であるJJ Mayoraの講演をお聞きください。

まさにすごいラインアップですね? これはPagerDuty Summit 2018のトラックの1つです! 今年のサミットでは3つのトラックで20回以上のセッションが行われ、いくつかの新しい思考を促す基調講演者も登壇します。 私はアジェンダや数日間のコースで共有される優れた学習方法やベストプラクティスについてとても楽しみにしています! では、 あなたも席を予約するため今すぐ登録してください!

本記事は米国PagerDuty社のサイトで公開されているものを日本語訳したものです。原文はこちらです。

2018年10月16日  (更新日:2022年3月10日)    |    ニュース&告知

2018のPagerDuty Summit Awardsの受賞者を発表

毎年開催されるSummitカンファレンスの最終日に、共同設立者でCTO Alex Solomonが2018 PagerDuty Summit Awardsの受賞者を発表しました。 これらの賞は、最高の顧客とパートナーをいくつかのカテゴリーに分けて表彰し、PagerDutyプラットフォームを活用した独自のユースケース、緊密なコラボレーション、およびビジネスへのインパクトを認めるものです。

今年の受賞者は次の方々です。

Community Champion Award winner: Simon Fiddaman 氏 Simon Fiddaman氏はeBayのeCG NOCのSiteOpsマネージャーで、 PagerDutyコミュニティのアクティブメンバーです。Simonはコミュニティを充実させ、メンターを募集し、他のメンバーとの交流を深める新しい投稿とコンテンツを生み出しています。 International Customer of the Year Award winner: Xero (代表者はサイト信頼性エンジニアAbdullah Siddiqui氏) この賞はPagerDutyのグローバル展開に不可欠な役割を果たした国際的な顧客を表彰するものです。Xeroは会計士や簿記担当者向けのニュージーランドベースのクラウド会計ソフトウェアプラットフォームです。 同社はPagerDutyを使用してインシデント対応プロセスを改善し、APIを活用してChatOpsツールMultivacを構築しています。 Impact Award winner: SightLife (代表者はドナー・オペレーションディレクターのAustin Nagasako氏) この賞は、PagerDutyを使用して、社会的または環境的に重大な課題に効率的かつ効果的に対処するための非営利団体を表彰するものです。SightLifeは、2040年までに世界中の角膜の病気による失明をなくすために取り組んでいる非営利団体です。Pag​​erDutyを使用して、SightLifeは寄付された角膜を回収するための回復プロセスを加速し、世界中で利用可能な角膜の数を増やしました。 Customer Experience Award winner: ING Australia この賞はPagerDutyの能力を使用して、記憶に残る世界でも一流のカスタマーエクスペリエンスを提供している顧客に与えられます。 Nielsen Consumer and Media Viewのオーストラリア版で最も推奨された銀行であるING Australiaは、監視プロセスを自動化し、顧客の影響を受ける前にインシデントを効率的に解決するため機械学習を活用しています。 Innovation Partner of the Year Award winner: SignalFx (代表者はCTOのArijit Mukherji 氏) SignalFXは、クラウドの監視および分析プラットフォームです。 この賞は、PagerDutyとの共通の顧客の成功を実現した有望な革新者を称えるものであり、SignalFxソリューションは PagerDutyプラットフォームの機能を拡張し、共通の顧客に大きな価値を提供しています。 Alliance Partner of the Year Award winner: AWS (代表者はパートナーエコシステムのグローバルヘッドのAina Khimani氏) この賞は、PagerDutyとの共通の顧客との優れたコラボレーションと成功を実現し、パートナーシップの成長と強化を続けているパートナーを表彰するものです。 現在までに、2600社を超えるお客様がAWS CloudWatchでPagerDutyを使用しています。 さらに、7月中旬にPagerDutyがAWS Marketplaceで発売されたため、既にMarketplaceを通じてPagerDutyに加入している顧客もいます。

Summit Award受賞者全員にもう一度、おめでとうございます! PagerDutyは、お客様やパートナーのサポートなしには何の意味もありません。私たちは、あなたがたが当社の製品やあらゆることにしてくださった貢献に感謝しています。 私たちと働き、革新し、成長してくれてありがとう!

本記事は米国PagerDuty社のサイトで公開されているものを日本語訳したものです。原文はこちらです。

2018年7月6日  (更新日:2022年3月10日)    |    インテグレーション&ガイド

Papertrailインテグレーションガイドを追加しました

Papertrailは、ログ管理ツールで、Herokuのアドオンとして使われることが多いツールです。これはPagerDutyとの統合で、その包括的なアラート機能とインシデント追跡機能を利用できます。

詳しくはこちら