lp18aug01

SREを実現するために全世界1万社が使う自動化ツール

監視ツールからのアラートを一元管理

膨大な数のツールとの連携

ZabbixやNew Relicをはじめとする約200種類の監視ツールやチャット、SNS、AWS、Google、Azureなどとの連携を簡単に実現

アラートを集約しノイズ排除

メールやチャットに押し寄せる重複アラートの嵐を排除。同一原因のアラートを1つに集約。ノイズを排除して落ち着いて対応

AIによるインシデント集約

機械学習を使った類似インシデントの集約化により、対応方法のマニュアル化が可能に。不慣れな担当者でも復旧時間が短縮できる

深夜待機は自宅でも安心に

オフィスでの深夜待機を自宅待機に変えて働き方改革を。携帯電話へ音声コールがあるので、就寝中でも安心。アプリでの対応も可能

インシデント管理のデファクトスタンダード

「PagerDuty」はインフラやインスタンスなどの不具合の際に監視ツールやサービスから発せられるアラートを受け取り、適切な運用エンジニアに通知するクラウドサービスです。アラートの集約から適切な担当者への通知、解決、事後検証までを管理して、SRE(Site Reliability Engeneering)を回すための強力な自動化ツールです。アラートは内容を判別して優先順位を付け、電話やチャット、メールやSMSなどで通知し、反応がなければ別の担当者にエスカレーションします。さらに、機械学習を使った対応自動化も進めています。

PagerDuty&DigitalStacksがIneterop Tokyo 2018の「ShowNet」構築に参加

2018年6月13日から15日まで,千葉市・幕張メッセで開催されたインターネット技術の総合イベント「Interop Tokyo 2018」⁠。その展示会ネットワークであるShowNetの運用にDigitalStacks・PagerDutyが参加しました。

Interop Tokyo 2018出展社の展示機器/サービスやデモンストレーションのため,ボランティアの手によって構築されるネットワークがShowNetです。ルーターや各種のセンサーなどのベンダーとその機器が多数参加します。その運用の課題の1つが様々な監視ツールから発生する大量のアラートの集約でした。PagerDutyはそれを解決する手段として力を発揮しました。

ShowNetの構築作業では,ケーブル接続や設定の間違いなどによるトラブルが発生し,そのたびに大量のアラートが押し寄せます。NOCチームモニタリング担当の阿部博さん(レピダム/ココン)と鈴木孝規さん(ニュータニックス・ジャパン)によると,昨年は「アラートを監視ツールからチャットツールに流しましたが,大量すぎて,一晩でスマホの電源がなくなったほど」(⁠阿部さん)⁠。各ツールから個別にアラートが届くため全体を把握しにくいという場面もありました。今回PagerDutyを導入したことで「アラートを1ダッシュボードに集約でき,必要な通知だけに抑制できた」(⁠鈴木さん)そうです。

SmartNewsのバックエンドを支えるPagerDuty

670万人が利用するニュースアプリ、SmartNewsは広範な提携メディアから選んだ豊富なコンテンツで人気を博しています。PagerDutyはその背後で24時間365日システムの構築と運用に当たるエンジニア達を支えています。

SmartNewsはAWSやGoogle Cloudなどの数百インスタンスを使用して運用されています。その上にDatadogやRunscopeなどのツールを使ってレスポンスの低下や問題の発生を監視しています。何かが起きてアラートが発せられると、システム管理者やビジネス関係者など40名ほどのスタッフに、軽微なものはSlackで、重大なものは電話が鳴るというようにレベル分けしてPagerDutyから通報が届きます。

「以前は監視ツールからSlackへ通報されるだけだったのですが、PagerDutyを導入してからは電話が鳴るので、夜間や週末でも見落とすことがありません。たとえスマホをマナーモードにしていても、強制的に呼び出し音を鳴らせるので安心です」「APIを使えば問題発生時に実行する処理を書いておくこともできます」(スマートニュース株式会社エンジニアリングマネージャ・尾形暢俊氏)

今後は米国へのサービス展開も計画中とのことで、さらにPagerDutyの活躍場面を増やしていくとのことです。

PagerDutyの特徴その1:エコシステムの広さ

PagerDutyは、ネットビジネスの継続運用に使用されるメジャーな監視ツールとの連携が可能

Webサイトやシステムの動作の監視には、たくさんの優れたツールがあります。貴社でも複数のツールをすでにお使いかもしれません。そうしたツールと簡単につなげられるのか?と疑問に思われるかもしれません。

ところがPagerDutyは、ネットビジネスの継続運用に使用されるメジャーな監視ツールとの連携が、ほんの数分で可能です。対応できる監視ツールやサービスは、AWS CloudWatchやZabbix、Nagios、Mackerel、Datadogなどをはじめ200種類以上あり、しかもWebインターフェイスで指定するだけで簡単に設定できます。

REST APIでのコールも可能であり、そのためのサンプルも豊富に用意されているので、新しい監視ツールからのアラートを受けるスクリプトを書くことも容易です。

PagerDutyの特徴その2:錯綜するアラートをダッシュボードで一括表示

PagerDutyのインシデント管理プラットフォームは、多種多様なツールからのアラートを集約し、ダッシュボード化します。

それだけでなく、対応が必要でないアラート=ノイズを削減します。エンジニアや関係者は本当に対応すべき(重大インシデントに発展するような)アラートにだけ集中できるようになり、インシデントをより迅速に解決するために役立ちます。

PagerDutyの特徴その3:担当者をスケジュールし最適な担当者を呼び出せる

運用担当者のスケジューリングなども簡単に行えるため、運用部門全体の負担を軽減し、結果的にエンジニアやステークホルダーの生活を改善します。

例えば下図のような画面で運用担当者のローテーションを設定しておくことができ、時間帯によってアラートやインシデントの発生を誰に通知するかを切り替えます。関連部門などの担当者を通知先に含めることもできます。結果として、運用担当者だけでなく管理者やサービス責任者の負担も著しく減らせます。このため海外では、ネットビジネスに関わるエンジニアの働き方改革を促すツールとしても注目されています。

PagerDutyの特徴その4:インシデント対応の経験を未来に生かせるポストモーティム

PagerDutyのメリットはインシデント発生時だけではありません。このプラットフォームを通じて、インシデント対応後のポストモーティム(事後検証)のプロセスまでも最適化できるため、インシデント対応の履歴を将来に役立つ知見に変えられます。

履歴には、例えばインシデント対応に携わったエンジニアや回復までの経緯などが記録されており、その知見は、プロセスを改善するためだけでなく、その後の運用にも生かせます。例えば過去の履歴を基に重大インシデントに発展しそうなアラートを見つけ、それにうまく対応できるエンジニアを探すことができます。

究極のインシデント管理ツール
無料トライアルで全機能を14日間お試し可能

トライアル期間中は、ユーザーの追加、削除は自由に行え、
エンタープライズプランのフル機能をお試しいただけます。

製品版への移行の際は、設定はそのまま引き継ぐこともできます。

PagerDutyの無料トライアルの申し込み

*この項目は入力が必須となっています。

Digital Stacksについて(PagerDuty国内正規販売代理店)

Digital Stacksは、デジタルビジネスを支える海外の最新テクノロジーを提供・支援している会社です。 PagerDutyをはじめ、セキュリティ、DevOps、デジタルマーケティングの各分野の 世界最高水準のサービスを代理店として提供しています。

現在提供中のサービスについては下記をご覧ください。

https://www.digitalstacks.net/products

各サービスについてのお問い合わせもこちらで伺います。お気軽にお電話ください。

総合受付:050-1742-0590

PagerDutyに関するお問い合わせはお気軽にお寄せください。

お問い合わせ