lp19jan01

全世界1万社が使うエンジニア専用RPA

監視ツールからのアラートを一元管理

膨大な数のツールとの連携

ZabbixやNew Relicをはじめとする約200種類の監視ツールやチャット、SNS、AWS、Google、Azureなどとの連携を簡単に実現

アラートを集約しノイズ排除

メールやチャットに押し寄せる重複アラートの嵐を排除。同一原因のアラートを1つに集約。ノイズを排除して落ち着いて対応

AIによるインシデント集約

機械学習を使った類似インシデントの集約化により、対応方法のマニュアル化が可能に。不慣れな担当者でも復旧時間が短縮できる

深夜待機は自宅でも安心に

オフィスでの深夜待機を自宅待機に変えて働き方改革を。携帯電話へ音声コールがあるので、就寝中でも安心。アプリでの対応も可能

インシデント管理のデファクトスタンダード

PagerDuty はサーバコンピュータ、クラウド上のインスタンスなどの 不具合の際に監視ツールやサービスから発せられるアラートを受け取 り、適切な運用エンジニアに通知するクラウドサービスです。さまざま なシステムのアラートを統合して管理し、適切な開発・運用担当者への 通知、解決、事後検証までを管理するワークフローをスムーズに回すための、エンジニアにとってのRPAと言えるサービスです。アラートは内容を判別して優先順位を付け、電話やチャット、メールやSMSなどで通知し、反応がなければ別の担当者にエスカレーションします。さらに、機械学習を使った対応自動化も進めています。

SmartNewsのバックエンドを支えるPagerDuty

670万人が利用するニュースアプリ、SmartNewsは広範な提携メディアから選んだ豊富なコンテンツで人気を博しています。PagerDutyはその背後で24時間365日システムの構築と運用に当たるエンジニア達を支えています。

SmartNewsはAWSやGoogle Cloudなどの数百インスタンスを使用して運用されています。その上にDatadogやRunscopeなどのツールを使ってレスポンスの低下や問題の発生を監視しています。何かが起きてアラートが発せられると、システム管理者やビジネス関係者など40名ほどのスタッフに、軽微なものはSlackで、重大なものは電話が鳴るというようにレベル分けしてPagerDutyから通報が届きます。

「以前は監視ツールからSlackへ通報されるだけだったのですが、PagerDutyを導入してからは電話が鳴るので、夜間や週末でも見落とすことがありません。たとえスマホをマナーモードにしていても、強制的に呼び出し音を鳴らせるので安心です」「APIを使えば問題発生時に実行する処理を書いておくこともできます」(スマートニュース株式会社エンジニアリングマネージャ・尾形暢俊氏)

今後は米国へのサービス展開も計画中とのことで、さらにPagerDutyの活躍場面を増やしていくとのことです。

モンストの巨大マルチクラウドサーバを監視するPagerDuty

世界累計利用者数4,500万人を突破(2018年3月現在)した株式会社ミクシィのXFLAGが提供するスマホアプリ「モンスターストライク」。キャンペーンや期間限定のイベントとなれば、通常の数倍ものアクセスがスパイクします。これに応えるのは負荷に合わせて柔軟にインスタンスを増減させるように設計された、マルチクラウド併用のシステム。24時間止まることが許されない複雑なシステムを、影で支えているのがPagerDutyです。

使用しているクラウドが1つであれば、それぞれの監視サービスで監視していればいいのですが、マルチクラウドの運用では何らかのツールを使って全体を取りまとめる必要があります。対応する人へ送るメールや電話に繋げるような仕組み、エスカレーションなどの機能を持ったものを自分たちで保守するのはかなり大変なので、それを包括的に扱えるのがPagerDutyの良いところです(株式会社ミクシィ執行役員、CTO・村瀬龍馬氏)。

NagiosやCloudWatchなどの監視ツールが問題を検出すると、PagerDutyのAPIを通してイベントをポストするようにしていて、アラートが運用チームに通知されます。当番は2人1組で1週間、1か月に4組という仕組みで運用していますが、それらの当番スケジュールを自動生成できるのが便利です。(SREグループ・小池知裕氏)。

エスカレーションは3段階で設定していて、ファーストラインの2人がたまたま対応できない場合、5分後に2段階目の人が呼び出されます。3段階目は役員の村瀬で、そこまで行くことはまずないのですが(モンスト事業本部開発室室長・白川裕介氏)。

障害が大規模になると、さすがに夜中の2時に2人で作業をするのはたいへんなんです。そういう時には、エスカレーション機能でみんなを招集して、対応にあたります。ボタンをひとつ押すだけでみんなを招集できるのがいいですね(SREグループ・佐藤良祐氏)。

モンスト運用メンバーの3人。左から小池知裕氏、佐藤良祐氏、白川祐介氏

モンスト運用メンバー。左から小池知裕氏、佐藤良祐氏、白川祐介氏

執行役員、CTO・村瀬龍馬氏

PagerDutyの特徴その1:エコシステムの広さ

PagerDutyは、ネットビジネスの継続運用に使用されるメジャーな監視ツールとの連携が可能

Webサイトやシステムの動作の監視には、たくさんの優れたツールがあります。貴社でも複数のツールをすでにお使いかもしれません。そうしたツールと簡単につなげられるのか?と疑問に思われるかもしれません。

ところがPagerDutyは、ネットビジネスの継続運用に使用されるメジャーな監視ツールとの連携が、ほんの数分で可能です。対応できる監視ツールやサービスは、AWS CloudWatchやZabbix、Nagios、Mackerel、Datadogなどをはじめ300種類以上あり、しかもWebインターフェイスで指定するだけで簡単に設定できます。

REST APIでのコールも可能であり、そのためのサンプルも豊富に用意されているので、新しい監視ツールからのアラートを受けるスクリプトを書くことも容易です。

PagerDutyの特徴その2:錯綜するアラートをダッシュボードで一括表示

PagerDutyのインシデント管理プラットフォームは、多種多様なツールからのアラートを集約し、ダッシュボード化します。

それだけでなく、対応が必要でないアラート=ノイズを削減します。エンジニアや関係者は本当に対応すべき(重大インシデントに発展するような)アラートにだけ集中できるようになり、インシデントをより迅速に解決するために役立ちます。

PagerDutyの特徴その3:担当者をスケジュールし最適な担当者を呼び出せる

運用担当者のスケジューリングなども簡単に行えるため、運用部門全体の負担を軽減し、結果的にエンジニアやステークホルダーの生活を改善します。

例えば下図のような画面で運用担当者のローテーションを設定しておくことができ、時間帯によってアラートやインシデントの発生を誰に通知するかを切り替えます。関連部門などの担当者を通知先に含めることもできます。結果として、運用担当者だけでなく管理者やサービス責任者の負担も著しく減らせます。このため海外では、ネットビジネスに関わるエンジニアの働き方改革を促すツールとしても注目されています。

PagerDutyの特徴その4:インシデント対応の経験を未来に生かせるポストモーティム

PagerDutyのメリットはインシデント発生時だけではありません。このプラットフォームを通じて、インシデント対応後のポストモーティム(事後検証)のプロセスまでも最適化できるため、インシデント対応の履歴を将来に役立つ知見に変えられます。

履歴には、例えばインシデント対応に携わったエンジニアや回復までの経緯などが記録されており、その知見は、プロセスを改善するためだけでなく、その後の運用にも生かせます。例えば過去の履歴を基に重大インシデントに発展しそうなアラートを見つけ、それにうまく対応できるエンジニアを探すことができます。

究極のインシデント管理ツール
無料トライアルで全機能を14日間お試し可能

トライアル期間中は、ユーザーの追加、削除は自由に行え、
エンタープライズプランのフル機能をお試しいただけます。

製品版への移行の際は、設定はそのまま引き継ぐこともできます。

PagerDutyの無料トライアルの申し込み

*この項目は入力が必須となっています。

Digital Stacksについて(PagerDuty国内正規販売代理店)

Digital Stacksは、デジタルビジネスを支える海外の最新テクノロジーを提供・支援している会社です。 PagerDutyをはじめ、セキュリティ、DevOps、デジタルマーケティングの各分野の 世界最高水準のサービスを代理店として提供しています。

現在提供中のサービスについては下記をご覧ください。

https://www.digitalstacks.net/products

各サービスについてのお問い合わせもこちらで伺います。お気軽にお電話ください。

総合受付:050-1742-0590

PagerDutyに関するお問い合わせはお気軽にお寄せください。

お問い合わせ