導入事例:GREE

サイズ
100人以上

業界
モバイルゲーム

ロケーション
San Francisco, CA

PagerDuty導入
2012年3月から

PagerDutyのメリット

  • 平均修復時間の低減
  • インシデントの自動エスカレーション
  • 該当するジョブの適任者に都度連絡

GREE

米国参入当初の課題

GREEは、ほぼ10年にわたって日本で成功を収めているゲーム会社ですが、同社が2年前に米国市場に参入したとき、彼らのチームは、拡大している熱烈なファン層にオンライン環境とゲームを配信し続けるにあたって、いくつかの技術的な課題に直面しました。

初めは、ネットワークオペレーションセンター(NOC)のチームを構築する計画を立て、GREEのインフラストラクチャ―で発生したインシデントの監視、対応、解決を行おうとしていました。しかし、すぐにNOCでは非常に時間がかかり、オンコールチームがミスを起こしやすくなるであろうことに気づきます。

NOCで作成されたインシデントの場合、問題のエスカレーションにおける責任分担が難しくなることは避けられませんでした。適切なエスカレーションポリシーを実施していない状態では、該当する作業の適任者が誰なのかはっきりしない場合は特にそうですが、自分のチームのメンバーを呼び出したくないがために、モニタリングで検出されるまでインシデントを軽視してしまうといことが容易に起きてしまいます。インシデントは、当初の想定よりもかなり深刻な場合があり、ゲームが何時間もオフラインになるケースもあります。
多くの場合、1つのインシデントが聞き慣れた混乱を引き起こします。

「運用手順書はどこ? アプリのバグ?それともシステム上の問題なのか? このゲームの開発者は誰? 誰か電話番号わかる人いる?・・・
開発者がつかまらない? 彼のマネージャが誰か知っている人はいる?」

GREEの場合、エスカレーションにおけるこの人的因子が遅延の原因となったケースがあり、全体的な平均修復時間(MTTR)にも影響しました。

PagerDutyによってどのように改善されたか

PagerDutyを使用する前は、GREEでのエスカレーションは手動のプロセスで行われていたため、長い時間がかかっていました。アラートの重大さがすぐに周知されていたわけではなかったため、開発者やその上司に問題をエスカレーションする事に対して運用技術者はためらいがちでした。

PagerDutyを導入して、GREEではすぐに運用技術者のみをオンコール要員とする体制から、オンコールマネジメントとアラートに対応するDevOpsモデルに移行しました。

「開発者をオンコールに入れることで、具体的なアラートを利用して適切なチームに連絡を取ることができます」

PagerDutyの導入によって、GREEでは必ず該当する作業に必要な正しいチームメンバーに問題を流すことができています。毎週月曜日の朝、GREEではチームが前の週からのアラートを確認し、新しい1週間のスケジュールとオンコールローテーションを検討します。各チームメンバーに、その週の第一次、第二次、そして管理者のオンコール担当が誰であるかを認識させることが不可欠です。

「PagerDutyでは、開発者のオンコール担当、オペレーションの第一次および第二次オンコール担当、その週の管理者が誰であるのかが、明確にわかります」

すぐにアクションを必要としないアラートはミーティングで格下げされ、次のオンコールローテーション中に再発しないようにします。

PagerDutyでは、GREEの各ゲーム システムに可視性ももたらしています。GREEではPagerDuty APIを使用し、各ゲームのそれぞれの利用状況をステータス ダッシュボードと同期させています。

このダッシュボードによって、企業内の誰もがゲームのステータスを視覚的に確認することができます。

ゲームに対するアラートが受信されると、ダッシュボード上の対応するアイコンが赤く点滅します。インシデントが解決すると、ゲームのアイコンによって、完全にオンラインに戻っていることを示します。
さらに自分のチーム内で最新情報を常に共有するために、GREEではSkypeボットをPagerDutyに統合しています。インシデントがPagerDutyでトリガーされると、アラートが影響を受けているゲームの専用のチャットルーム内に表示されます。これらの専用チャットルームには、ゲームの開発者、プロダクトマネージャー、およびVPも参加するため、そのゲームに関るステークホルダー全員をコミュニケーションの輪に参加させておくことができます。GREEではまた、チャットウィンドウから直接オンコールのエンジニアに対してPagerDutyのインシデントをトリガーすることができています。

GREEでは、インシデントの解決に対して適切な人材が直接通知を受けるようになっているため、PagerDutyを使用する前と比べてはるかに早くインシデントを修復しているとのことです。

「PagerDutyでは、各ゲームに対して、その場でオペレーションとエンジニアの誰がオンコール担当なのかが明確にわかります」

PagerDutyに関するお問い合わせはお気軽にお寄せください。

お問い合わせ