Pingdom Webhooksインテグレーションガイドを追加しました
PingdomはWebサイトやインフラの死活や稼働時間を監視できる簡単で便利なツールです。PagerDutyにアラートを電子メールまたはwebhook経由で送信するように設定すれば、PagerDutyの包括的なアラート機能とインシデント追跡機能を利用できるようになります。PagerDutyは、既存のPingdomのチェックに双方向電話、SMS、電子メールアラートを追加します。
詳しくはこちら
インテグレーション&ガイド
Uptimeインテグレーションガイドを追加しました
UptimeはあなたのWebサイトとWebアプリケーションの稼働とパフォーマンスを監視する(訳注:いわゆる外形監視)サービスの中でもトップクラスのサービスです。Uptimeは5大陸の異なる30カ所から1分間隔であなたのWebサイトをチェックします。PagerDutyとの連携法を紹介します。
詳しくはこちら
インテグレーション&ガイド
Prometheusインストレーションガイドを追加しました
Prometheusは、オープンソースのシステム監視とアラートツールキットです。多次元データモデル、多次元構造を活用するための柔軟なクエリ言語、分散ストレージに依存せず、時系列のコレクションはHTTP経由のプルモデルを介して行われます。時系列のプッシュは中間ゲートウェイ経由でサポートされ、ターゲットはサービスの検出や静的な設定が可能で、グラフ化とダッシュボードの複数のモードがサポートされています。
詳しくはこちら
インテグレーション&ガイド
インシデント管理がアプリケーションのサポートにもたらす7つの利点
インシデント管理は、アプリケーションをサポートする大事な要素です。アプリケーションの仕事をするとき、私たちはプロダクション(本番バージョン)のリリースに大部分の時間を費やします。これには、ロードマップについての打ち合わせ、ニーズと要望の特定、私たちのストーリーと機能の構築が含まれます。その後、多くのサイクルが開発、テスト、QA(品質検証)に費やされます。エンジニアリングチームは環境を準備しながら作業します。その後、アプリがローンチを迎え、チームは次のアプリに移ります。アプリを本格的に提供するのは運営チームの責任です。これがアプリとのやりとりの終わりである場合、開発チームは、改善に関する貴重なフィードバックを多く未解決または未発見のまま残しています。 そこで、インシデント管理プロセスが、アプリケーションを改善し、最終的にお客様にとってより良いエクスペリエンスを提供する鍵を握ることになるのです。
- 必要に応じて迅速にエスカレーションし、解決までの時間を短縮する
明確かつ十分に利用されるインシデント管理プロセスがあると、アプリケーションサポートは組織文化の自然な一部となります。インシデントは、ベストプラクティスを反映した方法に沿ってより迅速に、より一貫して解決されます。明文化されていなかったり不規則だったりするインシデント管理は、解決と絶え間ない消火作業で試行を繰り返すことにつながる可能性があります。
- クロストレーニングを奨励する
「夜中に誰かを起こしてそれを修正させる」という原則に従って、インシデント管理プロセスは、開発チーム内とチーム間の両方でクロストレーニングを奨励します。 これには、コードの可読性の重要性を強調し、コメントすることで、運用文書と構成管理を最新の状態に保つことを奨励するという副次的な利点があります。
- 信頼と透明性の文化を築く
開発チームのすべての人は、バックアップとプライマリの両方でエスカレーションのローテーションに参加する必要があります。これはコミュニケーションとチームの友情を深めます。また、透明性を奨励することで、オンコールに出る開発者はすでにアプリケーションの一般的な感覚を持っているはずであるため、解決までの時間が短縮されます。 チームがマイクロサービスのパラダイムに従っており、各アプリケーションに1つのサービスを含む場合、これはさらに強化されます。
- ジュニアスタッフの成長の道を提供する
私たちは、私たちが前進するために急いで来た場所を振り返ることをしばしば忘れています。 チームはまた、思考や意見の多様性から恩恵を受けます。インシデント管理プロセスでは、エスカレーションパスのすべてのレベルをアプリケーションに公開することで、これを促進できます。インシデントを解決することは、ジュニアメンバーにより多くのチームのことを理解させるのに役立ちます。特定のインシデント解決について貴重な知識を得る一方で、アプリケーショントポロジの包括的な設計にも触れる機会が持てます。才能ある人を募集し維持することは、組織にとって重要です。第1層のインシデント対応から開発およびエンジニアリングチームまでの可視的なパスを提供することは、貴重な採用ツールになります。
- より良い全体プロセスを作成する
継続的なインテグレーションと継続的な配信技術を組み合わせることで、以前の月次または四半期の導入よりも迅速に展開されます。 これはインシデントを促進し、量と頻度を減らします。 これの成果は、はるかに短い時間枠でバグを修正でき、繰り返しの一時的な修正の必要性を大幅に削減できることです。 これにより、エンジニアリングチームとオペレーションチームの技術的負債の蓄積も少なくなり、実践的に役立つ修正の道が開かれます。
- 定量的フィードバックを生成する
追跡される各インシデントは、多くのもののカプセル化です。 これには、修理のための複数の人の時間、解決を記した文書、おそらくバグレポートの提出が含まれます。また、アプリケーションを操作する際に苦労する点の評価も明らかにするに違いありません。これにより、アプリケーションのロードマップを知らせることができ、実装可能な高価値、低エフォートな機能拡張に関する会話を促進することができます。
- 内部ツールを開発する
チームが一定のサイズに達すると、職務の差別化が行われます。 これは組織の自然な進歩であり、規模を拡大する方法です。 以前はうまく機能していたアプリケーションを操作するツールは、組織の成長を維持するために不可欠になっています。 インシデント管理プロセスは、このニーズだけでなく、これらのツールを作成するときに開始する場所を明示することもできます。
アプリケーションのインシデント管理は、多くの場合、顧客サポートと成功にとっては重視されないものですが、顧客はアプリケーションの一部のみを見ています。 彼らが経験するのは、アプリケーションのレイヤーを通る狭いパスだけです。 もっと目に見えるくらいアプリケーションの復元力が高く、インシデントが迅速に解決されるほど、すばやくアプリケーションを使用することができます。
本記事は米国PagerDuty社のサイトで公開されているブログをそのまま日本語に翻訳したものです。原文はこちらを参照してください。
インシデント&アラート
AppOpticsインテグレーションガイドを追加しました
AppOpticsは、クリティカルなITシステムのメトリクスを収集して可視化できる強力なサービスです。PagerDutyとのインテグレーションにより、PagerDutyインシデントを自動的にトリガーし、システムの潜在的な問題について直ちに通知できるようになります。
詳しくはこちら
インテグレーション&ガイド
HashiCorp Consulインテグレーションガイドを追加しました
HashiCorp Consulは、インフラ内にあるサービスを検出および設定できるようにするサービスで、高可用性をもたらす分散型システムを構築するために利用できるサービスです。複数のデータセンターに分散するシステムを構築・管理できます。
詳しくはこちら
インテグレーション&ガイド
BMC Service Deskインテグレーションガイドを追加しました
BMC Remedy Service Deskは、モバイル向けにネイティブで構築された革新的なサービス管理プラットフォームです。美しく直感的なユーザーエクスペリエンスを提供します。BMC Remedyを使用すると、PagerDutyユーザーは、フォームに注意が必要な内容が記入されたときにアラートを受け取ることができます。
詳しくはこちら
Catchpoint インテグレーションガイドを追加しました
Catchpointを使用すると、オンラインアプリケーションのパフォーマンスを管理、監視、テストできます。 PagerDutyをCatchpointとインテグレーションすることにより効率的な監視サービスを実現します。
詳しくはこちら
AppDynamicsインテグレーションガイドを追加しました
AppDynamicsはアプリケーションやデータベースのパフォーマンスをモニターし、分析し、管理するためのツールです。PagerDutyは自由に設定したAppDynamicsのパフォーマンス閾値に従って通知します。
詳しくはこちら
いかにして優秀なエンジニアになるか パート1:レバレッジの向上
PagerDutyで私達は個人としてもチームとしても日々勉強に励んでいます。具体的には、事後分析、コードレビュー、過去の見直し、SlackやJIRAでの議論、ヘルスチェック調査などです。さらに、インタレストグループに参加したり、スプリントレビュー、テクニカルトーク、ブログを読いんだり書いたりする機会もあります。
エンジニアとして、私たちは非効率なコードをリファクタリングし、技術的な欠陥に対処し、ワークフローを改善しようともしています。このように多くの仕事をしている(これとは別のスクラムチームでやっている製品やインフラストラクチャの仕事もある)ので時間をどのように管理するかが重要です。たとえば、どのプロジェクトが他のプロジェクトより優先されるべきか、その理由は何か? 目標に向かってより効果的に進めるため、私たちは何をすべきか?
これらの質問に答えるには、当面の仕事のレバレッジを評価する必要があります。Edmond Lauの効果的なエンジニアによるとレバレッジとは「投下された時間当たりの生成された価値またはインパクト」というシンプルな方程式で定義されています。
言い換えれば、ハードに働くことは効果的に働くことと同義ではありません。それは仕事が生産的なのか、ただ忙しくしているのかの違いです。それを知るための別の方法は、エンジニアリングのROIです。私たちが取り組むべき仕事は無限にありますが、私たちの時間とリソースは限られています。効果的であるということは、最小の努力で最大の価値を生むものに取り組むことを意味します。「結果の80%は20%の労力から生まれる」―Pareto Principleとも呼ばれる80-20のルールが当てはまります。
どうすればレバレッジを高めることができるか
元IntelのCEOであるAndrew Groveは著書「High Output Management」で、レバレッジの総量―時間単位で生産する価値―を高めるためには、3つの方法しかないとしています。
一定の活動を完了するのにかかる時間を短縮する 特定の活動のアウトプットを増加させる レバレッジがより高い活動に移行する
日中は、会議、メールのチェック、Confluence/コメント/ブログの読み書き、Githu/Confluenceへのフィードバック、Slackディスカッションへの参加、デザインスプリントなど、さまざまな活動が行われています。しかし、あなたが何をしているのかに関わらず、あなたのレバレッジを向上させるために次のことを自問してみましょう。
どうすればこの活動を短時間で完了できるか どうすればこの活動によって生み出される価値を高められるか より高い価値を生み出せるものが他にあるか
以下にいくつかの例を示します。
ミーティング
会議をより効果的にするために、以下の質問について考えてみてください。
この会議に1時間かける必要があるか。30分で済ませられないか。それとも15分内のほうがいいか 会議の目的を全員が理解しているか。出席者は何か準備する必要があるか。彼らは事前に何かを読んでおくべきか この会議は必要なのか。Slackやメールですませられないか
電子メールとSlackのチェック
メールとSlackの設定は個人ごとに異なります。メールのチェックと返信に価値があることは否定できません(Slackのメッセージを読み、アップデートし、コラボレーションすることも同じ)。だが、これらはどんな点でそのリターンを低下させているのか。言い換えれば、これはいつから私たちの生産性の阻害要因になったのでしょうか。
1日を通して絶えず割り込みがかかる中で、この競り人の速さでコードを書けるマインドセットを持つことは難しいかもしれません。たとえば、私はコミュニケーションツール(メール、Slack、JIRAなど)で頻繁にチャットをしながら、Command + Tabでアプリケーション間を行き来したり、Chromeののタブからタブへとスイッチしたり、そしてコードを書いたりと、落ち着かない働き方をしています。しかし、私は正面を向いてロックインし、レーザーのように集中できる割り込みなしのコーディング時間―私が言うところのディープワークを、1日に少なくとも2〜3時間取れるようにしています。
Deep Workの著者であるCal Newportは、それを次のように定義しています。
「途切れのない十分な集中力で行われる専門的な活動は、認知能力を限界まで押し上げる。その努力は新しい価値を創造し、スキルを向上させる。それは簡単には真似できない」
私はまた、心理学者Mihaly Csikszentmihalyiによって造られたflowと呼ばれるコンセプトを聞いたことがあります。flowを経験した人々は、flowのことを「何の努力もせずに、時間の感覚や自己の存在、自分の問題も忘れるほど集中できる状態」と表現しています。
ディープワークをしている時、私はSlackのスヌーズ機能を使用しています。これで設定した時間は通知が抑制されます。その後、きりのいいところで何も起こっていないことを確認するため定期的にSlackをチェックします。
エンジニアは最大限仕事を頑張って、効果的な結果を果たしていると私は信じており、人には1日に少なくとも1時間か2時間は仕事に集中し、より生産的であるかを確認するよう勧めています。この時間を通常の集中していないコーディング時間と混同しないでください。理想的には、私たちは一日中コードを書くべきですが、散漫で集中していないコーディングと中断のないコーディングとは違います。私がディープワークと言う時は、途切れることのないコーディングを指します。
あなたが作業している現在のJIRAチケット
Jiraチケットがすでにプロダクトオーナーによって優先順位付けされており、ストーリータイムとスプリント計画プロセスを経ていると仮定すれば、それをもう一度見て、そのレバレッジを高めることができるかどうか考えましょう。次の3つの質問でそれをチェックしてみましょう。
どうすればこの活動を短時間で完了できるか 既存のライブラリを利用できるか。エンジニアにとって最初からスクラッチでコードを書くことが魅力的であることは私も知っています。 どうすればこの活動によって生み出される価値を高められるか より高い価値を生み出せるものが他にあるか
現在の目標やリリースのためもっと重要な作業が必要なのか。このような状況ではMVP (最小限の実行可能な製品)を考える―初期のフィードバックを収集しようとしているときに、最初からこのファンシーな最適化が本当に必要なのだろうか。リリース可能な最小スライスは何か。リリースにおける80-20とは何か。しないでいいのは何か。どのようにして価値を下げることなく範囲を縮小できるのか。
忙しい仕事に巻き込まれるのはよくあると思います。しかし、私は正しい質問を自分に問うことを覚えました。そうすれば効果的に仕事をして生産性を高めることができるでしょう。
次回は優先順位付けの方法についてより詳しく説明します。お楽しみに。
本記事は米国PagerDuty社のサイトで公開されているブログをそのまま日本語に翻訳したものです。原文はこちらを参照してください。
Aruba ClearPassインテグレーションガイドを追加しました
Aruba ClearPass Policy Managerプラットフォームは、ロールベースとデバイスベースのネットワークアクセス制御を、有線、無線、VPNインフラを介して、従業員、請負業者、ゲストに提供します。ClearPass Policy ManagerはPagerDutyにプロアクティブなアラートを提供し、ネットワーク上で発生したイベントをリアルタイムで確実に適切なスタッフに通知します。
詳しくはこちら
Rollbar統合ガイドを追加しました
Rollbarは、Ruby、Python、PHP、JavaScript、Flashなどを対象としたエラー通知、分析サービスです。DjangoやNode.jsなどの一般的なプラットフォームもサポートされており、HTTPとJSONリクエストに応答するサービスはすべて動作するように設定できます。このサービスはエラーを収集してRollbarに集約し、ダッシュボードに表示します。RollbarとPagerDutyをインテグレーションすることで、緊急事態になる前にチームにタイムリーに警告し、問題を解決することができます。
詳しくはこちら
Raygunインテグレーションガイドを追加しました
アプリケーションのパフォーマンスとエラーの追跡を1つのプラットフォームで。Raygunは問題を自動的に検出して診断することにより、より速くより強固で堅牢なソフトウェアを構築するのに役立ちます。
詳しくはこちら
セキュリティインシデント対応者としての生活
小さな目でスパイして
「誰がリンクをクリックしたかを追跡する機能を構築したい」
そのメールをセールスチームに送ったとき、私は気味の悪いストーカーと思われたようだ。なぜクリックされた地球上のすべてのリンクを追跡したいのだろうか? 私は私についての厄介な噂を払拭するために、どんな状況だったのか知る必要があると判断した。そして、セールスチームのメンバーが警戒してセキュリティチームに報告したため、実際にフィッシング攻撃という脅威が検出された。
私の考えを説明するフォローアップメッセージを書いたとき、私はカーテンを剥がして「セキュリティのしくみ」を明らかにすれば会社全体が利益を得ることができると気づいた。拡大と混乱の期は熟した。セキュリティインシデント対応者のニーズを理解すれば、PagerDutyを使用して顧客が新しい問題を解決する助けになれると。
セキュリティインシデント対応の仕組み
セキュリティチームには、ビジネスに対するサイバーセキュリティリスクを軽減し、顧客の信頼を向上させるという2つの主な目的がある。私たちが毎日直面している本当のリスクは、攻撃者がいつでも任意のコンピュータ上でマルウェアを実行できることだ。セキュリティインシデント対応チームは、私たちが直面している脅威の影響を理解し軽減するプロセスを経験している。ここでPagerDutyで行う高度な手順は、 NISTのサイバーセキュリティフレームワークに基づいており、以下のようなセキュリティインシデント対応計画からなっている。
検出
封じ込め
対応
回復
さて、PagerDutyセキュリティチームがこのような脅威にどのように対応しているかを見てみよう。
急ぎの質問としては、
悪質なマルウェアが含まれているか?
悪質なマルウェアはどこででも発現したか?
この2つの質問に答えることで、攻撃の最初の影響を理解し、被害を封じ込めることができる。
最初の質問への答えは、同僚からの攻撃のレポートを受け取ったときにすぐに分かった。私たちの手元にはリンクが付いた電子メールがあり、リンク先がマルウェアかどうかを確認することができた。そのような場合、安全のため隔離されたコンピュータの中の仮想マシンを使用してリンクをたどって疑わしいファイルを検査する。こうすれば、リンクが何か悪質なものをダウンロードした場合は、直ちに仮想マシンを止めることができるため、マルウェアは損害を与えられない。
この方法を使用すると、リンクがマルウェアをインストールしたことが検出された場合、そのリンクをブロックして、オフィスネットワーク上の誰もそれをダウンロードできないようにできる。しかし、ブロックを設置する前に誰かがすでにダウンロードしていたらどうだろうか?
これは2番目の質問につながる。悪質なマルウェアはどこででも発現したか? この質問に答えるには、誰かがマルウェアをダウンロードしたかどうかを調べる必要がある。誰がリンクをクリックしたのか? マルウェアをダウンロードした人が複数いる場合は、すぐにネットワークからコンピュータを切り離して、マルウェアが他のシステムと通信できないようにする必要がある。マルウェアはネットワーク上の他のコンピュータを攻撃し、コンピュータからデータを盗み、インターネット経由で攻撃者に送信する可能性がある。これらの行動は、それぞれ「lateral movement」(横への動き)と「exfiltration」(抽出)と呼ばれる。
感染したコンピュータをネットワークから切り離した後、マルウェアが実行可能だったかどうかを確認する。必ず、問題に対応する前に、まず攻撃をカットすること。できるだけ早く感染が広がらないようにする。ひょっとするとあなたは幸運かもしれない。マルウェアはWindowsやMacでのみ実行可能で、それ以外のOSにダウンロードしても実行されないならば、あなたが影響を受けることはない。
では次に、3人のユーザーがリンクをクリックし、悪意のあるソフトウェアが彼らのコンピュータで実行できることが判明したシナリオを見てみよう。これは本当に危険な状況だ。3台のコンピュータがネットワークから切断される前に、マルウェアが実行中に何をしたのか理解する必要がある。インターネット越しにデータを抽出したのだろうか? 横への動きを使って別のコンピュータを攻撃することができたのだろうか? パスワードを盗もうとキーロガーをインストールしたのだろうか? これらの質問に対する答えは、私たちがどのように対応し、攻撃から回復するために何をすべきかを決定する。
残念ながら、現在のところ誰かがリンクをクリックしてマルウェアをダウンロードしたかどうかを即座に特定できる技術はない。私はいつも誰もクリックしていないことを願っているが、それが望めなくともせめてどのシステムも影響を受けていなければ、夜はよく眠れるだろう――だから私は誰がリンクをクリックしたかを追跡したいのだ。
セキュリティのためのPagerDuty
インシデント対応チームがセキュリティイベントが検出されたときに迅速に対応することがいかに重要であるかをご理解いただけただろうか。リスクを減らすことが私たちが仕事をして給料を稼ぐ理由だ。あなたのためにできる私の挑戦は、以下の質問に答えること――セキュリティインシデント対応者は、PagerDutyを使用して対応にかかる時間をどのように短縮できるか? 彼らは横への動きを介して広がる前に感染を封じ込めることができた場合、どのくらいのリスクを排除することができるのか? どのくらいのコストを節約できるのか?
セキュリティのためにPagerDutyを! 以下のセキュリティに関するリソースを確認しよう。
セキュリティの混乱:SecOpsとインシデント管理によるITセキュリティの改革
セキュ開発者:PagerDutyを安全に保つ
シグナルサイエンスはセキュリティ上の異常に素早く対処し、PagerDutyで顧客データを安全に保つ
本記事は米国PagerDuty社のサイトで公開されているブログをそのまま日本語に翻訳したものです。原文はこちらを参照してください。
ServiceNow Expressインテグレーションガイドを追加しました
ServiceNow Express は、中小企業向けに高度な自動化とプロセスワークフローを提供するプラットフォームです。ServiceNow Express をインテグレートすることにより、PagerDutyの堅牢なオンコールスケジューリングと通知、エスカレーションにより、ServiceNowのワークフローとチケット機能を活用することができます。
詳しくはこちら
Dynatraceインテグレーションガイドを追加しました
Dynatrace はアプリケーションとサービスを監視し、問題を分析し、問題が発生したときに通知します。また、Dynatrace はアプリケーションアーキテクチャ全体を自動的に学習し、適切な視覚化をインテリジェントに選択して提供することで、データや環境を容易に理解できるようにします。カスタマイズされたインフォグラフィクスは、アプリケーション環境のあらゆる側面に関する最も重要な事実を伝えます。
詳しくはこちら
Apicaインテグレーションガイドを追加しました
ApicaはWebサイトが利用可能で、期待通りに応答しているかをモニターする強力な監視ツールです。
Apicaは簡単な設定でPagerDutyと直に統合できます。
詳しくはこちら
JIRAサーバエクステンションガイドを追加しました
JIRA Software は、組織内のチーム間のコラボレーションを可能にするプロジェクト管理ツールです。 このガイドは、JIRA サーバで使用する場合のインテグレーションについて述べてい説明します。JIRA Cloudとのインテグレーションは、JIRA Cloud Extension Guideをご覧ください。
詳しくはこちら