事件後の死:2021年5月19日

ブライアント・カウとレオナルド・ジザミア

概要

5月19日水曜日の午前5時50分から午前7時38分までの間に、coinbase.com、Coinbaseモバイルアプリ、CoinbaseProで接続の問題が発生しました。 この間、多くのユーザーは、購入、販売、取引などの機能を含め、Coinbaseにアクセスしようとしたときに読み込み時間が遅くなりエラーが発生しました。 この投稿では、停止の詳細、原因の説明、および今後同様の障害を防ぐために行った変更について説明します。

停止

この事件に至るまでの暗号市場の突然の価格下落に多くのユーザーが反応したため、トラフィックが大幅に急増しました(ETHは20%低下し、BTCは25%低下しました)。 いくつかのサービスで高いエラー率が発生したためにページングされた後、オンコールエンジニアのグループが招集されました。

影響を受けたサービスは次のとおりです。

  • ログアウトしたWebサーバー:これにより、ログインしていないユーザーがcoinbase.comにアクセスしたときにエラーページが表示されました。
  • GraphQLサービス:これにより、モバイルアプリの一部の読み込みが非常に遅くなり、エラーが最大10%発生しました。
  • Coinbase Pro API:これにより、CoinbaseProが部分的に到達不能になりました。
  • 米国以外のカード支払い処理サービス:これにより、米国以外の顧客がカードで暗号を購入しようとすると拒否されました。

これらの問題が特定されると、エンジニアはさまざまなグループに分かれて各問題を並行して調査し、フォローアップアクションに優先順位を付けます。

根本原因分析

停電から数日で、最初の1分以降に何が起こったのかを明確に再構築しました。

  1. ログアウトしたcoinbase.comページは、インスタンスが失敗し始め、正常な状態に戻るまでに40分以上かかったため、ほとんど到達できませんでした。 リクエストの急増は、Nginxルーター接続の最大しきい値に達することになりました。これはインシデント中に手動で増加しました。 これは最終的にボトルネックに対処しました。
NodeJSHTML応答

2.基盤となるサービスからのデータを集約するGraphQLサービスでタイムアウトとレイテンシーの増加が見られました。 タイムアウトは、GraphQLの自動スケーリングが遅すぎることが原因でした。 自動スケーリングは最終的に追いつき、エラーは収まり、モバイルアプリとログインユーザーの機能が復元されました。

GraphQLエラー

3. Coinbase Proエクスチェンジを強化するデータベースは、待ち時間が長く、CPU負荷が高いことがわかりました。 さらに、市場データフィードを実行するAPIサーバーは、高いCPU負荷にさらされていました。 データベースで構成された操作スループットを向上させ、さらに多くのAPIサーバーをプロビジョニングしました。

Coinbase ProAPIの応答時間

4.米国以外のカード支払い処理サービスでは、支払いを処理するためのキューがバックログになるにつれて、失敗した支払いの数が増加しました。 キューワーカーの数を増やし、カード決済が成功し始めました。

キューサイズ

改善点

Coinbaseでは、長期間のトラフィックに備えるための定期的な負荷テストなど、信頼性の向上に多大なリソースを投入しています。 ただし、このインシデントにより、特に突然のトラフィックの急増に関して、対処すべきいくつかの死角が特定されました。

この事件のいくつかの失敗に共通するテーマは、暗号市場が引き起こす可能性のあるトラフィックスパイクの性質に合わせて調整されていない自動スケーリングルールでした。 突然のトラフィックスパイクなど、実際の状況をより適切にシミュレートするために、負荷テストの調整に取り組んでいます。 これは、制御されたテスト中に、調整されていない自動スケーリングルールなどのより多くの問題を明らかにするのに役立ちます。

私たちが投資しているもう1つの改善点は、クライアントアプリケーションの一部にキルスイッチを実装することです。これにより、障害が発生した場合でも、障害に対処するために作業している間、アプリケーションの影響を受けていない部分を機能させ続けることができます。

私たちはインフラストラクチャの稼働時間とパフォーマンスを非常に真剣に受け止めており、暗号通貨を管理するためにCoinbaseを選択する何百万もの顧客をサポートするために懸命に取り組んでいます。 ここに示されているようなスケーリングの課題を解決することに興味がある場合は、私たちと一緒に作業してください。


事件後の死:2021年5月19日 もともとで公開されました Coinbaseブログ ミディアムでは、人々はこの物語を強調してそれに反応することによって会話を続けています。

Share:

Share on facebook
Facebook
Share on twitter
Twitter
Share on pinterest
Pinterest
Share on linkedin
LinkedIn

Related Posts

2021年に暗号波に乗った有名人

過去数年間の栄光を覆い隠していた暗号エコシステムは、2021年を通して1年間のスポットライトを維持することができました。 主流の採用 ビットコインのBTC)、ミームコイン狂乱 駆動 柴犬(SHIB)とドージコイン(ドージ