أظهر انقطاع الخدمة بالأمس مدى اعتماد الويب الحديث على حفنة من مزودي البنية التحتية الأساسية.
في الواقع، إنه معتمد لدرجة أن خطأ تكوين واحد جعل أجزاء كبيرة من الإنترنت غير قابلة للوصول تمامًا لعدة ساعات.
يعمل الكثير منا في مجال العملات المشفرة لأننا نفهم مخاطر المركزية في التمويل، لكن أحداث الأمس كانت تذكيرًا واضحًا بأن المركزية في جوهر الإنترنت هي مشكلة ملحة بنفس القدر يجب حلها.
تدير العمالقة الواضحة مثل أمازون وجوجل ومايكروسوفت أجزاء هائلة من البنية التحتية السحابية.
ولكن بنفس القدر من الأهمية هي شركات مثل Cloudflare وFastly وAkamai وDigitalOcean، ومزودي CDN (خوادم توصل المواقع بشكل أسرع حول العالم) أو DNS (دليل العناوين للإنترنت) مثل UltraDNS وDyn.
معظم الناس بالكاد يعرفون أسماءهم، ومع ذلك يمكن أن تكون انقطاعاتهم مشلة بنفس القدر، كما رأينا بالأمس.
للبدء، إليك قائمة بالشركات التي ربما لم تسمع بها من قبل والتي تعتبر ضرورية للحفاظ على تشغيل الإنترنت كما هو متوقع.
| الفئة | الشركة | ما يتحكمون به | التأثير إذا توقفوا |
|---|---|---|---|
| البنية التحتية الأساسية (DNS/CDN/DDoS) | Cloudflare | CDN، DNS، حماية DDoS، الثقة الصفرية، العمال | فشل أجزاء ضخمة من حركة الويب العالمية؛ آلاف المواقع تصبح غير قابلة للوصول. |
| البنية التحتية الأساسية (CDN) | Akamai | CDN للمؤسسات للبنوك وتسجيلات الدخول والتجارة | تعطل خدمات المؤسسات الرئيسية والبنوك وأنظمة تسجيل الدخول. |
| البنية التحتية الأساسية (CDN) | Fastly | CDN، حوسبة الحافة | احتمالية انقطاع عالمي (كما شوهد في 2021: Reddit، Shopify، gov.uk، NYT). |
| مزود الحوسبة السحابية | AWS | الحوسبة، الاستضافة، التخزين، واجهات API | فشل تطبيقات SaaS ومنصات البث وتقنيات التمويل وشبكات إنترنت الأشياء. |
| مزود الحوسبة السحابية | Google Cloud | يوتيوب، جيميل، خلفيات المؤسسات | اضطراب هائل عبر خدمات جوجل والتطبيقات التابعة. |
| مزود الحوسبة السحابية | Microsoft Azure | سحابات المؤسسات والحكومات | انقطاعات Office365 وTeams وOutlook وXbox Live. |
| بنية DNS التحتية | Verisign | نطاقات com. وnet. العليا، جذر DNS | فشل كارثي في التوجيه العالمي لأجزاء كبيرة من الويب. |
| مزودو DNS | GoDaddy / Cloudflare / Squarespace | إدارة DNS لملايين النطاقات | اختفاء شركات بأكملها من الإنترنت. |
| سلطة الشهادات | Let's Encrypt | شهادات TLS لمعظم الويب | تعطل HTTPS عالميًا؛ يرى المستخدمون أخطاء أمنية في كل مكان. |
| سلطة الشهادات | DigiCert / GlobalSign | SSL للمؤسسات | فقدان مواقع الشركات الكبرى لثقة HTTPS. |
| الأمان / CDN | Imperva | DDoS، WAF، CDN | المواقع المحمية تصبح غير قابلة للوصول أو معرضة للخطر. |
| موازنات الحمل | F5 Networks | موازنة حمل المؤسسات | يمكن أن تفشل الخدمات المصرفية والمستشفيات والخدمات الحكومية على المستوى الوطني. |
| العمود الفقري من المستوى الأول | Lumen (Level 3) | العمود الفقري العالمي للإنترنت | تسبب مشاكل التوجيه ارتفاعات في التأخير العالمي وانقطاعات إقليمية. |
| العمود الفقري من المستوى الأول | Cogent / Zayo / Telia | العبور والربط | اضطرابات الإنترنت على المستوى الإقليمي أو القطري. |
| توزيع التطبيقات | Apple App Store | تحديثات وتثبيتات تطبيقات iOS | تجميد نظام تطبيقات iOS بشكل فعال. |
| توزيع التطبيقات | Google Play Store | توزيع تطبيقات Android | لا يمكن تثبيت أو تحديث تطبيقات Android عالميًا. |
| المدفوعات | Stripe | البنية التحتية لمدفوعات الويب | فقدان آلاف التطبيقات القدرة على قبول المدفوعات. |
| الهوية / تسجيل الدخول | Auth0 / Okta | المصادقة وSSO | تعطل تسجيلات الدخول لآلاف التطبيقات. |
| الاتصالات | Twilio | رسائل 2FA، OTP، المراسلة | فشل جزء كبير من رموز 2FA وOTP العالمية. |
كان المتسبب بالأمس هو Cloudflare، وهي شركة توجه ما يقرب من 20٪ من جميع حركة مرور الويب.
تقول الآن إن الانقطاع بدأ بتغيير صغير في تكوين قاعدة البيانات تسبب عن طريق الخطأ في تضمين ملف اكتشاف الروبوتات لعناصر مكررة.
نما هذا الملف فجأة متجاوزًا حد الحجم الصارم. عندما حاولت خوادم Cloudflare تحميله، فشلت، وبدأت العديد من المواقع التي تستخدم Cloudflare في إرجاع أخطاء HTTP 5xx (رموز الخطأ التي يراها المستخدمون عند تعطل الخادم).
إليك السلسلة البسيطة:
سلسلة الأحداث
بدأت المشكلة في الساعة 11:05 بتوقيت UTC عندما جعل تحديث الأذونات النظام يسحب معلومات إضافية ومكررة أثناء بناء الملف المستخدم لتقييم الروبوتات.
يتضمن هذا الملف عادةً حوالي ستين عنصرًا. دفعت العناصر المكررة به إلى تجاوز الحد الأقصى البالغ 200. عندما قامت الأجهزة عبر الشبكة بتحميل الملف ذي الحجم الزائد، فشل مكون الروبوت في البدء، وأعادت الخوادم أخطاء.
وفقًا لـ Cloudflare، تأثرت مسارات الخادم الحالية والقديمة. أعاد أحدهما أخطاء 5xx. وخصص الآخر درجة روبوت صفرية، والتي كان من الممكن أن تضع علامة خاطئة على حركة المرور للعملاء الذين يحظرون بناءً على درجة الروبوت (اكتشاف Cloudflare للروبوت مقابل الإنسان).
كان التشخيص صعبًا لأنه تمت إعادة بناء الملف السيئ كل خمس دقائق من مجموعة قاعدة بيانات يتم تحديثها قطعة بقطعة.
إذا سحب النظام من قطعة محدثة، كان الملف سيئًا. إذا لم يكن كذلك، كان جيدًا. كانت الشبكة تتعافى، ثم تفشل مرة أخرى، مع تبديل الإصدارات.
وفقًا لـ Cloudflare، بدا هذا النمط المتقطع في البداية وكأنه هجوم DDoS محتمل، خاصة وأن صفحة حالة طرف ثالث فشلت أيضًا في نفس الوقت تقريبًا. تحول التركيز بمجرد أن ربطت الفرق الأخطاء بتكوين اكتشاف الروبوتات.
بحلول الساعة 13:05 بتوقيت UTC، طبقت Cloudflare تجاوزًا لـ Workers KV (فحوصات تسجيل الدخول) وCloudflare Access (نظام الم


