Skip to content
Operasyonlar7 dk okuma

Tek pager altında altı servis.

Compute, depolama, veritabanı, CI/CD, gözlemlenebilirlik, 7/24 IT. Tek bir on-call rotasyonu arkasında altı servis çalıştırmanın mühendislik gerçekliği.

Yazar
Halil Safa Sağlık
Kategori
Operasyonlar
Kelime
184
Okuma
7 dk okuma

#On-call #Platform

Altı servis. Tek pager. İmkânsız gibi geliyor. Tasarımı buna göre yapana kadar öyledir.

İlk tasarım seçimi: "servisler" yanlış zihinsel model. On-call servislere değil, sinyallere yanıt verir. Önemsenmesi gereken az sayıda sinyal var — hata oranları, tail latency'leri, kuyruk derinlikleri, replication gecikmesi, cert expiration'ları, deploy hataları. Bu sinyaller altı servisten gelir, ama on-call'un kullandığı zihinsel harita sinyal haritasıdır, servis haritası değil.

İkinci tasarım seçimi: çoğu on-call olayı aslında olay değildir. Sorudur. "Bu dashboard mu bozuk, metrik mi gerçek?" "Deploy neden otomatik geri alındı?" "Gece gelen alarm ne hakkında?" Her sinyal için runbook, en muhtemel cevapladığı soruyla başlar, çözümle değil.

Üçüncü seçim: sistemin sıkıcı zamanlarda kendi kendini çalıştırabilmesi gerekir. Bu demek ki: hata oranı eşiğinde otomatik rollback. Zamanlı secret rotation. Self-service provisioning. İnsan eli gerektiren her adım otomatikleştirilmesi gereken bir adımdır — sonra değil, canın yanmadan önce.

Metriğin arkasındaki disiplin: gerçek bir olay için harcanan zamanın çoğu yangını söndürmek değil, retrospeksiyon yazmak olmalı. Düzeltmenin kendisi yazımdan uzun sürüyorsa, sistem daha fazla yük taşımaya hazır değildir.

Bu kahramanlık değil. Tam tersi. On-call'u operasyonel bir problem yerine ürün problemi olarak ciddiye aldığında olan şey. Stack ürün. Pager arayüz.

#On-call#Platform

Signal bültenine abone ol

Aylık mühendislik ve araştırma notları. Spam yok, tek tıkla ayrılın.