Revision 94

and

Sep 16, 2024

Prepare to Be Unprepared: Investing in Capacity to Adapt to Surprises in Software-Reliant Businesses (link)
Good Retry, Bad Retry: An Incident Story (link)
Measuring meaningful availability / uptime of Wise (link)
Reliability recommendations when adopting Kubernetes (link)
Build Platform Engineering as a Product for Dev Adoption (link)
5 Lessons Learned Managing Kubernetes in Enterprise Organizations (link)
Introducing Falco Talon v0.1.0 (link)
Service Level Status (SLS)(link)
The SRE Experience: Isaac on Automation, Challenges, and Mentoring (link)
Incident management that actually makes sense: SLOs, error budgets, and blameless reviews (link)
The Insights Manifesto (link)
Prometheus 3.0 Unveiled: PromCon Highlights with Julius Volz (link)
CEL and Kubescape: Transforming Kubernetes Admission Control (link)
Cluster Mesh with Cilium (like)
Building the lightest-weight Kubernetes dev ephemeral environments (link)
SLO: Elastic vs Datadog vs Grafana (link)

Articles and updates: