SRE - ensuring the reliability of systems
- Сломанный бизнес-процесс: когда мониторинга недостаточно. Научитесь определять, где именно сломан бизнес‑процесс, когда все метрики в порядке.
- Введение в SRE. Пройдёте тесты и квизы, чтобы закрепить свои знания о практиках и подходах SRE.
- Симптомы «пожара». Определите SLI и максимальный SLO с учётом SLO описанных зависимостей приложения. Посчитаете допустимое время даунтайма приложения.
- Как узнать о «пожаре»: наблюдаемость. Настроите локальный экземпляр Grafana Loki, отправите тестовые логи через API Loki и визуализируете их в Grafana.
- Как узнать о «пожаре»: метрики. Развернёте локально экземпляр Prometheus или Grafana Mimir и запустите тестовое приложение. Соберёте метрики в Prometheus или Grafana Mimir, визуализируете их в дашборде Grafana и настроите тестовый алерт на стороне Prometheus.
- Что делать во время «пожара». Поучаствуете в ролевой игре по расследованию инцидента.
- Что делать после «пожара». Поучаствуете в ролевой игре по созданию постмортема и просчёту потери времени простоя.
- Как снизить риски будущих «пожаров»: отказоустойчивость. Определите RTO/RPO, предложите свой вариант развёртывания и примените лучшие практики для него.
- Как снизить риски будущих «пожаров»: надежность. Составите план реакции на инциденты, примените методы продакшн‑тестирования.
- Как снизить время устранения «пожара». Предложите решения для флапающего и False/Positive алертов, а также для алерта о заканчивающемся месте на диске. Для предложенных алертов определите критичность и severity.
-
Цена - 110 000 руб.
- Продолжительность курса составляет 4 месяца
- В рассрочку от школы 29 500 руб.