Что даст этот курс
SRE позволяет превратить хаос в управляемый процесс и говорить с бизнесом на одном языке
Простои обходятся дорого, а работа в режиме «тушения пожаров» приводит сотрудников к выгоранию и замедляет выпуск новых фич. Вы научитесь определять надёжность с помощью SLO и Error Budget, чтобы принимать взвешенные решения: когда нужно срочно чинить, а когда можно безболезненно выкатить новый функционал.
Освоите ключевые SRE-практики и основной технологический стек

SLI
SLO
SLA
Error Budget
Postmortem
Golden Signals
RED
Grafana
Loki
Mimir
Prometheus
Tempo
OpenTelemetry
Alertmanager
GoAlert
GitLab
Kubernetes
Terraform
Ansible
nginx
Программа курса
Рассчитана на 4 месяца; нагрузка — от 12 часов в неделю
1
2 часа
Сломанный бизнес-процесс: когда мониторинга недостаточно
1 модуль — чтобы вы познакомились с платформой и определились, подходит ли вам курс
  • SLI
  • SLO
  • SLA
Постановка проблематики
Разберёте конкретный пример интернет‑магазина, где всё хорошо с инфраструктурой и микросервисами, но сломан процесс оформления заказа
Мониторинг и метрики
Мониторинг микросервисов и сбор метрик с каждого из них в отдельности: почему это важно
Конечная задача
Узнаете, как обеспечить работоспособность бизнеса через работоспособность приложений
SLI/SLO/SLA
Познакомитесь с SLI/SLO/SLA, найдёте индикатор для сложившейся ситуации, определите SLO на основе найденных индикаторов
Кривая SLO
Увидите демонстрацию поведения кривой SLO на основе найденных индикаторов, которые показывают, что бизнес‑процесс сломан
Научитесь определять, где именно сломан бизнес‑процесс, когда все метрики в порядке
2
1 неделя
Введение в SRE
  • SLI
  • SLO
  • SLA
  • Error Budget
История возникновения SRE
Возникновение SRE в Google, исходные причины и проблемы, которые решает методология. SRE Books. Концепции, подход, культура, роли и навыки специалиста по SRE.
Отличие SRE от DevOps
Узнаете, в чём между ними разница: DevOps — это набор практик и изменений в культуре, а SRE — это вариант имплементации.
SLI/SLO/SLA
Познакомитесь с терминами, их назначением, принципами и задействованными лицами.
Сигналы
Golden Signals: история возникновения, что означают, почему они важны и как их использовать.
Error Budget
Подход, принцип, использование, важность, идеализированный вариант в сравнении с реальностью.
Пройдёте тесты и квизы, чтобы закрепить свои знания о практиках и подходах SRE
3
1 проект・2 недели
Симптомы «пожара»
  • SLI
  • SLO
  • SLA
  • Golden Signals
  • RED
Способы получения информации об инцидентах
Взаимодействие с пользователями, сбор клиентских ошибок и серверных метрик, анализ логов, метрики, основанные на логах, синтетические тесты, тесты на продакшне, real user monitoring.
Кросс‑системные метрики
Важность кросс‑системных метрик, мониторинг интеграций между системами и бизнес‑метриками, мониторинг продукта в целом и каждого компонента.
Анализ и разбор инцидентов
Предиктивный анализ, разбор различных ситуаций, последствия бесконечных обновлений без backoff‑тайм‑аутов, которые увеличивают размер очереди. Расчёт количества реплик и допустимого количества «умерших».
SLI/SLO/SLA
Способы и важность правильного определения SLI, хорошие и плохие примеры, советы. Отличие SLO от SLA, способы определения значения SLO и его подсчёта. Описание дозволенного времени даунтайма при различных значениях SLO и влияние количества девяток на стоимость инфраструктуры. Целесообразность большого количества девяток.
SLO
Зависимость SLO компонента от SLO вышестоящих и нижестоящих компонентов, подсчёт суммарного SLO продукта.
Технические метрики
Описание распространённых технических метрик для бэкендов, фронтендов, баз, очередей, веб‑серверов и балансировщиков. Примеры использования и аргументация, почему нужны именно эти метрики.
Бизнес‑метрики
Важность бизнес‑метрик и их отличие от технических метрик.
Golden Signals и RED
Различия, применимость и примеры использования.
Определите SLI и максимальный SLO с учётом SLO описанных зависимостей приложения. Посчитаете допустимое время даунтайма приложения
4
1 проект・2 недели
Как узнать о «пожаре»: наблюдаемость
  • Grafana
  • Loki
  • Mimir
  • Prometheus
  • Tempo
  • OpenTelemetry
Логи, метрики и трейсы
Виды систем хранения, агенты для сбора, их различия и особенности. Разбор примера использования, установка и настройка, важность структуры данных, влияние на производительность и стоимость, риски и предостережения, советы по внедрению.
Визуализация логов, метрик и трейсов в Grafana
Установка и настройка Grafana. Настройка датасорсов и демонстрация собранных логов/метрик/трейсов.
Настроите локальный экземпляр Grafana Loki, отправите тестовые логи через API Loki и визуализируете их в Grafana
5
1 проект・2 недели
Как узнать о «пожаре»: метрики
  • Loki
  • Mimir
  • Tempo
  • Grafana
  • AlertManager
Корреляция метрик, логов и трейсов
Почему это важно и чем полезно, как настроить и какие нужны пререквизиты для этого, как использовать.
Алерты
Назначение алертов, трешхолдов, severity алертов, их критичность, разница между severity и критичностью. Обзор систем доставки алертов. Пример конфигурации Alertmanager, интеграция с источниками алертов и способом доставки: при помощи почты, мессенджеров или СМС.
Типы метрик
Гайд по типам метрик: counter, gauge, histogram и другим. Различия, применимость, примеры разных типов метрик из популярных опенсорс‑продуктов, их особенности, визуализация показателей.
Функции агрегации метрик
В чём их полезность и важность, зачем эти функции нужны и какие есть особенности, лучшие практики. Влияние функций агрегации метрик на производительность систем хранения метрик и оптимизацию сложных запросов.
Дашборды
Подходы к созданию дашбордов, импорт и экспорт готовых дашбордов. Конфигурации Grafana. Отображение различных типов метрик в разных вариантах визуализации. Виджеты, влияние сложных комплексных дашбордов на производительность систем хранения. Лучшие практики по созданию и оптимизации дашбордов.
Развернёте локально экземпляр Prometheus или Grafana Mimir и запустите тестовое приложение. Соберёте метрики в Prometheus или Grafana Mimir, визуализируете их в дашборде Grafana и настроите тестовый алерт на стороне Prometheus
6
1 практикоориентированная ролевая игра・・2 недели
Что делать во время «пожара»
  • Alertmanager
  • GoAlert
  • Loki
  • Mimir
  • Tempo
  • Grafana
Инциденты
Что считать инцидентом, а что нет. Различия между обычным алертом и реальным инцидентом, их влияние на бизнес.
Действия при инциденте
Как себя вести при появлении инцидента, что делать в первую очередь, что отложить на потом. Разбор ситуации при классическом подходе и сравнение с SRE‑подходом. Разные роли во время инцидентов, зоны ответственности этих ролей, их скрипт поведения и порядок действий.
Эскалация
Важность эскалационной модели, наличие эскалации в рабочее и нерабочее время, рассказ про инструменты, пример установки и настройки. Описание условных уровней (L1/L2/L3) on‑call‑инженера, дежурства, ротации, подмены.
Best practice
Лучшие практики: важность хронологии событий, кто, что и когда сделал, что получилось. Рассказ про war‑румы, лидерство в инциденте и назначении ролей, описание порядка действий.
Коммуникации во время инцидента
Внутри команды, между отделами, внутри компании и с клиентами. Различные способы коммуникации и Statuspage.
Траблшутинг
Как решать проблемы, с чего начинать, на что обращать внимание. Разбор примера инцидента и поиска проблемы. Митигация проблемы, отличие от полноценного решения, цель и способы.
Поучаствуете в ролевой игре по расследованию инцидента
7
1 практикоориентированная ролевая игра・・2 недели
Что делать после «пожара»
  • GitLab
  • Postmortem
Postmortem
Цель, важность и суть процедуры, структура, назначение и алгоритм использования. Лучшие практики по написанию.
Blameless‑культура
Почему важна, какие проблемы решает. Описание подхода, примеры плохих и хороших ситуаций.
Экшн‑планы
Зачем нужны планы действий, почему после инцидента надо их писать и искать конкретных исполнителей, ставить дедлайны и проверять статус.
Ретроспектива действий на инциденте
Как разобрать, что было хорошо или плохо, что нужно исправить в управлении инцидентами на будущее.
Сбор информации и анализ инцидента
Почему важно собирать информацию по горячим следам, даже если инцидент случился ночью. Первичный анализ инцидента, определение списка возможных первопричин.
Исследование проблемы
Сбор дополнительных данных, метрик и логов, проверка гипотез, тестирование, воспроизведение на непродакшн‑окружениях.
Подсчёт убытков от «пожара»
Узнаете, почему важно определять размер потерь бизнеса за время простоя, какие есть способы их подсчёта, рекомендации. Трекинг потерь на повторяющихся инцидентах с аналогичными первопричинами.
Поучаствуете в ролевой игре по созданию postmortem и подсчёту потерь за время простоя
8
1 проект・2 недели
Как снизить риски будущих «пожаров»: отказоустойчивость
  • Kubernetes
  • GitLab
  • Terraform
  • Ansible
  • DNS
  • nginx
RTO/RPO
Чем они различаются, зачем нужны, где используются и на что влияют. Способы определения и подсчёта, влияние на SLO/SLA. Лучшие практики по выбору RTO/RPO для разных типов данных. Зависимость RTO/RPO от бизнеса и законов. Влияние RTO/RPO на стоимость инфраструтктуры и продукта. Лучшие практики при удовлетворении различных RTO/RPO.
Лучшие практики для увеличения доступности приложения
Резервные реплики, отказоустойчивость внутри одного дата‑центра и внутри нескольких, в одном регионе или в нескольких, на уровне нескольких облаков. Важность удалённости дата‑центров друг от друга и от пользователя. Квоты, лимиты разных провайдеров, советы по организации отказоустойчивости для распределённых систем. Хранение данных, кеши, CDN.
Лучшие практики по организации отказоустойчивости
Описание топологий инфраструктуры, балансировка трафика, управление трафиком, blue/green, canary, балансировка сессий, описание балансировщиков L4/L7 и их различий. Лучшие практики по настройке на примере опенсорсных решений.
Лучшие практики для повышения отказоустойчивости в Kubernetes
Replicas, HPA, VPA, requests/limits, PDB, node afinity, pod afinity, taints/tolerations. Мультизональные Kubernetes‑кластеры. Возможные схемы реализации на уровне нескольких Kubernetes‑кластеров в разных зонах доступности.
Определите RTO/RPO, предложите свой вариант развёртывания и примените лучшие практики для него
9
1 проект・2 недели
Как снизить риски будущих «пожаров»: надёжность
  • План реакции на инциденты
  • Методы продакшн-тестирования
Disaster Recovery Plan
Что это и зачем он нужен, от чего спасает и как приводится в действие. Зависимость плана от RTO/RPO. Схема описания, документация, принятие решения о введении в действие. Ручная или автоматическая активация.
Тестирование отказоустойчивости инфраструктуры
Ручное согласованное выведение из строя различных компонентов на продакшн. Исследование результатов, влияние на бизнес, проверка работоспособности DRP и достижения значения RTO/RPO. Автоматизированное согласованное и несогласованное тестирование отказоустойчивости, хаос‑инжиниринг. Теория и применимость, примеры инструментов и реализации.
Техдолг
Техдолг в приложениях, инфраструктуре и конфигурациях. Влияние техдолга на отказоустойчивость, доступность систем и потери компании. Необходимость постоянной работы по устранению техдолга.
Требования к отказоустойчивости
Внедрение требований к коду, чтобы обеспечить необходимую отказоустойчивость. Внедрение скриптов проверки, формирование требований, практика Quality Gates, которым должны удовлетворять архитектура приложений и инфраструктура.
Составите план реакции на инциденты, примените методы продакшн‑тестирования
10
1 проект・2 недели
Как снизить время устранения «пожара»
  • Alertmanager
  • GoAlert
  • Terraform
  • Ansible
Дежурства
Организация дежурств, их важность и цель. Зоны ответственности, учёт часовых поясов пользователей и членов команды, учёт норм рабочего времени. Лучшие практики по подсчёту необходимого количества людей для дежурства.
Передача знаний и опыта
Ведение документации, передача знаний, ротация в команде, обучающие тренинги. Подготовка Run‑Books, где описан чёткий порядок действий при возникновении типовой проблемы.
Автоматизация реакции на алерты
Написание скриптов для устранения типовых проблем. Возможные инструменты и схемы реализации.
Шум в алертах
Его наличие и влияние на команду, причины возникновения, советы по уменьшению шума, примеры различных видов шума в алертах. Флапающие алерты и работа с ними, реакция на них. False‑positive‑алерты: что это такое, почему возникают, как влияют на команду и как с ними бороться.
Предложите решения для флапающего и false‑positive‑алерта, а также для алерта о заканчивающемся месте на диске. Для предложенных алертов определите критичность и severity
Как устроен курс
YandexGPT помогает учиться
Когда в теории что-то непонятно, нейросеть объяснит это другими словами. А в конце каждого урока подготовит краткий пересказ о самом главном.
Этот курс может оплатить
ваш работодатель
Полностью или разделив оплату с вами,
например 50/50 или 75/25
  • Расскажем всё про курс
  • Сообщим стоимость
  • Ответим на ваши вопросы
  • Подготовим договор и счёт
Отвечаем на вопросы
Каким требованиям нужно соответствовать?
Курс рассчитан на IT‑специалистов, у которых уже есть опыт разработки, тестирования или эксплуатации.

Для успешного обучения у вас должны быть:
  • Знания по сетям и архитектуре веб-приложений: TCP/IP, HTTP, DNS, балансировка нагрузки, кеширование.
  • Понимание Linux: что такое командная строка, настройка сервисов, анализ логов и метрик.
  • Опыт разработки на одном из языков программирования: Python/Go/Bash.
  • Знание Docker.
Кто будет меня учить?
Все наставники — специалисты из крупных российских и международных компаний, у которых большой опыт работы с инструментами SRE.
Что делать, если я не справлюсь с нагрузкой?
В программе предусмотрены каникулы, во время которых можно отдохнуть или повторить сложные темы.

Если случилось непредвиденное или понадобилось больше времени на закрепление материала, напишите своему куратору. Он поможет перенести дедлайн сдачи проекта или перевестись в более поздний поток. На общую стоимость курса это не повлияет.
Если не понравится, я могу вернуть деньги?
Конечно. Если поток ещё не стартовал, вернём всю сумму. Если учёба уже началась, придётся оплатить прошедшие дни со старта вашего первого потока — но мы вернём деньги за остаток курса. Более подробно рассказываем об этом в 7 пункте оферты.
Получу ли я какой-то документ после курса?
Да, для этого нужно закончить курс и успешно выполнить итоговый проект.

Тогда вы получите диплом о профессиональной переподготовке, если у вас есть среднее профессиональное или высшее образование. Если нет, отправим вам сертификат о прохождении курса в электронном виде.

А если не получится пройти курс целиком и выполнить итоговый проект, по запросу выдадим вам электронную справку об обучении — с перечнем модулей, которые вы освоили.
Вы поможете сменить или найти работу?
На этом курсе не предусмотрена помощь с трудоустройством, поскольку он для действующих специалистов, у которых уже есть навыки поиска работы.

Но если у вас появится вопрос о карьерном развитии, обратитесь в нашу службу поддержки — постараемся ответить.
Как можно оплатить?
Банковской картой: внести всю сумму сразу или платить ежемесячно.

Ежемесячные платежи работают так: вы вносите первую оплату, и в этот момент привязывается карта. С этой карты автоматически будут списываться следующие платежи каждые 30 календарных дней. Например, оплатили 25 марта — следующий платёж пройдёт 24 апреля. Обучение будет стоить меньше, если оплатить весь курс сразу.

Через компанию, если она налоговый резидент РФ. Условия для юридических лиц и ИП отличаются — чтобы узнать подробнее, оставьте заявку или уточните у вашего менеджера.
Что такое налоговый вычет на обучение и как его получить?
Налоговый вычет может получить тот, кто работает по трудовому договору и является налоговым резидентом Российской Федерации, то есть 183 дня в году находится на территории страны.

Вот инструкция, которая поможет всё оформить.

Давайте поможем

Мы перезваниваем в течение 30 минут каждый день с 10:00 до 19:00. Если оставите заявку сейчас, то перезвоним уже в рабочее время.

Как планируете учиться?