SRE онлайн-интенсив
Слёрм
Описание:
Вы погрузитесь в теорию и практику SRE: будете поддерживать сайт, состоящий из нескольких микросервисов. Научитесь правильно распределять ограниченные ресурсы для обеспечения быстродействия, отказоустойчивости и доступности сайта для максимальной надежности, достаточной, чтобы были довольны пользователи.
На интенсиве вы будете:
Строить
Сформулируете показатели SLO, SLI, SLA для сайта, состоящего из нескольких микросервисов, разработаете архитектуру и инфраструктуру, которая их обеспечит, соберете, протестируете и задеплоите сайт, настроите мониторинг и алертинг.
Ломать
Рассмотрите внутренние и внешние факторы ухудшения SLO: ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DDoS-атаки. Разберетесь в устойчивости, error budget, практике тестирования, управлении прерываниями и операционной нагрузкой.
Чинить
Поймете как организовать работу группы по ликвидации аварии в минимальные сроки: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Попробуете на практике восстановить работоспособность сервиса в условиях предельно ограниченного времени.
Изучать
Разберете подход к сайту с точки зрения SRE. Проанализируете инциденты (причины возникновения, ход устранения). Примете решение по их дальнейшему предотвращению: улучшить мониторинг, изменить архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируете процессы.
Требования к участникам:
Продажник:
Скачать:
Слёрм
Описание:
Вы погрузитесь в теорию и практику SRE: будете поддерживать сайт, состоящий из нескольких микросервисов. Научитесь правильно распределять ограниченные ресурсы для обеспечения быстродействия, отказоустойчивости и доступности сайта для максимальной надежности, достаточной, чтобы были довольны пользователи.
На интенсиве вы будете:
Строить
Сформулируете показатели SLO, SLI, SLA для сайта, состоящего из нескольких микросервисов, разработаете архитектуру и инфраструктуру, которая их обеспечит, соберете, протестируете и задеплоите сайт, настроите мониторинг и алертинг.
Ломать
Рассмотрите внутренние и внешние факторы ухудшения SLO: ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DDoS-атаки. Разберетесь в устойчивости, error budget, практике тестирования, управлении прерываниями и операционной нагрузкой.
Чинить
Поймете как организовать работу группы по ликвидации аварии в минимальные сроки: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Попробуете на практике восстановить работоспособность сервиса в условиях предельно ограниченного времени.
Изучать
Разберете подход к сайту с точки зрения SRE. Проанализируете инциденты (причины возникновения, ход устранения). Примете решение по их дальнейшему предотвращению: улучшить мониторинг, изменить архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируете процессы.
Требования к участникам:
- Свободное владение Linux;
- Любой язык программирования: уровень Junior;
- GitLab: навыки автоматизации;
- Prometheus: навыки мониторинга;
- Kubernetes: навыки работы в кластере.
Продажник:
Для просмотра содержимого вам необходимо зарегистрироваться!
Скачать:
Последнее редактирование:
Симпатии:
Это понравилось xist и Deemaa