Сбербанк: компаниям нужна архитектура, локализующая сбои без остановки работы
МОСКВА, 16 мая — В преддверии конференции ЦИПР-2026 старший вице-президент, руководитель блока «Технологии» Сбербанка Кирилл Меньшов в интервью РИА Новости объяснил, как компаниям выстроить ИТ-инфраструктуру, способную пережить сбой без остановки ключевых сервисов.
По словам топ-менеджера, основа устойчивости — архитектура, которая локализует неполадку и не даёт ей «расползаться» на всю систему. Это первая линия защиты от технологического коллапса: если один компонент выходит из строя, остальные продолжают работать.
Наблюдаемость и автоматизация
Следующий уровень — сквозная наблюдаемость. Компания должна не просто зафиксировать поломку, но и понять, где конкретно она произошла, почему это случилось и каковы будут последствия. Это позволяет быстрее реагировать и минимизировать ущерб.
Однако, подчеркнул Меньшов, когда инцидент уже произошёл, скорость реакции критична. Именно поэтому Сбербанк внедряет автоматическое переключение трафика и механизмы «самолечения»: система сама находит альтернативные пути и восстанавливает работу.
Три направления инвестиций
Кирилл Меньшов выделил три ключевые области, в которые банк вкладывается, чтобы обеспечить надёжность. Первое — платформенная инженерия: единый технологический стек для всех ключевых сервисов. Это не даёт инциденту перекинуться на соседние системы.
Второе — автономные практики наблюдаемости. Речь идёт об ИИ-агентах, которые обнаруживают аномалии раньше человека и локализуют проблему до того, как она затронет клиентов. Такие агенты непрерывно мониторят систему и могут опередить штатных инженеров.
Третье — культура разбора инцидентов. Каждый значимый сбой превращается в изменение в коде или в бизнес-процессе. Причём такие изменения вносятся за дни, а не за кварталы. Это позволяет постоянно улучшать систему и предотвращать повторение проблем.
Меньшов подчеркнул, что подобный подход актуален не только для банков, но и для любых компаний, чей бизнес критически зависит от ИТ-инфраструктуры. Чем скорее организация внедрит принципы локализации сбоев, наблюдаемости и автоматического восстановления, тем меньше риск технологического коллапса.
Комментарии
0 всего