Катерина:
Тань, мы обычно спрашиваем про кейсы у всех наших гостей, но у тебя я бы хотела спросить про такую проблему, как сбои. Я думаю, что у вас это самая болезненная ситуация. Когда вдруг сервер чей-то отключился. Что вы делаете в этот момент. Особенно меня интересуют массовые сбои. Как вы коммуницируете с клиентами, какие у вас лайфхаки. Вы им звоните, пишите. Как вы массово их оповещение и как вы держитесь, потому что я представляю, насколько это жестко, когда из-за вас лежит какой-нибудь прекрасный хелпдеск.
ТАНЯ:
Нужно отметить следующее. Мы стараемся работать проактивно, и если мы планируем какие-то работы, мы стараемся и всегда это делаем - извещаем наших клиентов. Мы крайне надеемся, что наши клиенты читают наши уведомления. Но если вдруг по каким-либо причинам клиент не увидел сообщение от нас о работах, и например, эти работы связаны с отключением его оборудования, клиент может позвонить нам в три часа утра. Сначала он пишет в чат. Как правило, ребята сразу же подхватывают. Мы начинаем разбираться, что произошло. Если клиент не может назвать площадку, на которой отключился его сервер, если он размещает свое оборудование, например, в Питере или Москве, мы начинаем проверять всю инфраструктуру и ищем точку отказа. Нам в этих момент очень помогает саппорт, поскольку мы являемся как и 18 тысяч клиентов, клиентом саппорта. Они помогают нам пробежаться по всем серверам клиента и найти тот, который выключился. Сложно это сделать быстро, когда у клиента например 500 серверов. Подключается вся команда и мы ищем точку отказа. Если это какая-то массовая история, когда происходит какая-то авария… Большинство наших клиентов с помощью нас уже зарезервировали свою инфраструктуру. Поэтому такого чтобы легло все и сразу же, мы редко такое фиксируем. Если такое случается, то, соответственно, мы незамедлительно подключаем аварийную бригаду, команду администрирования, команду сетевого отдела, и устраняем инцидент максимально оперативно. В это время мы поддерживаем с клиентом максимальную связь по быстрым каналам через мессенджеры и даем ему постоянный отчет, что мы проверили, вот это проверили, вот это проверили. Здесь восстановилось, здесь время восстановления следующее. И по окончанию каждого инцидента мы пишем пост морт. Что это такое. Это описание того, что произошло, это описание того, что мы сделали и что нужно сделать, чтобы такое не повторилось никогда.