Виктория:
Основная часть вообще обработки инцидентов вообще во всей нашей команде, не только в саппорте, во всем облаке, это таймлайны. Во-первых, клиент просит эти таймлайны присылать, во-вторых нам самим эти таймлайны составлять полезно. Таймлайн это порядок событий что когда произошло. Вот мы заметили инцидент, вот поступила первая жалоба, вот мы сообщили дежурному сервиса, еще через 2 минуты он взял это в работу, какие показатели мониторингов были в какой момент. Прям вот по минутам. Мы не всегда это делаем самостоятельно как саппорт, нам часто помогают индициент-менеджеры. Это отдельный человек в команде, который дежурит, и если на случай что-то сломалось, он вступает в свои обязанности и начинает менеджерить этот процесс. Находить ответственных, убеждаться, что поддержка сделала коммуникацию пользователю, убеждаться, что разработчики чинят, что они должны чинить, убедиться, что бизнес команда в курсе что происходит. Такой подробный таймлайн при крупных иницентах мы даже публикуем в блоге и присылаем клиентам, которые просят. В кратком виде присылаем всем обязательно. "мы вот сегодня в 16:00 заметили, в 16:05 починили, у вас в это время могло что-то лагать". Этот же таймлайн нам помогает после того, как все кончилось, понять мы вообще хорошо отработали или нет. Как только мы выяснили подробности, мы обязательно напишем пользователям еще раз. Первые два письма могут быть в одном письме, если мы сразу поняли что не так. Если мы не сразу поняли, прошел час, лучше еще раз написать и сказать "ребята, мы нашли че случилось, проблема вот в этом сервисе, в этой конкретной настройке, мы уже чиним, починим через час".
Дальше мы начинаем проводить постмортем. Постмортем - это анализ того, что произошло. Анализ того, что мы сделали хорошего, что мы сделали не очень, не очень быстро, не очень качественно пока обрабатывали инцидент, сколько это заняло времени обязательно, потому что в том самом инциденте большом, мы после него как раз много сделали выводов. И нам явно стало понятно где мы тормозим. Например, мы очень долго собирали списки пользователей, которые пострадали, чтобы с ними связаться. Не сразу было понятно что происходит. Мы очень долго пытались достучаться до нашей команды пиара, а нам вообще можно это говорить, или нельзя. Как нам написать так, чтобы нам это еще сверху не прилетело. В каких-то местах это помогает команде разработки почему они где-то со своей стороны затормозили, долго катили релиз или что-то еще. Обязательно на постмортеме мы обсуждаем что делать в будущем чтоб такого не происходило. Что делать, чтобы заметить проблему раньше. Возможно какие-то дополнительные мониторинги настроить, дополнительные лампочки, которые будут загораться тогда, когда в этом месте конкретно что-то идет не так. Возможно что-то, что может нам помочь очистить конкретно это место, чтобы в нем вообще не происходило проблем. Не просто мы их замечали раньше, их вообще не было. Обсуждаем мы сначала всей командой, потом разработчики между собой обсуждают какие-то нюансы, саппорт внутри себя обсуждаем. Как быстро составлять текст, может быть где-то заранее можно перевод каких-то шаблонов кусков сделать, какие-то приветствия, потому что мы пишем на двух языка: на русском и английском сразу. Также мы обсуждаем как быстро мы смогли скоммуницировать с теми, кто прям сам написал, создали тике, как быстро мы им написали, потому что они самые активные, они больше всего ждут ответа, они будут пинать до последнего пока они не получат всю подробную информацию. Постмортем это полезно.
Давайте я еще раз пройду по всем пунктам, которые проговорила. Их немного, но они все прям полезные использовать их в работе и попробовать их применить у себя. Я не заявляю, что это какая-то истина в первую инстанции. Ну вот то, что работает у нас, оно работает.
Самый важный пункт - перестать нервничать. Это звучит наверное сложнее, чем сделать. Ну просто возьми и перестань злиться ну в чем проблема действительно. Не совсем это так работает, но поверьте это того стоит. Потому что чем холоднее голова, тем быстрее можно прокоммуницировать. Тем лучше мы объясним пользователям что не так, что происходит с их работой, с их усилиями которые они вложили в какой-то проект, которые они у нас разместили, это важно. Потому что они заплатили деньги инженеру, инженер сел и потратил неделю своей работы, чтобы развернуть что-то в облаке, а оно взяло и упало.
Обязательно оценить насколько оно плохо, где сломалось, сколько людей пострадали, как сильно они пострадали, нужна ли компенсация, когда это все починится, как долго оно будет лежать и прочее. Обязательно коммуницируем с пользователями по всем нашим шагам. Чем прозрачнее наши шаги как компании, тем им будет спокойнее и понятнее, что происходит с их ресурсами. ТО есть это обязательно написать, когда мы сами заметили "да, ребят, мы в курсе, ну да сломалось, жалко, вот сейчас сидим в поте лица и занимаемся". Это прям вот так. Написать когда мы понял что пошло не так конкретно с деталями "сломалось вот это, конкретная вещь сломалась, мы вот над ней прям щас работаем, вот такой-то релиз будет выкачен через час чтобы это починить". И когда все кончилось, все выдохнули, можно по желанию написать письмо с результатами, подробным таймлайном что происходило. И обязательно рассказать людям что вы сделали, чтобы такого больше не повторялось. Это люди любят. Это во-первых полезно. А во-вторых, это нужно, потому что потерять доверие клиента очень легко. Н уда, поломки случаются, но это не значит, что нужно посыпать голову пеплом, и всячески стрессовать. Чем подробнее вы объясните, тем лучше вас поймут. И люди понимают, что поломки случаются, они не совсем злые.
Подробности инцидента. Таймлайны составляем, четко прописываем каждый шаг. Похоже на бюрократию, но на деле это буквально пол секунды "я заметил первый тикет от юзера, записал себе, 15:03 где-нибудь в любой форме". Потом это будет довольно легко в конце на постмортеме соблать единый таймлайн и понять что когда происходило.
Постмортем. Проанализировать вместе со всеми, что произошло, где сломалось, что мы делали, как мы делали. Что сделали хорошо и быстро, что сделали плохо. тут медленно, ут ошиблись, тут приняли неправильное решение. Эти вещи нужно обязательно проговаривать. И чем конструктивнее будет критика, тем лучше. Эмоции тут тоже лишнии. Обычно если кричат на разработчиков, что они что-то сломалось, они начинают зажиматься и всячески защищаться. Виноват не человек, виновата ситуация, мы не виним людей за какие-то факапы, которые у нас случаются. Глупо перекладывать вину на человека. Тут скорее группа факторов, включая то, как устроена система, какая документация, какие у него инструменты есть, какая атмосфера была, что вот сегодня конкретно происходило.
Постмортем можно публиковать на сайте, людям это нравится. Мы вот эти пункты поняли не сразу, не сразу получилось нормально. Несколько раз мы тренировались в таких больничных условиях. Но сейчас это работает хорошо, потому что у саппорта есть четкий план, он спокойно сидит, "а ну факап, хорошо, щас будем работать" и быстро начинаем обрабатывать.