Катерина:
Расскажу историю нашей компании от Юздеска. У нас на самом деле в новый год происходит тишина, никто уже не пишет и не звонит, и мы тихонечко едим мандарины, пьём шампанское, но зато в течение года происходит очень много всякого интересного. И вот самая самая классная и волнующая интересная история у нас произошла не на Новый год, а летом… называется эта история фатальная ошибка. В понедельник утром в нашем мониторинге появился аллерт о том, что у нас застревают письма в очереди. Письма просто перестали приходить в систему, но сначала мы не сильно придали этому значения, к сожалению, потому, что такие аллерты приходят либо рано утром, либо поздно вечером, когда активностью клиентов не очень сильная. Но пришёл второй и третий аллерт и мы поняли, что что-то случилось. Как быстро выяснилось проблема была в системе, в которой мы работаем, мы используем несколько схем подключения к почтовому ящику клиентов и один из них это пересылка с использованием внешнего сервиса, которая называется мандрил, как это происходит технически - из почты клиента письмо пересылается на сервис, а оттуда в Юздеск. Мандрил просто сломался. Ничего, если бы это не продолжалось Уже час 2, 3, причём это сервис, доступность которого обычно 99,99 и ещё много-много 9 в конце, поэтому у нас не было ни одного кейса, когда вот это произошло за 4 года нашего существования. Самое смешное что у нас есть такой документ, где написано, что мы делаем в случае инцидентов и это случае там была описана следующими словами: если Пришло Уведомление, что сломался сервис, то произойдёт, там нецензурное слово, то есть будет очень плохо, это очень критично. Это проблема, которая решается частично, но очень очень очень долго. И что же мы сделали. Мы нашли сервис, который заменял этот сервис другим похожим сервисом. Эта задача у нас лежала в блоге, Вы не поверите, ровно 2 года, с 2017 года. Мы её потеряли, у меня не доходили руки и тут в один момент эти руки всё-таки дошли. Наша разработка делала все, чтобы всё-всё-всё у нас переделать. Если в обычном режиме это заняло бы пару недель, серьёзно, вместе с тестированием, с разработкой, с доработкой. Но у нас это был необычный и непривычный режим и это заняло всего лишь один день. Мы решили. Самое смешное, что сам сервис мандрил, Всё ещё Лежал, лежал всего 3 дня и к сожалению их поддержка работала не на высшем уровне, потому что отписывались они только раз в несколько часов.