Краткий разбор полетов.
В течение последних двух недель многие спрашивали,- что у вас там происходит? Мы давали краткую информацию, основываясь на понимании “в моменте”. На подробности попросту не было времени, все силы были брошены в бой. Проблема возникла многофакторная, то, что называют “идеальным штормом”, поэтому попытка озвучить, что именно происходит, по ходу решения, выглядела не очень корректно. Те, кто следил за ситуацией, видели, что в первые дни мы давали информацию, а потом ее стало меньше. Мы получали упреки в том, что наши пояснения не подтверждаются в итоге. Это, кстати, действительно так, несмотря на то, что наши слова с технической точки зрения были абсолютно верны.
Теперь, когда аварийную ситуацию устранили, сетевой трафик устоялся, короче, всё пришло в норму, настало время небольшого разбора. Постараюсь коротко и без излишнего погружения в технику.
Итак, что же это было….
Хронология такова:
Ночью, 10 декабря, на нашей сети была осуществлена врезка Технических Средств Противодействия Угрозам в рамках закона о “Суверенном Интернете” (оставлю за пределами этого поста моё отношение к затее). Работы проводились в часы наименьшей нагрузки, с 3-х часов ночи, и были завершены к 5:30. В течение этого времени сотрудниками, управляющими этими ТСПУ, осуществлялись действия, призванные снизить вносимое ими влияние на сеть (стартовали с задержки более 300 мс!!!, геймеры понимают). Для нас, ТСПУ — “черный ящик”, поэтому мы тут вообще ничего поделать не можем.
Сразу после завершения работ в 5:34, произошло отключение электричества на узле связи. Ситуация вполне штатная. Обычно срабатывают системы бесперебойного питания, стартует генератор и все остается как было. Но не в этот раз! А в этот раз, часть бесперебойников отключилась! Позже выяснилось, что аккумуляторные батареи потеряли емкость. И именно те батареи, которые еще не перешагнули половину положенного им срока жизни и при последней проверке показали себя вполне нормально. Неисправные аккумуляторы уже заменены, в регламент обслуживания энергетической части узла будут внесены изменения по срокам и составу тестирования систем.
А дальше подошли Часы Наибольшей Нагрузки (ЧНН) и выяснилось, что ТСПУ не пропускают весь трафик наших абонентов, режут полосу, и всё тут. Борьба сотрудников АО “Данные — Центр обработки и автоматизации”, которые управляют этим железом, с проблемой продолжалась 3 дня. Потом я распорядился вывести ТСПУ из схемы узла, прекрасно понимая, что это рискованно с административной точки зрения. (Замечу в скобках, что от нас требуют включить “это” снова.)
Наши ожидания заключались в том, что после вывода ТСПУ сеть нормализуется, но не тут-то было! Трафик по большей части ушел в один из трех каналов и никак не хотел балансироваться. Мы точно знали, что случилось это после “хирургического вмешательства” в схему узла, следовательно, стали искать собственные ошибки. Даже тогда, когда стало понятно, что мы не видим проблем на своем узле, мы продолжали их искать. На самом же деле, как выяснилось позже, ошибка находилась на стыке нашей сети и сети магистрального оператора, причем на стороне магистрала. А внедрение ТСПУ стало триггером, который что-то там усугубил. Что именно не спрашивайте, я пока не знаю. Могу сказать, что коллеги по каким-то причинам перестали анонсировать в большой Интернет примерно половину наших IP-адресов. И адреса оказывались доступны только в одном канале, поэтому он перегружался трафиком. Интересно, что при этом часть абонентов вообще не заметили проблемы, потому что с их адресами всё было ОК. Кстати, и техническая служба на стороне магистрального оператора не видела “криминала” в настройке своего оборудования, пришлось поднимать приоритет инцидента на уровень технического руководства их сетью. Мы понимаем, что тут нас подвел “комплекс провинциала”, нужно было быть настойчивее сразу. И чтобы в будущем избежать таких жестких проблем, нам надо вносить изменения в алгоритмы поиска неисправностей и протоколы взаимодействия с партнерами, учитывая накопленный опыт.
Вот так вот разворачивались события с технической точки зрения. Не могу не сказать несколько слов на тему взаимодействия между абонентами и нашими службами.
За эти дни мы услышали много всякого в свой адрес… Хочу заметить, что в таких аварийных ситуациях даже индийский восьмирукий Бог Шива не справился бы с ростом количества обращений, поэтому все звонки чисто физически не могли быть отработаны. Это плохо конечно, но реалии таковы. Мы постараемся оптимизировать обработку обращений, поступающих через разные каналы связи, но на это потребуется время, примерно понятно что делать.
Особенно хочу обратиться к тем, кто хейтил нас все эти дни! Друзья! Любая экономическая трансакция, от приобретения соли и спичек, до получения услуги доступа в Интернет (да-да, это именно экономическая трансакция), основывается на Доверии! Если нет доверия к партнеру, не будет и наилучшего результата, будут только упреки… и если вы нам не доверяете, не мучайте себя. Конечно, нам дорог каждый абонент и мы делаем и будем делать всё возможное для того, чтобы сеть работала стабильно, как часы.
Отдельно должен поблагодарить сильно бОльшую часть наших абонентов, которые поддерживали и защищали нас в эти трудные дни! СПАСИБО!
Ещё. По ходу событий, некие “коллеги” из мегателекома решили воспользоваться ситуацией и стали обзванивать наших абонентов, распространяя “фейковую” информацию, не ведитесь! Эти “коллеги” часто себе позволяют подобное, поэтому мы отказались с ними сотрудничать уже много лет назад. С другими же, у нас взаимопомощь и взаимная поддержка, хоть мы и конкуренты.
И очень важно!
Круглосуточная работа коллектива!
Ребята!
Вы круты!
Великая честь работать с вами! Вместе преодолеем все трудности!
Ах да, на носу Новый Год… Чуть не забыл.
Осталось несколько дней 2020-го, надеюсь, что все последние события и были его дембельским аккордом. Пожелаю, чтобы 2021-й был лучше, чтобы он стал годом ренессанса и в экономике, и в повседневной жизни!