Мартовская кухня

Вы знаете, вы знаете наверняка, что мы работаем для вас. Желание улучшить качество наших сервисов является для нас перманентным и не зависит от внешних раздражителей. Пусть СОРМ, пусть Роскомнадзор, да хоть камни с неба, но наши абоненты — НАШЕ ВСЁ! Мы работаем для вас! И точка!
Но наверное любопытно что и как происходит в нашей технической кухне. Немного приоткроем завесу.
Итак. Если у вас возникает какая-то проблема, вы так или иначе связываетесь с нашей службой технической поддержки. Девушки на первой линии отвечают на ваш звонок, когда вы обращаетесь по телефону. Здесь не будет лишним напомнить, что мы записываем эти разговоры, чтобы потом можно было бы выборочно их проанализировать или разобраться в конкретной ситуации. А ситуации бывают разные. Конечно же мы очень хотим, чтобы ваши проблемы не терялись в круговороте событий, поэтому каждая из них должна фиксироваться в Системе Управления Проблемами. Вот на картинке список текущих нерешенных обращений . Кому как не вам знать нашу любовь к английскому, оттуда и названия. Каждое обращение называется “тикетом”, а вся система “МарТикет”.
Цифрами 1 и 2 я пометил записи, которые говорят о том, сколько времени назад производились последние действия с конкретным обращением абонента. Как правило, то что датируется днём и более назад, это проблемы требующие длительного мониторинга, потому что их природа не очень понятна, либо абонент в настоящий момент недоступен для контакта и решения вопроса (например, уехал куда-то). Иногда, при необходимости замены кабеля (сборщики цветмета вырезали кусок) требуется согласование и допуск от управляющей компании, к сожалению, в выходные эти вопросы решить не всегда получается. Вот и зависает какое-то количество нерешённых задач. Это своего рода текучка, с которой мы скрупулезно справляемся изо дня в день.
Кстати, если у абонента периодически возникает проблема, то его конкретный порт включается в схему непрерывного мониторинга. И тогда мы видим подобную картинку.
Вертикальная ось градуирована в Мбит/с и указывает на текущее потребление абонентом, а по горизонтальной можно посмотреть в какое время и какого числа это текущее потребление было измерено. Да, примерно так выглядит типичный профиль вашего трафика за семь дней. Есть, конечно, те, кого называют “power user”, их трафик отличается очень сильно, но в целом так всё и выглядит.
Помимо ответов на прямые обращения абонентов мы в режиме реального времени следим за состоянием сети. На специальных больших экранах службы технической поддержки отображается информация о текущей работоспособности и нагрузке всех критически важных элементов узла. Тут есть и информация о состоянии ядра сети, и информация обо всех точках доступа, а также комплексный экран мониторинга всех телевизионных каналов.
Ну давайте посмотрим немного подробнее. Ниже, на скриншоте вы видите правый монитор, он отображает состояние узла. Здесь отсутствует множество служебных элементов, но всё, что необходимо и достаточно для обеспечения штатной работы ядра нашей сети — есть. Изменение цвета элемента свидетельствует об отклонении от обычного его состояния. Вот вы видите, “посинел” элемент, отображающий нагрузку одного из магистральных каналов и процент нисходящего (“download”) трафика составил в нём 93%, что значительно выше ближайшего по загруженности к нему. Это не критично для узла, т.к. мы в состоянии пропустить нагрузку в 200% от обычной, но всё же это повод задуматься о перебалансировке внешних каналов или о расширении их ёмкости.
Нюанс, внимательный читатель заметил, что весь восходящий (“upload”) трафик уходит только в одну магистраль. Это наши настройки, так удобнее, а ёмкости, как вы видите, вполне хватает. Но если этот канал “упадёт”, весь восходящий трафик автоматически уйдёт в другой работающий.
Что мы видим ещё? Да всё что необходимо: и напряжение питания на узле, и количество подключенных в настоящий момент абонентов, и количество свободных IP-адресов, и состояние NAT/DNS/Radius серверов, и очередь почтового сервера… Таким образом, визуальный контроль обеспечивает возможность оперативного реагирования на разные проблемы на нашем узле передачи данных.
Но это еще не всё, есть еще наша сеть передачи данных. Мы так же в постоянном режиме контролируем работоспособность каждого коммутатора, установленного в ней и, как только возникает проблема, техническая поддержка должна среагировать на неё. Кроме того, в нижней части картинки присутствует строка с перечнем критически важных для наших абонентов элементов сети, которые зачастую находятся на их, абонентов, территории.
«Удачный” попался момент для скриншота 🙂 Видите, четыре коммутатора отвечают с пропусками, один не отвечает вовсе. Коммутатор, который не отвечает, сегодня будет снят с объекта, так как находится в расселённом доме и больше там не нужен. По тем, которые отвечают с пропусками техподдержка разбирается. При этом абоненты работают нормально, видимо у кого-то опять завелась “зараза” и шпарит в Сеть в полный рост загружая чем-то процессоры коммутаторов. Ну да решим, не впервой!
И да, развитием инструментов мониторинга у нас занимаются аж целых два подразделения. Одно определяет что и как контролировать, а другое пишет софт для этих целей. Так что всё это не стоит на месте, а следует за потребностями и иногда даже формирует новые подходы.
Ну вот, такой вот си-и-ильно упрощённый и неполный обзор. Если будет желание спрашивайте, какие-то аспекты можно детализировать.