вторник, 6 августа 2013 г.

Как я провел День Системного Администратора

Коллега
Тема поста отличается от того, что люди привыкли читать у меня в блоге, но уж очень хочется поделиться тем, как именно я "отпраздновал".


Каждый год в последнюю пятницу июля мы с друзьями ходим в баню отмечается День Системного Администратора. И хотя моя теперешняя должность называется несколько иначе (да и тип/объем работ тоже отличается), праздник имеет ко мне самое непосредственное отношение.

К сожалению, в Польше этот праздник не сильно популярен, но, обычно, я стараюсь популяризировать его среди своих коллег и знакомых. Обычно это удается... но в этом году праздник вышел особенный.

Дальнейший текст будет более близок к пониманию для людей, работающих с ИТ. Однако, остальные тоже могут прочувствовать всю "драму" :).



День не предвещал ничего плохого. Была теплая летняя погода, и я довольно резво прикатил на работу на велосипеде. Первое, что меня расстроило – в офисе не было электричества. Но расстроил меня не тот факт, что электричества нет уже час, а то, что я об это узнал только в офисе... Моя система оповещения почему-то не сработала. (GSM шлюз подключен непосредственно к станции мониторинга).

К сожалению, в 21-м веке, в нашем городке до сих пор нередки случаи перебоев с электроснабжением. Наш случай усугублен тем, что офис находится за окружной, как раз там, куда город активно разрастается. Разгильдяйство при составлении планов коммуникаций никто не отменял, поэтому жизнь офиса примерно раз в пол-года приостанавливается ковшом экскаватора.


Через пол-часа электричество появилось и началась обычная процедура восстановления. Менеджмент в очередной раз заводит разговор о генераторе, который опять закончится сразу после получения сметы от поставщика.

Неприятность вторая: отказ модуля WS-X6708-10GE (8 портов по 10ГБит) в центральном коммутаторе.
Подобные вещи ломаются нечасто, поэтому прошло время, пока мы проверяли и исключали остальные (более вероятные) потенциальные причины проблем с сетью. Добрались до центрального свича. Модуль показывал exception при старте и перегружался (вернее, коммутатор его перегружал). После нескольких попыток свич отключил модуль. Танцы с бубнами не помогли – бобик модуль сдох. На нем висели подключения к core-свичам этажей и наш основной кластер ESXi (т.е. более 100 серверов).

NB: Многие технические специалисты справедливо заметят, что подключения должны были быть продублированы. И будут правы. Здесь и далее по тексту не было ни одного отказа, риск которого не был бы нами предвиден и расписан, и решение не было бы предложено. К сожалению, не на всех уровнях всегда работают мудрые менеджеры, которые умеют считать потенциальный ущерб ДО аварии. Единственный относительный "плюс" – наш анализ и все предложения всегда документируются, поэтому от претензий типа "почему это отказало, а вы это не продумали" мы защищены.

Все inter-floor соединения были L3 с динамической маршрутизацией и все core-свичи были подключены в кольцо, т.е. между этажами связь была... Но работа офиса всё равно оставалась парализована без серверов, выхода в Интернет и подключения к другим офисам.

Было принято решение подключить к центральному коммутатору обычной медью один любой core на этаже (остальные сразу построят маршруты через него) и коммутатор кластеров. И уже все было готово, подключено и настроено, кроме...

Неприятность третья: пароль :)
Самая банальная, казалось бы проблемка. Но все настолько привыкли входить со своим личным логином, что общие пароли не использовались уже очень давно, а без доступа к серверам не было доступа и к RADIUS :).

Ладно, достаем специальный зашифрованный файлик, расшифровываем... Пароль на центральный свич – неактуальный :). В этом месте, конечно, – наш прокол (а вернее – человека, который отвечает за сеть и как раз был в отпуске).

Решил проблему через з@дницу :). Т.к. остальные свичи в серверной были подключены к другому (работающему) модулю, и на некоторые тоже подбрасывался vlan, в котором находились сервера, то подключив свич кластеров и какой-то другой свич и пробросив соответствующий vlan, я позволил центральному коммутатору достучаться до сервера RADIUS.... Bingo!

Неприятность пятая: повторное отключение электричества... :(
Да-да. Через час-полтора электричество снова пропало... Как ни странно, наш UPS успел зарядится на 95%. Но я успел облиться холодным потом, вспомнив, что ни на одном свиче я не сохранял конфиг. Хотя изменения и состояли только в добавлении портов в соответствующие port-channel, делать эту работу снова никак не хотелось...

Через полтора часа свет вернули, но бесперебойника хватает только на 40 минут, а сервера тушатся уже через 30... Наша песня хороша, начинай сначала.

Неприятность шестая: потеря двух хостов ESX.
Если из обслуживаемых нами умер только один нод в одном из кластеров, то у департамента, которому мы предоставляли колокейшн, умер "очень-важный-критический-сервер-сегодня-нужно-починить-обязательно". Если в нашем случае проблема была только с флешкой, на которой был инсталлирован гипервизор, то у них сервер зависал на загрузке uEFI... Если у нас достаточно было только поставить гипервизор но новую флешку, настроить сеть и включить в кластер, то у них все виртуальные машины располагались локально.... без бэкапов...

Сказка быстро сказывается, да не быстро дело делается... Танец с бубном (день админа всё-таки) и uEFI был перепрошит.


Неприятность седьмая: vCenter is down.

Элементарная проблема, которая отняла массу времени и нервов. Этим куском занимался не я. Но там была проблема с местом на VMFS, на котором крутилась виртуальная машина с vCenter server.

Неприятность восьмая: Конфигурация виртуальных машин.

Хотя этого и не должно было произойти, но хосты ESXi в кластере запутались, когда поднимались без доступа к vCenter. Часть виртуальных не запустилась, потому что хосты посчитали, что машины были скопированы и застопорились на вопросе "was moved/was copied?". А часть конфигов просто "покоцалась", и пришлось добавлять машины заново в Inventory. Естественно, одна потерялась :).


На этом я, пожалуй, закончу. Была еще тонна мелких проблем. Также сказалось отсутствие тренировок по отключению электричества и отсутствие актуальных планов... Очень много раз хотелось сказать "а я же говорил/писал/предупреждал!". Но смысла в этом не было...

Вот так вот я отметил свой профессиональный праздник :).

11 комментариев:

  1. Вот вьехать в зад Бентли, вернуться домой и застать жену с любовницей, вот это неудачный день. А отключения света и сгоревший свитч, это ерунда:)Тем более что не по твоей вине, и никого ущерба ты от этого не понес. И вообще читаю статью и это переживания за интересы компании и обливание холодным потом, звучит уже как экзотика (мы с женой фрилансеры, уже несколько лет)Торнадо желаю тебе побольше здорового пофигизма, как на приколах про пожарников, когда они спокойно с улыбкой фоткаютсья и курят возле горящего дома.

    ОтветитьУдалить
    Ответы
    1. "Вот вьехать в зад Бентли и вернуться домой" - не так и плохо... хуже - не вернуться (или это уже будет не твой дом).
      Застать жену с любовницей - да тут многие позавидуют :)

      Я не переживаю в холодном поту за интересы компании. Но я сам перестану себя уважать, если моя работа будет сделана плохо по причине собственной расхлябанности. Тем более, что моя работа мне нравится.

      Кроме того, быстрое решение проблем - моя стихия. И чем серьезнее проблемы - тем интереснее :). Меня часто называют решателем проблем... Кто-то даже сравнивал меня с мистером Вульфом (криминальное чтиво).

      Этот случай примечателен только тем, что произошел именно тогда, когда я должен был сидеть в каком-нибудь баре и поглощать литрами холодное чешское пиво :)

      Удалить
  2. С одной стороны, согласен с Анонимным в том, что к работе нужно относится серьезно, но не так болезненно (главное все живы и здоровы, а техника - это все восстанавливается или меняется), а с другой, - Торнадо скорее рациональный человек, тем более когда можно предотвратить такие вот аварийные случаи. И вот в такие "дни", лучше посидеть с друзьями в пабе вечерком и отпраздновать. Хотя, когда случаются подобные случаи на работе (думаю у всех они происходят независимо от рода деятельности и отрасли производства), у работников, как бы так выразиться, - "встряхивается" работоспособность, можно еще сказать - в такие моменты сам работник понимает на что он способен. Так вот, "мысли в слух".

    ОтветитьУдалить
    Ответы
    1. Хм... не думал, что в посте будет прослеживаться "болезненное" переживание за технику :).
      Как уже отвечал чуть выше - я хотел отметить совсем другое.
      А эта авария - далеко (очень далеко) не самая серьезная, их тех, что происходили. Самое главное - не было риска потери данных, а сервис на свич и так предполагал замену в течении одного рабочего дня (а поставщик даже пошел нам на встречу и предоставил свою железку уже в субботу, тогда как модуль от циски пришел только в понедельник).

      То есть, на самом деле, можно было даже ничего не делать - через день всё-равно всё-бы починилось.
      Но если я МОГУ что-то сделать, почему это не делать? Тем более, что это замечательно тренирует :).

      Удалить
  3. Скажу кратко, отгреб по полной, приблизительно в это время у меня была ночь с двумя severity 1 у одного клиента.

    ОтветитьУдалить
    Ответы
    1. сочувствую... если не ошибаюсь, ты с СХД работаешь?

      Удалить
  4. Честно сказать и не знал что вы работаете в сфере ИТ и бывший Админ, хотя как говорят бывших не бывает. Конечно день у Вас удался и будет что вспомнить в следующем году на день СисАдмина. Работа порой приносит много сюрпризов. Надеюсь после такого небольшого ЧП руководство пересмотрит свою политику по экономии и закупят оборудование чтоб можно избежать выхода одного свича и всё лежало.

    Как то и не думал, что в таком небольшом городке будет компания в которой столько и такого серверного и сетевого оборудования. Да и такой вопрос, а как в Польше в плане лицензионного ПО? Как и у нас в СНГ, или же всё таки как в Германии.

    ОтветитьУдалить
    Ответы
    1. Компания действительно не по размеру городка - одна из самых крупных, международная.
      Но так получилось, что именно в Зеленой Гуре она появилась и выросла. И хотя руководство перебралось в Женеву, основной R&D всё равно остался здесь.

      По поводу ПО мне сложно говорить за всю Польшу - не проверял :). Но у нас в компании мы за этим следим строго. Даже freeware запрещено ставить, если его нет в нашей базе разрешенного ПО. Есть человек, который делает то, чего не делает 99.9% людей - читает лицензионные freeware соглашения :).

      Говорят, что когда-то в Польше были серьезные "чистки" - проверки на лицензионное ПО. Тогда исчезло много игровых клубов и интернет-кафе. После переезда я о случаях таких проверок не слышал ни разу.

      В компаниях, с которыми мне довелось контактировать, с нелиц. ПО не балуются. В свою очередь, почти у всех дома есть что-то нелицензионное.

      Удалить
  5. Всё ясно.Хотел бы себе такого ответсвеного администратора!

    ОтветитьУдалить
  6. про какой нибудь Amazon EC2 не думали?
    Alkinoy

    ОтветитьУдалить
    Ответы
    1. мы aws активно используем. под свои задачи.

      Удалить