English | Русский  

RSS feed

Star Family Blog

|
12/15/2006 11:37

Жоппа на работте

Posted by VladStar

Не так давно я начал работать на соседний центр (3 дня в неделю). Оттуда полгода назад ушел сисадмин, прямо скажем, не слишком высокой квалификации... Чего только стоила картина: 3 мощных UPS'а, 6 RAID'ов, у каждого из RAID'ов 3 (три) hot-swap блока питания, при сбое одного из них он (в теории и на моей предыдущей практике) RAID продолжает работать на двух, заменить БП можно прямо "на ходу". Догадайтесь, как были включены блоки питания каждого из упомянутых RAID'ов ? Угу, в один и тот же UPS... т.е. вместо распараллеливания (в целях failover) было сделано "кучкование". В итоге при вылете UPS'а происходит полное отрубание двух RAID'ов. Что, собственно, и произошло недели 3 назад...



Последние полгода оно как-то работало на автопилоте, сыпались SCSI ошибки, периодически отваливались RAID-массивы, юзеры самостоятельно ребутили сервера... К моменту моего прихода еще и развалились 2 RAID'а (как выяснилось чуть позже, у первого слетела прошивка, которую мне удалось восстановить, а у второго - в RAID5 w/o spare вылетели 2 диска, пришлось его пересоздать и восстанавливаться из бэкапа). В общем, стало совсем грустно...

Последний месяц я потратил на то, чтобы довести "до ума" файлсервер, поднял упавшие массивы, проапдейтил firmware, поменял кабели, наконец, заменил SCSI контроллер на другой. Ошибки "железа" исчезли. В прошлые выходные проверил все файловые разделы на ошибки, остатки ошибок были пофиксены. В понедельник-вторник переключил LTO tape library (которая может держать в себе 72 кассеты по 100 гигов каждая) на второй сервер, настроил там софт, поставил новые ленточки, отправил старые в архив, и в среду утром запустил полный бэкап. Старые бэкапы делались как-то через задницу (т.е. то свободных дисков не было, то ошибки мешали, то еще что...).

Прихожу в четверг утром на работу. Юзеры через некоторое время жалуются на недоступность двух основных разделов. Лезу удаленно на сервер, вижу в логах I/O ошибки SCSI одного из RAID'ов, начавшиеся еще ночью, во время бэкапа. Мля, думаю... опять полезли... делаю unmount на соответствующие разделы, отключаю SCSI девайсы (кто не знает, как это делается в Линухе - читать тут). кидаю всем сообщение о том, что через 20 минут буду перегружать сервер (заодно решил недавно сконфигурированный RAID в цепочку подключить). Прихожу в серверную...

Вижу картину: 5 RAID'ов работаю (горят всеми лампочками), один - совсем в ауте, ни одна лампочка не светится. "Нифига себе", - думаю. Как раз этот RAID и содержал те самые разделы. Выключаю-включаю на этом RAID'е питание. Получаю "blink", и дальше, похоже, срабатывает защита БП. Меняю блоки питания. Та же картина. По ходу дела экспериментальным путем выясняю, что один из блоков питания сдох. Но на рабочих тоже срабатывает защита. Вынимаю все диски. Без дисков - работает... Понятно, думаю, похоже, блок питания не только самоубился... пытаюсь выяснить, какой именно из дисков мешает запуститься (остается еще некоторая надежда, что RAID-таки запустится). Нахожу один. RAID запускается, пытается инициализировать диски, но не может, на нем горят все красные лампочки. Втыкаю тот самый диск обратно. RAID не может его инициализировать, но при этом никакая защита уже не срабатывает, в том числе после выключения и повторного включения питания.

Решаюсь на последний эксперимент - меняю все диски местами между этим и другим (недавно сконфигуренным) RAID'ом - вдруг последний запустится... Индейская национальная изба, "фигвам", называется... Причем после этого эксперимента второй RAID тоже начинает показывать красные лампы, даже с заведомо исправными дисками, у меня закрадывается нехорошее подозрение, что ему какими-то дохлыми дисками из первого RAID'а тоже выбило цепи питания.

Понимаю, что данные на этих RAID'ах я уже восстановить не могу, оставляю игры с железом. Благо, на оставшихся есть как минимум 2 свободных раздела, на которые я могу восстановить данные... монтирую их в нужные директории. Смотрю в то, что успел сделать бэкап до момента, когда все это произошло. Он успел сбэкапить всего лишь треть одного из разделов... негусто для восстановления. Достаю ленты из архива, меняю новые ленты обратно на старые, лезу в софт. Обнаруживаю большой болт на те разделы в свете последних переносов софта и expiration date старых лент... т.е. индексы уже успели грохнуться.

Остается одна опция - пересоздать индекс путем сканирования содержимого каждой лент, и потом посмотреть, что можно восстановить. Все бы ничего, но 60 лент, умножить на примерно 2 часа сканирования каждой, при том, что каждое восстановление индекса нужно запускать руками :( - софт не позволяет это сделать кучей, мля. :(

Сижу вот, теперь, как дурак, со вчерашнего вечера каждые 2 часа запускаю реиндекс... :(((( в том числе удаленно, из дома. При том, что никакой гарантии на то, что там на лентах есть или чего нет. А юзеры тем временем курят (или сосут, в зависимости от того, с какой стороны посмотреть)...

Слов нет. Матов уже тоже нет... Несколько неудачных обстоятельств наложились друг на друга. Если б то же самое случилось несколькими днями позже (когда бэкап был бы уже сделан) - все было бы намного проще... причем чувствую вину, что не добрался до бэкапа раньше, но, с другой стороны, я не мог его делать, пока не были устранены проблемы с файлсервером.

Comments: 8 (click here to reply)    Tags: Работа | Техническое


Comments: (add new comment)
(1-8 of 8)
12/15/2006 17:26   date_naoki   reply   thread
Ни фига не забавно, но у меня целый день такая же фигня - с самог оутра в таймлайне сплошные "Упало...поднял", "Повреждено...восстановил", "Потеряно...придумано", "Разболтано...подтянуто", "Сломалось... и хрен с ним" =)
И дома телефонную розетку раздавили =(
12/15/2006 20:16   vladstar   reply   thread
Пятница, 14-е... :)
12/15/2006 20:17   vladstar   reply   thread
Упс... только сейчас, посмотрев на календарь, узнал, что сегодня 15-е... :( :)
12/15/2006 20:19   date_naoki   reply   thread
Ага...
А самое смешное было, когда выяснилось, что наш регулярно делаемый бэкап основной базы мало того, что не полный (ну как раз того, что пропало в нём нет канешна ))), так его ещё и хрен используешь - нет на сервере столько места его развернуть ))))
12/15/2006 19:51   cynicanonimus   reply   thread
Хрена себе... Получается, что ни райды, ни ленточные библиотеки не способны защитить истинного монаха от Жопы с большой "Ж"?

Там тебя в результате не поимеют?
12/15/2006 20:15   vladstar   reply   thread
Защитить-то способны, но только в том случае, если за ними следят. Если же изначально система было не совсем правильно сконфигурирована, да еще и за этим всем хозяйством никто так долго не следил - Жопа неизбежна. Увы, мне не хватило нескольких дней работы, чтобы поставить достаточную защиту - Жопа обошла по флангу оборонительные заслоны и напала с тыла...

Нет, не поимеют, моей прямой вины тут нет, а косвенная - только в том, что не успел сделать все, как надо. Мы раньше работали с начальником этого центра - он меня хорошо знает.
12/15/2006 23:03   nightblade_   reply   thread
От жопы вообще невозможно защититься, ее можно только заклинать как змею при помощи дудки, шаманского бубна и такой-то матери. :)

2 Влад: сочувствую. ;(
12/16/2006 00:10   vaddimka   reply   thread
На работе несколько лет назад как-то переинициализировался страйп из пяти дисков на котором было ВСЕ. Просто взял в праздничные выходные и переинициализировался, затерев все данные, до сих пор никто не знает почему. Админы после этого еще неделю ходили красные, а данные восстанавливались с рабочих компов.
Name:    E-mail:
Your e-mail is required, but never shown to public, allowed tags: <b><i><u><a><img><blockquote><font>
Message:

Subscribe: No    Replies only    All comments   
Answer:

(1-8 of 8)
Statistics: (last 30 days / total)
Public posts: 0 / 994
Comments: 0 / 2110
Spam comments: 0 / 98

Archive:

Tags:

*Объявления* (11)
Dvd (2)
English (2)
Fundraising (1)
Halloween (1)
How-to (6)
KIA (1)
Lego (2)
Linux (5)
Mazda 6 (4)
Oracle db (1)
Outer Banks (5)
VA Beach (1)
Авто (5)
Алкоголь (1)
Америка (408)
Андрей (151)
Аська (1)
Бензин (1)
Бессонница (2)
Бизнес (1)
Бред (3)
Видео (17)
Винда (2)
Влад (159)
Воспоминания (25)
Генеалогия (3)
Годовщина (3)
Дед (5)
Документы (11)
Дом (49)
Доминикана (5)
Дороги (31)
Досуг (47)
Друзья (27)
Еда (3)
Животные (10)
Заправка (1)
Зима (2)
Знакомство (1)
Игры (24)
Интернет (62)
История (4)
Кино (4)
Книги (6)
Компьютер (3)
Компьютеры (69)
Консульство (6)
Конференция (1)
Кофе (1)
Кроссворд (1)
Кулинария (1)
Лена (44)
Лето (1)
Литература (1)
Лифты (1)
Математика (3)
Машины (73)
Медицина (12)
Мексика (1)
Мичиган (1)
Мозаика (1)
Музыка (13)
Налоги (1)
Новости (9)
Новый год (5)
Ностальгия (2)
Океан (1)
Опрос (1)
Отдых (14)
Отпуск (10)
Паспорт (7)
Полиция (1)
Праздники (91)
Природа (94)
Проблемы (7)
Программирование (7)
Псков (6)
Путешествия (56)
Работа (83)
Радио (1)
Радиоэлектроника (5)
Ремонт (6)
Рисование (1)
Робот вася (1)
Рождество (4)
Россия (38)
Русский язык (1)
Ручки (1)
Сатира (1)
Свадьба (3)
Семья (31)
Синклер (1)
Снег (7)
Сны (1)
Софт (2)
Спорт (11)
Ссылки (9)
Стихи (2)
Телевидение (3)
Телефоны (17)
Тесты (2)
Техническое (2)
Финансы (12)
Флорида (2)
Фотография (30)
Хобби (4)
Чай (1)
Часы (1)
Шахматы (4)
Школа (16)
Шопинг (3)
Электроника (5)
Юмор (39)

000018501
Server OS is powered by FreeBSD - http://www.freebsd.org/