English | Русский  

RSS feed

Star Family Blog


02/03/2010 12:38

Умные предохранители

Posted by VladStar

Я тут на досуге добил свою Excel'евскую табличку за прошлый год, отражающую сколько киловатт мы "съели" за год и сколько денег за это заплатили. И задумался на предмет оптимизации энергопотребления. Даже если я и могу представить, куда эта энергия уходит - то уж со слишком большой погрешностью.

...read full post

Comments: 3 (click here to reply)    Tags: Техническое | Электроника


12/15/2006 11:37

Жоппа на работте

Posted by VladStar

Не так давно я начал работать на соседний центр (3 дня в неделю). Оттуда полгода назад ушел сисадмин, прямо скажем, не слишком высокой квалификации... Чего только стоила картина: 3 мощных UPS'а, 6 RAID'ов, у каждого из RAID'ов 3 (три) hot-swap блока питания, при сбое одного из них он (в теории и на моей предыдущей практике) RAID продолжает работать на двух, заменить БП можно прямо "на ходу". Догадайтесь, как были включены блоки питания каждого из упомянутых RAID'ов ? Угу, в один и тот же UPS... т.е. вместо распараллеливания (в целях failover) было сделано "кучкование". В итоге при вылете UPS'а происходит полное отрубание двух RAID'ов. Что, собственно, и произошло недели 3 назад...



Последние полгода оно как-то работало на автопилоте, сыпались SCSI ошибки, периодически отваливались RAID-массивы, юзеры самостоятельно ребутили сервера... К моменту моего прихода еще и развалились 2 RAID'а (как выяснилось чуть позже, у первого слетела прошивка, которую мне удалось восстановить, а у второго - в RAID5 w/o spare вылетели 2 диска, пришлось его пересоздать и восстанавливаться из бэкапа). В общем, стало совсем грустно...

Последний месяц я потратил на то, чтобы довести "до ума" файлсервер, поднял упавшие массивы, проапдейтил firmware, поменял кабели, наконец, заменил SCSI контроллер на другой. Ошибки "железа" исчезли. В прошлые выходные проверил все файловые разделы на ошибки, остатки ошибок были пофиксены. В понедельник-вторник переключил LTO tape library (которая может держать в себе 72 кассеты по 100 гигов каждая) на второй сервер, настроил там софт, поставил новые ленточки, отправил старые в архив, и в среду утром запустил полный бэкап. Старые бэкапы делались как-то через задницу (т.е. то свободных дисков не было, то ошибки мешали, то еще что...).

Прихожу в четверг утром на работу. Юзеры через некоторое время жалуются на недоступность двух основных разделов. Лезу удаленно на сервер, вижу в логах I/O ошибки SCSI одного из RAID'ов, начавшиеся еще ночью, во время бэкапа. Мля, думаю... опять полезли... делаю unmount на соответствующие разделы, отключаю SCSI девайсы (кто не знает, как это делается в Линухе - читать тут). кидаю всем сообщение о том, что через 20 минут буду перегружать сервер (заодно решил недавно сконфигурированный RAID в цепочку подключить). Прихожу в серверную...

Вижу картину: 5 RAID'ов работаю (горят всеми лампочками), один - совсем в ауте, ни одна лампочка не светится. "Нифига себе", - думаю. Как раз этот RAID и содержал те самые разделы. Выключаю-включаю на этом RAID'е питание. Получаю "blink", и дальше, похоже, срабатывает защита БП. Меняю блоки питания. Та же картина. По ходу дела экспериментальным путем выясняю, что один из блоков питания сдох. Но на рабочих тоже срабатывает защита. Вынимаю все диски. Без дисков - работает... Понятно, думаю, похоже, блок питания не только самоубился... пытаюсь выяснить, какой именно из дисков мешает запуститься (остается еще некоторая надежда, что RAID-таки запустится). Нахожу один. RAID запускается, пытается инициализировать диски, но не может, на нем горят все красные лампочки. Втыкаю тот самый диск обратно. RAID не может его инициализировать, но при этом никакая защита уже не срабатывает, в том числе после выключения и повторного включения питания.

Решаюсь на последний эксперимент - меняю все диски местами между этим и другим (недавно сконфигуренным) RAID'ом - вдруг последний запустится... Индейская национальная изба, "фигвам", называется... Причем после этого эксперимента второй RAID тоже начинает показывать красные лампы, даже с заведомо исправными дисками, у меня закрадывается нехорошее подозрение, что ему какими-то дохлыми дисками из первого RAID'а тоже выбило цепи питания.

Понимаю, что данные на этих RAID'ах я уже восстановить не могу, оставляю игры с железом. Благо, на оставшихся есть как минимум 2 свободных раздела, на которые я могу восстановить данные... монтирую их в нужные директории. Смотрю в то, что успел сделать бэкап до момента, когда все это произошло. Он успел сбэкапить всего лишь треть одного из разделов... негусто для восстановления. Достаю ленты из архива, меняю новые ленты обратно на старые, лезу в софт. Обнаруживаю большой болт на те разделы в свете последних переносов софта и expiration date старых лент... т.е. индексы уже успели грохнуться.

Остается одна опция - пересоздать индекс путем сканирования содержимого каждой лент, и потом посмотреть, что можно восстановить. Все бы ничего, но 60 лент, умножить на примерно 2 часа сканирования каждой, при том, что каждое восстановление индекса нужно запускать руками :( - софт не позволяет это сделать кучей, мля. :(

Сижу вот, теперь, как дурак, со вчерашнего вечера каждые 2 часа запускаю реиндекс... :(((( в том числе удаленно, из дома. При том, что никакой гарантии на то, что там на лентах есть или чего нет. А юзеры тем временем курят (или сосут, в зависимости от того, с какой стороны посмотреть)...

Слов нет. Матов уже тоже нет... Несколько неудачных обстоятельств наложились друг на друга. Если б то же самое случилось несколькими днями позже (когда бэкап был бы уже сделан) - все было бы намного проще... причем чувствую вину, что не добрался до бэкапа раньше, но, с другой стороны, я не мог его делать, пока не были устранены проблемы с файлсервером.

Comments: 8 (click here to reply)    Tags: Работа | Техническое


Statistics: (last 30 days / total)
Public posts: 0 / 994
Comments: 0 / 2110
Spam comments: 0 / 98

Archive:

Tags:

*Объявления* (11)
Dvd (2)
English (2)
Fundraising (1)
Halloween (1)
How-to (6)
KIA (1)
Lego (2)
Linux (5)
Mazda 6 (4)
Oracle db (1)
Outer Banks (5)
VA Beach (1)
Авто (5)
Алкоголь (1)
Америка (408)
Андрей (151)
Аська (1)
Бензин (1)
Бессонница (2)
Бизнес (1)
Бред (3)
Видео (17)
Винда (2)
Влад (159)
Воспоминания (25)
Генеалогия (3)
Годовщина (3)
Дед (5)
Документы (11)
Дом (49)
Доминикана (5)
Дороги (31)
Досуг (47)
Друзья (27)
Еда (3)
Животные (10)
Заправка (1)
Зима (2)
Знакомство (1)
Игры (24)
Интернет (62)
История (4)
Кино (4)
Книги (6)
Компьютер (3)
Компьютеры (69)
Консульство (6)
Конференция (1)
Кофе (1)
Кроссворд (1)
Кулинария (1)
Лена (44)
Лето (1)
Литература (1)
Лифты (1)
Математика (3)
Машины (73)
Медицина (12)
Мексика (1)
Мичиган (1)
Мозаика (1)
Музыка (13)
Налоги (1)
Новости (9)
Новый год (5)
Ностальгия (2)
Океан (1)
Опрос (1)
Отдых (14)
Отпуск (10)
Паспорт (7)
Полиция (1)
Праздники (91)
Природа (94)
Проблемы (7)
Программирование (7)
Псков (6)
Путешествия (56)
Работа (83)
Радио (1)
Радиоэлектроника (5)
Ремонт (6)
Рисование (1)
Робот вася (1)
Рождество (4)
Россия (38)
Русский язык (1)
Ручки (1)
Сатира (1)
Свадьба (3)
Семья (31)
Синклер (1)
Снег (7)
Сны (1)
Софт (2)
Спорт (11)
Ссылки (9)
Стихи (2)
Телевидение (3)
Телефоны (17)
Тесты (2)
Техническое (2)
Финансы (12)
Флорида (2)
Фотография (30)
Хобби (4)
Чай (1)
Часы (1)
Шахматы (4)
Школа (16)
Шопинг (3)
Электроника (5)
Юмор (39)

000001671
Server OS is powered by FreeBSD - http://www.freebsd.org/