После окончания гарантийного срока с одним из высоконагруженных серверов Заказчика началась беда: стал сильно тормозить дисковый массив. Я был приглашён разобраться с причиной проблемы и по возможности устранить её, или предложить какое-то другое решение, вплоть до замены сервера. Замена, впрочем, была крайне нежелательна, т.к. сервер был очень дорогим.
Детально проанализировов происходящее, я пришёл к выводу, что имеющийся RAID контроллер выходит из строя, и по этой причине постоянно reset`ит массив. Стопроцентной уверенности в этом, однако, не было, т.к. внешне контроллер выглядел абсолютно нормально, диски не терялись. Поэтому Заказчику было предложено следующее решение: начать с замены контроллера, и только если это не поможет задуматься о замене сервера целиком.
Для минимизации простоя замена контроллера была распланирована заранее и оперативно проведена ночью. Дисковый массив пересобрался и заработал, тормозов не обнаруживалось. Сервер вот уже больше года продолжает работать с новым контроллером, проблем нет.
Заказчик счастлив, что дело ограничилось одним контроллером, и не пришлось покупать новый сервер.