Патч для Spectre вывел из строя суперкомпьютеры
Августовское исправление для Spectre 1.1 от Red Hat вызвал сбой в работе файловой системы Lustre.
Пользователи высокопроизводительных компьютеров вынуждены исправлять хаос, вызванный новым патчем для Spectre-подобной уязвимости от компании Red Hat. Напомним, в прошлом месяце стало известно об уязвимости Spectre 1.1 (CVE-2018-3693). Red Hat включила исправления для нее в свой набор обновлений, вышедший 14 августа, и вскоре операторы высокопроизводительных машин столкнулись с тем, что файловая система Lustre перестала работать.
Первыми о проблеме сообщили специалисты Стэнфордского исследовательского компьютерного центра. Они описали ошибку в LustreNet – реализации Lustre поверх InfiniBand, использующей RDMA для скоростной передачи файлов и метаданных. Ошибка оказалась катастрофической – система была не способна даже пинговать себя, не говоря уже о формировании файловых систем или обмене данными с другими узлами.
В качестве временного решения проблемы Red Hat рекомендовала сделать откат ядра до версии 3.10.0-862.11.5.el7. Похоже, ошибка связана не с самой Lustre, а с RDMA. «Решение данной проблемы является первостепенной задачей. Пока что откатите до 3.10.0-862.11.5.el7», — сообщил специалист Red Hat по RDMA Дон Дьютил (Don Dutile). По словам эксперта, ошибка продублирована в баге 1616346.
Как сообщил изданию The Register представитель Red Hat Кристофер Робинсон (Christopher Robinson), проблема будет исправлена в версии ядра 3.10.0-862.13.1, которая в настоящее время тестируется командой Red Hat Enterprise Linux Engineering. До выхода новой версии Робинсон посоветовал пострадавшим пользователям откатить ядро до предыдущей работающей версии. В случае экстренной необходимости они могут запросить экстренное исправление, связавшись с сервисами поддержки Red Hat Global Support Services.
Lustre – распределенная файловая система массового параллелизма, используемая обычно для крупномасштабных кластерных вычислений.
Удаленный прямой доступ к памяти (RDMA) – аппаратное решение для обеспечения прямого доступа к оперативной памяти другого компьютера.