Патч для Spectre вывел из строя суперкомпьютеры

Back to Blog

Патч для Spectre вывел из строя суперкомпьютеры

Августовское исправление для Spectre 1.1 от Red Hat вызвал сбой в работе файловой системы Lustre.

Пользователи высокопроизводительных компьютеров вынуждены исправлять хаос, вызванный новым патчем для Spectre-подобной уязвимости от компании Red Hat. Напомним, в прошлом месяце стало известно об уязвимости Spectre 1.1 (CVE-2018-3693). Red Hat включила исправления для нее в свой набор обновлений, вышедший 14 августа, и вскоре операторы высокопроизводительных машин столкнулись с тем, что файловая система Lustre перестала работать.

Первыми о проблеме сообщили специалисты Стэнфордского исследовательского компьютерного центра. Они описали ошибку в LustreNet – реализации Lustre поверх InfiniBand, использующей RDMA для скоростной передачи файлов и метаданных. Ошибка оказалась катастрофической – система была не способна даже пинговать себя, не говоря уже о формировании файловых систем или обмене данными с другими узлами.

В качестве временного решения проблемы Red Hat рекомендовала сделать откат ядра до версии 3.10.0-862.11.5.el7. Похоже, ошибка связана не с самой Lustre, а с RDMA. «Решение данной проблемы является первостепенной задачей. Пока что откатите до 3.10.0-862.11.5.el7», — сообщил специалист Red Hat по RDMA Дон Дьютил (Don Dutile). По словам эксперта, ошибка продублирована в баге 1616346.

Как сообщил изданию The Register представитель Red Hat Кристофер Робинсон (Christopher Robinson), проблема будет исправлена в версии ядра 3.10.0-862.13.1, которая в настоящее время тестируется командой Red Hat Enterprise Linux Engineering. До выхода новой версии Робинсон посоветовал пострадавшим пользователям откатить ядро до предыдущей работающей версии. В случае экстренной необходимости они могут запросить экстренное исправление, связавшись с сервисами поддержки Red Hat Global Support Services.

Lustre – распределенная файловая система массового параллелизма, используемая обычно для крупномасштабных кластерных вычислений.

Удаленный прямой доступ к памяти (RDMA) – аппаратное решение для обеспечения прямого доступа к оперативной памяти другого компьютера.

Поделиться этим постом

Back to Blog