Создание специализированного Центра прикладных Высокопроизводительных Вычислений
Решение
Проект создания суперкомпьютерного ЦОД был выполнен в очень сжатые сроки, менее чем за 5 месяцев (июль-ноябрь 2011 года), в сложных природно-климатических условиях. Обычно подобные проекты внедряются за 9-12 месяцев. Комплекс обеспечивает круглогодичную работу кластера в диапазоне температур атмосферного воздуха от -60 до +40 градусов Цельсия.
В конце сентября - начале октября 2011 года в Москве прошли испытания суперкомпьютера на базе вычислительного центра Академии Наук РФ. Работы велись в очень жестком графике совместными усилиями группы специалистов ИНЛАЙН ГРУП, Hewlett-Packard и Института системного программирования РАН. Это стало одним из важнейших факторов ускорения работ по проекту.
Общая архитектура вычислительного комплекса
В качестве аппаратной серверной платформы для построения вычислительного комплекса Северо-Восточного Федерального университета была использована модульная архитектура HP BladeSystem.
Блейд-архитектура позволяет обеспечить масштабируемость комплекса, компактность, существенно повысить легкость в обслуживании, сократить количество кабельных соединений, оптимизировать нагрузки на системы электропитания и охлаждения центра обработки данных.
Описание и характеристики вычислительных компонентов
HP Blade c-class C7000
Блейд-системы – наиболее динамично развивающийся сегмент серверного рынка, как в области корпоративных систем, так в области построения вычислительных систем для научно-технических расчетов.
Блейд-система – это интегрированный комплекс, представленный полкой, монтируемой в стандартный шкаф, который сочетает в себе серверные компоненты – вычислительные узлы, единую инфраструктуру питания и охлаждения всех узлов, решения по обеспечению взаимодействия серверов между собой и с внешними сетями, такими как Gigabit Ethernet, FibreChannel, Infiniband и т.д.
За счет интеграции компонентов блейд-система позволяет достичь ряда существенных преимуществ перед стоечными системами, как в эксплуатационном плане (компактность, сокращения кабельных соединений, сокращение энергопотребления и тепловыделения), так и в плане управляемости, легкости в обслуживании, гибкости системы в целом. В блейд-систему уже встроены средства обеспечения избыточностипо питанию, охлаждению, сетевым соединениям. При этом блейд-серверы ни в чем не уступают своим стоечным аналогам с точки зрения производительности, масштабируемости, расширяемости.
В данном решении используется современная платформа HP BladeSystem c-Class.
HP ProLiant BL2x220c G7
HP ProLiant BL2x220c G7 – это передовой сервер высокой плотности, предлагающий лучшие в отрасли сетевые возможности благодаря встроенному решению Mellanox QDR Infiniband. Он обеспечивает специализированную сетевую среду Infiniband, позволяющую упростить и удешевить управление сетью. Высокая плотность и улучшенные сетевые возможности обеспечивают превосходную производительность и экономию питания для современных центров обработки данных.
HP ProLiant SL390s G7
Сервер HP ProLiant SL390s G7 входит в состав новой линейки продуктов HP ProLiant SL6500 Scalable System.Эти решения HP обеспечивают высокую масштабируемость, значительное сокращение затрат, эффективное использование ресурсов питания благодаря общим гибкость. SL390s G7 состоит из двух серверных полок, каждая из которых обладает своими преимуществами. Первая представляет собой полку 1U половинной ширины, вторая – полку 2U половинной ширины. Обе полки используют одну системную плату и входят в корпус HP ProLiant s6500 высотой 4U. SL390s G7 – это сервер с двумя сокетами для процессоров Intel, 12 слотами DDR3 DIMM, 2 портами 1 Gb Ethernet, 1 портом 10 Gb Ethernet (SFP+) и дополнительным портом Infiniband (QSFP). Корпус s6500 высотой 4U позволяет разместить до 8 серверов-лезвий половинной ширины с возможностью индивидуального обслуживания каждого сервера. Он также поддерживает до 4 блоков питания, основные и резервные вентиляторы с возможностью горячей замены.
Графические процессоры Tesla 2070 обеспечивают пиковую производительность вычислений двойной точности почти в 10 раз выше, чем у четырех-ядерных процессоров x86, а также поддерживают ECC память. Модуль Tesla M2070 предлагает пользователю все привычные преимущества вычислений на GPU, обеспечивая максимальную надежность и тесную интеграцию с системами мониторинга и инструментами управления. По сравнению с аналогичными суперкомпьютерами на базе только CPU-серверов, системыс вычислительными модулями Tesla GPU 2070 потребляют почти в 20 раз меньше электроэнергии и почтив 10 раз дешевле по стоимости.
Результаты проекта
В конце ноября 2011 года в Северо-Восточном федеральном университете им. М.К. Аммосова (г. Якутск) был запущен в эксплуатацию вычислительный кластер «Ариан Кузьмин», который вошел в список ТОП-50 наиболее мощных суперкомпьютеров СНГ.
Проект был выполнен компанией ИНЛАЙН ГРУП и заключался в создании «с нуля» и «под ключ» суперкомпьютерного ЦОД, включая инженерное обеспечение на базе оборудования АРС и компьютерного гибридного кластера на платформе НР BL2x220 (160 узлов,1920 ядер) и HP SL390 (39 узлов с ГПУ Тесла М2070).
Построенный кластер «Ариан Кузьмин» состоит из 160 серверных узлов, его дисковый массив насчитывает 100 терабайт, а суммарная пиковая производительность узлов достигает 50 Тфлопс. Кластер оснащен самым современным инженерным оборудованием – системами бесперебойного электропитания и кондиционирования. Это один из мощнейших гибридных суперкомпьютеров в России, и самый мощный на Дальнем Востоке.
Новый гибридный вычислительный кластер назван в честь экс-ректора ЯГУ (1973 – 1986), доктора физико-математических наук, профессора Ариана Ильича Кузьмина, внесшего большой вклад в развитие якутского университета.