Организация распределённой вычислительной сети ЦВОИ...

17
Григорий Шамов, Максим Астафьев Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН Отдел информационных технологий Казанского НЦ РАН. mailto:[email protected] , mailto:[email protected]

Upload: jonco

Post on 14-Jan-2016

50 views

Category:

Documents


0 download

DESCRIPTION

Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН. Григорий Шамов, Максим Астафьев. Отдел информационных технологий Казанского НЦ РАН. mailto:[email protected] , mailto:[email protected]. Проект КазНЦ РАН - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН

Григорий Шамов, Максим Астафьев

Организация распределённой вычислительной сети ЦВОИ

Казанского НЦ РАН

Отдел информационных технологий Казанского НЦ РАН. mailto:[email protected] , mailto:[email protected]

Page 2: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН

Проект КазНЦ РАН«Создание центра высокопроизводительных

вычислений для нужд институтов Казанского научного центра Российской академии наук и высших

учебных заведений г. Казани»

Реализован в 2000 г. при поддержке ФЦП «Интеграция»

Обеспечение удаленного доступа к вычислительным ресурсам ЦВОИ сотрудников институтов КазНЦ и ВУЗов г.Казани

Интеграция фундаментальной науки и образования, изучение и внедрение технологий высокопроизводительных вычислений на многопроцессорных системах в научные исследования и учебный процесс.

Page 3: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН

Вычислительный кластер ЦВОИ КазНЦ РАН

~ 6,7 GFLOPsLINPAK 1000x1000

83,6SPEC fp 95 DS20E

47,9SPEC fp 95 DS10L

Оценка максимальной производительности вычислительного кластера с процессорамиALPHA 21264

Параметры производительности коммуникационной среды кластера

~140 мксекЛатентность ( на уровне MPI )

~9 Мбайт\сПропускная способность (блоки данных > 1Мбайт)

SENet - Tatarstan

WWW - страничка

Диспетчерзаданий -

PBS

Сервер доступа (SSH)

Управляющий сервер

КоммутаторFastEthernet

Page 4: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН

Новые кластеры (2001-2002 гг.)

• Кластер КГТУ(КХТИ) • Кластер химфака КГУ

11 AMD Athlon 1.2 GHz 7 AMD Athlon 900 MHz

Channel bonding (объединение каналов) для трёх каналов Fast Ethernet

Медный Gigabit Ethernet

Intel e1000 NICs in PCI-32 slot

Кластеры были выполнены в виде учебных классов, и предназначались, помимо научных расчётов для использования в учебном процессе.

При создании кластеров использовались экономичные варианты коммуникационной среды: Гигабитный Ethernet и объединение нескольких каналов 100Мб Ethernet.

Page 5: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН

Throughput

0

50

100

150

200

250

300

1 10 100 1000 10000 100000 1000000 10000000

1E+08 1E+09

Block size, bits

Mb

it/s

2*rtl, 2.2.19 tcp

2*tulip, 2.2.19 tcp

4*rtl, 2.2.19 tcp

6*tulip, 2.2.19 tcp

3*t*3rtl, 2.2.19 tcp

4*tulip, 2.2.19 tcp

BPS

0

50

100

150

200

250

300

350

400

1 100 10000 1000000 100000000 10000000000

Block size, bits

Mb

it/s

6*tulip, 2.2.19 tcp

intel e1000

Сравнение результатов прогона NetPIPE для TCP/IP для Gigabit Ethernet и объединения трёх каналов Fast Ethernet. Латентность Gigabit Ethernet равна 93 мс.

Пропускная способность для одного, двух и трёх каналов Fast Ethernet, по данным программы NetPIPE на уровне TCP/IP. Латентности составлют 41, 43 и 44 мс, соответственно.

Page 6: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН

HO

O H

H

H

Si

O

O

O

O

O

O

Si

O

H

SiH O

Si

H

Si

O

O

O

O

O

H

O

Si

O

O

O

Si

H

O

O

OSiSi

O

H

Si

O

O

Si

O

H

O

O

Si

O

O

O

O

H

Si

O

O

Si

H

OO

H

Si

O

Si

O

SiH

O

O

O

Si

H

O

O

O

O

Si

O

O

H

O

H

H

Si

O

OO

Si

Si

H

O

O

O

O

O

Si

Si HO

H

O

H O

OH

Тестовая молекула для Задачи I, расчёта RHF/STO-3G градиента -- цеолитовый фрагмент Si24O60H24

O

H

N

H

O

H

H

H

Тестовая молекула для Задачи II, расчёта MP2/6-31G* оптимизации геометрии нитробензола

Page 7: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН

0

2

4

6

8

10

12

0 2 4 6 8 10 12nCPU

spee

dup

Ideal speedup

Задача II, intel

Задача II realtek

Задача I, intel

Задача I, realtek

Ускорение (speedup) Задач I и II для различного числа

процессоров (nCPU) кластера КГТУ, с

использованием Fast Ethernet (realtek) и Gigabit

Ethernet (intel).

Ускорение Задачи II для различного числа процессоров кластеров КГTУ и КГУ с использованием channel bonding трёх Fast Ethernet (realtek) и Gigabit Ethernet (intel).

1

2

3

4

5

6

7

8

9

10

1 3 5 7 9 11 13

nCPU

spee

du

p

Ideal speedup

Задача II, intel

Задача II realtek

Задача II, КГУ, 3 channel bonding

Задача II, КГУ, no bonding

Page 8: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН

Система управления заданиями локальных кластеров.

Должна обеспечить справедливое и надёжное обслуживание задач пользователей

Предотвратить неконтролируемую конкуренцию процессов пользователей за ресурсы вычислительных узлов

Предоставить пользователям возможно более удобный интерфейс для запуска, мониторинга и управления задачами

PBS Pro 5.2

http://www.pbspro.com

Maui

http://www.supercluster.orgScheduler

Resource manager

Linux cluster

Доступ пользователей

User commands

Page 9: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН

Статистика загрузки вычислительных кластеров

0

20

40

60

80

100

0

20

40

60

80

100

0

20

40

60

80

100

0

20

40

60

80

100

Alpha – кластер ЦВОИ КазНЦ РАН

Учебный кластер КГТУ

Загрузка, %

Ожидание в очереди, час

Page 10: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН

Компьютерная химияна кластере ЦВОИ КазНЦ

Анализ электронной структуры молекул

Изучение механизмов химических реакций

Исследования физических и химических свойств веществ

Изучение влияния различных сред

Программное обеспечение, наиболее популярное среди пользователей ЦВОИ:

GAMESS-US, Gaussian98, Priroda

Page 11: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН

Опыт использования кластеров Казанского НЦ РАН

Большая загрузка кластера затрудняет выполнение параллельных задач на большом количестве CPU. Невозможно обеспечить одновременно полную загрузку кластера и минимальное время ожидания задач в очереди

Пользователи не в состоянии распределить свои задачи по кластерам даже для таких единообразно устроенных кластеров как наши.

Пользователям особенно трудно правильно задать свои запросы для учебных кластеров, которые периодически переводятся в другие режимы работы.

Такая сеть должна обеспечивать увеличение загрузки входящих в неё кластеров и одновременно уменьшать время ожидания в очереди.

Кроме того, она должна предоставить пользователям единый интерфейс ко всем доступным вычислительным ресурсам.

Возможным решением этих проблем является объединение локальных кластеров в распределённую вычислительную сеть.

Page 12: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН

Распределенная вычислительная сеть г.Казани

Учебный кластер КГУ

Учебный кластер КГТУ

Вычислительный кластер ЦВОИ КазНЦ РАН

Page 13: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН

Трудности создания РВС Выгоды от РВС

Отсутствие опыта создания и использования РВС

Неотработанность технологий, нестабильность ПО

Необходимо выделения ресурсов локального кластера

Необходимо согласовать политики использования кластеров, политики планирования заданий

Необходимо организовать учёт использования ресурсов

Необходимо вмешаться в работу локальных кластеров на этапе инсталляции/тестирования РВС

Уменьшение простоев

Улучшение оборачиваемости

Единый интерфейс для всех локальных кластеров

Развитие инфраструктуры для метакомпьютинга.

Компоненты РВС

Метапланировщик

Grid environment

Локальные планировщики

Локальные менеджеры ресурсов

Портал доступа

Page 14: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН

Silver design overview. http://www.supercluster.org

Page 15: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН

Преимущества Silver

Гибкое выделение ресурсов основанное на т.н. «резервировании»

Совместимость Silver/Maui с широким кругом менеджеров ресурсов: PBS Pro, OpenPBS, SGE, LSF, LoadLever

Минимально вторжение в политики локальных кластеров Ограниченное использование информации от локальных

кластеров Возможность настройки и испытаний РВС в режиме симуляции,

не прерывая нормальной работы локальных кластеров. Возможность как использования Globus в качестве Grid

Environmnt’a, так и создания собственных механизмов для stageing’a, авторизации и запуска задач

Возможность учёта использованных вычислительных ресурсов при помощи базы данных Q-bank

Высокая масштабируемость – Silver разработан так, чтобы управлять тысячами процессоров на десятках кластеров .

Page 16: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН

Maui 3.2.0

PBS Pro 5.2

Кластер КазНЦ

Сервер доступа

Кластер КГТУ

PBS Pro 5.2

Maui 3.2.0

Silver 1.0.2

Стендовые испытания Silver на кластерах Казанского НЦ РАН

Page 17: Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН

Заключение

Проблемы организации использования высокопроизводительных вычислительных ресурсов имеют общий характер для большинства сайтов.

Возможным решением их является объединение локальных вычислителей в распределённые вычислительные сети.

Что требует как решения технических вопросов, так и сотрудничество заинтересованных в использовании высокопроизводительных вычислений организаций