Влияние межпроцессорных связей на эффективность...

23
Влияние межпроцессорных связей Влияние межпроцессорных связей на эффективность параллельных на эффективность параллельных вычислений вычислений Г.Адам Г.Адам 1,2 1,2 , С.Адам , С.Адам 1,2 1,2 , А.Айриян , А.Айриян 1 , Э.Айрян , Э.Айрян 1 , , Э.Душанов Э.Душанов 1 , В.Кореньков , В.Кореньков 1 , А.Луценко , А.Луценко 1 , В.Мицын , В.Мицын 1 , , Т.Сапожникова Т.Сапожникова 1 , А.Сапожников , А.Сапожников 1 , О.Стрельцова , О.Стрельцова 1 , , И.Василе И.Василе 2 , М.Дулеа , М.Дулеа 2 , А.Сима , А.Сима 2 , , Е.Донец Е.Донец 3 , Я.Буша , Я.Буша 1,4 1,4 , И.Покорны , И.Покорны 1,4 1,4 1 Лаборатория информационных технологий, ОИЯИ 2 Национальный институт физики и ядерной технологии им. Х. Хулубея, Румыния 3 Лаборатория высоких энергий, ОИЯИ 4 Технический университет г. Кошице, Словакия Результаты частично получены в рамках программы Хулубей-Мещеряков Результаты частично получены в рамках программы Хулубей-Мещеряков

Upload: naava

Post on 15-Jan-2016

49 views

Category:

Documents


0 download

DESCRIPTION

Влияние межпроцессорных связей на эффективность параллельных вычислений. Г.Адам 1,2 , С.Адам 1,2 , А.Айриян 1 , Э.Айрян 1 , Э.Душанов 1 , В.Кореньков 1 , А.Луценко 1 , В.Мицын 1 , Т.Сапожникова 1 , А.Сапожников 1 , О.Стрельцова 1 , И.Василе 2 , М.Дулеа 2 , А.Сима 2 , - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Влияние межпроцессорных связей на эффективность параллельных вычислений

Влияние межпроцессорных связей на Влияние межпроцессорных связей на эффективность параллельных эффективность параллельных

вычисленийвычислений

Г.АдамГ.Адам 1,21,2, С.Адам, С.Адам 1,21,2, А.Айриян , А.Айриян 11, Э.Айрян , Э.Айрян 11,,Э.ДушановЭ.Душанов 11, В.Кореньков, В.Кореньков 11, А.Луценко, А.Луценко 11, В.Мицын, В.Мицын 11,,Т.Сапожникова Т.Сапожникова 11, А.Сапожников , А.Сапожников 11, О.Стрельцова, О.Стрельцова 11,,

И.Василе И.Василе 22, М.Дулеа , М.Дулеа 22, А.Сима , А.Сима 22,,Е.Донец Е.Донец 33, Я.Буша , Я.Буша 1,41,4, И.Покорны , И.Покорны 1,41,4

1 Лаборатория информационных технологий, ОИЯИ2 Национальный институт физики и ядерной технологии им. Х. Хулубея, Румыния3 Лаборатория высоких энергий, ОИЯИ4 Технический университет г. Кошице, Словакия

Результаты частично получены в рамках программы Хулубей-Результаты частично получены в рамках программы Хулубей-МещеряковМещеряков

Page 2: Влияние межпроцессорных связей на эффективность параллельных вычислений

Numerical experiments inNonPerturbative Lattice QCD

Numerical experiments inNonPerturbative Lattice QCD

• New method (simulated annealing)• Parallel computing in the infrared limit• New method (simulated annealing)• Parallel computing in the infrared limit

Page 3: Влияние межпроцессорных связей на эффективность параллельных вычислений

I. L. Bogolubsky (LIT), E.-M. Ilgenfritz, M. Mueller-Preussker, A. Schiller, A. Sternbeck(Germany) Brazilian Journal of Physics (2007)

Simulated Annealing Approach to Infrared QCD

Simulated Annealing Approach to Infrared QCD

New method of gauge fixing (simulated annealing) for computing gluon and ghostLattice QCD propagators from first principles.

Exploration of infrared region asks for largest available parallel supercomputers.

Dressing functions for the gluon propagatorDressing functions for the gluon propagator Gluon propagator for quenched QCDGluon propagator for quenched QCD

Page 4: Влияние межпроцессорных связей на эффективность параллельных вычислений

Parallel computing algorithms and codes

based on MPI technology

Parallel computing algorithms and codes

based on MPI technology

• One example: Yang-Mills-dilaton evolution equations • One example: Yang-Mills-dilaton evolution equations

Page 5: Влияние межпроцессорных связей на эффективность параллельных вычислений

1 2 3 4

Processor numbers, p

Acc

eler

atio

n, T

1/Tp

1 2 3 4

Processor numbers, p

Eff

icie

ncy,

T1/(

p T

p)

a) b)

E.E. Donets (VBLHE), E.A. Ayrjan, O.I. Streltsova (LIT), I. Pokorný, J. Buša (Slovakia) MMCP 2006, Slovakia, 26.08-01.09 2006

An instance of An instance of parallel algorithmparallel algorithm using using Message Passing InterfaceMessage Passing Interface (MPI) (MPI) technology: technology: Yang-Mills-dilatonYang-Mills-dilaton evolution equations evolution equations

a) Acceleration: T1/Tp ; computing times: T1 - on one processor; Tp - on p processors Parallel computing acceleration ~ p/2

b) Efficiency: T1/(pTp) – measured on LIT LINUX cluster for different space and time grids of

finite-difference scheme

Nonlinear system of evolution equations: Conserving energy finite-difference scheme.Diagonally dominant system of linear algebraic equations by parallel algorithms

Page 6: Влияние межпроцессорных связей на эффективность параллельных вычислений

Решение задачиYang-Mills-dilaton

на новые параллельные

кластеры

Решение задачиYang-Mills-dilaton

на новые параллельные

кластеры

Page 7: Влияние межпроцессорных связей на эффективность параллельных вычислений

Характеристики системХарактеристики систем

1 , k – количество операций за такт,n – количество ядер, v – тактовая частота

ХарактеристикиХарактеристики Суперкопьютер ЦИВКСуперкопьютер ЦИВК Кластер Кластер IFIN-HHIFIN-HH Кластер ЦИВККластер ЦИВК

ПроцессорПроцессор Intel 2xXeon 5150Intel 2xXeon 5150 Intel Xeon Intel Xeon IrwindaleIrwindale Intel Xeon 5Intel Xeon 5303000

Тактовая частота процессораТактовая частота процессора 2660 MHz2660 MHz 3003000 MHz0 MHz 30003000 MHz MHz

Кэш-память второго уровняКэш-память второго уровня(на каждом процессоре)(на каждом процессоре)

4 MB4 MB 22 MB MB 88 MB MB

Ядер в процессореЯдер в процессоре 22 11 44

Процессоров на узлеПроцессоров на узле 22 11 22

Объем памяти на узлеОбъем памяти на узле 8 GB8 GB 44 GB GB 8 GB8 GB

Узлов в кластереУзлов в кластере 6060 88 1100

Общее количество Общее количество процессоровпроцессоров

120120 1616 2020

Общее количество ядерОбщее количество ядер 240240 1616 8800

Суммарный объем ОПСуммарный объем ОП 480 GB480 GB 32 32 GBGB 80 GB80 GB

Операционная системаОперационная система Scientific Linux 4.5Scientific Linux 4.5 CentOS CentOS 55 Scientific Linux 4.5Scientific Linux 4.5

Пиковая производительностьПиковая производительность11 2553.6 GFlops2553.6 GFlops 9696 GFlops GFlops 960960 GFlops GFlops

СетьСеть Gigabit EthernetGigabit Ethernet Myrinet 2000Myrinet 2000 InfiniBandInfiniBand

MPIMPI Version 1.2.7Version 1.2.7 Version 1.2.7Version 1.2.7 OpenMPI OpenMPI 1.2.1.2.55

Количество операций за тактКоличество операций за такт 44 22 44

peakP k n

Page 8: Влияние межпроцессорных связей на эффективность параллельных вычислений

Результаты расчетов на суперкомпутере Результаты расчетов на суперкомпутере ЦИВК ОИЯИЦИВК ОИЯИ[[240 ядер240 ядер;; Gb Ethernet]Gb Ethernet]

Уск

орен

ие,

Page 9: Влияние межпроцессорных связей на эффективность параллельных вычислений

Результаты расчетов на кластере Результаты расчетов на кластере ЦИВК ОИЯИЦИВК ОИЯИ[8[80 ядер0 ядер; InfiniBand]; InfiniBand]

Уск

орен

ие,

Page 10: Влияние межпроцессорных связей на эффективность параллельных вычислений

Результаты расчетов на кластере Результаты расчетов на кластере IFIN HHIFIN HH[16 [16 ядерядер;; Myrinet Myrinet]]

Уск

орен

ие,

Page 11: Влияние межпроцессорных связей на эффективность параллельных вычислений

Сравнительный анализ параллельных вычисленийСравнительный анализ параллельных вычисленийна трех кластерахна трех кластерах

N = 200 000N = 200 000 N = 400 000 N = 400 000

Page 12: Влияние межпроцессорных связей на эффективность параллельных вычислений

Сравнение времени расчетов на кластерах на кластерах ЦИВК ОИЯИЦИВК ОИЯИ [[240 ядер240 ядер; Gb Ethernet]; Gb Ethernet]

IFIN HHIFIN HH [16 [16 ядерядер;; Myrinet Myrinet]]

Увеличения числа процессоров показывает преимущество MyrinetMyrinet наднад Gigabit EthernetGigabit Ethernet . .

T1 = 3105 T1= 1670 T14= 261 T14= 387

Уск

орен

ие,

Page 13: Влияние межпроцессорных связей на эффективность параллельных вычислений

Измерение производительности с

помощьюHigh-Performance Linpack

benchmark (HPL)

Измерение производительности с

помощьюHigh-Performance Linpack

benchmark (HPL)• HPL benchmark используется для определения самых мощныхсамых мощных суперкомпутеровсуперкомпутеров в мире (TOP 500) и в СНГ (TOP 50).

• ЦИВК суперкомпутер занимал, в сентябре 2007 г., 12-ое место12-ое место в в TOP 50TOP 50..

Page 14: Влияние межпроцессорных связей на эффективность параллельных вычислений

Целью создания LINPACK отнюдь не было измерение производительности. Впервые же таким образом использовать его предложил Джек Донгарра в 1979 году.High-Performance Linpack benchmark представляет собой решение системы линейных уравнений методом LU-разложения с известным количеством арифметических операций и вычисление времени выполнения этой задачи. Производительность вычисляется по формуле:

где NOP – количество арифметических операций, а T - время решения СЛАУ. Количество операций при этом:

где N – порядок решаемой СЛАУ1.

High-Performance Linpack benchmark

OPNP

T

3 222

3OPN N N

1 Воеводин В.В., Воеводин Вл.В., Паралельные вычисления.- СПб.: БХВ-Петербург, 2002

Page 15: Влияние межпроцессорных связей на эффективность параллельных вычислений

Результаты тестирования:ЦИВКЦИВК ОИЯИОИЯИ [[240 ядер240 ядер; Gb ; Gb

Ethernet]Ethernet]

0 5 104

1 105

1.5 105

2 105

1000

2000

3000

4000

5000

Lower time limitExperimental dataLower time limitExperimental data

Time of calculation

Matrix dimension, N

Tim

e [s

ec]

0 5 104

1 105

1.5 105

2 105

200

400

600

800

1000

1200

Experimental dataExperimental data

Performance

Matrix dimension, N

Perf

orm

ance

[G

Flop

s]

Достигнутая нами максимальная производительность на тесте HPL составила 1124 GFlops, что примерно в два раза меньше пиковой производительности 2553.6 GFlops

Page 16: Влияние межпроцессорных связей на эффективность параллельных вычислений

Суперкомпьютер в ЦЕРНЦЕРНВ ЦЕРН (Швейцария) установлен новый суперкомпьютерный кластер, состоящий из 340 узлов, содержащих по два двуядерных процессора Intel Xeon 5160.

Кластер по итогам тестирования в с помощью теста HPL benchmark занял 115 место в списке TOP500 самых высокопроизводительных суперкомпьютеров в мире1.

1 H. Hämmerle, N. Crémel, CERN makes it into supercomputingTOP500, CERN COURIER, v. 47, № 7, September 2007, p. 16.

Page 17: Влияние межпроцессорных связей на эффективность параллельных вычислений

1 104

2 104

3 104

4 104

5 104

6 104

500

1000

1500

2000

2500

Ideal caseExperimental dataIdeal caseExperimental data

Time of calculation

Matrix dimension, N

Tim

e [s

ec]

0 1 104

2 104

3 104

4 104

5 104

6 104

7 104

10

20

30

40

50

60

70

Experimental dataExperimental data

Performance

Matrix dimesion, N

Per

form

ance

[G

Flo

ps]

ПроцессорТактовая частота процессора

Кэш-память второго уровня(на каждом процессоре)

Ядер в процессореПроцессоров на узле

Объем памяти на узлеУзлов в кластере

Общее количество процессоровОбщее количество ядер

Суммарный объем ОПОперационная система

Теоретическая производительностьСетьMPI

Intel Xeon Irwindale3000 MHz2 MB

114 GB8161632 GBCentOS 596 GFlopsMyrinet 2000Version 1.2.7

Достигнутая максимальная производительность для кластера параллельных вычислений IFIN-HH составила 64.24 GFlops, дветретьи от пиковой.

В 2007 году в IFIN-HH (Румыния) был установлен кластер параллельных вычислений, было предложено протестировать его с помощью HPL benchmark.

Результаты тестирования: IFIN HHIFIN HH [16 [16 ядерядер;; Myrinet Myrinet]]

Page 18: Влияние межпроцессорных связей на эффективность параллельных вычислений

Результаты тестирования:ЦИВК ОИЯИЦИВК ОИЯИ [8[80 ядер0 ядер; InfiniBand]; InfiniBand]

Данные получены сегодня.Полученная производительность – около 70% от максимальной. Заметно насыщение.

Page 19: Влияние межпроцессорных связей на эффективность параллельных вычислений

Исследование производительностиТо обстоятельство, что кластеры ЦИВК ОИЯИ и ЦЕРН на тесте HPL

смогли достичь лишь порядка 50% от своих пиковых производительностей не умоляет их возможностей. Дело в том, что данные кластеры являются составными частями GRID-инфраструктуры и предназначены для распределённых вычислений (отсутствуют межпроцессорные коммуникации). К ним, соответственно, предъявляются иные требования нежели к низколатентным суперкомпьютерам предназначенным для параллельных вычислений.

Одной из мотиваций данного исследование было выявить эффективность параллельных вычислений на кластере ЦИВК ОИЯИ, для этого было принято решение протестировать и провести сравнительный анализ производительности с кластером для параллельных вычислений IFIN-HH (Румыния), основанным на технологии Myrinet, обладающей низкой латентностью.

Page 20: Влияние межпроцессорных связей на эффективность параллельных вычислений

Исследование производительности

Настоящие данные на MyrinetMyrinet сети заметно ближезаметно ближе к максимальнодоступными чем на Gigabit EthernetGigabit Ethernet сети.

Page 21: Влияние межпроцессорных связей на эффективность параллельных вычислений

Исследование производительности

OPloss teor

peak

T N T NN

T N T NP

Потеря времени показывает что, использование меньшего числапроцессов более эффективно более эффективно решает меньшие задачи.

Page 22: Влияние межпроцессорных связей на эффективность параллельных вычислений

Подгонка полинома третьей степени к измеренным данным в

случаях, когда (слева) и (справа)1.

Неопределённости измерения времени

i if 1i

1 Gh. Adam et al., Performance assessment of the SIMFAP parallelcluster at IFIN-HH Bucharest, submitted to Romanian Journal of Physics

Page 23: Влияние межпроцессорных связей на эффективность параллельных вычислений

Спасибо за внимание!!!