Инструментальная оболочка визуального...

Post on 03-Jan-2016

55 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Т. Коломейцева, С. Демин, М. Меретяков, Д. Кулагин, А. Суслов , П. Райков, А. Ларченко , А. Дунаев, А. Бухановский. Инструментальная оболочка визуального проектирования приложений в Грид. НИИ НКТ. PEG2 : идеи, концепция, реализация. Оглавление. Введение и современное состояние - PowerPoint PPT Presentation

TRANSCRIPT

ИНСТРУМЕНТАЛЬНАЯ ОБОЛОЧКА ВИЗУАЛЬНОГО ПРОЕКТИРОВАНИЯ ПРИЛОЖЕНИЙ В ГРИД

PEG2: идеи, концепция, реализация

Т. Коломейцева, С. Демин, М. Меретяков, Д. Кулагин, А. Суслов , П. Райков,А. Ларченко , А. Дунаев, А. Бухановский

НИИ НКТ

Оглавление

Введение и современное состояние Концепция и некоторые проблемы PEG PEG 2 Что дальше? Авторы и соавторы Ссылки

2

Что такое Грид

Существует множество определений Грид

Грид – согласованная, открытая и стандартизованная среда, которая обеспечивает гибкое, безопасное, скоординированное разделение ресурсов в рамках виртуальной организации

Я. Фостер, К. Кессельман

3

«

»

Россия — щедрая душа

Простаивающий парк техники Ресурсы университетов и компаний Отсутствие развитых графических средств

организации удаленных вычислений Отсутствие обобщенных механизмов

предоставления ресурсов и сервисов Неравномерное распределение

вычислительных мощностей по территории

4

Европейский опыт

Сообщества: Open Grid Forum, Open Science Grid, Globus Alliance, OMII, D-Grid...

Большие проекты: Globus, EGEE, Condor-G, OGSA-DAI...

В основном, удаленный доступ к кластерам Низкоуровневая посылка задач Ограниченное использование Workflow

(например, Taverna) Многие просто присоединяются к EGEE MediaGrid – предоставление контента с

помощью Грид

5

Мы ждем перемен

Удобный запуск приложений Простое построение процесса вычислений с

задействованием ресурсов различных организаций

Предоставление приложений в виде ресурсов (подобно Web-сервисам)

Единое пространство для предоставления и использования ресурсов (правовое, экономическое, технологическое)

Запуск сложных цепочек вычислений

6

Визуальная среда

Создание и редактирование workflow Поиск необходимых сервисов Связывание workflow с сервисами Прогнозирование времени исполнения

workflow при выбранных параметрах Запуск и мониторинг исполнения Визуализация результатов счета Уточнение параметров модели и мн. др.

7

Workflow8

Данные 1Данные 1

Действие 1Действие 1

Действие 3Действие 3

Данные 1Данные 1

Данные 3Данные 3

Действие 2Действие 2

Мечты – одно только облако?

Что хотелось бы: Провайдер сервисов: организация, каталогизация,

предоставление Подлежащая вычислительная Грид-инфраструктура Workflow как основной и наглядный инструмент

запуска процессов Мониторинг выполнения Балансировка и прогноз времени исполнения Web-доступ

Пилотные реализации: PEG, PEG 2

9

Интернет

Концепция в движении10

Провайдер

СервисСервис

СервисСервис

СервисСервис

InFile

Model

Calc

OutFile

?

Концепция в движении11

Провайдер

СервисСервис

СервисСервис

СервисСервис

Интернет

Братья пилоты: PEG 1, 2, 3…

PEG Задачи Архитектура и динамика работы Исследования Технологии

PEG 2 Задачи Архитектура и динамки работы Исследования Технологии

12

Пилотный проект Работа с Грид-инфраструктурой Параллельный запуск Условие отсутствия необходимости

модификации существующих приложений Выявление особенностей параллельного

запуска на Грид

Что хотели

13

PEG Задачи

Один Грид-сервер Множество целевых систем Модель запуска «Master-Slave» Толстый клиент (основная часть работы

выполняется на нем) Полностью ручное написание «обертки» Частично написание hack’ов

14

PEG Архитектура системы

15

PEG Динамика системы

Грид-сервер

Целевые системы

Клиент

exeexeexeexeexe

+decompos

ercomposer

hack

Входные данные

Программа

Выходные данные

Исследование методов балансировки Различные способы запуска: асинхронный,

синхронный Измерение производительности протоколов

передачи данных (RandomByteIO) Исследование каскадных схем балансировки

(далее) Написан симулятор Грид для исследования

различных моделей балансировок

16

PEG Исследования

Для чего Быстрая проверка теоретических изысканий

Особенности Консольный запуск Возможность задания стохастики Грид-

инфраструктуры Возможность запуска Workflow Полная профилировка модельных запусков и сбор

статистики

17

PEG Симулятор

18

PEG Симулятор

Моделирование стохастичности загруженности сети Моделирование варьирования производительности узлов Событийная модель симуляции Различные алгоритмы отображения абстрактного workflow на вычислительную сеть Просмотр картины симуляции Модульная структура (простота модернизации)

Сервер: Windows / Linux + GPE Server 1.4 на стороне сервера

Клиент: GPE 1.4 TSI GPE 1.5 Client API Globus Toolkit 4.0.2 (Java version) Java 1.5

19

PEG Технологии

Пилотный проект Работа с Грид-инфраструктурой Параллельный и одиночный запуск Условие отсутствия необходимости модификации

существующих приложений Визуальное редактирование Workflow Мониторинг исполнения Балансировка на основе информации о Грид-

инфраструктуре

Что хотели

20

PEG 2 Задачи

PEG 2: архитектура

Несколько Грид-серверов со множеством целевых систем

Запуск сложных Workflow Различные виды балансировок Прогнозирование времени исполнения

workflow Web-интерфейс Простая адаптация программ Расширяемость (внешние модули)

21

PEG 2: прогресс22

Практически готово: Запуск workflow Мониторинг производительности Мониторинг исполнения

В процессе: Визуальная среда Различные виды балансировки Web-интерфейс

Исследования

Исследования по балансировке нагрузки Балансировка и прогнозирование работы

нелинейных алгоритмов на архитектуре Master-Slave

Распределенная обработка данных Повышение эффективности обработки

распределенных данных в Грид Мониторинг сети и вычислительных узлов

23

Исследования

Исследования по балансировке нагрузки Балансировка и прогнозирование работы

нелинейных алгоритмов на архитектуре Master-Slave

Распределенная обработка данных Повышение эффективности обработки

распределенных данных в Грид Мониторинг сети и вычислительных узлов

24

11 22 33 44 55

Вычислительные узлы

Узел с данными

• wi – пропускная способность канала между узлом с данными и вычислителем

• cj – производительность вычислителя

• разделяется один half-duplex канал

w4w2 w3w1 w5

c1 c2 c3 c4 c5

Абстрактная вычислительная модель

Маршрутизатор

Модельные параллельные алгоритмы

ii nkm

N данных входа

Обр

абот

ка

Обр

абот

ка

Обр

абот

ка

Обр

абот

ка

n1

M данных выхода

m1

Разд

ача

Зада

ний

Сбор

Резу

льта

тов

n

iinN

1

1 и 01

n

iii

ii

qq

N

nq

n2n3

n4

m2

m3

m4

Объемы передаваемы и возвращаемых данных

Разделение данных между узлами

Возможные схемы

Проблемы:

• Поиск наилучшей схемы

• Классификация схем

Диаграмма Ганта

Каскадные схемы

1111)()( jjjjjjjjj wqNcqNfwqNcqNfs

0 1

1

2

n-

jjs

Диаграмма Ганта1..1 где , nj

11

n

iiq

Решение при помощи метода наименьших квадратов

- Функция вида )(xf ...)log(,, 2 xxxx

Тезисы и результаты

Результаты: Получен общий вид каскадных схем Построен алгоритм выбора лучшей каскадной схемы за

Проблемы: Метод выбора схемы, относительно которой считать

ускорение Выявлена проблема объединения выходных данных в

случае нелинейных алгоритмов Не решена проблема оценки существования решения для

заданной каскадной схемы

))!(( 2nO

Исследования

Исследования по балансировке нагрузки Балансировка и прогнозирование работы

нелинейных алгоритмов на архитектуре Master-Slave

Распределенная обработка данных Повышение эффективности обработки

распределенных данных в Грид Мониторинг сети и вычислительных узлов

30

Задача эффективной обработки распределенных данных в Грид и пути ее решения

Задача: Обработать неоднородно

распределенные по вычислительным узлам данные

Собрать результаты на заданном узле

Минимизировать время работы

Характерные особенности: Производительность

вычислительных узлов различна Пропускная способность

каналов между узлами существенно варьируются

Пути решения:Статическая и динамическая перебалансировка загрузки вычислительных узлов за счет перераспределения данных с учетом пропускной способности межузловых каналов

31

Исследования

Исследования по балансировке нагрузки Балансировка и прогнозирование работы

нелинейных алгоритмов на архитектуре Master-Slave

Распределенная обработка данных Повышение эффективности обработки

распределенных данных в Грид Мониторинг сети и вычислительных узлов

32

Задача поиска тематически подобных текстов

Условия:Распределенная система компьютеров, на каждом из которых хранится произвольный объем текстовых данных

Прикладная задача: за минимальное время найти n максимально похожих на образец текстов в коллекции документов, распределенной по сети

Стадии исследования: Реализация алгоритма Некрестьянова поиска тематически подобных

текстов по образцу для Грид-архитектуры Исследование особенностей Грид-реализации и выявление методов

повышения эффективности алгоритма: за счет применения методов балансировки за счет учета специфики текстовых данных за счет учета специфики выбранного алгоритма

Ожидаемые результаты исследования: Описание влияния особенностей параллельной Грид-реализации

алгоритмов поиска текстов на эффективность Методики повышения эффективности работы этих алгоритмов Описание области применимости выработанных методик

Проведение исследования

Исследования

Исследования по балансировке нагрузки Балансировка и прогнозирование работы

нелинейных алгоритмов на архитектуре Master-Slave

Распределенная обработка данных Повышение эффективности обработки

распределенных данных в Грид Мониторинг сети и вычислительных узлов

35

Мониторинг: для чего он?

Системы мониторинга позволяют: Получать характеристики удаленной системы Производить поиск неисправностей Производить поиск и анализ ресурсов Повышать эффективность управления системой Упрощать процесс составления расписаний Вести учет и статистику работы системы

36

Мониторинг: особенности

Особенности собираемой информации информация о производительности имеет

определенное время, в течение которого она считается полезной

частые обновления: информация о производительности обновляется гораздо чаще, чем запрашивается из места ее хранения

информация о производительности имеет стохастический характер: кроме самой информации о производительности иногда требуются такие ее характеристики как: распределение, время жизни, и т.д.

37

Мониторинг: предъявляемые требования

Высокая скорость передачи данных Малое время сбора данных Безопасность Масштабируемость Расширяемость функциональных возможностей Способность взаимодействовать с Грид-сервисами Предварительная обработка собираемых данных Встраиваемость в Globus Toolkit Графический или Web-интерфейс

38

Мониторинг: цели исследования

Исследовать существующие реализации мониторинговых систем на предмет соответствия предъявляемым требованиям. Выбрать из них наиболее походящую для встраивания в PEG 2

Исследовать существующие методики и программные средства позволяющие оценить производительность вычислительного узла для конкретной задачи или для узкого класса задач. Встроить в PEG 2 наиболее удачную реализацию

PEG 2: Технологии

Сервер: *nix (рекомендованы RadHat, SuSe) + GPE Server 1.5

Клиент: SSH Client (вместо TSI) GPE 1.5 Client API Globus Toolkit 4.0.2 (Java version) Apache Common Logging Java 1.5

40

Работа продолжается41

В дальнейшем планируется: Завершение работ по визуальному редактору Создание Web-интерфейса Дальнейшие исследования по эффективному

исполнению приложений Повышение удобства работы

Авторы и соавторы

Главные разработчики Дунаев Антон Ларченко Алексей

Стажеры Коломейцева Татьяна Райков Павел Меретяков Михаил Суслов Алексей Демин Дмитрий (сука)

Художественный руководитель Бухановский Александр Валерьевич

42

Ссылки43

НИИ НКТ

Open Grid ForumGlobus Alliance

GridClubGPE

escience.ifmo.ru

ogf.org globus.org gridclub.ru gpe4gtk.sourceforge.net

top related