Параллельная поисковая машина для сверх-больших баз...

30
Параллельная поисковая машина для сверх-больших баз данных по окружающей среде Михаил Жижин, ИФЗ РАН [email protected] Eric Kihn, NGDC NOAA [email protected]

Upload: lynda

Post on 09-Jan-2016

60 views

Category:

Documents


1 download

DESCRIPTION

Параллельная поисковая машина для сверх-больших баз данных по окружающей среде. Михаил Жижин, ИФЗ РАН [email protected] Eric Kihn, NGDC NOAA [email protected]. План семинара. Генератор погодных сценариев ESG и нечеткий поиск данных - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Параллельная поисковая машина для сверх-больших баз данных по окружающей

среде

Михаил Жижин, ИФЗ РАН

[email protected]

Eric Kihn, NGDC NOAA

[email protected]

Page 2: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

План семинара

Генератор погодных сценариев ESG и нечеткий поиск данных

Интерактивный ресурс данных по солнечно-земной физике SPIDR и моделирование космической погоды

Архив изображений Земли из космоса SABR

Page 3: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Ключевые слова и технологии

ООП, параллельные вычисления, распределенные базы данных

Искусственный интеллект и нечеткие множества

Компьютерные кластеры Linux, Web (DHTML), XML, Java, JSP, RMI,

SOAP, Web services Переносимость и масштабируемость Open Source

Page 4: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Что мы храним и ищем?

Пользователи Проекты Среды

Флот ESG Океан

Авиация, экология, метеорология

Климат и атмосфера

Связь и навигация, GPS

SPIDR Ионосфера

Спутниковые операторы

Магнитосфера и космос

Наблюдения Земли из космоса

SABR Спутники

Page 5: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Параллельная поисковая машина

Ищет события как определенные условия и/или тренды в архивах данных

Реализована на вычислительном кластере с распределенными базами данных и параллельными алгоритмами их обработки

Подключение сетевых клиентов к поисковой машине не требует особых вычислительных затрат и трафика

Page 6: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Основные модели данных

Временные ряды на сетке - BLOBS Гранулирование по времени BLOBS зависит от

приложений: 1 год для климатических данных, 1 день космической погоды

Метаданные в формате XML, включая символьные выражения и формулы для виртуальных параметров (напр., скорость ветра)

Проекция на общую терминологическую базу метаданных

Page 7: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Протоколы и интерфейсы

JDBC (доступ к кластеру баз данных) Java RMI, JAX-RPC (модели данных

высокого уровня и распределенные синхронные сервисы)

JMS, JAXM (асинхронные сервисы на EJB платформe)

SMTP, Java Mail (синхронизация региональных узлов)

HTTP (доступ пользователей)

Page 8: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Модель данных ESG

N-CPU ClusterPressure level parametersSurface level parameters

Tim

e In

terlv

al 2

Tim

e In

terv

al N

...T

ime

inte

rval

1

CPU4D Grid

1-1

Distributed Environmental Data Model

CPU4D Grid

2-1

CPU4D Grid

N-1

CPU5D Grid

1-2

CPU5D Grid

2-2

CPU5D Grid

N-2

Time interval 1 =[Year 1, Year 2]

Time interval 2 =[Year 2, Year 3]

Time interval N =[Year N-1, Year N]

4D Grid =time X lat X lon X

parameter

5D Grid =time X lat X lon Xlevel X parameter

Page 9: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Поиск событий в ESG

Поиск и отбор источников данных Редактор сценариев нечеткого поиска Параллельный запрос в базы данных Нечеткий поиск событий Визуализация результатов поиска Экспорт данных, внешние сервисы

Page 10: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Поиск и отбор источников данных

Page 11: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Узлы и области на сетке

Page 12: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Временные ряды в узле

Page 13: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

5-мерная визуализация в области

Page 14: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Поиск событий в терминах нечеткой логики

«классическое»множество

«нечеткое»множество

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.2

0.4

0.6

0.8

1

WSG lingustic variables

Mem

bers

hip

Gra

des Large

VeryLarge

SmallVerySmall

Medium

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.2

0.4

0.6

0.8

1

WSG numeric variables

X = normalized variable values

Mem

bers

hip

Gra

des

> 0.7< 0.2

0.4 < x < 0.6

~ 0.3

Page 15: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Нечеткие термины

Языковые Числовые

Очень большой Больше X0

Большой Равно X0

Средний Между X0 и X1

Малый Меньше X0

Очень малый

Page 16: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Нечеткая логика

First operand: fuzzy set A

Second operand: fuzzy set B

Fuzzy NOT

Fuzzy AND

Fuzzy OR

AA 1

BABA ,min

BABA ,max

Page 17: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Нечеткое И: Т-нормаОпределение:

)ityassociativ()),,(()),(,(

)itycommutativ(,,

)ymontonicit(,,and

)boundary(,1)1,(,00,0

,1,01,01,0:

cbaTTcbTaT

abTbaT

dcTbaTdbca

aaTaTT

xxTxT BABA

Примеры:

)productalgebraic(,

)minimum(),min(,min

abbaT

bababaT

ap

Page 18: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Формулы Ягера (Yager)

1,,1min,,

1,11,1min1,,1

1

qbaqbaS

qbaqbaT

q

q

qqY

qqY

Пределы:

maximum)(),max(,,lim

sum)bounded()(11,,

minimum)(),min(,,lim

product)bounded()1(01,,

baqbaS

babaS

baqbaT

babaT

Yq

Y

Yq

Y

Определение:

Page 19: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Гладкость норм Ягера

0

0.5

1(a) Two fuzzy sets A and B

A B

0

0.5

1(b) T-norm of A and B

0

0.5

1(c) T-conorm (S-norm) of A and B

a) Нечеткие функции принадлежностимножеств A и B;

b) T-нормы (И) для q = 1, 2, 5, и 50;

c) T-конормы (ИЛИ)для q = 1, 2, 5, и 50

Page 20: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Случай двух переменных

Page 21: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Многомерный поиск в ESG

Многомерные функции принадлежности в ESG задаются как конъюнкции (И) одномерных функций принадлежности для каждого параметра и узла

Например, «сильный ветер» И «средняя температура» И «влажность 60%»

В качестве оператора И используется Т-норма Ягера при q=5

Page 22: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

January Wind Speed Record

0

5

10

15

20

1/1/97 1/6/97 1/11/97 1/16/97 1/21/97 1/26/97 1/31/97

Date

Win

d S

pee

d (

kts)

January Temperature Record

0

5

10

15

20

25

30

1/1/97 1/6/97 1/11/97 1/16/97 1/21/97 1/26/97 1/31/97

Date

Tem

per

atu

re (

deg

C)

January Relative Humidity Record

0

20

40

60

80

100

1/1/97 1/6/97 1/11/97 1/16/97 1/21/97 1/26/97 1/31/97

Date

Rel

. Hu

mid

ity

(%)

“High” Wind

“Average”Temperature

“About” 60%Humidity

Page 23: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Нечеткий запрос

Page 24: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Сценарий ESG

Page 25: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Результат нечеткого поиска

Page 26: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Интерактивное моделирование

Заполнить форму на счет модели

Собрать данные из сети

Рассчитать модель Визуализировать

результаты Вернуть ссылки на

графику и данные

Ocean API

Model run request

ESG Web/JSP server

SPIDR API

ESG visualization serverION - Java IDL wrapper

ESG API

NOAA Modeling cluster

Model runvisualiaztion and

output

Page 27: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Климатические модели ESG NCEP/NCAR CDAS/Reanalysis Project

Output Parameters: 1) pressure level data on 10 isentropic surfaces: horizontal winds, omega (dP/dt), geopotential height, specific/relative humidity, absolute vorticity and divergence on standard pressure levels every 6 hours; 2) total cloud cover, convective and total precipitation; 3) surface wind stress, latent/sensible heat flux, soil temperature/moisture, gravity wave drag, SST, 2m temperature, 2m humidity, 10m winds, runoff, mean sea level pressure, surface pressure, and snow. The data is available every 6 hours. The above list is not complete. URL: http://wesley.wwb.noaa.gov/reanalysis.html

COAMPS - Coupled Ocean/Atmosphere Mesoscale Prediction System Output Parameters: Similar to NCEP/NCAR modelURL: http://www.nrlmry.navy.mil/projects/coamps/

ACMES - Advanced Climate Modeling and Environmental Simulations Output Parameters: Similar to NCEP/NCAR modelURL: http://www.meso.com/meso/research/acmes/acmes.html

MM5 – 5th generation mesoscale model of atmospheric circulationOutput Parameters: Similar to NCEP/NCAR modelURL: http://www.mmm.ucar.edu/mm5/mm5-home.html

Page 28: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Космические модели ESG IRI - International Reference Ionosphere Model

Output Parameters: Electron density, electron temperature, ion temperature, ion composition (O+, H+, He+, NO+, O+2) URL: http://nssdc.gsfc.nasa.gov/space/model/models/iri.html

AMIE - Assimilative Mapping of Ionospheric Electrodynamics ModelOutput Parameters: Ionospheric electric potential distributionURL: http://www.hao.ucar.edu/public/research/tiso/amie/AMIE_head.html

MSM - Magnetospheric Specification ModelOutput Parameters: Electron and ion fluxes in the inner and middle magnetosphere; fluxes of electrons precipitating into the ionosphere; ionospheric electric fields; magnetic-field mapping informationURL: http://rigel.rice.edu/~freeman/dmb/index.html

PIM - Parameterized Ionospheric Specification ModelOutput Parameters: Electron density profiles (EDPs) between 90 and 25000 km altitude, corresponding critical frequencies and heights for the ionospheric E and F2 regions, and Total Electron Content (TEC)URL: http://users.primushost.com/~cpibos/

IONSCINT - Ionospheric Scintillation Simulation AlgorithmOutput Parameters: A simulated prediction of scintillation intensity throughout a specified theater for communication with a specified satellite.

Page 29: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Запрос модели IONSCINT

Page 30: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Результат моделирования