wykonywanie skryptów r w środowisku rozproszonym

22
WYKONYWANIE SKRYPTÓW R W ŚRODOWISKU ROZPROSZONYM Barbara Uszczyńska Damian Kaliszan Poznań, 11 maja 2012

Upload: maciej-beresewicz

Post on 31-Jul-2015

2.072 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: Wykonywanie skryptów R w środowisku rozproszonym

WYKONYWANIE SKRYPTÓW R W

ŚRODOWISKU ROZPROSZONYM

Barbara Uszczyńska

Damian Kaliszan

Poznań, 11 maja 2012

Page 2: Wykonywanie skryptów R w środowisku rozproszonym

WIRTUALNE LABORATORIUM

GENOMICZNE

Page 3: Wykonywanie skryptów R w środowisku rozproszonym

ŚRODOWISKO ROZPROSZONE

Rozproszony system komputerowy (ang. distributed system) to zbiór samodzielnych komputerów połączonych za pomocą sieci z zaimplementowanym rozproszonym oprogramowaniem systemowym

Równoległy system komputerowy- zespół co najmniej dwóch procesorów zdolnych do wspólnego rozwiązywania złożonego zadania obliczeniowego.

Celem środowiska rozproszonego jest zwiększenie wydajności obliczeń oraz ich dokładności.

Przed rozpoczęciem obliczeń w środowisku rozproszonym należy sprawdzić, czy:

badany problem może być podzielony na relatywnie niezależne zadania

prędkość obliczeń wzrasta wraz ze zwiększającą się liczbą procesorów

Page 4: Wykonywanie skryptów R w środowisku rozproszonym

KLASTER KOMPUTEROWY

Klaster komputerowy (ang. cluster) to system stworzony w wyniku połączenia jednostek komputerowych. Jednostki współpracując ze sobą, tworzą zintegrowane środowisko pracy.

W skład komputerów obliczeniowych PCSS wchodzą:

Fangorn- Klaster Opteron64

Sherwood-Klaster IA-64

Guarana-Altix 3700

Altix-Sgi Origin 3000

Reef-klaster Intel Xeon

Chimera-SGI Altix UV

R dostępny jest z klastra Reef.

Page 5: Wykonywanie skryptów R w środowisku rozproszonym

POZNAŃSKIE CENTRUM

SUPERKOMPUTEROWO-SIECIOWE

Dział Komputerów Dużej Mocy: https://hpc.man.poznan.pl/

Page 6: Wykonywanie skryptów R w środowisku rozproszonym

KLASTER REEF

Dostęp do R możliwy jest jedynie z pozycji klastra reef (reef.man.poznan.pl).

Warunkiem niezbędnym do uruchamiania aplikacji R w środowisku rozproszonym jest posiadanie grantu obliczeniowego.

Użytkownikiem klastra reef może być każda osoba prowadząca działalność naukową, związaną z uczelnią lub instytutem naukowym w Polsce.

Warunkiem niezbędnym do rejestracji jest posiadanie konta email w macierzystej jednostce naukowej.

Page 7: Wykonywanie skryptów R w środowisku rozproszonym

WYKONYWANIE SKRYPTÓW R

Plik „opakowujący”, cechy:

Służy do zdefiniowania zapotrzebowania na moc obliczeniową (liczby procesorów oraz wielkość pamięci).

Pozwala na ustalenie priorytetu obliczeń i ulokowanie zadania w systemie kolejkowym.

Format .sh

Obudowanie skryptu:

Powyższy skrypt rezerwuje dla zadania 2 procesory na jednym węźle obliczeniowym oraz pamięć wielkości 3GB.

Wykonywanie skryptu:

Zlecanie zadania: qsub

Status zadania: qstat

Page 8: Wykonywanie skryptów R w środowisku rozproszonym

SKRYPT TESTOWY-R

Prosty przykład wykorzystania algorytmu grupowania pojęciowego opartego na modelu probabilistycznym (EM) w analizie danych uzyskiwanych za pomocą mikromacierzy DNA.

Page 9: Wykonywanie skryptów R w środowisku rozproszonym

SKRYPT TESTOWY

1 procesor na jednym węźle obliczeniowym oraz pamięć wielkości 4GB są wystarczające do przeprowadzenia obliczeń testowych

Im bardziej wymagające parametry obliczeniowe tym większy czas oczekiwania na realizację zadania.

Nazwa skryptu R zlecanego do wykonania w środowisku rozproszonym

Page 10: Wykonywanie skryptów R w środowisku rozproszonym

WYKONYWANIE SKRYPTÓW R

Page 11: Wykonywanie skryptów R w środowisku rozproszonym

SKŁADANIE WNIOSKU

Page 12: Wykonywanie skryptów R w środowisku rozproszonym

GRANTY OBLICZENIOWE->ZŁÓŻ WNIOSEK

Page 13: Wykonywanie skryptów R w środowisku rozproszonym

SKŁADANIE WNIOSKU

Page 14: Wykonywanie skryptów R w środowisku rozproszonym

SKŁADANIE WNIOSKU

Page 15: Wykonywanie skryptów R w środowisku rozproszonym

SKŁADANIE WNIOSKU

Page 16: Wykonywanie skryptów R w środowisku rozproszonym

PAKIETY R NA KLASTRZE REEF

affy

affydata

affyio

affyPLM

affyQCReport

annaffy

annotate

AnnotationDbi

base

bayesSurv

Biobase

BiocInstaller

Biostrings

boot

class

cluster

coda

codetools

compiler

CSAR

datasets

DBI

DynDoc

fda

foreign

gcrma

genefilter

geneplotter

GO.db

graphics

grDevices

grid

hgu95av2.db

IRanges

KEGG.db

KernSmooth

lattice

limma

marray

MASS

Matrix

methods

mgcv

multtest

nlme

nnet

org.Hs.eg.db

parallel

preprocessCore

RColorBrewer

ROC

rpart

RSQLite

simpleaffy

smoothSurv

spatial

splines

stats

stats4

survival

tcltk

tools

utils

VGAM

vsn

xtable

zlibbioc

zoo

Na klastrze reef zdeponowane są następujące pakiety R:

Page 17: Wykonywanie skryptów R w środowisku rozproszonym

SYSTEM PRZETWARZANIA-GRID

GRID to system zrzeszający wiele jednostek komputerowych w jedną, potocznie zwaną superkomputerem. Komputery połączone są ze sobą siecią komputerową (internet).

Cechy systemu GRID:

Stworzony jest w celu obliczania tego samego zadania

Hosty GRID mogą być rozmieszczone na całym świecie

Dostępny dla większości systemów operacyjnych (Windows, Linux, Mac OS)

Sercem systemu GRID stanowi serwer z systemem Linux, który koordynuje proces wykonywania zadań.

Ogromna moc obliczeniowa

Kontrola obliczeń

Zapotrzebowanie na energię elektryczną oraz problem chłodzenia, rozłożone jest na każdą składową systemu

Relatywnie niski koszt utrzymania

Page 18: Wykonywanie skryptów R w środowisku rozproszonym

GRID

Page 19: Wykonywanie skryptów R w środowisku rozproszonym

PL-GRID

PL-Grid to projekt, dzięki któremu powstała ogólnopolska infrastruktura superkomputerów oraz łączący je system gridowy pozwalający na ich efektywne wykorzystanie.

Projektu PL-Grid obejmuje pięć ośrodków superkomputerowych w Polsce:

Gdańsk

Kraków

Poznań

Warszawa

Wrocław

Łącznie infrastruktura dostarcza ponad 20 tysięcy procesorów (rdzeni) oraz 2500 terabajtów przestrzeni dyskowej.

https://portal.plgrid.pl/web/guest/wiki-pl-grid

Page 20: Wykonywanie skryptów R w środowisku rozproszonym

PL-GRID DOSTĘPNE OPROGRAMOWANIE

Oprogramowanie R jest zainstalowana w Poznaniu (PCSS), Wrocławiu (WCSS) i Warszawie (ICM).

Page 21: Wykonywanie skryptów R w środowisku rozproszonym

PL-GRID REJESTRACJA

Użytkownikiem PL-Grid może być każda osoba prowadząca działalność naukową, związaną z uczelnią lub instytutem naukowym w Polsce.

Konieczna jest rejestracja w bazie „Ludzie nauki” prowadzonej przez Ośrodek Przetwarzania Informacji – OPI.

gLite:

używany jest od wielu lat w środowisku gridowym

szczególnie przez naukowców skupionych wokół CERN i zagadnień fizyki wysokich energii.

wymaga pewnej znajomości systemu linux, a większość poleceń wydaje się w trybie tekstowym.

UNICORE:

bardziej przyjazne rozwiązanie dla początkujących użytkowników.

Zadania zleca się w większości w trybie graficznym, przez aplikację działającą w systemie operacyjnym Windows/UNIX/Mac.

Page 22: Wykonywanie skryptów R w środowisku rozproszonym

PODSUMOWANIE-PCSS

Zalety Wady

Skrócenie czasu obliczeń.

Aplikacja R dostępna jest jedynie na klastrze reef.

Proces składania wniosku o grant obliczeniowy jest wymagający czasowo.

Lepsza jakość wyników.

Zapis skryptu w sposób umożliwiający podział na poszczególne zadania (opcjonalnie).

Przygotowanie skryptu opakowującego (.sh).

Stały kontakt z administratorem.

Wymagająca obsługa interfejsu.

Brak informacji na temat uruchamiania R na stronie KDM.