wykonywanie skryptów r w środowisku rozproszonym
TRANSCRIPT
WYKONYWANIE SKRYPTÓW R W
ŚRODOWISKU ROZPROSZONYM
Barbara Uszczyńska
Damian Kaliszan
Poznań, 11 maja 2012
WIRTUALNE LABORATORIUM
GENOMICZNE
ŚRODOWISKO ROZPROSZONE
Rozproszony system komputerowy (ang. distributed system) to zbiór samodzielnych komputerów połączonych za pomocą sieci z zaimplementowanym rozproszonym oprogramowaniem systemowym
Równoległy system komputerowy- zespół co najmniej dwóch procesorów zdolnych do wspólnego rozwiązywania złożonego zadania obliczeniowego.
Celem środowiska rozproszonego jest zwiększenie wydajności obliczeń oraz ich dokładności.
Przed rozpoczęciem obliczeń w środowisku rozproszonym należy sprawdzić, czy:
badany problem może być podzielony na relatywnie niezależne zadania
prędkość obliczeń wzrasta wraz ze zwiększającą się liczbą procesorów
KLASTER KOMPUTEROWY
Klaster komputerowy (ang. cluster) to system stworzony w wyniku połączenia jednostek komputerowych. Jednostki współpracując ze sobą, tworzą zintegrowane środowisko pracy.
W skład komputerów obliczeniowych PCSS wchodzą:
Fangorn- Klaster Opteron64
Sherwood-Klaster IA-64
Guarana-Altix 3700
Altix-Sgi Origin 3000
Reef-klaster Intel Xeon
Chimera-SGI Altix UV
R dostępny jest z klastra Reef.
POZNAŃSKIE CENTRUM
SUPERKOMPUTEROWO-SIECIOWE
Dział Komputerów Dużej Mocy: https://hpc.man.poznan.pl/
KLASTER REEF
Dostęp do R możliwy jest jedynie z pozycji klastra reef (reef.man.poznan.pl).
Warunkiem niezbędnym do uruchamiania aplikacji R w środowisku rozproszonym jest posiadanie grantu obliczeniowego.
Użytkownikiem klastra reef może być każda osoba prowadząca działalność naukową, związaną z uczelnią lub instytutem naukowym w Polsce.
Warunkiem niezbędnym do rejestracji jest posiadanie konta email w macierzystej jednostce naukowej.
WYKONYWANIE SKRYPTÓW R
Plik „opakowujący”, cechy:
Służy do zdefiniowania zapotrzebowania na moc obliczeniową (liczby procesorów oraz wielkość pamięci).
Pozwala na ustalenie priorytetu obliczeń i ulokowanie zadania w systemie kolejkowym.
Format .sh
Obudowanie skryptu:
Powyższy skrypt rezerwuje dla zadania 2 procesory na jednym węźle obliczeniowym oraz pamięć wielkości 3GB.
Wykonywanie skryptu:
Zlecanie zadania: qsub
Status zadania: qstat
SKRYPT TESTOWY-R
Prosty przykład wykorzystania algorytmu grupowania pojęciowego opartego na modelu probabilistycznym (EM) w analizie danych uzyskiwanych za pomocą mikromacierzy DNA.
SKRYPT TESTOWY
1 procesor na jednym węźle obliczeniowym oraz pamięć wielkości 4GB są wystarczające do przeprowadzenia obliczeń testowych
Im bardziej wymagające parametry obliczeniowe tym większy czas oczekiwania na realizację zadania.
Nazwa skryptu R zlecanego do wykonania w środowisku rozproszonym
WYKONYWANIE SKRYPTÓW R
SKŁADANIE WNIOSKU
GRANTY OBLICZENIOWE->ZŁÓŻ WNIOSEK
SKŁADANIE WNIOSKU
SKŁADANIE WNIOSKU
SKŁADANIE WNIOSKU
PAKIETY R NA KLASTRZE REEF
affy
affydata
affyio
affyPLM
affyQCReport
annaffy
annotate
AnnotationDbi
base
bayesSurv
Biobase
BiocInstaller
Biostrings
boot
class
cluster
coda
codetools
compiler
CSAR
datasets
DBI
DynDoc
fda
foreign
gcrma
genefilter
geneplotter
GO.db
graphics
grDevices
grid
hgu95av2.db
IRanges
KEGG.db
KernSmooth
lattice
limma
marray
MASS
Matrix
methods
mgcv
multtest
nlme
nnet
org.Hs.eg.db
parallel
preprocessCore
RColorBrewer
ROC
rpart
RSQLite
simpleaffy
smoothSurv
spatial
splines
stats
stats4
survival
tcltk
tools
utils
VGAM
vsn
xtable
zlibbioc
zoo
Na klastrze reef zdeponowane są następujące pakiety R:
SYSTEM PRZETWARZANIA-GRID
GRID to system zrzeszający wiele jednostek komputerowych w jedną, potocznie zwaną superkomputerem. Komputery połączone są ze sobą siecią komputerową (internet).
Cechy systemu GRID:
Stworzony jest w celu obliczania tego samego zadania
Hosty GRID mogą być rozmieszczone na całym świecie
Dostępny dla większości systemów operacyjnych (Windows, Linux, Mac OS)
Sercem systemu GRID stanowi serwer z systemem Linux, który koordynuje proces wykonywania zadań.
Ogromna moc obliczeniowa
Kontrola obliczeń
Zapotrzebowanie na energię elektryczną oraz problem chłodzenia, rozłożone jest na każdą składową systemu
Relatywnie niski koszt utrzymania
GRID
PL-GRID
PL-Grid to projekt, dzięki któremu powstała ogólnopolska infrastruktura superkomputerów oraz łączący je system gridowy pozwalający na ich efektywne wykorzystanie.
Projektu PL-Grid obejmuje pięć ośrodków superkomputerowych w Polsce:
Gdańsk
Kraków
Poznań
Warszawa
Wrocław
Łącznie infrastruktura dostarcza ponad 20 tysięcy procesorów (rdzeni) oraz 2500 terabajtów przestrzeni dyskowej.
https://portal.plgrid.pl/web/guest/wiki-pl-grid
PL-GRID DOSTĘPNE OPROGRAMOWANIE
Oprogramowanie R jest zainstalowana w Poznaniu (PCSS), Wrocławiu (WCSS) i Warszawie (ICM).
PL-GRID REJESTRACJA
Użytkownikiem PL-Grid może być każda osoba prowadząca działalność naukową, związaną z uczelnią lub instytutem naukowym w Polsce.
Konieczna jest rejestracja w bazie „Ludzie nauki” prowadzonej przez Ośrodek Przetwarzania Informacji – OPI.
gLite:
używany jest od wielu lat w środowisku gridowym
szczególnie przez naukowców skupionych wokół CERN i zagadnień fizyki wysokich energii.
wymaga pewnej znajomości systemu linux, a większość poleceń wydaje się w trybie tekstowym.
UNICORE:
bardziej przyjazne rozwiązanie dla początkujących użytkowników.
Zadania zleca się w większości w trybie graficznym, przez aplikację działającą w systemie operacyjnym Windows/UNIX/Mac.
PODSUMOWANIE-PCSS
Zalety Wady
Skrócenie czasu obliczeń.
Aplikacja R dostępna jest jedynie na klastrze reef.
Proces składania wniosku o grant obliczeniowy jest wymagający czasowo.
Lepsza jakość wyników.
Zapis skryptu w sposób umożliwiający podział na poszczególne zadania (opcjonalnie).
Przygotowanie skryptu opakowującego (.sh).
Stały kontakt z administratorem.
Wymagająca obsługa interfejsu.
Brak informacji na temat uruchamiania R na stronie KDM.