curs 4 - pachetul integrat sas
DESCRIPTION
SASTRANSCRIPT
1
Curs 4 - Introducere în SAS
4.1 Pachetul integrat SAS
4.2 Lucrul cu date într-un proiect
2
Curs 4 - Introducere în SAS
4.1 Pachetul integrat SAS
4.2 Lucrul cu date într-un proiect
3
Cuprins
Categorii de pachete software pentru
prelucrarea analitică a datelor
Pachetul software integrat SAS
Facilităţi şi caracteristici ale SAS Enterprise
Guide
Paşii unei sesiuni tipice de lucru
Scopul diferitelor zone ale spaţiului de lucru
Lucrul cu date în cadrul unui proiect
Definirea tabelelor de date SAS
Accesarea datelor locale
4
Categorii de pachete software pentru prelucrarea
analitică a datelor -1
Foi de calcul: sunt cele mai folosite instrumente
analitice datorită uşurinţei în utilizare şi a faptului că
reflectă modelele mentale ale utilizatorilor. Probleme:
introducerea greşită a datelor datorită lipsei metodelor
de validare, erori în formulele de calcul.
Instrumente OLAP (Online Analytical Processors)
sunt proiectate pentru lucrul cu date multidimensionale
sau serii de timp. Organizează datele în cuburi de date
care permit analiza acestora în funcţie de mai multe
dimensiuni cum ar fi timpul, aria geografică sau
categoria de produse. Cuburile de date sunt colecţii de
date care conţin 3 sau mai multe variabile care sunt
structurate şi împachetate în scopul efectuării de
rapoarte şi analize.
5
Categorii de pachete software pentru prelucrarea
analitică a datelor -2
Instrumente pentru analize statistice şi optimizare:
necesită cunoştinţe analitice avansate şi procesează
date cantitative pentru a realiza prelucrări statistice sau
a ajunge la un rezultat optim.
Instrumente pentru data mining: sunt aplicaţii ale
unor tehnici avansate precum inteligenţa artificială,
statistică, arbori decizionali sau reţele neuronale
pentru a identifica şabloane în seturi de date complexe
sau slab structurate. Exemple de aplicaţii: care clienţi
vor renunţa la abonament în următoarele x luni;
clasificarea clienţilor pentru un marketing personalizat.
6
Categorii de pachete software pentru prelucrarea
analitică a datelor -3
Instrumente de text mining: sunt specializate în
identificarea unor trenduri sau relaţii în datele în format
textual, mediul Web fiind sursa predilectă de aplicaţii.
Exemple de aplicaţii: prin monitorizarea blogurilor cu
spacific tehnic, un producător poate identifica dacă un
produs are defecte în câteva ore după ce acesta a fost
livrat, în loc să aştepte plângerile clienţilor;
identificarea şi stucturarea unor referinţe la persoane,
locuri sau subiecte de interes şi folosirea acestor
informaţii pentru a genera concluzii privind posibilul
comportament al competitorilor.
Alte categorii avansate: instrumente de simulare,
motoare de reguli de afacere, algoritmi genetici,
sisteme expert.
7
Pachetul software integrat SAS
Base SAS
Rapoarte şi
Grafice
Analize
Vizualizare şi
Descoperire
Interfeţe
utilizator
Dezvoltare
de aplicaţii
Capabilităţi
Web
Accesarea şi
managementul
datelor
Soluţii de
business
8
Componentele produsului SAS
9
Prelucrări bazate pe date
Funcţionalitatea produsului este construită în jurul a patru
tipuri de prelucrări bazate pe date, prelucrări comune
pentru aproape toate tipurile de aplicaţii software:
Accesarea date
Managementul datelor
Analiza datelor
Prezentarea datelor
10
Transformarea datelor în informaţii
11
Structura SAS Enterprise Guide
Pentru a lucra cu SAS Enterprise Guide, trebuie parcurşi
următorii paşi:
1. crearea unui nou proiect
2. adăugarea de date la proiect
3. executarea de prelucrări asupra datelor
Opţional, se pot realiza:
4. personalizarea rezultatelor
5. automatizarea procesului
12
SAS Enterprise Guide poate utiliza puterea unui server SAS
pentru a accesa datele şi a rula procedurile, urmând ca
apoi rezultatele să fie returnate maşinii client.
SAS Enterprise
Guide
SAS
on Windows
SAS
on Mainframe
SAS
on UNIX
Ceea ce nu se vede
13
SAS Enterprise Guide poate utiliza puterea unui server
SAS pentru a accesa datele şi a rula procedurile,
urmând ca apoi rezultatele să fie returnate maşinii
client.
SAS Enterprise
Guide
SAS
on Windows
SAS
on Mainframe
SAS
on UNIX
Ceea ce nu se vede
14
Pe măsură ce se efectuează prelucrări, SAS Enterprise
Guide generează cod SAS.
Ceea ce nu se vede
15
Interfaţa de programare
16
Zonele de lucru şi ferestrele
Arborele proiectului
Zona de resurse
Spaţiul de lucru unde se vizualizează Fluxul de proces
Prelucrări în execuţie
17
Ferestrele SAS Enterprise Guide
Fereastră Descriere
Project Tree Afişează o structură ierarhică a obiectelor
proiectului sub forma unei diagrame
arborescente.
Task List Listează toate prelucrările şi şabloanele de
prelucrări disponibile. Se poate opta pentru a
ofişare a prelucrărilor în funcţie de categorie, de
nume sau şabloanelor de prelucrări.
SAS Folders Afişează orice director care a fost definit în
metadate.
Server List Listează serverele SAS disponibile, precum
şi fişierele şi librăriile de date de pe aceste
servere.
Task Status Afişează informaţii despre prelucrările care
se execută la un moment dat.
18
Obiectele unui proiect
19
Tipuri de obiecte Pictogramă Descriere
Datele dintr-un proiect pot fi tabele de date SAS, fişiere flat care
conţin date sau alte fişiere de date ale unor Sisteme de Gestiune a
Bazelor de Date sau aplicaţii. Proiectele conţin referinţe la date şi nu
datele propriu-zise. Pictograma reprezintă un set de date SAS.
Prelucrările reprezintă analize sau rapoarte specifice care pot fi
executate, cum ar fi rapoarte listă (List Data) sau grafice cu bare verticale
(Bar Chart). Atunci când se rulează o prelucrare, SAS Enterprise Guide
adaugă o pictogramă reprezentând prelucrarea respectivă în feresatra
fluxului de proces şi a arborelui proiectului. Pictograma reprezintă o
prelucrare de tip grafic cu bare verticale.
Rezultatele sunt rapoarte sau grafice produse în urma execuţiei
prelucrărilor. Rezultatele sunt reprezentate prin pictograme diferite în
funcţie de tipul fişierului rezultat (raport SAS, HTML, PDF, RTF sau text).
Pictograma reprezintă un rezultat în formatul raport SAS.
Notele sunt fişiere text opţionale folosite pentru documentarea unui
proiect sau pentru a consemna comentarii sau instrucţiuni pentru utilizările
ulterioare.
Programele sunt fişiere care conţin cod SAS. În SAS Enterprise
Guide se pot deschide programe existente sau se pot crea programe noi.
20
Curs 5 - Introducere în SAS
5.1 Pachetul integrat SAS
5.2 Lucrul cu date într-un proiect
21
Formate comune de date
SAS Enterprise Guide poate citi şi utiliza date
dintr-o variatate de formate .
Foi de calcul
Microsoft Excel
Fişiere dBASE
Tabele HTML
Date
compatibile
ODBC Fişiere ale
furnizorilor
OLE DB Tabele
Microsoft
Access
Fisiere text cu
lăţime fixă şi
delimitate
Tabele SAS
22
Tabele de date SAS O tabelă de date SAS este o tabelă rectangulară formată din
linii şi coloane.
Coloane (variabile)
Rânduri (observaţii)
23
Tabele de date SAS Toate coloanele trebuie să aiba un nume, tip şi o lungime.
Numele poate avea lungimea
între 1 si 32
caractere
24
Coloana poate fi de tip caracter sau numeric. Tipul are şi
rol în determinarea lungimii.
Valorile de tip
caracter pot avea
lungimea între
1 si 32,767
caractere (octeţi).
Valorile numerice sunt stocare pe 8 octeţi în virgulă mobilă şi pot fi de tip:
Numeric
Monedă
Dată (zile de la 1 Ianuarie 1960)
Timp (secunde de al miezul nopţii)
Tabele de date SAS
25
Formate de afişare Formatul de afişare (Format) este folosit pentru a controla
modul în care sunt afişate valorile. Formatul de afişare nu
afectează modul de stocare a valorilor.
Format: MMDDYY Latime: 10 Valoare stocata:15060
Format: DOLLAR Latime: 10 Numar zeximale: 0 Valoare stocata:76806
26
Formate de afişare
27
Formate de intrare
Sunt folosite pentru a citi într-o variabilă date din surse
externe. Sunt de trei tipuri:
caracter: $INFORMATw.
numeric: INFORMATw.d
dată/timp: INFORMATw.
w semnifică lăţimea unei variabile (în octeţi sau număr de
coloane)
INFORMAT este un nume opţional de format de intrare SAS
d este folosit în cazul datelor numerice pentru a specifica
numărul de cifre ale părţii zecimale
$ indică prezenţa unui caracter
28
Valori lipsă Dacă într-o coloană, valoarea unei date nu există pentru
un anumit rând, ea este considerată lipsă.
O valoare lipsă de tip caracter este afişată ca spaţiu.
O valoare lipsă de tip numeric este afişată ca virgulă
sau punct.
. .
.
29
Accesarea datelor locale Fişierul software
conţine
metadate.
Fişierul software
nu conţine
metadate.
30
Crearea unui proiect nou şi lucrul cu tabele SAS
Adăugarea unei foi de calcul Excel într-un proiect
Adăugarea unui fişier text într-un proiect
Lucru la seminar