die analyse großer datensätze mittels freier datenbanksysteme · ms access, ms excel, )...
Post on 07-Sep-2019
1 Views
Preview:
TRANSCRIPT
Institut für Angewandte Trainingswissenschaft Leipzigein Institut des Trägervereins IAT / FES des DOSB e.V.
Dr Dirk Meuselmeusel@iat.uni-leipzig.de
Die Analyse großer Datensätzemittels freier Datenbanksysteme
Autor: Titel Vortragstitel, Gliederungspunkt, Helvetica 12 1.12.2005
mySQL:
Die Analyse empirischer Daten ist ein wesentliches Schlüsselelement im Methodenschatz der Sozialwissenschaften. Datenbanksysteme sind ein wichtiges Mittel zur redundanzfreien Darstellung und Verwaltung empirischer Daten.
Ferner sind Datenbanksysteme eine Alternative zur statistischen Datenauswertung, vor allem bei deskriptiven Analysen großer Datenmengen (z.B. in der Epidemiologie oder Demografie). In der Lehrveranstaltung werden die folgenden Datenbankkonzepte vorgestellt: relationale Datenmodellierung, Datenverknüpfung mittels strukturierter Abfragen (SQL), Datenauswertungen, Datenimport/-export (bspw. in Statistikprogramme).
Diese Konzepte werden am Beispiel frei verfügbarer Datenbanksysteme illustriert (MySQL, MS SQL Server Express 2005).
Populationsbezogene Messung körperlicher Aktivität – das ALPHA Projekt 12. Juni 2007
Gliederung
• Datenbanken/Datenbanksysteme allgemein
• SQL
• MySQL vs. Microsoft SQL Express– Installation– mögliche FrontEnds
• Beispiele an Daten
• Datenexport
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
Warum Datenbanken?
• Was ist eine Datenbank?
Patienten Scheine
Rezepte
Diagnosen ICDkatalog
Rezept-posten
ATCkatalog
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
Warum Datenbanken?
• Redundanzfreie Darstellung der Daten• Relationale Bezüge von Daten untereinander• Unterschiedliche Sichten • Große Datenmengen
• Datensicherungsstrategien• Datenintegrität (Transaktion und Rollback)
• Viele Nutzer– Daten lesen– Daten schreiben/ändern[- Daten löschen]
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
Warum Datenbanken in den Sozialwissenschaften?
• Analyse empirischer Daten = wesentliches Schlüsselelement im Methodenschatz der Sozialwissenschaften
• redundanzfreien Darstellung und Verwaltung empirischer Daten (zwischen Eingabe und statistischer Auswertung)
• Alternative zur statistischen Datenauswertung, vor allem bei deskriptiven Analysen großer Datenmengen (z.B. Vollerhebungen in der Epidemiologie oder Demografie)
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
Datenbank
Warum Datenbanken in den Sozialwissenschaften?
Frontend
(OpenOffice, MS Access)
Dateneingabe, Datenmanagement, Benutzerverwaltung
Datennutzer
(Statistikprogramm R, SPSS, MS Access, MS Excel, )
Datenanalyse
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
SQL – Structured Querying Language
• Strukturierte Abfragesprache– Alle Aspekte der Datenbankverwaltung
• Hauptkomponenten: – Data Definition Language
– Data Manipulation Language– Administration
• Verschiedene Dialekte– T-SQL, Jet-SQL (VisualBasic orientiert)– MySQL– …
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
Vergleich MySQL Server und MS SQL Server
MySQL Server
+ auf den meisten Plattformen verfügbar (per ODBC)
+ voll ausgereiftes Datenbanksystem ohne Limitationen (kann große Datenmengen bedienen)
+ wird von vielen OpenSource Systemen verwendet (PHP Websitesysteme, Open Office
+ große Entwicklergemeinde
-/+ eigene Benutzerverwaltung
- langwierigere Installation- weniger gut ausgereifte
Entwicklerwerkzeuge = langsamere Entwicklung
MS SQL Server
+ nutzt WINDOWS Authentifizierung+ schnell installiert (auf WINDOWS
Rechnern)+ einfach und schnell bedienbar
+ umfangreiches und mächtiges Verwaltungswerkzeug
+ kostenfreie Entwicklerwerkzeuge (VisualBasic.NET, Webdeveloper.NET…)
+ frei weitervertreibbar
+ mit MS ACCESS steuerbar
- begrenzt auf WINDOWS Welt
- nicht Quelltextoffen, nur kostenlos- limitiert auf 1 CPU mit max. 1GB RAM,
mit 4 GB maximaler Datenbankgröße
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
MS SQL Server Express 2005 • http://www.microsoft.com/germany/msdn/vstudio/products/express/sql/default.mspx• http://www.microsoft.com/germany/msdn/vstudio/products/express/download.mspx
• Installation:– SQL Server 2005 Express– Benutzer mit lokalen Administrationsrechten
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
MS SQL Server Oberflächenkonfiguration
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
• http://www.microsoft.com/downloads/details.aspx?FamilyID=c243a5ae-4bd1-4e3d-94b8-5a0f62bf7796&DisplayLang=de
• Installation:– Microsoft SQL Server Management Studio Express
Microsoft SQL Server Management Studio Express
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
Microsoft SQL Server Management Studio Express
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
Microsoft SQL Server Management Studio Express
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
MS Access als FrontEnd
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
MS Access als FrontEnd
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
MySQL Server
• http://dev.mysql.com/downloads/• Installation:
– MySQL Community Server– Konfiguration des Servers (Wizard)
• Standardeinstellungen
• TCP/IP 3306• root – Passwort (superuser)
– Kommandozeilenunterstützung
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
MySQL Server GUI Tools
• http://dev.mysql.com/downloads/gui-tools/5.0.html
• Installation (Wizard)• MySQL Administrator• MySQL Query Browser
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
MySQL Administrator
• Verbindung einrichten
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
MySQL Administrator
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
MySQL Administrator – Benutzer anlegen
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
MySQL Administrator – Datenbank erstellen
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
MySQL Administrator – Tabelle erstellen
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
MySQL Connectors
• http://dev.mysql.com/downloads/connector/
• ODBC Treiber– Open DataBase Connectivity– Installation (Wizard)
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
MySQL Connection with OpenOffice Base
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
MySQL Setup einer ODBC Datenquelle
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
MySQL Setup einer ODBC Datenquelle
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
MySQL Auswahl der ODBC Datenquelle
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
MySQL Auswahl der ODBC Datenquelle
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
MySQL Auswahl der ODBC Datenquelle
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
MySQL OpenOffice Base Tabellendesigner
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
MySQL Dokumentation
• http://downloads.mysql.com/docs/refman-4.1-en.a4.pdf
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
Beispiele an Daten
• Datendefinition
• Dateneingabe
• Datensichten
• Datenexport
• Datenzusammenfassungen
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
Beispiele Datenexport
• Datenabfrage von R nach MySQL• Systemsteuerung>Verwaltung>ODBC Datenquellen• Neue DSN erstellen• In R package RODBC verwenden
RMySQLODBC
SPSS
Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007
Beispiele Datenexport
Script in R ausführen:
library(RODBC)
con = odbcConnect("PharmEpi auf MySQL“)daten = sqlFetch(con,"Patienten")ls()datenSummary(daten)
ScheinePatienten = sqlQuery(con,"Select * From patienten INNER JOIN scheine ON …(patienten.VersichertenNummer = scheine.Versichertennummer)")
ls()ScheinePatientensummary(ScheinePatienten)
RMySQLODBC
SPSS
Institut für Angewandte Trainingswissenschaft Leipzigein Institut des Trägervereins IAT / FES des DOSB e.V.
Dr Dirk Meusel
Institut für Angewandte TrainingswissenschaftFachbereich Forschungstechnologie
Telefon: +49 341 4945 143E-Mail: meusel@iat.uni-leipzig.deInternet: http://www.iat.uni-leipzig.de/
Vielen Dank für Ihre Aufmerksamkeit!
top related