wolfgang dalitzkonrad-zuse-zentrum für informationstechnik berlin (zib) [email protected] math-net ein...
TRANSCRIPT
http://www.zib.de/[email protected]
Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)
Wolfgang Dalitz
Math-Netein Netzwerk für die Mathematik
SuMa TreffenZIB Berlin 12.11.2005
Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz
Vision (1993)
• "Mathematical information at your fingertips"
• Weltweites elektronisches Informations- und
Kommunikationssystem (für die Mathematik, um die Forschung und Lehre zu verbessern und zu unterstützen)
Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz
Lokale Ressourcen
Software
ResearchInformation
Informationen über Personen
Informationen über Institute
PreprintsDissertationen
Jobs
Informations-services
Events
Math-Net
Lehr Material
Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz
Idee des Math-Net
• Verteiltes IuK-System• Basis: lokale elektronische
Informationen der beteiligten mathematischen Institutionen
• Dezentrale Organisation mit geringen zentralen Anteilen
• Offen und Qualitätsorientiert
Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz
Math-Net Seite Math-Net Seite oderoder Secondary Secondary HomepageHomepage
Einheitliche Struktur Einheitliche Struktur der beteiligten der beteiligten InstitutionenInstitutionen
Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz
Math-Net Math-Net SeitenSeitenin Deutschlandin Deutschland
Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz
(MySQL-) Database
RDF RDFRDFRDFRDF
Navigator
PersonaMathematica
MPRESS
SIGMA
Links
Zentrale Datenbank als Basis der Math-Net DiensteZentrale Datenbank als Basis der Math-Net Dienste
Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz
Remote Auswertung der Math-Net Seiten
Math-Net Regionalpartner Math-Net Institutionen
Math-Net Database
Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz
Harvest: Broker/Gatherer Hierarchie
Broker
German Broker
Gatherer
WWWServer
FTPServer
Summarizer(Index)
European Broker
IMU Broker
Regional broker
Department Broker
EU
Kontj
i
Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz
Community-Driven Services
• Das Konzept der freiwilligen, kooperativen und offenen Zusammenarbeit hat objektive und subjektive Grenzen Manpower und Ressourcen Nur bedingt wissenschaftliche Anerkennung Wird nicht als "wichtig genug" angesehen Letztlich gibt es zu wenig Rückhalt "vor Ort"
Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz
Neuorientierung
• Suchmaschinen (Testlabor)• automatische Klassifikationsverfahren
Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz
Suchmaschinen:Generelle Vorgehensweise
• Phase I: Hole alle relevanten Objekte: Spider, Crawler, Gatherer
• Phase II: Verarbeite die relevante Information zu einem Index Summarizer• Indexer
• Phase III: Liefere ("gute") Ergebnisse Ranking
Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz
Kandidaten und Strategien
• Komplettsysteme (Phase I, II, III) harvest (gatherer, broker, glimpse) swish-e (spider.pl und indexierer) nutch (lucene)
• Teilsysteme Phase I: wget und w3mir Phase II: lucene Phase III: ??
Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz
Vorgehensweise
lokal angepasste Kopien zweier unterschiedlicher Sites
www.mathematik-21.de
7371 Dateien, davon
2293 HTML 1160 Images 140 Text 81 PDF 19 PS
Rest: u.a. tmp, harvest
www.zib.de
70126 Dateien, davon
17981 HTML 17147 Images 2024 PDF 991 PS 140 Text
Rest: u.a. test
Faktor 10
Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz
(vorläufiges) Fazit
• Suchmaschinen zu betreiben ist aufwendig erfordert hohes Maß an Kontrolle der einzelnen Phasen ist kein "Job mal so nebenbei"
• Suchmaschinen für eine Community zu betreiben ist ein Projekt bedarf ein koordiniertes Vorgehen sollte auf mehreren Schultern verteilt werden bedarf grösserer Resourcen
Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz
unsere Empfehlung
• harvest ist weiterhin nicht schlecht, bedarf aber sehr hoher
Einarbeitung und Kontrolle der Ergebnisse ist eigentlich ideal für ein verteiltes, dezentrales
Vorgehen
• (wget) nutch/lucene, swish-e laufen relativ problemlos auf überschaubaren Sites Status bei sehr grossen Sites bzw. community
basierten Indexen unklar (Grössenordnung 1 Tbyte Daten)
Konrad-Zuse-Zentrum für Informationstechnik Berlin Wolfgang Dalitz
www.math-net.orgwww.math-net.org