data mining

2
150 NOTIZIARIO TECNICO TELECOM ITALIA › Anno 14 n. 2 - Dicembre 2005 LIBRI Avere a disposizione un’enorme quantità di dati non rappresenta più un vantaggio competitivo per le aziende, soprattutto se gli stessi si presentano in forma ete- rogenea, ridondante e non strutturata. Il data maining, conosciuto anche con il termine di KDD (Knowledge Discovery in Databases), può essere definito come il processo che impiega una o più tecniche di apprendimento per estrarre informa- zioni, potenzialmente utili, da grandi vo- lumi di dati. È bene precisare che esi- ste una profonda differenza tra i tra- dizionali strumenti di gestione e re- portistica dei dati (DBMS) e le tecni- che di Data Mi- ning. Per interro- gare un comune database è necessario, infatti, cono- scere a priori l’oggetto dell’interroga- zione e la struttura dei dati; al contrario, le tecniche di data mining prescindono dalla conoscenza della struttura e dalla tipologia della fonte dati e vengono uti- lizzate per individuare associazioni, ano- malie, patterns, o più in generale “rela- zioni” tra i dati. È una disciplina relati- vamente giovane che raccoglie il contri- buto di diverse “scienze” quali stati- stica, informatica, programmazione ma- tematica, intelligenza artificiale e natu- ralmente le basi dati. Come spesso accade, dopo un periodo i- niziale caratterizzato da una comprensi- bile diffidenza, il Data Mining raccoglie oggi i frutti di un serio lavoro, condotto parallelamente da molti laboratori di ri- cerca ed Università in tutto il mondo e si sta affermando in diversi settori, tra i quali si annoverano: analisi di mercato (Target Marke- ting, Customer Relationship Mana- gement, Basket Market Analysis), individuazione delle frodi e sup- porto alle decisioni in genere; analisi del testo (Text Mining); supporto alla ricerca e all’indagine scientifica nei più svariati settori che includono la medicina, la biologia, la climatologia le telecomunicazioni. In particolare nel settore delle telecomu- nicazioni, il data mining è utilizzato per analizzare il traffico dati, per individuare anomalie e guasti e come valido stru- mento antifrode. È in questo contesto che si inserisce il volume “Introduzione al Data Mining” di Richard J. Roiger & Michael W. Geatz di- stribuito in Italia da MCGraw-Hill (ISBN : 88-386-6167-7), che fornisce una vi- sione molto ampia delle tecniche di ana- lisi dei dati e del processo di Knowledge Discovery. Il libro è diviso in due parti: una prima parte, molto semplice da leggere, chiara e ricca di spunti interessanti, adatta ad un lettore privo di competenze specifi- che, ed una seconda parte che, all’appa- renza, sembra ripercorrere la falsa riga della prima, ma che richiede forti prere- quisiti, principalmente di tipo statistico, per poter apprezzare e “metabolizzare” le tecniche presentate. In particolare vorrei segnalarvi, per l’in- teresse degli argomenti trattati, i capi- toli tecniche fondamentali di data mi- nino (terzo), reti neurali (settimo), tec- niche statistiche (ottavo). Il terzo capitolo descrive molto bene gli alberi di decisione, le regole associa- tive, le tecniche di clusterizzazione e presenta le tecniche di apprendimento genetico. Il settimo capitolo offre spunti molto interessanti sulle reti neurali e sul loro possibile impiego. Infine, l’ot- tavo capitolo presenta alcune tecniche statistiche quali l’analisi di regressione lineare e logistica e il classificatore bayesiano. L’organizzazione del testo è agile e schematica, e per questo motivo mi sento di consigliare la lettura a tutti co- loro che vogliono avvicinarsi al data mi- ning ed avere una visione d’insieme delle tecniche di analisi di dati. Osvaldo Prosperi (Telecom Italia Learning Services) L’ultimo quinquen- nio ha visto l’inizio della realizzazione di un sogno a lungo perseguito dagli Operatori di Reti di Telecomuni- cazione: lo svi- luppo di una piat- taforma integrata per il trasporto di voce video e dati. Basato sulla “vecchia” architettura TCP/IP, opportunamente arricchita con le funzionalità idonee al trasporto di servizi real time, questo nuovo paradigma è di- ventato il punto di riferimento tecnolo- gico per gli ingegneri delle reti. Tra i nuovi standard a disposizione per la realizzazione di reti multiservizio, uno dei più importanti è sicuramente il Mul- tiProtocol Label Switching (MPLS) . MPLS ha raggiunto come standard un buon livello di maturità e viene oggi ap- plicato su vasta scala da molti Service Provider soprattutto per l’offerta com- merciale di servizi di Rete Privata Vir- tuale (VPN) e per le sue funzionalità di gestione e protezione del traffico. Come è noto, Telecom Italia è stata pioniera nelle applicazioni di MPLS ed è oggi uno degli Operatori che vanta la mag- giore esperienza sul campo. È in questo contesto di successo dello standard MPLS che si inserisce il volume di J. Guichard, F Le Faucher e J.P. Vasseur “Definitive MPLS Network Designs”, edito da Cisco Press, che fornisce una visione ad ampio spettro delle tematiche collegate alla realizzazione di reti IP/MPLS e ai servizi che su di queste è possibile offrire. Gli autori espongono, in maniera molto chiara, tutte le idee principali che con- corrono alla realizzazione delle reti IP/MPLS multiservizio e presenta dei case study molto interessanti sia di progettazione di grandi Reti Enterprise che di Service Provider pubblici. Richard J. Roiger, Michael W. Geatz DATA MINING Editore: McGraw-Hill anno: 2004 pp. 275 26,00 G. Guichard, F. Le Faucher, J. Vasseur DEFINITIVE MPLS NETWORK DESIGN Editore: Cisco Press anno: 2005 pp. 552 54 dollari USA

Upload: luis-julian-solier-garcia

Post on 30-Oct-2015

36 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Data Mining

150 NOTIZIARIO TECNICO TELECOM ITALIA › Anno 14 n. 2 - Dicembre 2005

LIBRI

Avere a disposizione un’enorme quantitàdi dati non rappresenta più un vantaggiocompetitivo per le aziende, soprattuttose gli stessi si presentano in forma ete-rogenea, ridondante e non strutturata.Il data maining, conosciuto anche con iltermine di KDD (Knowledge Discovery inDatabases), può essere definito come ilprocesso che impiega una o più tecnichedi apprendimento per estrarre informa-zioni, potenzialmente utili, da grandi vo-lumi di dati. È beneprecisare che esi-ste una profondadifferenza tra i tra-dizionali strumentid i gest ione e re-portistica dei dati(DBMS) e le tecni-che d i Data Mi-ning. Per interro-gare un comunedatabase è necessario, infatti, cono-scere a priori l’oggetto dell’interroga-zione e la struttura dei dati; al contrario,le tecniche di data mining prescindonodalla conoscenza della struttura e dallatipologia della fonte dati e vengono uti-lizzate per individuare associazioni, ano-malie, patterns, o più in generale “rela-zioni” tra i dati. È una disciplina relati-vamente giovane che raccoglie il contri-buto di diverse “scienze” quali stati-stica, informatica, programmazione ma-tematica, intelligenza artificiale e natu-ralmente le basi dati.Come spesso accade, dopo un periodo i-niziale caratterizzato da una comprensi-bile diffidenza, il Data Mining raccoglieoggi i frutti di un serio lavoro, condottoparallelamente da molti laboratori di ri-cerca ed Università in tutto il mondo e sista affermando in diversi settori, tra iquali si annoverano:• analisi di mercato (Target Marke-

ting, Customer Relationship Mana-gement, Basket Market Analysis),

individuazione delle frodi e sup-porto alle decisioni in genere;

• analisi del testo (Text Mining);• supporto alla ricerca e all’indagine

scientifica nei più svariati settori cheincludono la medicina, la biologia, laclimatologia le telecomunicazioni.

In particolare nel settore delle telecomu-nicazioni, il data mining è utilizzato peranalizzare il traffico dati, per individuareanomalie e guasti e come valido stru-mento antifrode.È in questo contesto che si inserisce ilvolume “Introduzione al Data Mining” diRichard J. Roiger & Michael W. Geatz di-stribuito in Italia da MCGraw-Hill (ISBN :88-386-6167-7), che fornisce una vi-sione molto ampia delle tecniche di ana-lisi dei dati e del processo di KnowledgeDiscovery.Il libro è diviso in due parti: una primaparte, molto semplice da leggere, chiarae ricca di spunti interessanti, adatta adun lettore privo di competenze specifi-che, ed una seconda parte che, all’appa-renza, sembra ripercorrere la falsa rigadella prima, ma che richiede forti prere-quisiti, principalmente di tipo statistico,per poter apprezzare e “metabolizzare”le tecniche presentate.In particolare vorrei segnalarvi, per l’in-teresse degli argomenti trattati, i capi-toli tecniche fondamentali di data mi-nino (terzo), reti neurali (settimo), tec-niche statistiche (ottavo).Il terzo capitolo descrive molto bene glialberi di decisione, le regole associa-tive, le tecniche di clusterizzazione epresenta le tecniche di apprendimentogenetico. Il settimo capitolo offre spuntimolto interessanti sulle reti neurali esul loro possibile impiego. Infine, l’ot-tavo capitolo presenta alcune tecnichestatistiche quali l’analisi di regressionelineare e logistica e i l classif icatorebayesiano.L’organizzazione del testo è agi le eschematica, e per questo motivo misento di consigliare la lettura a tutti co-loro che vogliono avvicinarsi al data mi-ning ed avere una visione d’insiemedelle tecniche di analisi di dati.

Osvaldo Prosperi(Telecom Italia Learning Services)

L’ultimo quinquen-nio ha visto l’iniziodella realizzazioned i un sogno alungo persegui todagli Operatori diReti di Telecomuni-caz ione : lo sv i -luppo di una piat-taforma integrata

per il trasporto di voce video e dati.Basa to su l la “vecchia” arch i te t turaTCP/IP, opportunamente arricchita con lefunzionalità idonee al trasporto di servizireal time, questo nuovo paradigma è di-ventato il punto di riferimento tecnolo-gico per gli ingegneri delle reti.Tra i nuovi standard a disposizione perla realizzazione di reti multiservizio, unodei più importanti è sicuramente il Mul-tiProtocol Label Switching (MPLS).MPLS ha raggiunto come standard unbuon livello di maturità e viene oggi ap-plicato su vasta scala da molti ServiceProvider soprattutto per l’offerta com-merciale di servizi di Rete Privata Vir-tuale (VPN) e per le sue funzionalità digestione e protezione del traffico. Comeè noto, Telecom Italia è stata pionieranelle applicazioni di MPLS ed è oggiuno degli Operatori che vanta la mag-giore esperienza sul campo.È in questo contesto di successo dellostandard MPLS che si inserisce il volume diJ. Guichard, F Le Faucher e J.P. Vasseur“Definitive MPLS Network Designs”, editoda Cisco Press, che fornisce una visione adampio spettro delle tematiche collegate allarealizzazione di reti IP/MPLS e ai serviziche su di queste è possibile offrire.Gli autori espongono, in maniera moltochiara, tutte le idee principali che con-corrono al la real izzazione del le ret iIP/MPLS multiservizio e presenta deicase study molto interessanti sia diprogettazione di grandi Reti Enterpriseche di Service Provider pubblici.

Richard J. Roiger, Michael W. Geatz

DATA MINING

Editore: McGraw-Hillanno: 2004pp. 275€ 26,00

G. Guichard, F. Le Faucher, J. Vasseur

DEFINITIVE MPLSNETWORK DESIGN

Editore: Cisco Pressanno: 2005pp. 55254 dollari USA

LIBRI OK 13-01-2006 16:35 Pagina 150

Page 2: Data Mining

NOTIZIARIO TECNICO TELECOM ITALIA › Anno 14 n. 2 - Dicembre 2005 151

LIBRI

Dopo brevi r ichiami sui fondamentidello standard MPLS e degli altri stan-dard coinvolti (BGP, protocolli di rou-ting link state, QoS IP, ...), il libro pre-senta una serie di progetti di rete com-pleti, basati sull’esperienza acquisitasul campo, di quattro Società immagi-narie che utilizzano MPLS: un Interex-change Carrier (USCom), un operatoretelefonico tradizionale (Telecom Kin-gland), un Global Service Provider (Glo-benet), e una grande azienda bancaria(EuroBank).Ogni progetto v iene presentato se-guendo quattro l inee fondamental i .Dapprima viene illustrato l’ambiente incui opera la rete, inclusi i servizi chesi intende offrire, la topologia, la strut-tura dei POP, i mezzi trasmissivi a di-spos iz ione, la conf iguraz ione IP d ibase e i possibili vincoli.Vengono quindi presentati gli obiettividel progetto e i criteri di ottimizza-zione della banda disponibile e, suc-cessivamente, vengono dettagliati tuttig l i aspett i del progetto (compresi isuggerimenti di configurazione), a par-tire dall’architettura di routing, all’uti-lizzo delle funzionalità di MPLS (TrafficEngineering, Virtual Private Networks),al l ’ implementazione del la QoS, al lagestione del traffico multicast, IPv6 edi Livello 2, e all’utilizzo dei vari mec-canismi di protezione del traffico.Infine, l’articolo presenta i suggeri-menti pratici che è possibile racco-gliere dal progetto, in modo tale che iSe r v i ce P rov ide r e i p roge t t i s t i d igrandi Reti Enterprise possano calarlipoi nella realtà delle loro reti.Il libro è scritto in maniera molto chiarae lineare ed è di facile lettura per chipossieda i prerequisiti necessari (Archi-tettura delle reti IP, apetti di routing a-vanzato, MPLS, QoS IP). Mi sento diconsigliarlo come testo a tutti coloroche sono chiamati a ricoprire ruoli nellefunzioni preposte alla progettazione egestione delle reti IP/MPLS multiservi-zio, a anche a coloro che abbiano biso-gno di avere solamente un visione “cul-turale” delle problematiche principali.

Tiziano Tofoni(Telecom Italia Learning Services)

LIBRI OK 18-01-2006 18:05 Pagina 151