estudio de imÁgenes de resonancia …diposit.ub.edu/dspace/bitstream/2445/103767/2/memoria.pdf ·...
TRANSCRIPT
Trabajo de Final de Grado
GRADO DE INGENIERIA INFORMÁTICA
Facultad de Matemáticas Universitat de Barcelona
ESTUDIO DE IMÁGENES DE RESONANCIA MAGNÉTICA FUNCIONAL EN REPOSO PARA
LA PREDICCIÓN DE VARIABLES PERSONALES
Juan Luis Moral Pérez
Directora: Laura Igual Realizado a: Departamento de Matemáticas e Informática Barcelona, 30 de junio de 2016
«Esprecisosacudirenérgicamenteelbosque
delasneuronascerebralesadormecidas;esmenesterhacerlasvibrarconlaemocióndelonuevo
einfundirlesnoblesyelevadasinquietudes.»
RAMÓNYCAJAL
i
Abstract
Thisprojectisfocusedonthecreationofaclassificationsystemthatseparatesagroupofsubjectsaccordingtotheirgenderbasedondatafrommagneticresonanceimages(MRI)inarestingstate.
TheimagesfromMRIinarestingstateareatooltomeasurethebrainconnectivityorfunctioningthatiscurrentlybeingusedformanyneurosciencestudies.
Thisproject,inparticular,usestherepresentationoffactsbasedontheNetworkinaresting state to characterize the functional connectivity of the subjects for thevisualizationoftheobtainedresults.
As well as evaluating the accuracy of the classification system developed, anotherobjective of the project is to determine which of the cerebral networks are morediscriminativeinthetaskofseparatingmenandwomen.
The mothodology utilized combines two types of automatic learning: unsupervisedlearning,as intheIndependentComponentesAnalysisandthePrincipalComponentsAnalysis,andsupervisedlearning,asistheK-NNandSVMclassifiers.
Theresultsobtainedarepromising,becauseitfindsaRSNthatdiscriminatesbothsexandwealsonotethatthePrincipalComponentAnalysisdoesnotaffectwhenclassifying.
Keywords: resting state, fMRI, Independent Component Analysis, Dual Regession,PrincipalComponetAnalysis,SVM
ii
Resum
Aquestprojecteestàenfocat a la creaciód'un sistemade classificacióque separiunconjuntdesubjectes,segonselseusexe,apartirdedadesd'imatgesperressonànciamagnèticaenestatderepòs.
Lesimatgesperressonànciamagnèticaenestatderepòssónunaeinapermesurarlaconnectivitat cerebral o funcional, que actualment s'està utilitzant en nombrososestudisdeneurociència.
Enparticular,enaquestprojecte,esfaúsdelarepresentaciódelesdadesbasadaenXarxesenestatderepòspercaracteritzarlaconnectivitatfuncionaldelssubjectes,iperalavisualitzaciódelsresultatsobtinguts.
Amésd'avaluarlaprecisiódelsistemadeclassificaciódesenvolupat,unaltreobjectiudelprojecteésesbrinarquinsd'aquestesxarxescerebralssónmésdiscriminadorsenaquestatascadesepararhomesidones.
La metodologia utilitzada combina dues tipologies d'aprenentatge automàtic:l'aprenentatgenosupervisat,coml'AnàlisideComponentsIndependentsil'AnàlisideComponentsPrincipals;iaprenentatgesupervisat,comelsclassificadorsK-NNiSVM.
Les dades obtingudes són prometedores, ja que s'aconsegueix trobar una RSN quediscriminatotsdossexes i,amés,aconseguimobservarque l'AnàlisideComponentsPrincipalsnoafectaal'horadelaclassificació.
Paraulesclau:estatderepòs,fMRI,AnàlisideComponentsIndependent,RegressióDual,AnàlisideComponentsPrincipals,SVM
iii
Resumen
Esteproyectoestáenfocadoalacreacióndeunsistemadeclasificaciónquesepareunconjunto de sujetos según su sexo a partir de datos de imágenes por resonanciamagnéticaenestadodereposo.
Lasimágenesporresonanciamagnéticaenestadoderepososonunaherramientaparamedir la conectividad cerebral o funcional que actualmente se está utilizando ennumerososestudiosdeneurociencia.
Enparticular,enesteproyecto,sehaceusodelarepresentacióndelosdatosbasadaenRedesenestadodereposoparacaracterizarlaconectividadfuncionaldelossujetosyparalavisualizacióndelosresultadosobtenidos.
Ademásdeevaluarlaprecisióndelsistemadeclasificacióndesarrollado,otroobjetivodelproyectoesaveriguarcuálesdeestasredescerebralessonmásdiscriminativasenestatareadesepararhombresymujeres.
La metodología utilizada combina dos tipologías de aprendizaje automático: elaprendizaje no supervisado, como el Análisis de Componentes Independientes y elAnálisisdeComponentesPrincipales;yaprendizajesupervisado,comolosclasificadoresK-NNySVM.
Los datos obtenidos son prometedores, ya que se consigue encontrar una RSN quediscrimineambossexosyademáslogramosobservarqueelAnálisisdeComponentesPrincipalesnoafectaalahoradeclasificar.
Palabras clave: estado de reposo, fMRI, Análisis de Componentes Independiente,RegresiónDual,AnálisisdeComponentesPrincipales,SVM
iv
Agradecimientos
QuisieraagradeceravariaspersonaslaayudaquemehanprestadoenlarealizacióndeesteTrabajoFinaldeGrado.Enprimerlugar,amidirectoradelproyecto,LauraIgual,porsuexcelentetrabajo,elconocimientoofrecidocongenerosidad,laasistenciaysuapoyoconstante, así comosu confianzaypaciencia,quemeha transmitidodurantetodoelproyecto.Hasidounverdaderoplacertrabajarconella.
AMartaNúñez,porlagranayudaquemehadadocuandolohenecesitado.
A mi familia y amigos, por la motivación que me han infundido durante el largotranscursodeesteproyecto.
Paraconcluiresteapartadodeagradecimientos,deboprecisarque,sinalgunasdeestaspersonasmencionadas,estetrabajonohubieravistolaluz.
v
Índice
1 INTRODUCCIÓN 1
2 DIAGRAMADEGANTT 2
3 ANÁLISISBIBLIOGRÁFICO 3
3.1 BasesdelIMR 33.1.1 AnálisisdefMRI 4
3.2 AnálisisdeComponentesIndependiente 53.2.1 ICAparalosdatosfMRI 53.2.2 TiposdeICA 6
3.3 GroupICAyRegresióndual 73.3.1 PropiedadesdelaRegresiónDual 9
3.4 Redesenestadodereposo 9
4 METODOLOGÍA 11
4.1 Sistemadeclasificación 11
4.2 Extraccióndelascaracterísticas 124.2.1 AnálisisdeComponentesPrincipales 13
4.3 Clasificadores 144.3.1 Kvecinosmáscercanos 144.3.2 Máquinasdevectoresdesoporte 15
4.4 Test 164.4.1 Estrategiadevalidación 16
4.5 Seleccióndecaracterísticas 17
4.6 Librerías 174.6.1 FSL 174.6.2 Python 204.6.3 MATLAB 23
5 DATOS 24
5.1 Adquisicióndelosdatos 24
5.2 Organizacióndelosdatos 24
6 EXPERIMENTOSYRESULTADOS 26
6.1 Fasedeprueba 26
6.2 CorrelaciónentrelasRSNdelGroupICAylasRSNestándar 27
vi
6.3 Seleccióndelclasificador 27
6.4 Pruebadeclasificación 286.4.1 Pruebacon100sujetos 29
7 CONCLUSIONES 33
7.1 Objetivosrealizados 33
7.2 Mejorasposibles 33
8 REFERENCIAS 34
vii
Listadefiguras
FIGURA1:DIAGRAMADEGANTTCONTODASLASTAREAS 2FIGURA2:ENREPOSO 3FIGURA3:ACTIVADO 3FIGURA4:LOSDIFERENTESPLANOSCREADOSPORLOSEJESCEREBLALES.FIGURAEXTRAÍDADE 4FIGURA5:COMPARACIÓNDE2ENFOQUESGROUPICA:1)ICAINDIVIDUALCONELCUALSEPUEDEN
HACERCORRELACIONESOCLUSTERINGENTRELOSINDIVIDUOS.2)TEMPORALICACONELCUALSEEXTRAENPATRONESDETIEMPOYESPACIALESCONJUNTOS.[2] 6
FIGURA6:ILUSTRACIÓNDELAECUACIÓNDEDESCOMPOSICIÓNDELOSDATOS.ENELLASEPUEDEOBSERVARCÓMOESTÁCOMPUESTALAMATRIZQUEESELCONJUNTODERS-FMRI.LAMATRIZCOMPUESTAPORCOMPONENTESYTIEMPOS,ESDEDONDESESACALOSPATRONESTEMPORALES,YLOSMAPASESPACIALESSONLOSPATRONTESESPACIALESEXTRAIDOS.[8] 7
FIGURA7:ELPROCESODEREGRESIÓNDUALESAPLICADOPARAOBTENERLAINFORMACIÓNESPECÍFICADELOSSUJETOS(SUBJECT-SPECIFICINFORMATION).PRIMERO,OBTENEMOSLASSEÑALESTEMPORALESESPECÍFICASDECADASUJETO(SUBJECT–SPECIFICTIMECOURSES)YDESPUÉSLOSMAPASESPACIALESESPECÍFICOSDECADASUJETO(SUBJECT-SPECIFICSPATIALMAPS).IMÁGENESEXTRAÍDASDE[4] 8
FIGURA8:REPRESENTACIÓNDELAS20REDESENESTADODEREPOSOOTAMBIÉNLLAMADASLASRSNESTÁNDAR[4] 10
FIGURA9:DIAGRAMADEFLUJODEUNSISTEMADECLASIFICACIÓN,SEPARADOPORPASOS.TAMBIÉNPODEMOSDIFERENCIARELCONJUNTODETRAINYDETEST,DIFERENCIADOPORELCOLORYELNÚMERODEPASOSAREALIZAR. 11
FIGURA10:REPRESENTACIÓNDELASFRONTERASDELOSDATOSILUSTRADOSENBASELAK-NN[10].14FIGURA11:REPRESENTACIÓNGRÁFICADELAFRONTERACREADAPORUNALGORITMOSVM,DONDE
PODEMOSOBSERVARELHIPERPLANOCREADOYLOSEJEMPLOSQUESIRVENPARACREARLOSVECTORESDESOPORTE[10]. 15
FIGURA12:DIAGRAMADELFUNCIONAMIENTODELK-FOLDCROSS-VALIDATION.ENESTECASOLOSDATOSSONDIVIDIDOSEN5-FOLDS. 16
FIGURA13:REPRESENTACIÓNDELASFRONTERASCONLOSMISMOSCONJUNTODEDATOSCONLOSCLASIFICADORES:LINEAL,RBF,POLINOMIAL.[10] 21
FIGURA14:VISTADELACOMPONENTENÚMERO27. 32
viii
Listadetablas
TABLA1:DIVISIÓNPORSEXOENTRELOS819SUJETOSQUEHANREALIZADO4RS-FMRI 24TABLA2:APARTIRDELOS819SUJETOSDIVIDIDOSPORSEXOSUBDIVIDIMOSPORGRUPOSDEEDAD 24TABLA3:CONTIENEELNÚMERODECOMPONENTES(DIMENSIÓNDELSUBESPACIO),ELTAMAÑOFINAL
DELAMATRIZUNAVEZREALIZADOELGROUP-ICA,ELTIEMPOQUETARDAENRALIZARICAYDR,LASUMADELOSTIEMPOSANTERIORESYELTAMAÑODELDATASETUTILIZADOPARAHACERGROUPICA. 26
TABLA4:CORRELACIÓNENTRELAS20RSNSESTÁNDARYLAS164RNSDELGROUPICA 27TABLA5:PRECISIÓNOBTENIDADECADACLASIFICADORUTILIZADOCONLAS20RSNMÁS
CORRELACIONADASCONBISWAL. 28TABLA6:RANKINGDELAS164COMPONENTESQUEHANOBTENIDOUNAPRECISIÓNMAYORA0.5.
¡ERROR!MARCADORNODEFINIDO.TABLA7:RANKINGDELAS20RSNSMÁSCORRELACIONADASCONLASRSNESTÁNDAR 30TABLA8:SENSIBILIDADYESPECIFICIDADDELCLASIFICADORENLACOMPONENTE27. 31
1
1 Introducción
Enelcampodelaneurociencia1,unapoderosaherramientaqueestásiendoexplotadaeslautilizacióndeImágenesdeResonanciasMagnéticasFuncionales(fMRI,delinglésfunctionalMagneticResonanceImaging)[1][2].
Conestametodologíaseextraeinformaciónfuncionaldelcerebro,esdecir,quéestánhaciendonuestrasneuronasencadamomento.Enlasimágenesobtenidassepuedevercomonuestrocerebroestáfuncionando,enotraspalabras,sepuedevercómotrabajanlosconjuntosdeneuronasycómosecomunicanentreellas.Asísepuedenextraerlasredesneuronales.Estasredesenestadodereposo,cuandounsujetonoestárealizandoningunatareaespecífica,recibenelnombrederedesneuronalesenestadodereposo(RSN,delinglésRestingStateNetworks).
LasimágenesfMRIestánformadasporunagrancantidaddeinformación.Elanálisis,por lo tanto, se convierte en una tareamuy compleja. En este trabajo utilizamos elAnálisis de Componentes Independientes (ICA, del inglés Independent ComponentAnalysis) [ 3 ], con el cual podemos extraer las RSN [ 5 ] y entender las estructurasespacio-temporalesdelaseñal.
Para comparar un grupo de sujetos utilizamos la regresión dual [ 4 ], con la cualextraemoslainformaciónindividualdecadasujeto.Estarepresentacióndecadasujetopuedeserinformacióndiscriminativaconlaquepodemoscompararlosentresí.
Elpresenteproyectopretenderealizarunestudioparaencontrardiferenciasentrelossexos.Nonosbasaremosenlascaracterísticasanatómicas,sinoquenosbasaremosenlasimágenesfMRIenestadodereposo.Además,seanalizasilareduccióndelosdatosobtenidosdificultaofavorecelabúsquedadediferencias.
Enelapartado2sepuedeverlaorganización,siguiendoundiagramadeGantt,deesteproyecto.Acontinuación,enelapartado3esdondeveremosladescripcióndealgunostemasrelacionados.Después,enelapartado0,describiremoslametodologíausada.Enelsiguientecapítulo,pasaremosalafasedepruebas(apartadonúmero6)y,finalmente,enelapartado7,presentaremoslasconclusiones.
1Cienciaqueestudiaaestructura,eldesarrolloylafuncionalidaddelsistemanervioso.
2
2 DiagramadeGantt
Enesteapartadoexpondremosdetalladamentecómosehaorganizadoesteproyecto.Enprimerlugar,semuestraellistadodelastareasquesehanrealizado,especificandocuántotiemposehaempleadoparacadaunadeellas.
EnlaFigura1,sepresentaelDiagramadeGantt,dondeseenumerantodaslastareasrealizadas, resaltando los distintos apartados que las contienen: Documentaciónteórica;FSL;LibreríaseImplementación;PruebayresultadosyDocumentación;ademásdelassemanasquehansidonecesarias.
Deestediagramasepuedeextraerquéapartadossonlosmáscostososdetiempo:
Figura1:DiagramadeGanttcontodaslastareas
0 5 10 15 20 25
Documentaciónteórica
Estudiodelproyecto
FSL
Instalación
LanzamientoGroupICAcon4sujetos
LanzamientoGroupICAcon10sujetos
LanzamientoGroupICAcon20sujetos
LanzaminetoDRcon20sujetos
LanzaminetoDRcon100sujetos
Lanzamientocorrelación
LibreriaseImplementación
Nibabel
Sklearn
Cargadataset
KNN
SVM
ScriptReshape
Pruebayresultados
Documentacion
Indice
Introducción
Desarrollodetallado
Planificación
Conclusiones
3
3 Análisisbibliográfico
3.1 BasesdelIMR
Laresonanciamagnéticaesunatécnicano invasivamediante lacualpodemosver laestructuradelcerebro,asícomomedirsuactividad.Conesteinstrumentoobtenemosimágenesformadasde100a200.000piezasdeinformacióncerebral—encasoqueseauna sucesión de imágenes se tomarán cada segundo, aproximadamente. Esteinstrumentopuederealizardostiposdetécnicas:
1. Estructural: la imagende laanatomíacerebral.Estetipode imagenesdegrandefinición.
2. Funcional:eslacapturadelaactividadcerebralenpartesdelcerebro.
Los resultados obtenidos a través de una de estas dos técnicas se utilizan con elpropósito de estudiar el órganomás importante del sistema nervioso encargado decoordinartodasnuestrasfuncionesvitales:elcerebro.
LasimágenessonobtenidasmedianteelcontrasteBOLD,elniveldeoxígenoensangre(BloodOxygenLevelDependent),ilustradoenlasFigurasFigura2:Enreposo2y3.Esteesun método que mide la proporción de la transición de hemoglobina oxigenada adesoxigenadaenlasangre.Enotrostérminos,capturalademandametabólicaparalaactivaciónneuronal.
Figura2:Enreposo
Figura3:Activado
Figura1y2:Tras laactivación,eloxígenoesdemandadoyextraídopor lascélulas, luego,aumentaelniveldedesoxihemoglobinaenlasangre.Estosecompensaporelaumentodelflujosanguíneo,acciónqueprovocaunaumentodeoxihemoglobina.Figurasextraídasde[9]
4
Figura4:Losdiferentesplanoscreadosporlosejescereblales.FiguraextraídadelblogF.Traver
Comosehacomentadoanteriormente,unaimagenestáformadaporunconjuntodepiezasllamadasvóxel.Unvóxelesunamedidavolumétricaqueabasteceunespacio3Den el cerebro. Cada uno de ellos localiza y representa, a través de una asociaciónnumérica,laintensidaddelademandadeoxígenoenunazonadeterminada.
ComopodemosobservarenlaFigura4,estánrepresentadoslostresejescerebrales:elejecoronal,correspondienteauncorteverticalortogonalalacara;elejesagitalque,aligualqueelanterior,esuncorteverticalparaleloalacara;yelejeaxial,representadoporuncortehorizontalparaleloalosojos.
3.1.1 AnálisisdefMRI
Hay dos enfoques en la adquisición de resonancias magnéticas funcionales (fMRI -functionalMagneticResonaceImaging):
• Entarea(t-fMRI,delingléstask–fMRI)sonunaseriedefotografíashechasdeunsujetocuandoesteestárealizandounatarea,p.ej.:escribirenelordenador.
• Enreposo(rs-fMRI,delinglésrestingstate–fMRI)sonunasucesióndeimágenescapturadasdeunsujetocuandoestenoestárealizandoningunatareaespecífica,esdecir,enestadodereposo.
Enesteproyectosehacentradoenutilizarlasrs-fMRI.Haytresmétodosprincipalesdeanálisisdeestetipodedatos:
1. Localización: suusomás frecuentees la localizacióndeáreascerebralesenrespuestaaunaciertatarea.EnestareglaseutilizaelModeloGeneralLineal(GLM,del inglésGeneral LinealModel).Esteesunmétodoestadísticoparaevaluarlasrelacionesentrelastareasrealizadasylaactividadcerebral.Dichométodopuede serusadoparaestimar la respuesta cerebral conun suceso
5
simpleyasí comparardiferentes tiposde sucesos, conel findeevaluar lascorrelacionesentreactividadycomportamiento.
2. Conectividad:describecómointeractúanlasdiferentesregionesdelcerebro.Sedistinguentrestipos:
a. Anatómica:describecómoestánconectadasfísicamentelasdiferentesregionescerebrales.
b. Funcional: que compara las correlaciones extrayendo un patróntemporaldelaactivaciónneuronal.
3. Predicción:empleode laactividadgeneraldeun sujetoparapercepciones,comportamientos o salud. En este apartado se utilizan clasificadores depatronesmedianteestadísticaytécnicasdeaprendizajeautomático.
3.2 AnálisisdeComponentesIndependiente
El Análisis de Componentes Independientes (ICA, del inglés Independent ComponentAnalysis) es unaherramientaparadescubrir características deun conjuntodedatosespacio-temporales.Estemodeloasumequelasobservacionessonunamezclalinealdefuentesindependientes.
ConsiderandounvectoraleatorioM-dimensionalobservado,porejemplox=[x1,x2,…,xM]T,ICAlodescomponeen2partes:laparteespacialylatemporal,comosepuedeverenlaecuación(1)[3]:
𝑥 = 𝐴𝑠
(1)
Grossomodo,ICAdescomponeunaseñalmuycomplejaenpartessimples.
Para resolver existen varios algoritmos, como Infomax, FastICA y diagonaizaciónaproximada[3].
3.2.1 ICAparalosdatosfMRI
EneláreadeneuroimagenseaplicaICAusandodiferentesconfiguracionesdelosdatos:
• ICAespacial(sICA,delinglésspatialICA)cuandoelnúmerodevóxelesesmayoralnúmerodepuntoseneltiempo.
• ICAtemporal(tICA,delingléstemporalICA),encasocontrario,cuandoelnúmerodepuntoseneltiemposonmayoresalnúmerodevóxeles.
6
ICApuedeserutilizadoparadescubrir,yaseaespacialotemporalmente,componentesindependientes.ElobjetivodelanálisisdecomponentesfMRIes,entonces,factorizarlamatrizdedatosenunproductodeunconjuntodeseñalestemporales,yunconjuntodepatronesespaciales.
Sinembargo,mayoritariamentelosestudiosdeneuroimagensebasanensICA,yaqueactualmentelasrs-fMRIcontienenmásnúmerodevóxelesquenúmerodepuntoseneltiempo. sICAencuentra regionesdel cerebroqueno se superponen, temporalmentecoherentes.
3.2.2 TiposdeICA
PararealizarunanálisissobreungrupodesujetosICAtiene2tipossegúnelenfoquedado:
§ Elprimertipo,Figura5(1)consisteenlaaplicacióndeICAporindividuos.Laventaja de este enfoque es la extracción de las características espaciales ytemporalesúnicos,conladesventajaqueloscomponentesdedatosruidososnosondescompuestosdelamismaformasiserehaceesteenfoqueparaelmismosujeto.
§ Laventajadelsegundotipo,Figura5(2)—concatenacióntemporal—esquepermite señales temporales únicas por cada sujeto pero unmapa espacialúnico.
Figura5:comparaciónde2enfoquesGroupICA:1)ICAindividualconelcualsepuedenhacercorrelaciones o clustering entre los individuos. 2) Temporal ICA con el cual se extraenpatronesdetiempoyespacialesconjuntos.[2 ]
7
3.3 GroupICAyRegresióndual
ICAsehautilizadoampliamenteconelfindeidentificarlospatronesdeconectividadfuncional en estado de reposo. Estas técnicas han demostrado ser útiles en lacaracterizacióndeestasfluctuacionesfuncionalesaniveldesujetoindividual.EnesteapartadosecomentaráunmétododeanálisisquecombinaICAsobremúltiplessujetoscon la regresión dual para estimar las diferencias individuales en la conectividadfuncional.
Elprocedimientoestándarsiguetresetapas:
1. Concat-ICA:
MúltiplesconjuntosdedatosfMRIsonconcatenadostemporalmenteyseformaunamatriz𝐸𝑠𝑝𝑎𝑐𝑖𝑜2𝐷 ∗ 𝑇𝑖𝑒𝑚𝑝𝑜 ∗ 𝑛𝑆𝑢𝑗𝑒𝑡𝑜. ICAseaplicaconel finde identificar lospatronesagranescaladelaconectividadfuncional.
EnlaFigura6ilustralaecuacióndedescomposicióndelosdatos.Enella,sepuedeobservarcómoestácompuestalamatriz,queeselconjuntoders-fMRI.Lamatrizcompuesta por componentes y tiempos es de donde se sacan los patronestemporales,ylosmapasespacialessonlospatronesespacialesextraídos.
Figura6:Ilustracióndelaecuacióndedescomposicióndelosdatos.Enellasepuedeobservarcómo está compuesta la matriz que es el conjunto de rs-fMRI. La matriz compuesta porcomponentesytiempos,esdedondesesacalospatronestemporales,ylosmapasespacialessonlospatrontesespacialesextraidos.[8]
8
2. Regresióndual:
En esta etapa, es donde se identifican los mapas espaciales y los patronestemporalesencadaunode losN sujetos individuales.Para cadaconjuntodedatos,esdecir,paracadars-fMRIosujetoserealizanlossiguientespasos:
a) En el primer problema de regresión, se utilizan los mapas espacialesextraídosaniveldegrupocomoelconjuntoderegresoresespacialesenunGLM.Suobjetivoesencontrarunadinámicatemporalasociadaconcadamapaaniveldegrupo.
b) Lanormalizacióndeestasseñalestemporalesalaunidaddevarianza
c) El segundo problema de regresión es la utilización de estas señalestemporales,resultadodelprimerproblemaderegresión,comoelconjuntoderegresorestemporalesenunGLM,paraencontrarmapasespecíficosdelossujetos(specific-subjectmaps).
1rproblemaderegresión
2nproblemaderegresión
Figura7:Elprocesoderegresióndualesaplicadoparaobtenerlainformaciónespecíficadelos sujetos (subject-specific information). Primero, obtenemos las señales temporalesespecíficas de cada sujeto (subject –specific time courses) y después losmapas espacialesespecíficosdecadasujeto(subject-specificspatialmaps).Imágenesextraídasde[4]
9
EnlaFigura7seobservaelprocesoderegresióndualqueesaplicadoparaobtenerlainformaciónespecíficadelossujetos(subject-specificinformation).Primero,obtenemoslas señales temporales específicas de cada sujeto (subject-specific time courses) ydespuéslosmapasespacialesespecíficosdecadasujeto(subject-specifcspatialmaps).
3. Inferencias:
Enlaúltimaetapa, losdiferentesconjuntosdemapasespacialesserecogenatravésdematices4Dysonanalizadosmediantemétodosnoparamétricos(p.ej.:permutaciones). Los mapas espaciales resultantes entre sujeto y diferenciasgrupales.
3.3.1 PropiedadesdelaRegresiónDual
La regresión dual está relacionada con los enfoques alternativos para el análisis delgrupo:
§ Nosebasaenunaúnicaubicaciónsinoqueintegralainformacióntemporaldelos datos fMRI distribuidos a través de las RSN 2 . Los resultados de ladescomposición inicial definen las regiones o las redes de interés que sonrelevantesaniveldegrupoparalapoblaciónenparticular.
Enlugardeutilizar laregresiónindividual,emplealaregresiónlinealmúltiple;por lo tanto, puede estimar diferencias significativas. Además, este métodotambiénpuedeabordarlainteraccióndinámicaentrelasredes.
§ Elenfoquepresentadoestimaladinámicaespacialytemporalaniveldesujetoconlosdatosoriginales.Estenuevoenfoqueestimaquelosmapasespacialesseencuentran necesariamente dentro del espacio definido por los principalesespaciospropiosdelossujetosespecíficosiniciales.Porlotanto,lacomparaciónfinalentresujetossehacedependientedelasetapasinicialesdereduccióndesujetosespecíficos.
3.4 Redesenestadodereposo
Las redes en estado de reposo (RSN, del inglés Resting State Netwok) no fuerondescubiertashastael1995.Primer,enlosestudiosdondeseutilizabanrs-fMRIssurgíanfluctuacionesdefrecuenciabaja,esdecir,perturbacionesdelaseñalmenoresa0,1Hz.Durante años, estas variaciones fueron ignoradas como ruido de la señal ya que noestabanrelacionadasconningunatareaenparticular.
2Esteconceptoseexplicaráenelapartado3.4.
10
No fue años hasta más tarde cuando se confirmó la existencia de patrones en elfuncionamientodel cerebroqueestaban correlacionados temporalmenteenalgunasáreasdelcerebro.Estasseñalesdebajafluctuaciónsepudierondescomponeren:
• Señalescardiovasculares(0,6–1,2HZ)
• Señalesrespiratorias(0,1–0,5Hz)
• Rangodebajaseñalespecífica(0.01-0.08Hz)
Después de una gran recopilación de datos pudieron extraer zonas separadas,físicamente,perofuncionalmenteconectadas,queseguíanunpatrónduranteelestadode reposo.Estas20RSNs fueronaceptadaspor la comunidadmédica, las cuales sonllamadasRSNestándar(Figura8)[4][5].
Figura8:Representacióndelas20RedesenEstadodeReposootambiénllamadaslasRSNestándar[4]
11
4 Metodología
Enesteproyectosedesarrollaunsistemadeclasificaciónaplicadoadatosders-fMRIparapredecirelsexodeunconjuntosujetos.Además,sequieredescubrircuálessonlascaracterísticasmásdiscriminativasparaesteobjetivodeclasificación.
Estametodologíadifieredelasección3.3enlaetapadelasinferencias,yaqueesdondelossujetossoncomparadosparaextraerresultados.
4.1 Sistemadeclasificación
Lametodología seguida en el sistema de clasificación que proponemos contiene lospasos que se pueden ver en la Figura 9 el diagrama de flujo de un sistema declasificación,separadoporpasos.Tambiénsepuedediferenciarelconjuntodetrainyeldetest.
Figura9:Diagramadeflujodeunsistemadeclasificación,separadoporpasos.Tambiénpodemosdiferenciarelconjuntodetrainydetest,diferenciadoporelcoloryelnúmerodepasosarealizar.
12
Losdetallesdelospasosdelprocedimientosonlossiguientes:
1) Definicióndelasclases:
En nuestro caso consideramos dos clases: hombre y mujer del conjunto desujetosdelHumanConnectomeProyect(HCP).Lossujetosseleccionados,paraelaprendizajeyeltestdelclasificador,hansidoescogidosenlafranjade26a30años.(Vermásdetallessobrelosdatosenlasección5).
2) Pre-procesamientodelosdatos:
LosdatosproporcionadosporelproyectoHumanConnectomeyavienenpre-procesados, es decir, las rs-fMRI han sido procesadas para corregir elmovimientoyángulodeposicióndelacabezadecadasujeto.
3) Extraccióndelascaracterísticas:
Enesteapartadopodemosdiferenciar2partes.PrimerorealizamosunGroupICA, con el que extraeremos las características comunes a los sujetos, y acontinuación,realizamosunRegresiónDual,métodoquenospermiteextraerlascaracterísticas individuales de cada sujeto. Los detalles de este paso sepresentaránenelapartado4.2.
4.2 Extraccióndelascaracterísticas
Paralaextraccióndelascaracterísticas,procederemosarealizarunGroupICA,omásconcretamente,unespacialGroup ICAconconcatenación temporal.Obtenemosunamatrizdetamaño𝑇𝑖𝑒𝑚𝑝𝑜𝐶𝑜𝑛𝑐𝑎𝑡𝑒𝑛𝑎𝑑𝑜 ∗ 𝑛𝑆𝑢𝑗𝑒𝑡𝑜×𝐸𝑠𝑝𝑎𝑐𝑖𝑜2𝐷,comoseilustraenlaFigura6.
PrimeroserealizaunPCAconelcualreduciremoselnúmerodevóxeles.Acontinuación,seprocederáaaplicarelICA,quefactorizarálamatrizenelproductodedosmatrices.Comoseformalizaenlaecuación(2)semuestraladescomposiciónde𝑀C,queeslamatrizpertenecientedelsujetoi,endosmatricesA,matrizdemezcla,yS,matrizdefuentes,queenestecasocontienelosmapasespaciales.Estosmapasespacialessonlascaracterísticasdelosnsujetosquepierdendetallesdeformaindividual.
Acontinuación,realizaremoslaregresióndualparadefinirlascomponentesindividualesapartirdelascomponentesdelgrupo.LamatrizX,queeslars-fMRIdeunsujeto,setransformasiguiendoelsiguienteesquema:
𝑀EF×G = 𝐴E×H · 𝑆H×G
(2)
13
1º problemaderegresión:
𝑋G×EFK = 𝑆GLHK ×𝐺H×EF
(3)
2º problemaderegresión:
Este proceso consiste en resolver dos problemas consecutivos de regresión lineal,formalizado en las ecuaciones (3 ) y (4), y es aplicado para obtener la informaciónespecíficadelossujetos(subejct-specificinformation)deformaindividual.Resolviendoelprimerproblemaderegresiónobtenemoslossubject–specifictimecourses,esdecir,conseguimoslospatronestemporales,ydespués lossubject-specificspatialmaps,enotraspalabras,lospatronesespaciales.
Finalmente,elvectordecaracterísticasdelsujetoi-ésimoeslaconcatenacióndelainformacióndelasrRSNs,sepuedeverenlaecuación(5).
𝑆C = 𝑅𝑆𝑁P, 𝑅𝑆𝑁Q, … , 𝑅𝑆𝑁R
(5)
Este vector de características resultante contiene muchas dimensiones𝑟𝑥𝑣 . Estenúmerodevóxelesesvariable,esdecir,estenúmerocambiadependiendodelnúmerodesujetosquesehayautilizadoenelGroup-ICA;ennuestrocasoesde227.441.
Comosoluciónalproblemadealtadimensiónseguiremoselprocedimiento:
1. UnamáscaraqueestarácompuestaporlasrRSNsextraídasdelGroupICA,queasuvezseescogeránlosvaloresdiferentesa0,paraelegirlosvóxelesdondesehayaencontradounpatrónespacio-temporal.
2. LasrRSNsdecadasujeto,olosmapasespacialesespecíficosdelossujetos,sefiltraránporunamáscarayseeliminaránlosvaloresigualesa0.
Además, probaremos de reducir esta alta dimensión añadiendo el análisis decomponentesprincipalesexplicadoenelsiguienteapartado.
4.2.1 AnálisisdeComponentesPrincipales
ElAnálisisdeComponentesPrincipales(PCA,eninglésPrincipalComponentAnalysis)esunatécnicadeaprendizajeautomáticonosupervisado.
𝑋EF×G = 𝐺EF×H×𝑆𝑆H×G
(4)
14
Estatécnicadereduccióndeladimensiónreduceelnúmerodevariables.Lasnuevascomponentesprincipaleso factoresseránunacombinación linealde lasvariablesdeorigen.
4.3 Clasificadores
Durante la realización de este proyecto se han empleado los clasificadores queexplicaremos a continuación. Estos clasificadores son métodos de aprendizajesupervisado,esdecir,quesepuedendividiren2partes:
1. La fase de aprendizaje que es donde se diseñará el clasificador utilizando elalgoritmoylosdatosdeentrenamiento.
2. Lafasedetestoclasificaciónaplicaráelclasificadorparapredecirlaclasedelconjuntotest.
4.3.1 Kvecinosmáscercanos
Estemétodo(K-NN,delinglésK-NearestNeighbors)esunclasificadornoparametrizado,quecalculaladistanciadeunamuestraconelresto.Acontinuación,seescogeránlasKobservacionesmáscercanasal individuo,yseasignará laclaseconmáspresenciaenestasKobservaciones.
EstemétodoesuntipodeLazyLearningeninglés,puesrompeconelesquemaexplicadoanteriormente (sección 4.3), ya que en la fase de aprendizaje solo recolectará lainformación,yesenlafasedeclasificacióndondecreaunmodeloporcadaejemplar
Figura10:RepresentacióndelasfronterasdelosdatosilustradosenbaselaK-NN[10].
15
introducido.Ladistanciaquemásseutilizaparalaclasificaciónesladistanciaeuclídeaquesedefinedelasiguientemanera:
Dadolosejemplares𝑥P = (𝑎P, 𝑏P)y𝑥Q = (𝑎Q, 𝑏Q)laecuación(6)muestraladistanciaentreestos:
𝑑X LY,LZ = (𝑎P −𝑎Q)Q +(𝑏P −𝑏Q)
Q
(6)
EnlaFigura10podemosobservarcómoestealgoritmocrealasfronterasdecadaclase.
4.3.2 Máquinasdevectoresdesoporte
EstemétodoSVM(delinglésSupportVectorMachines)mapealosdatosdeentradaaunespaciomayordecaracterísticasparaencontrarelhiperplanoquesepareymaximiceelmargenentrelasclases.Pertenecealacategoríadelosclasificadoreslinealesyaquemueve estos hiperplanos a espacios de características de mucha dimensionalidad(realizadoporelnúcleookernel)ytrazaunafronteralineal.
Alcontrariodelamayoríademétodosdeaprendizajequesecentranenminimizarelerrordelentrenamiento,losSVMbuscaunhiperplanodeseparaciónequidistantealosejemplosdeclasesdiferentesymáscercanosentreellos.Comoresultado,obtieneun
Figura11:RepresentacióngráficadelafronteracreadaporunalgoritmoSVM,dondepodemos observar el hiperplano creado y los ejemplos que sirven para crear losvectoresdesoporte[10].
16
margenmáximo.Aestosejemplosmáscercanosydediferenteclaseselesconsideraparadefinirlafronterayrecibenelnombredevectoresdesoporte.Estemétodotienegrancapacidaddegeneralización,asíevitaelsobreajustamiento3.
En la Figura 11, se puede ver la frontera creada por este algoritmo para los datosintroducidosdedistintocolor.Además,elhiperplanoóptimorepresentadoporlalíneacontinua y por las líneas discontinuas son los vectores de soporte asociados a unejemploquemaximizaladistanciaentreellos.
4.4 Test
4.4.1 Estrategiadevalidación
Lavalidacióncruzada(Cross-validationeninglés)esunatécnicaqueseparaelconjuntodemuestrasque tenemosendos subconjuntos, el de aprendizaje (train set) y el deprueba(testset).Estatécnicaevalúalosresultadosdeunanálisisestadísticooanálisisdeaprendizajeautomático.
En este proyecto, utilizaremos el K-fold cross-validation para analizar los resultadosobtenidos.EstemétododividelosdatosenKsubconjuntos.Unodelossubconjuntosseutilizaráparaeltestsetytodoslosdemásparaelaprendizaje.Elprocesoconsisteenircambiandoel test set y el train set K veces. En la Figura 12podemos ver, de formaesquemática,elfuncionamientodeestevalidador.
3Consecuenciacuandounmodeloseajustamuchoalosdatosdeentrenamiento.
Figura12:DiagramadelfuncionamientodelK-Foldcross-validation.Enestecasolosdatossondivididosen5-folds.
ImagenextraídadelblogdeBryceChristensen
17
4.5 Seleccióndecaracterísticas
Porúltimo,enesteproyecto,queremossabercuáldelasRSNeslamásdiscriminativaparadiferenciarhombreymujer.Porello,entrenaremostantosclasificadorescomoRSNtengamos utilizando los vectores de características correspondientes. La RSN másdiscriminativaserálaqueconsigamejorprecisiónenestatareaclasificación.
4.6 Librerías
Enesteapartadoexplicaremoselsoftwareyloslenguajesdeprogramaciónutilizados.Además,seharáunapequeñaexplicacióndelcódigoparaeldesarrollodeesteproyecto.
4.6.1 FSL
FSL,delinglésFMRIBSoftwareLibrary,esunabibliotecadeherramientaparaelanálisisdefMRIrealizadaenelcentroFMRIBdeOxford.Estabibliotecasepuedeejecutarentodaslasplataformas,sinembargo,laúnicaquenoutilizaunamáquinavirtualparasuejecuciónesMacOS.
Nos ofrece una infinitud de funcionalidades de neuroimagen, de las cuales solodescribirélosutilizadosduranteelproyecto.
1. ParapoderrealizarelGroupICAhemosutilizadolainstrucciónmelodic.Parapoderutilizarestaintrucciónesnecesariodisponerde10vecesmásespaciodeloqueocupantodoslosarchivosparaanalizar:
a. Instrucciónutilizada:
>>melodic -i path_to_data.txt --nobet --tr=2.0 --Ostats -o ICA_result --report –v
b. Morfología:
>>melodic -i <filename> <options>
c. Análisismorfosintáctico: • Parámetros:
-i, -in: sutraducciónesinput,despuésdeesteparámetro,queesobligatorio, se le introduce losnombresdearchivopara realizar ICA.Estosnombrespuedenser:unsoloarchivo,listadoseparadoporcomas,ounarchivoquecontengatodaslasrutas.
18
--nobet: esteargumentodesactivalarealizacióndelafunciónBET4antesdehacerICA.
--tr=2.0: esparaindicaralavariableTR,cadacuantossegundosserealizauncorteenlafMRI.
--Ostats: esteargumentohacelacreacióndemapasthresholdedymapasdeprobabilidad
-o, --outdir: paraindicarlelacarpetadondeseguardaráeloutput
--report: esteargumentoopcionalgeneraunawebdondesaldráelinformedeMelodic
-v, --verbose: paraencenderlosmensajesdediagnóstico.
• Inputs:
Path_to_data.txt: estearchivo lo creamosnosotros, aquídentrohabrátodaslasrutasdelosarchivosquesequierenutilizarparaaplicarICA
ICA_result: esteeselejemplodelnombrede lacarpetadondeseguardarálasalidageneradaporelprocesoICA.Tambiénañadiremosqueestacarpetasecreaeneldirectoriodondesellamalainstrucción.
2. ParapoderrealizarelDRhemosutilizadolainstruccióndual_regression:a. Instrucciónutilizada:
>> dual_regression melodic_IC.nii 1 design.mat design.con 1 DR_result_50 `cat path_to_data.txt`
b. Morfología:
>> dual_regression <group_IC_maps> <des_norm> <design.mat> <design.con> <n_perm> <output_directory> <input1> <input2> <input3> ....
c. Análisismorfosintáctico:• Parámetros:
4 BETeninglésBrainExtractionTool,esunaherramientaparalaextraccióndelcerebroeliminandotejidoquenopertenecealcerebrodeunaimagen.
19
- group_IC_maps_4D: Imagen 4D contenedora de losmapas ICespaciales,porejemplo,el ficheromelodic_IC.nii,quees lasalidadelanálisisgroupICA.
- des_norm: losvaloresquepuedecogeresteparamentroes0o1,pero se recomienda 1. Este parámetro sirve para normalizar lostimecoursesusadosenlasegundaetapadelaregresión.
- design.mat: matriz diseñada para poder realizar la regresión atodoslossujetos.
- n_perm: númerodepermutaciones,puestoque1tienecomosalidatstats.
- output_directory: eseldirectoriodondeseguardarántodoslosarchivosdesalidaylogfiles.
- <input1> <input2> ...: Listadetodoslossujetospreprocesados.
• Inputs:
cat path_to_data.txt: estainstrucciónlautilizamoscomoinputparanoponerlaentradasujetoasujetoyseaautomático.Devuelveunstring con todos los elementos guardados en el ficheropath_to_data.txt
3. ParapodercorrelacionarlasRSNestándarconlasRSNextraídasporelGroupICAa. Instrucciónutilizada:
>> fslcc -t 0.2 melodic_IC.nii Resampled_Biswal.nii
b. Morfología:
>> fslcc -t <threshold (default=0.1)> <first-NIFTI> <second-NIFTI>
c. Análisismorfosintáctico:• Parámetros:
threshold: mínimovalornecesarioparamostrarseenlasalida
<first-NIFTI>/<second-NIFTI>: archivos que contienen las RSNs que se quieren comparar
20
4.6.2 Python
Python es un lenguaje interpretado con el objetivo de hacer una sintaxis legible. Acontinuación,seexplicaránlaslibreríasdePythonquesehanutilizadoenelproyecto
4.6.2.1 Nibabel
Nibabel es una librería que nos permite la lectura y escritura de los formatos máscomunesdelosarchivosutilizadosenlaneuroimagen.
Suinstalaciónesmuysimple,solohayquetenerencuentalosrequisitos,queson:
- Python2.6oposterior
- NumPy1.5oposterior,eselpaquetefundamentalparalacomputacióncientíficaconPython
- SciPyesunecosistemabasadoenPythondesoftwaredecódigoabiertoparalasmatemáticas,lacienciaylaingeniería.
- PyDICOM
- PythonImagingLibrary(PIL)añadecapacidadesdeprocesamientodeimágenesparaelintérpretedePython.Estabibliotecaescompatibleconmuchosformatosdearchivo,yproporcionapotentescapacidadesdeprocesamientodeimágenesygráficos
- Nose0.11oposteriorparahacercorrerlostests
- Sphnixparaconstruirladocumentación
4.6.2.2 Scikit-learn
Scikit-learn, abreviado SKlearn, es una biblioteca libre de Python para facilitar laimplementación de algoritmos de clasificación, regresión, clustering, entre otros. ElleguajeparapoderutilizarestalibreríaesPython.NoscentramosenlosclasificadoresK-NNySVM,yparalavalidaciónelK-foldutilizadosenelproyecto.
K-NNenScikit-learn
Como se ha comentado en la sección 4.3.1, este algoritmobusca los K vecinosmáscercanos.EnlainstanciacióndeestealgoritmosehamodificadoK,queeslamedidadelamuestradelosvecinosmáscercanosquequeremosmirar.
KNeighborsClassifier(n_neighbors)
21
Donde:
- N_neighbors: que especifica el número de vecinos por defecto es igual a 5, yhemosutilizadoestaconfiguraciónparaclasificar.
ElproblemadeencontrarlaKóptimaesquesilaKesmuypequeñaseajustademasiadoalmodelo,por lo tanto,el ruidode lamuestrao lasmuestrasquepuedenser ruidoafectanalmodelo.Porelcontrario,siKesmuygrande,esdecir,siKcogeelvalordelnúmero de muestras, rompe con la filosofía de este algoritmo, y si el número demuestras,decadaclaseutilizada,sonigualesosimilaresnopodráclasificarbien,yaquelafuncióndedensidadquepermiteclasificardaráunresultadomuysimilarentre lasclasesempleadas.
Porestemotivo,noquisemodificarelvalordeK,yaquesedeberíahacerunK-foldcross-validación para escoger que K otorga más precisión. Esto supone un alto costecomputacional,yademásesaKsoloserviríaparaunvolumendemuestrasconcreto.
SVCenScikit-learn
Elclasificadordevectoresdesoporte(SVC,delinglésSupportVectorClassifier),comosehaexplicadoenelpunto4.3.2,eselkernelonúcleoeselencargadodegenerarelhiperplano.Acontinuación,lesmostramosmorfologíadelainstanciacióndelaclase:
SVC (kernel, degree, gamma)
En la parametrización solo se muestran las variables que hemos ido modificandodurantelarealizacióndeesteproyecto:
Figura13:Representacióndelasfronterasconlosmismosconjuntodedatosconlosclasificadores:Lineal,RBF,Polinomial.[10]
22
- Kernel:especificaeltipodenúcleoparaserutilizadoenelalgoritmo.Nosotroshemoshechoservir‘poly’,‘linear’,‘rbf’5
- Degree:indicarelgradodelafunciónpolinomionúcleo(‘poly’).Hemosutilizadolaquevienepordefecto,esdecir,de3ºgrado.Cuandoseutilizaotro tipodekernelquenoseapolinomialesteparámetroseráignorado.
- Gamma:soloesutilizadoparaelkernelRBF,cuandoseutilizaelautomáticoesP
]^_`abc`deaedf`aíhfideh.Estevalornosindicaqueinfluenciatieneunejemplodel
train,esdecir, convaloresbajos indica lejaníay convaloresaltosproximidad.Apartedelautomáticosehautilizadounagammaconunvalorde0,5.
En laFigura13 sepuedeveruna representaciónde los tres clasificadoresutilizados.Estasfronterassehancreadoconelmismoconjuntodedatos.
K-flodenScikit-learn
Estaclasenosfacilitalacreacióndeuniterador.Esteiteradordividelosíndicesdelasmuestrasendosgrupos,eldeentrenamientoyeldetest.ComosupropionombreindicahaceKparticionesenlosíndicesproporcionadosparapoderhacerlavalidacióndelK-fold,explicadaenelpunto4.4.1.Lainstanciacióndeesta:
KFolfd(n, n_fold, shuffle)
Donde:
• neselnúmerodeejemplaresutilizadas.
• n_fold el número de carpetas a dividir la muestra, en el proyecto n_fold
obtiene el valor dejklXRmnXlkXoERpoq
. De esta forma la precisión obtenida
aumentaenuncuartodepunto,esdecir,quecadaaciertoqueobtieneesun0,25.
• shuffleesunbooleanoparaindicarsiqueremosbarajarlosíndicesutilizados,enotraspalabras,noseaceptaráníndicesconsecutivosparacrearcadacarpeta.Ennuestrocasoestevalorloactivamos.
PCAenScikit-learn
Estaclasenospermitereducirelnúmerodevariables,explicadoenlasección4.2.1.Ensu instanciaciónel parámetron_components es el númerode componentesal que
5Funcióndebaseradial(RBF,delinglésRadialBasisFunctions)esunafunciónrealcuyovalordependesólodeladistanciadelorigen.
23
queremos reducir. Este parámetro te da la opción de que sea nulo y, comoconsecuencia, el númerodedimensiones es elmínimoentrenúmerode ejemplos ynúmerodecaracterísticas.
PCA(n_components)
4.6.3 MATLAB
MATLABesunlenguajedecomputacióntécnicadealtonivelyunentornointeractivopara desarrollo de algoritmos, visualización de datos, análisis de datos y cálculonumérico. Con MATLAB, se pueden resolver problemas de cálculo técnico másrápidamente que con lenguajes de programación tradicionales, tales como C, C++ yFORTRAN.
SepuedeusarMATLABenunaampliagamadeaplicacionesqueincluyenprocesamientode señales e imágenes, comunicaciones, diseño de sistemas de control, sistemas depruebaymedición,modeladoyanálisisfinancieroybiologíacomputacional.
4.6.3.1 SPM
Enesteproyecto,altrabajarconlasRSNestándarsehanecesitadodelalibreríaSPMimplementadaenMATLAB.Estalibreríaesunconjuntodeherramientasparaelanálisisdesecuenciadedatosdeimágenescerebrales.Normalmenteseempleaparaelmanejodelosmúltiplesformatosdeneuroimagen.
24
5 Datos
5.1 Adquisicióndelosdatos
La base de datos facilitada por el HCP (http://www.humanconnectome.org/) estáformada por 970 sujetos de los cuales 819 tienen 4 rs-fMRI. Prestaremos especialatención a estos 819 individuos, ya que han completado el seguimiento, y lossubdividiremosporsexocomopodemosverenlaTabla1.
NUMERODESUJETOSMUJERES 453
HOMBRES 366
Tabla1:Divisiónporsexoentrelos819sujetosquehanrealizado4rs-fMRI
Estosconjuntosdesujetosestánrepartidosen4gruposdeedad.EnlaTabla2sepuedeobservarlacantidaddesujetosquehayenlosdiferentesgruposdeedadysexo:
INTERVALOSDEEDAD MUJERES HOMBRES
22-25 70 105
26-30 198 152
31-35 182 106
36+ 3 3
Tabla2:Apartirdelos819sujetosdivididosporsexosubdividimosporgruposdeedad
5.2 Organizacióndelosdatos
Como hemos comentado anteriormente, los sujetos seleccionados tienen 4 rs-fMRI.Estas 4 rs-fMRI están realizados durante 2 sesiones, en relación con la BBDD: las 2primerasrs-fMRIestánrealizadasenlaprimerasesión,y las2siguientesenlasesiónrestante.Cadaunadeellaseslacapturadelaactividadcerebral,enestadodereposo,durante15minutosaproximadamente.Dentrodecadasesión,alternaronladireccióndelacodificacióndedatos,queson:derecha-izquierda(RL)eizquierda-derecha(LR).
25
La relación comentada anteriormente, la división de las rs-fMRI en sesiones, se veplasmadaenladistribucióndelosdatosalahoradedescargarselosdatos,esdecir,lasrs-fMRIestánagrupadasenlassesiones,yestas,divididasendosgrandesbloques:
1.Elprimerbloquequecontienelasdosprimerasrs-fMRI,ocupa5216,93GB.
2.Lasegundo,conlassiguientesrs-fMRIcorrespondientes,ocupa4975,56GB
Lasumadelosbloquesdeinformaciónproducequeelvolumendedatosfacilitadoporel proyecto sea inmenso, en total 10192,49 GB, en otras magnitudes, 10TBaproximadamente.
Enlosdosbloques,losarchivosdeunsujetoenlaBBDDestánformadospor:
1.LacarpetaMNINonLinear/Results/,dóndeseencuentra:Lasdosrs-fMRIdelbloquecorrespondienteylosdatosdelpreprocesamiento.
2.release-notes/,queeseldirectoriodondeseencuentralaversión,lasnotasylalicenciadelosdatos.
3.EldirectorioT1W/Results,eseldirectoriodondeseencuentranlosescáneresestructuralesdecadasujeto.
Todalainformacióndeunsujetooscilaentrelos5,5GBylos7GBaproximadamente.Sinembargo,nospercatamosquelosarchivosquenecesitamosocupanmásomenos1GB,esdecir,quelasrs-fMRIdeunsujetopesa1GBaproximadamente.
26
6 Experimentosyresultados
6.1 Fasedeprueba
Paraempezar,procedemosaunafasedepruebasdonderealizaremoslaprimeratomadecontactoconlametodología(Group ICA+Regresióndual)yconla libreríaFSL.Seobservacomooscilandiferentesvalores–tamañodelosdatos,tiempodeejecucióndelos diferentes procesos, etcétera— para diferentes cantidades de sujetos, con lafinalidaddepodertenerunaaproximacióndetiempoparalapruebafinal.
Comosepuedeobservarenla
Tabla3, tenemos losdatosrecogidosentrespruebas.Enestatablapodemosvereltiempodeduraciónde losdosprocesos (Group ICAyRegresiónDual) juntoal total.Tambiéneltamañodelamatriz,unavezsehayarealizadoelGroupICA,yelnúmerodedimensionesdelsubespacio,queeselnúmeroderedesquehaencontrado,esdecir,elnúmerodecomponentes.Porúltimo,estimaremoseltamañodelconjuntodesujetosutilizadopararealizarGroupICA.
Enlas2primeraspruebas,lade4sujetosylade10sujetos,contienenunnúmerosimilarde RSNs. Estas RSNs se han podido observar que están formadas por datos muyruidosos.EselGroupICAde20sujetos,enlasqueestasRSNruidosasnoaparecen,quecontienealgoderuido.
NºDESUJETOS 4 10 20TAMAÑOINICIALDELOSDATOS
1200x227441
DIMENSIÓNSUBESPACIO
154 157 164
TAMAÑOFINALDELOSDATOS
616x227441 1570x227441 3280x227441
TIEMPOGICA 03:50 05:13 25:24TIEMPODR 00:15 00:38 15:44TIEMPOTOTAL 04:05 05:52 41:08
TAMAÑODATASET 3,93GB 9,27GB 18,45
Tabla3:contieneelnúmerodecomponentes(Dimensióndelsubespacio),eltamañofinaldelamatrizunavezrealizadoelGroup-ICA,eltiempoquetardaenralizarICAyDR,lasumadelostiemposanterioresyeltamañodeldatasetutilizadoparahacerGroupICA.
27
6.2 CorrelaciónentrelasRSNdelGroupICAylasRSNestándar
Enelapartado3.4sehaexplicadolaexistenciadelas20RSNestándares,enestasecciónmiraremosqueRSNsde la salidadelGroup ICAsonmásparecidasconestas20RSNestándar.Paraobtenerestacorrelacióntuvimosqueseguiresteprocedimiento:
1. Se tuvoque remodelar los2conjuntosdeRSNparaqueposeyeranelmismotamaño,yaquelasdosestabanformadaspordimensionesdiferente.
2. Todoseguidoutilizamoslainstrucciónfslcc,laexplicacióndelusoestáenlasección4.6.1
SepuedeobservarenlaTabla4las20correlacionesquehayentrelosdostiposdeRSNs:
Estándar GroupICA
Estándar GroupICA
Estándar GroupICA
Estándar GroupICA
1 8 6 12 11 1 16 28
2 11 7 25 12 37 17 30
3 3 8 10 13 21 18 24
4 2 9 17 14 13 19 6
5 46 10 55 15 23 20 27
Tabla4:Correlaciónentrelas20RSNsestándarylas164RNSdelGroupICA
6.3 Seleccióndelclasificador
Comosehaexplicadoanteriormente,enlasección4.3,utilizaremostresclasificadores.Todaslasexperienciasrealizadashansidotesteadasconlasmismasvariables,esdecir,hemosutilizadoelmismonúmerodesujetos,losmismossujetosylamismaestrategiaK-foldcross-validation.
En la Tabla 5, resumimos los resultados obtenido de las pruebas. Los índices de laprimera columna de la tabla son las RSN que hemos extraído del ICA y con máscorrelaciónconlasRSNBiswal.Observandolosresultados,nosdamoscuentadelamalaactuación de los clasificadores SVM con un kernel polinomial y RBL, así, que estosclasificadoressondescartados.TambiénpodemosverqueeselSVMconunkernellinealeselquemejorclasifica,porlotanto,escogemosesteparapruebasposteriores.
28
Tabla5:Precisiónobtenidadecadaclasificadorutilizadoconlas20RSNmáscorrelacionadasconBiswal.
6.4 Pruebadeclasificación
Unavezhemosseleccionadoelclasificadorqueutilizaremos(SVMlineal),realizaremosuna prueba considerando todas las componentes extraídas con ICA (164). TambiéncomprobaremossilacomponenteextraídaporICAqueobtienemásprecisiónesunadelas20RSNmáscorrelacionadasconlasRSNdeBiswal.Además,miraremossireduciendolaaltadimensióndelosdatos,conunPCA,afectaalaprecisióndelaclasificación,esdecir,silaaltadimensióndelasRSNtieneinfluenciaenlaseparacióndesexos.
Acontinuación,dividiremosestapruebaensub-pruebas:
1) 164componentessinPCA
2) 164componentesaplicandoPCA
3) 20 componentes, que han sido las que tienen mayor correlación con lascomponentesdeBiswal,sinPCA
4) 20 componentes, las que tienenmayor correlación comparando las redes deBiswal,aplicandoPCA
K-NN POLY LINEAL RBL1/NºF RBL0.58 0,52 0,42 0,63 0,47 0,4311 0,52 0,43 0,49 0,47 0,433 0,51 0,51 0,72 0,47 0,432 0,51 0,34 0,51 0,47 0,4346 0,49 0,51 0,58 0,47 0,4312 0,55 0,41 0,54 0,47 0,4325 0,49 0,47 0,61 0,47 0,4310 0,54 0,41 0,52 0,47 0,437 0,55 0,34 0,63 0,47 0,4355 0,50 0,33 0,53 0,47 0,431 0,59 0,32 0,60 0,47 0,4337 0,49 0,43 0,55 0,47 0,4321 0,52 0,32 0,52 0,47 0,4313 0,50 0,51 0,55 0,47 0,4323 0,49 0,43 0,55 0,47 0,4328 0,45 0,41 0,54 0,47 0,4330 0,54 0,32 0,51 0,47 0,4324 0,48 0,51 0,51 0,47 0,436 0,49 0,49 0,54 0,47 0,4327 0,47 0,47 0,49 0,47 0,43
MEDIA 0,51 0,41 0,55 0,47 0,43
29
Laspruebasseidentificaránporelnúmerodesujetosutilizados.Esteidentificadoreselnombre de sujetos empleados y se divide en 2 partes, ya que, se utiliza la mismacantidaddehombresquedemujeres.
Lastablasquesemuestran,acontinuación,contienenlamediadelosresultadosenlos10 K-Fold ordenadas de forma descendiente, es decir, creamos un ranking de lasmejoresmediasdeprecisión.Lastablashansidodivididasaamboslados:lasceldasdela izquierda son las queocupanunas posicionesmás elevadas en el ranking que lasceldasdeladerecha.
6.4.1 Pruebacon100sujetos
Enestapruebalamuestraempleadasedivideen50hombresy50mujeres.20de100sujetoshansidoutilizadospara laextraccióndecaracterísticascomunesdelprocesoGroup ICA. Como se puede ver en las Tablas 6 y 7, son los rankings de lasmejoresprecisionesobtenidasenlaprueba.
EnlaTabla6seobservalamayorprecisiónqueseobtiene,enlascomponentes,eselnúmero27conun0,683.
Lacomponentenúmero27fuecorrelacionadaconunaRSNestándarnúmero20(dichacorrelación se puede observar en la Tabla 4), obteniendo el mismo resultado deprecisiónenlaclasificaciónconlasRSN(Tabla7).
NºCOMPONENTE
NOPCA PCA NºCOMPONENTE
NOPCA PCA
27 0,683 0,683 32 0,545 0,5454 0,675 0,675 35 0,542 0,54240 0,66 0,66 29 0,54 0,549 0,62 0,62 7 0,539 0,53913 0,603 0,603 137 0,538 0,5382 0,6 0,6 139 0,532 0,53226 0,596 0,596 19 0,531 0,53120 0,592 0,592 38 0,527 0,52746 0,592 0,592 1 0,527 0,52739 0,591 0,591 107 0,524 0,52442 0,591 0,591 25 0,523 0,52318 0,589 0,589 121 0,521 0,52123 0,589 0,589 90 0,521 0,52176 0,58 0,58 44 0,52 0,5233 0,568 0,568 10 0,508 0,5088 0,564 0,564 12 0,507 0,50715 0,562 0,562 31 0,506 0,50614 0,558 0,558 79 0,506 0,506
30
NºCOMPONENTE NOPCA PCA Nº
COMPONENTE NOPCA PCA
27 0,683 0,683 10 0,508 0,50813 0,603 0,603 12 0,507 0,5072 0,6 0,6 21 0,502 0,50246 0,592 0,592 24 0,499 0,49923 0,589 0,589 28 0,484 0,4848 0,564 0,564 30 0,482 0,48217 0,549 0,55 3 0,471 0,4716 0,547 0,547 37 0,447 0,4471 0,527 0,527 11 0,428 0,42825 0,523 0,523 55 0,352 0,352
Tabla7:Rankingdelas20RSNsmáscorrelacionadasconlasRSNestándar
EnlaFigura14sepuedeobservarlacomponente27.EstacomponentedelasRSNdelGruopICAtambiénesseleccionadacomolaquemássecorrelaciónaconlacomponentenúmero20delas20RSN(Tabla4)ysepuedeversimilitudenlaFigura8.
Además,endichastablas,sepuedeobservarlaprecisiónobtenidaaplicandoPCAenelvectordecaracterísticas.Laprecisión,reduciendoelvectordecaracterísticasmedianteelusodePCA,nodifieredelaprecisióndelvectordecaracterísticassinserreducido.
Enestapartedelanálisishemosobtenidoprecisiones iguales.Apartirdeahora,nosfijaremosensusensibilidadyespecificidad,heaquísudefinición:
• La sensibilidadnos indica la capacidaddenuestro clasificadorparadar comocasospositivosloscasosrealmentenegativos.
• la especificidad nos indica la capacidad de nuestro estimador para dar comocasosnegativosloscasosrealmentepositivos.
Ennuestrocasoestasdefinicionessepuedenajustarcomo:
111 0,557 0,557 96 0,505 0,50550 0,556 0,556 104 0,503 0,50317 0,549 0,55 21 0,502 0,5025 0,548 0,548 62 0,502 0,502
Tabla6:Rankingdelas164componentesquehanobtenidounaprecisiónmayora0.5
31
• Lasensibilidadnosindicarálacapacidaddenuestroclasificadorparadarcasosquesonhombresencasosquesonmujeres.
• Laespecificidadnosindicarálacapacidaddenuestroestimadorparadarcasosquesonmujeresloscasosquesonhombres
En la Tabla 8 se puede observar la sensibilidad y la especificidad obtenidos delclasificador para la RSN número 27. Podemos concluir de esta tabla que nuestroclasificadortiendeacatalogarcomomujerloscasosquesonhombres.
164COMPOENTES20RSNMÁS
CORRELACIONADAS NOPCA PCA NOPCA PCA
SENSIBILIDAD 0,576 0,576 0,576 0,576ESPECIFICIDAD 0,436 0,436 0,436 0,436
Tabla8:SensibilidadyEspecificidaddelclasificadorenlacomponente27.
33
7 Conclusiones
Aliniciodeestetrabajo,lasexpectativasalbergabanlaposibilidaddeencontraralgunao algunas RSN/s que pudieran discriminar ambos sexos. Esas expectativas se hancumplido, ya que se ha logrado alcanzar este objetivo utilizando técnicas queactualmente están en funcionamiento. En este apartado, se detallará qué objetivoshemosllevadoacaboconéxito,ycuálespuedensermejorados.
7.1 Objetivosrealizados
Enelmarcodelaextraccióndecaracterísticascomunesyespecíficasdesujeto,sehalogradoentendertodalabasedelamateriaquesustentaelFSLsoftware.Sudificultadnohasidoningúnimpedimentoalahoraderealizaresteproyecto.
En cuantoa la implementación, seha intentadoelaboraruncódigo limpioy fácildeentender, asimismo, que hiciera la función de clasificar. En este sentido, estacodificacióndiáfanaposeelafinalidaddequeotrosinvestigadorespuedanusarloy/omejorarlo.
Losresultadosobtenidossonbastanteprometedores.HemosencontradounaRSNqueclasifica lossujetosdediferentesexoenbaseanuestrosdatosconunaprecisiónde0,683.
7.2 Mejorasposibles
UnadelasmejorasmásimportantesquesedeberealizaresunGroupICAconungrannúmero de sujeto. Se ha intentado aplicar un Group ICA con 50 sujetos, pero losrequisitosqueserequeríannoeransatisfechos,yaqueestatareaesalgocomplicadaysenecesitaunordenadorconaltasprestacionesparapoderrealizarlaconéxito.
OtramejoraposibleesprobarestametodologíaenlosdiferentesgruposdeedadesparaobtenersiestaRSNdiscriminativaobtenidasemantienealolargodelosrangosdeedad,oencasocontrario,laRSNvacambiandosegúnelrangodeedad.
Tambiénquedapendientediscutirlosresultadosconneuropsicólogosyhaceralgúntestestadísticoparaversielresultadoesestadísticamentesignificativo.
34
8 Referencias
[1] [Online].Disponible:https://www.coursera.org/course/fmri1
[2][Online].Disponible:https://www.coursera.org/course/fmri2
[3]
V.D.Calhoun,J.Lui,andT.Adali,“AreviewofgroupicaforfMRIdataandICAforjointinferenceofimaging,genetic,andERPdata”,NeuroImage,vol.45,no.1,ppS163-S1972,2009
[4] Groupcomparisonofresting-stateFMRIdatausingmulti-subjectICAanddualregression,2009
[5] B.B.Biswal,M.Mennes,X.-N.Zuo,S.Gohel,C.Kelly,S.M.Smith,C.F.Beckman,J.S.Adelstein,R.L.Buckner,S.Colcombeetal.¡., “Towarddiscoverscienceofhumanbrainfunction”,ProceedingsoftheNationalAcademyofScience,vol.107,no.10,pp4734-4739,2010
[6] [Online].Disponible:http://fsl.fmrib.ox.ac.uk/fsl/fslwiki/FSL
[7] [Online].Disponible:http://fsl.fmrib.ox.ac.uk/fsl/fslwiki/DualRegression
[8] [Online].Disponible:http://fsl.fmrib.ox.ac.uk/fsl/fslwiki/MELODIC
[9] [Online].Disponible:http://users.fmrib.ox.ac.uk/~stuart/thesis/chapter_3/section3_3.html
[10]
[Online].Disponible:http://scikit-learn.org/stable/index.html
[11] [Online].DIsponible:http://www-bcf.usc.edu/~gareth/ISL/ISLR%20First%20Printing.pdf