inteligenciaartificial (1)

1

CAPTULO 1. INTRODUCCIN 1.1 INTRODUCCIN Tiempo atrs se pensaba que algunos problemas como la demostracin de teoremas, el reconocimiento de la voz y el de patrones, ciertos juegos (como el ajedrez o las damas), y sistemas altamente complejos de tipo determinista o estocstico, deban ser resueltos por personas, dado que su formulacin y resolucin requieren ciertas habilidades que slo se encuentran en los seres humanos (por ejemplo, la habilidad de pensar, observar, memorizar, aprender, ver, oler, etc.). Sin embargo, trabajos realizados por investigadores procedentes de varios campos, demostraron que muchos de estos problemas pueden ser formulados y resueltos por maquinas. El amplio campo que trata estos problemas se conoce como inteligencia artificial (IA), que en un principio parecan imposibles, intratables y difciles de formular utilizando ordenadores. A. Barr y E. A. Feigenbaum, dos de los pioneros de la investigacin en IA, expresan la siguiente definicin: La Inteligencia Artificial es la parte de la Ciencia que se ocupa del diseo de sistemas de computacin inteligentes, es decir, sistemas que exhiben las caractersticas que asociamos a la inteligencia en el comportamiento humano que se refiere a la comprensin del lenguaje, el aprendizaje, el razonamiento, la resolucin de problemas, etc. Hoy en da, el campo de la IA engloba varias subareas tales como los sistemas expertos, la demostracin automtica de teoremas, el juego automtico, el reconocimiento de la voz y de patrones, el procesamiento del lenguaje natural, la visin artificial, la robtica, las redes neuronales, etc. El presente trabajo est dedicado a los sistemas expertos. Aunque los sistemas expertos constituyen una de las reas de investigacin en el campo de la IA, la mayor parte de las restantes reas, si no todas, disponen de una componente de sistemas expertos formando parte de ellas.

2

1.2 SISTEMAS EXPERTOS: DEFINICIN Segn Stevens (1984): Los sistemas expertos son mquinas que piensan y razonan como un experto lo hara en una cierta especialidad o campo. Un sistema experto de verdad no slo realiza funciones tradicionales de manejar grandes cantidades de datos, sino que tambin manipula esos datos de forma tal que el resultado sea inteligible y tenga significado para responder a preguntas incluso no completamente especificadas. A partir de sta surgieron definiciones de otros autores como Castillo y lvarez (1991) y Durkin (1994) que pueden resumirse de la siguiente manera: Un sistema experto es un sistema informtico (software y hardware) que simula a los expertos humanos en un rea de especializacin dada. Un sistema experto debera ser capaz de procesar y memorizar informacin, aprender y razonar en situaciones deterministas e inciertas, comunicar con los hombres y/u otros sistemas expertos, tomar decisiones apropiadas y explicar porqu se han tomado tales decisiones. Adems, se puede pensar en un sistema experto como un consultor que puede suministrar ayuda a los expertos humanos con un grado razonable de fiabilidad. En la figura 1.1 se pueden ver los campos dominantes entre aquellos en los que se utilizan sistemas expertos.

1.3 EJEMPLOS DE APLICACIN DE SISTEMAS EXPERTOS

A) Transacciones bancarias: Anteriormente para realizar una transaccin bancaria (depositar o extraer dinero de una cuenta) haba que visitar el banco en horas de oficina. Hoy en da, estas y otras transacciones pueden realizarse en cualquier horario utilizando los cajeros automticos o comunicndose a travs de la lnea telefnica.

B) Control de trfico: Tiempo atrs el flujo de trfico en las calles se controlaba por guardias de trfico. Hoy se utilizan sistemas expertos que operan automticamente los semforos y regulan el flujo del trfico en las calles de una ciudad.

3

C) Problemas de planificacin: En este aspecto se pueden utilizar sistemas expertos para la asignacin y la organizacin de aulas en una gran universidad.

D) Diagnstico mdico: En este campo se requeriran como datos los sntomas del paciente, los resultados de anlisis clnicos y otros hechos relevantes; utilizando estos buscara en una base de datos la informacin necesaria para poder identificar la correspondiente enfermedad.

1.4 POR QU LOS SISTEMAS EXPERTOS? El desarrollo o adquisicin de un sistema experto es generalmente caro, pero el mantenimiento y el coste marginal de su uso repetido es relativamente bajo. Pero la ganancia en trminos monetarios, tiempo y precisin resultantes del uso de los sistemas expertos son muy altas y la amortizacin en muy rpida. Debido a esto antes de desarrollar o adquirir un sistema experto debe realizarse un anlisis de factibilidad y de coste-beneficio. Ventajas al utilizar Sistemas Expertos:

a) Con la ayuda de un sistema experto, personal con poca experiencia puede resolver problemas que requieren un conocimiento de experto.

b) El conocimiento de varios expertos humanos puede combinarse, lo que da lugar a sistemas expertos ms fiables.

c) Los sistemas expertos pueden responder a preguntas y resolver problemas mucho ms rpidamente que un experto humano.

d) Los sistemas expertos pueden suministrar respuestas rpidas y fiables en situaciones en las que los expertos humanos no pueden.

e) Los sistemas expertos pueden ser utilizados para realizar operaciones montonas, aburridas e inconfortables para los humanos (por ejemplo un avin o una cpsula espacial dirigida por un sistema experto).

f) Se pueden obtener enormes ahorros mediante el uso de sistemas expertos. El uso de los sistemas expertos es recomendado cuando: El conocimiento es difcil de adquirir o se basa en reglas que slo pueden ser

aprendidas de la experiencia. La mejora continua del conocimiento es esencial y / o cuando el problema est

sujeto a reglas o cdigos cambiantes. Los expertos humanos son caros o difciles de encontrar. El conocimiento de los usuarios sobre el tema es limitado.

4

1.5 TIPOS DE SISTEMAS EXPERTOS Segn la Naturaleza del Problema Este trabajo se basar en los sistemas expertos probabilsticos.

Deterministas: Son formulados usando un conjunto de reglas que relacionan varios objetos bien definidos. Se los conoce como: Sistemas basados en reglas porque obtienen conclusiones basndose en un conjunto de reglas utilizando un mecanismo de razonamiento lgico. Por ejemplo las transacciones bancarias y el control del trfico.

Estocsticos: Se introducen algunos medios para tratar la incertidumbre en situaciones inciertas. En este aspecto, algunos sistemas expertos usan la estructura de los sistemas basados en reglas pero introducen una medida asociada a la incertidumbre de las reglas y a la de sus premisas. Una medida de la incertidumbre es la probabilidad en la que la distribucin conjunta de un conjunto de variables se utiliza para describir las relaciones de dependencia entre ellas. A estos sistemas se los conocen como sistemas expertos probabilsticos y la estrategia de razonamiento se conoce como razonamiento probabilstico o inferencia probabilstica.

5

1.6 COMPONENTES DE UN SISTEMA EXPERTO

Figura 1.2 Componentes tpicos de un sistema experto. Las flechas representan el flujo de la informacin.

1.6.1 La Componente Humana: Un sistema experto resulta de la colaboracin de uno o varios expertos humanos especialistas en el tema de estudio y los ingenieros del conocimiento con los usuarios en mente. Los expertos humanos suministran el conocimiento bsico en el tema de inters, y los ingenieros del conocimiento lo trasladan a un lenguaje que el sistema experto pueda comprender. La colaboracin de stos es el elemento ms importante en el desarrollo de un sistema experto. 1.6.2 La Base del Conocimiento: Los especialistas deben brindar a los ingenieros del conocimiento una base de conocimiento ordenada y estructurada, y un conjunto de relaciones bien definidas y explicadas.

6

Hay que diferenciar entre dato y conocimiento. El conocimiento se refiere a afirmaciones de validez general tales como reglas, distribuciones de probabilidad, etc. Los datos se refieren a la informacin relacionada con una aplicacin particular, por ejemplo en diagnstico mdico, los sntomas, enfermedades y las relaciones entre ellos forman parte del conocimiento, mientras los sntomas particulares de un paciente dado forman parte de los datos. Mientras el conocimiento es permanente, los datos son efmeros es decir, no forman parte de la componente permanente de un sistema y son destruidos despus de usarlos. El conocimiento se almacena en la base de conocimiento y los datos en la memoria de trabajo. 1.6.3 Subsistemas de Adquisicin de Conocimiento: Controla el flujo del nuevo conocimiento que fluye del experto humano a la base de datos. El sistema determina qu nuevo conocimiento se necesita o si el conocimiento recibido es en realidad nuevo. 1.6.4 Control de la Coherencia: Este subsistema controla la consistencia de la base de datos y evita que unidades de conocimiento inconsistentes entren en la misma. Sin este subsistema, unidades de conocimientos contradictorios pueden formar parte de la base de conocimiento, dando lugar a un comportamiento insatisfactorio en el sistema, por ejemplo: en sistemas con mecanismos de propagacin de incertidumbre es comn llegar a conclusiones absurdas o en conflicto cuando el sistema genera probabilidades mayores a la unidad o negativas. 1.6.5 El Motor de Inferencia: Es le corazn de todo sistema experto. El objetivo principal es el de sacar conclusiones aplicando el conocimiento a los datos. Estas conclusiones pueden estar basadas en conocimientos deterministas o probabilsticos. El tratamiento de situaciones de incertidumbre (probabilsticos) puede ser considerablemente ms difcil que el tratamiento de situaciones ciertas (deterministas). En los sistemas expertos basados en probabilidad, la propagacin de incertidumbre es la tarea principal del motor de inferencia que permite sacar conclusiones bajo incertidumbre, esto hace que el motor de inferencia sea la componente ms dbil de casi todos los sistemas expertos. 1.6.6 El Subsistema de Adquisicin del Conocimiento: Es utilizado por el motor de inferencia cuando el conocimiento inicial es muy limitado y no se pueden sacar conclusiones, este obtiene el conocimiento necesario y contina con el proceso de inferencia hasta que se hayan sacado conclusiones. El usuario puede suministrar la informacin requerida para ste y otros objetivos, para esto es necesario una Interfase de Usuario y una comprobacin de consistencia de informacin suministrada por el usuario antes de introducirla en la memoria de trabajo. 1.6.7 Interfase de Usuario: Es el enlace entre el sistema experto y el usuario. Para que un sistema experto sea una herramienta efectiva debe incorporar mecanismos eficientes para mostrar y obtener informacin fcil y agradable, por ejemplo: luego del trabajo del motor de inferencia la informacin que se tiene que visualizar es el de las conclusiones, razones de las mismas y una explicacin de las acciones iniciadas. Cuando el motor de inferencia no puede concluir debido a la ausencia de informacin, la interfase de usuario es el vehculo para obtener la informacin necesaria. Una implementacin inadecuada de la interfase de usuario disminuir la calidad de un sistema experto.

7

1.6.8 El Subsistema de Ejecucin de Ordenes: Es la componente que permite al sistema experto iniciar acciones que estn basadas en las conclusiones sacadas por el motor de inferencia, por ejemplo: un sistema experto que analiza el trfico ferroviario puede decidir retrasar o parar ciertos trenes para optimizar el trfico global. Las explicaciones de estas razones pueden darse al usuario a travs del Subsistema de Explicacin. 1.6.9 El Subsistema de Explicacin: Es el subsistema que explica el proceso seguido por el motor de inferencia o por el subsistema de ejecucin, por ejemplo: si un cajero automtico rechaza una palabra clave (una accin) la mquina puede mostrar un mensaje (una explicacin) como la siguiente: retenemos su tarjeta de crdito para garantizar su seguridad. En muchos casos, la explicacin es necesaria debido a los riesgos asociados con la accin a ejecutar, por ejemplo en el campo del diagnstico mdico. 1.6.10 El Subsistema de Aprendizaje: Diferenciamos entre Aprendizaje Estructural y Aprendizaje Paramtrico. Aprendizaje Estructural: Se refiere a algunos aspectos relacionados con la estructura del conocimiento (reglas, distribuciones de probabilidad, etc.). Por ejemplo: el descubrimiento de nuevos sntomas para una enfermedad o la inclusin de una nueva regla en la base de conocimiento. Aprendizaje Paramtrico: Se refiere a estimar los parmetros necesarios para construir la base de conocimiento, por ejemplo la estimacin de frecuencias o probabilidades asociadas a sntomas o enfermedades. De las componentes antes mencionadas se puede ver que los Sistemas Expertos realizan varias tareas. Estas incluyen, pero no se limitan a las siguientes: Adquisicin de conocimiento y verificacin de su coherencia. Almacenar (memorizar) conocimientos. Preguntar cundo se requieren nuevos conocimientos. Aprender de la base de conocimiento y de los datos disponibles. Realizar inferencia y razonamiento en situaciones deterministas y de incertidumbre. Explicar conclusiones y acciones tomadas. Comunicar con los expertos y no expertos humanos y con otros Sistemas Expertos.

1.7 DESARROLLO DE UN SISTEMA EXPERTO Etapas en el desarrollo de un Sistema Experto:

8

1.3

1) Planteamiento del problema: Se trata de la definicin del problema a

resolver, es la etapa ms importante para el desarrollo de un sistema experto. 2) Encontrar expertos humanos que puedan resolver el problema: En algunos

casos, las bases de datos pueden jugar el papel del experto humano. 3) Diseo de un Sistema Experto: Esta etapa incluye el diseo de estructuras

para almacenar el conocimiento, el motor de inferencia, el subsistema de explicacin, la interfase de usuario, etc.

4) Eleccin de la herramienta de desarrollo o lenguaje de programacin: Debe decidirse si realizar un sistema experto a medida o utilizar una herramienta o un lenguaje de programacin.

5) Desarrollo y prueba de un prototipo: Si el prototipo no pasa las pruebas requeridas, las pruebas anteriores (con las modificaciones apropiadas) deben ser repetidas hasta obtener un prototipo satisfactorio.

6) Refinamiento y generalizacin: En esta etapa se corrigen los fallos y se incluyen nuevas posibilidades no incorporadas en el diseo inicial.

7) Mantenimiento y puesta al da: En esta etapa el usuario plantea problemas o defectos del prototipo, corrige errores, actualiza el producto con nuevos avances, etc.

9

1.8 OTRAS REAS DE LA INTELIGENCIA ART IFICIAL 1.8.1 Representacin del conocimiento: Se refiere a los mecanismos para representar y manipular esta informacin. Los esquemas de representacin resultantes deben permitir una bsqueda o una operacin eficiente de los mecanismos de inferencia. 1.8.2 Reconocimiento de patrones: Trata de diferentes tcnicas de clasificacin para identificar los subgrupos o conglomerados con caractersticas comunes en cada grupo. El grado de asociacin de cualquiera de los objetos con cada uno de los grupos suministra un modo de sacar conclusiones. 1.8.3 Reconocimiento de la voz: Trata del problema de procesar el lenguaje hablado y capturar los diferentes elementos semnticos que forman la conversacin. 1.8.4 Procesamiento del lenguaje natural: Un objetivo consiste en extraer tanta informacin como sea posible de un texto escrito. 1.8.5 Planificacin: Los mtodos de planificacin analizan diferentes estrategias para descomponer un problema dado, resolver cada una de sus partes, y llegar a una solucin final. La interaccin entre las partes depender del grado de descomponibilidad del problema. 1.8.6 Demostracin automtica de teoremas: Esta tarea puede ser realizada por maquinas programables. stas son capaces no slo de modificar el conocimiento existente, sino tambin de obtener conclusiones nuevas. 1.8.7 Juegos automatizados: Constituyen un ejemplo de una de las ms antiguas y fascinantes reas de la Inteligencia Artificial. El juego automtico requiere un estudio terico profundo y tiene varias aplicaciones en otras reas tales como: mtodos de bsqueda, optimizaciones, etc. 1.8.8 Visin artificial: Uno de sus objetivos es la posibilidad de usar ordenadores para localizar y reconocer automticamente objetos en tres dimensiones. 1.8.9 Robtica: Es una de las reas ms populares. Los robots combinan elementos mecnicos, sensores y ordenadores que les permiten tratar con objetos reales y realizar muchas tareas de forma precisa, rpida y cmoda. 1.8.10 Redes Neuronales: Se crearon con el objetivo de reproducir de forma bsica las funciones elementales del cerebro humano. Las arquitecturas en red con un gran nmero de conexiones entre varias capas de procesadores fueron introducidas para reproducir la estructura del cerebro humano. La informacin contenida en una red neuronal se codifica en la estructura de la red y en los pesos de las conexiones.

10

CAPTULO 2 : SISTEMAS BASADOS EN REGLAS

2.1 INTRODUCCIN Los Sistemas Basados en Reglas son una herramienta eficiente para tratar muchas situaciones complejas gobernadas por reglas deterministas, sistemas de control de trfico, sistemas de seguridad, transacciones bancarias, etc. Las reglas deterministas constituyen la ms sencilla de las metodologas utilizadas en Sistemas Expertos. La base de conocimiento contiene el conjunto de reglas que definen el problema y el motor de inferencia saca las conclusiones aplicando la lgica clsica a estas reglas. 2.2 LA BASE DE CONOCIMIENTO En los Sistemas basados en reglas intervienen dos elementos importantes: Los datos: Estn formado por la evidencia o los hechos conocidos en una situacin

particular. Este elemento es dinmico, es decir, puede cambiar de una aplicacin a otra, por lo tanto no es de naturaleza permanente y se almacena en la memoria de trabajo. En situaciones deterministas, las relaciones entre un conjunto de objetos pueden ser representadas mediante un conjunto de reglas.

El conocimiento: Se almacena en la base de conocimiento y consiste en un conjunto de objetos y un conjunto de reglas que gobierna las relaciones entre esos objetos. La informacin almacenada en la base de conocimiento es permanente y esttica, es decir, no cambia de una aplicacin a otra, a menos que se incorporen al sistema experto elementos de aprendizaje.

Ejemplos de reglas: Regla 1: si nota > 9, entonces calificacin = sobresaliente. Regla 2: si puesto < 20 o nota > 7 , entonces admitir = si y notificar = si. Cada una de estas reglas relacionan dos o ms objetos y estn formadas por las siguientes partes:

11

La PREMISA: Es la expresin lgica entre las palabra clave si y entonces. La premisa puede contener una o ms afirmaciones objeto - valor conectados con operadores lgicos y, o, o no.

La CONCLUSIN: Es la operacin lgica tras la palabra clave entonces. DEFINICIN :

Una regla es una afirmacin lgica que relaciona dos o ms objetos e incluye dos partes, la premisa y la conclusin. Cada una de estas partes consiste en una expresin lgica con una o ms afirmaciones objeto-valor conectadas mediante los operadores lgicos y, o, o no.

Una regla se escribe como: si premisa, entonces conclusin. Una expresin lgica que contiene slo una afirmacin objeto-valor se denomina Expresin Lgica Simple, tal es el caso de la regla 1 dada anteriormente como ejemplo; en caso contrario, la expresin se denomina Expresin Lgica Compuesta, por ejemplo la regla 2. Una regla que contiene solamente expresiones lgicas simples se denomina una Regla Simple (ejemplo regla 1) en otro caso, se llama Regla Compuesta (ejemplo regla 2). Ejemplo: Cajero Automtico: Se considera una situacin en la que un usuario desea sacar dinero de su cuenta corriente mediante un cajero automtico (CA). En cuanto el usuario introduce la tarjeta en el CA, la mquina la lee y la verifica. Si la tarjeta no es verificada con xito, el CA devuelve la tarjeta al usuario con el mensaje de error. En otro caso, el CA pide al usuario su nmero de identificacin personal (NIP). Si el nmero fuese incorrecto se dan tres oportunidades de corregirlo. Si el NIP es correcto, el CA pregunta al usuario cunto dinero desea sacar. Para que el pago se autorice, la cantidad solicitada no debe exceder de una cierta cantidad lmite diaria, adems de haber dinero suficiente en su cuenta. En la tabla siguiente se muestran los siete objetos con sus posibles valores:

12

En la siguiente figura se muestran las siete reglas que gobiernan la estrategia que el CA debe seguir cuando un usuario desea sacar dinero de su cuenta:

2.3 EL MOTOR DE INFERENCIA El motor de inferencia usa los datos del conocimiento para obtener nuevas conclusiones o hechos. Los datos iniciales se incrementan incorporando las nuevas conclusiones. Por ello, tanto los hechos iniciales o datos de partida como sus conclusiones forman parte de los hechos o datos de que se dispone en un instante dado. Las conclusiones pueden clasificarse en dos tipos: Las conclusiones simples son las que resultan de una regla simple; las conclusiones compuestas son las que resultan de ms de una regla. Para obtener conclusiones se utilizan diferentes tipos de reglas y estrategias de inferencia y control. Reglas de Inferencia:

Modus Ponens. Modus Tollens.

13

Resolucin. Estrategias de Inferencia:

Encadenamiento de Reglas. Encadenamiento de Reglas orientado a un objetivo. Compilacin de Reglas.

2.3.1 Modus Ponens y Modus Tollens La Modus Ponens se utiliza para obtener conclusiones simples. En ella se examina la premisa de la regla, y si es cierta, la conclusin pasa a formar parte del conocimiento. Suponiendo que se tiene la regla, si A es cierto, entonces B es cierto y se sabe que A es cierto entonces la regla Modus Ponens concluye que B es cierto.

2.2.

La regla de inferencia Modus Tollens tambin se utiliza para obtener conclusiones simples. En ella se examina la conclusin y si es falsa, se concluye que la premisa tambin es falsa. Por ejemplo, suponiendo la regla siguiente: si A es cierto, entonces B es cierto; pero se sabe que B es falso entonces usando la regla Modus Ponens no se obtiene ninguna conclusin, pero utilizando la regla Modus Tollens se concluye que A es falso.

2.3

14

La regla Modus Ponens necesita informacin de los objetos de la premisa para concluir, mientras que la regla Modus Tollens necesita informacin sobre los objetos de la conclusin. Ejemplo: La regla Modus Tollens equivale a una expansin de la base de conocimiento: Supngase que la base de conocimiento consiste slo en la regla 1 (figura 2.4). Se puede utilizar la regla de inferencia Modus Tollens para invertir la regla 1 y obtener alguna conclusin cuando se tiene informacin sobre los objetos de su conclusin. Aplicar la regla Modus Tollens a la regla si A , entonces B es equivalente a aplicar la regla Modus Ponens a la regla En este caso, la regla 1, utilizando la equivalencia:

se obtiene la regla 1b (figura 2.5).

2.4

2.5

2.3.2 Mecanismos de Resolucin Las conclusiones compuestas, que se basan en dos o ms reglas se obtienen usando el llamado Mecanismo de Resolucin. Esta regla de inferencia consiste en las siguientes etapas:

15

1. Las reglas son sustituidas por expresiones lgicas equivalentes. 2. Estas expresiones lgicas se combinan con la otra expresin lgica. 3. Esta ltima expresin se utiliza para obtener la conclusin.

Estas etapas involucran conceptos tales como la combinacin y simplificacin de expresiones lgicas como se ver en siguiente ejemplo. Ejemplo de Mecanismo de Resolucin: Considrese el ejemplo del cajero automtico (CA) con el objeto aadido explicar , que puede tomar los valores {si, no}, indicando si se necesita explicar las acciones del CA. Aplicamos el mecanismo de resolucin a la evidencia NIP = incorrecto y a las siguientes reglas :

Si NIP = incorrecto, entonces pago = no autorizado. Si pago = no autorizado, entonces explicar = si.

Tal como muestra la figura 2.6, la regla de inferencia correspondiente al mecanismo de resolucin conduce a la conclusin explicar = si. Siguiendo los pasos indicados se tiene:

1) Las dos reglas se sustituyen por las expresiones equivalentes: NIP = correcto o pago = no autorizado. Pago = autorizado o explicar = si.

2) Las dos expresiones anteriores se combinan de la forma indicada para dar la expresin NIP = correcto o explicar = si, y

3) Esta ltima expresin se combina con la evidencia NIP = incorrecto y se obtiene la conclusin compuesta, explicar = si.

2.6

Es importante sealar que la regla de inferencia correspondiente al mecanismo de resolucin no siempre conduce a conclusiones, porque puede no conocerse la verdad o

16

falsedad de ciertas expresiones. Si esto ocurre, el sistema experto, o ms precisamente, su motor de inferencia, debe decidir entre:

Abandonar la regla, dada la imposibilidad de obtener conclusiones, o Preguntar al usuario, mediante el subsistema de demanda de informacin, sobre la

verdad o falsedad de una o varias expresiones para poder continuar el proceso de inferencia hasta que se obtenga una conclusin.

2.3.3 Encadenamiento de Reglas Se utiliza para obtener conclusiones compuestas. Se puede usar cuando las premisas de ciertas reglas coinciden con las conclusiones de otras. Cuando se encadenan las reglas, los hechos pueden utilizarse para dar lugar a nuevos hechos. Esto se repite sucesivamente hasta que no puedan obtenerse ms conclusiones. Algoritmo de Encadenamiento de reglas:

Datos: Una base de conocimiento (objetos y reglas) y algunos hechos iniciales. Resultado: El conjunto de hechos derivados lgicamente de ellos.

1. Asignar a los objetos sus valores conocidos tales como lo dan los hechos conocidos

o la evidencia. 2. Ejecutar cada regla de la base de conocimiento y concluir nuevos hechos si es

posible. 3. Repetir la etapa dos hasta que no puedan ser obtenidos nuevos hechos.

Ejemplo: Encadenamiento de Reglas: La figura 2.7 muestra un ejemplo de 6 reglas que relacionan 13 objetos (de la A hasta la M). La figura 2.8 muestra relaciones entre los objetos, donde cada uno de ellos es representado por un nodo. Las aristas representan la conexin entre los objetos de la premisa de la regla y el objeto de la conclusin. Supngase que se sabe que los objetos A, B ,D ,E, F , H e I son ciertos y los restantes de valores desconocidos representados en la figura 2.9. En este caso, el algoritmo de encadenamiento de regla procede de la siguiente manera:

La regla 1 concluye que C = cierto. La regla 2 concluye que G = cierto. La regla 3 concluye que J = cierto. La regla 4 concluye que K = cierto. La regla 5 concluye que L = cierto. La regla 6 concluye que M = cierto.

Puesto que no pueden obtenerse ms conclusiones el proceso se detiene.

17

2.7

2.8

2.7.

18

2.9

2.3.4 Encadenamiento de Reglas Orientado a un Objetivo Este requiere del usuario seleccionar, en primer lugar, una variable o nodo objetivo; entonces el algoritmo navega a travs de las reglas en bsqueda de una conclusin para el nodo objetivo. Si no se obtiene ninguna conclusin con la informacin existente, el algoritmo fuerza a preguntar al usuario en busca de nueva informacin sobre los elementos que son relevantes para obtener informacin sobre el objetivo. Algoritmo de encadenamiento de reglas orientado a un objetivo:

Datos: Una base de conocimiento (objetos y reglas), algunos hechos iniciales y un nodo o variable objetivo.

Resultado: El valor del nodo o variable objetivo.

1) Asigna a los objetos sus valores conocidos tales como estn dados en los hechos de partida, si es que existe alguno. Marcar todos los objetos cuyo valor ha sido asignado. Si el nodo objetivo est marcado pasar a la etapa siguiente; en otro caso:

a) Designar como objetivo inicial el objetivo en curso. b) Marcar el objetivo en curso. c) Sea ObjetivosPrevios = vaco. d) Designar todas las reglas como activas (ejecutables). e) Ir a la etapa 2.

19

2) Encontrar una regla activa que incluya el objetivo en curso y ninguno de los objetivos en ObjetivosPrevios. Si se encuentra una regla ir a la etapa 3; en otro caso ir a la etapa 5.

3) Ejecutar la regla referente al objetivo en curso. Si concluye, asignar el valor concluido al objetivo en curso, e ir a la etapa 6; en otro caso ir a la etapa 4.

4) Si todos los objetos de la regla estn marcados, declarar la regla como inactiva e ir a la etapa 2; en otro caso:

a) Aadir el objetivo en curso a ObjetivosPrevios. b) Designar uno de los objetos no marcados en la regla como el objetivo en

curso. c) Marcar el objetivo en curso. d) Ir a la etapa 2

5) Si el objetivo en curso es el mismo que el objetivo inicial, ir a la etapa 7; en otro caso, preguntar al usuario por el valor del objetivo en curso. Si no se da un valor, ir a la etapa 6; en otro caso asignar al objeto el valor dado e ir a la etapa 6.

6) Si el objetivo en curso es el mismo que el objetivo inicial, ir a la etapa 7; en otro caso, designar el objetivo previo como objetivo en curso, eliminarlo de ObjetivosPrevios, e ir a la etapa 2.

7) Devolver el valor del objetivo en curso si es conocido. 2.3.5 Compilacin de Reglas Consiste en comenzar con un conjunto de datos (informacin) y tratar de alcanzar algunos objetivos. Cuando ambos, datos y objetos, se han determinado previamente, las reglas pueden ser compiladas, es decir, pueden describirse los objetivos en funcin de los datos para obtener las llamadas Ecuaciones Objetivos. Ejemplo: Considrese el conjunto de seis reglas de la figura 2.8 y supngase que son conocidos los valores de los objetos A, B, D, E, F, H e I y que los restantes C, G, J, K, L, M son objetivos. Denotemos por ^ el operador lgico Y entonces, utilizando las seis reglas, pueden obtenerse las siguientes ecuaciones objetivos:

La regla 1 implica C = A ^ B. La regla 2 implica G = D ^ E ^ F. La regla 3 implica J = H ^ I. La regla 4 implica K = C ^ G = (A ^ B) ^ (D ^ E ^ F). La regla 5 implica L = G ^ J = (D ^ E ^ F) ^ (H ^ I). La regla 6 implica M = K ^ L = A ^ B ^ D ^ E ^ F ^ H ^ I.

Las tres primeras ecuaciones son equivalentes a las tres primeras reglas. Las tres ecuaciones objetivos son respectivamente equivalentes a las reglas siguientes:

Regla 4a: si A y B y D y E y F, entonces K. Regla 5a: si D y E y F y H e I, entonces L. Regla 6a: si A y B y D y E y F y H e I, entonces M.

20

Entonces, si por ejemplo, cada uno de los objetos {A, B, D, E, F, H, I} toma el valor cierto, entonces se obtiene de forma inmediata, a partir de las reglas 4a, 5a, 6a, que los objetos {K, L, M} deben ser ciertos. 2.4 CONTROL DE COHERENCIA Es importante controlar la coherencia del conocimiento tanto durante la construccin de la base de conocimiento como durante los procesos de adquisicin de datos y razonamiento. Si la base de conocimiento contiene informacin inconsistente (por ejemplo, reglas y/o hechos), es muy importante que el Sistema Experto se comporte insatisfactoriamente y obtenga conclusiones absurdas. El objetivo del Control de Coherencia consiste en:

1) Ayudar al usuario a no dar hechos inconsistentes, por ejemplo dndole las restricciones que debe satisfacer la informacin demandada.

2) Evitar que entre en la base de conocimiento cualquier tipo de conocimiento inconsistente o contradictorio.

El control de la coherencia debe hacerse controlando la coherencia de las reglas y la de los hechos. 2.4.1 Coherencia de Reglas Definicin :

un conjunto de reglas se denomina coherente si existe, al menos, un conjunto de valores de todos los objetos que producen conclusiones no contradictorias.

Ejemplo : Conjunto de reglas incoherentes: Considrense las cuatro reglas siguientes, que relacionan dos objetos A y B binarios {C, F}: . Regla 1: Si A = C, entonces B = C. . Regla 2: Si A = C, entonces B = F. . Regla 3: Si A = F, entonces B = C. . Regla 4: Si A = F, entonces B = F. Entonces, pueden obtenerse las siguientes conclusiones: 1. Las Reglas 1 - 2 son coherentes puesto que, tal como se muestra en la Tabla 2.3, para A = F, no producen conclusiones. 2. Las Reglas 1 - 3 son coherentes puesto que para A = F y B = C, producen una conclusin (B = C) ( Tabla 2.4). 3. Las Reglas 1 - 4 son incoherentes porque producen conclusiones contradictorias para todos los posibles valores de A y B, tal como se ve en la Tabla 2.5. Un conjunto de reglas puede ser coherente, aunque algunos conjuntos de valores puedan producir conclusiones inconsistentes. Estos conjuntos de valores se llaman valores no

21

factibles. Por ejemplo, las Reglas 1 - 2 son coherentes, aunque producen conclusiones inconsistentes en todos los casos en que A = C. En consecuencia, el subsistema de control de coherencia eliminar automticamente el valor C de la lista de posibles valores del objeto A, permitiendo de esta forma al usuario seleccionar slo valores factibles de los objetos.

2.3

2.4

2.5

DEFINICIN : Valores no factibles:

Se dice que un valor a para el objeto A no es factible si las conclusiones obtenidas al hacer A = a contradicen cualquier combinacin de valores del resto de los objetos.

22

Ejemplo : Valores no factibles: Considrese el conjunto de las cuatro reglas del ejemplo anterior. En este caso, el motor de inferencia concluir lo siguiente: 1. Las dos primeras reglas implican que A C, puesto que A = C siempre conduce a conclusiones inconsistentes. Por tanto, el valor A = C deber ser eliminado automticamente de la lista de valores factibles de A. Dado que A es binario, entonces resulta A = F (el nico valor posible). 2. Las tres primeras reglas implican que A = F y B = C. Por tanto, el valor B = F deber ser eliminado automticamente de la lista de valores factibles de B. 3. Las primeras cuatro reglas implican que A C, A F, B C y B F. Por tanto, los valores {C, F} son eliminados de las listas de valores de A y B, con lo que las listas de valores factibles de todos los objetos estn vacas, lo que implica que las cuatro reglas son incoherentes. Ejemplo: Coherencia de reglas: Supngase que se tienen los cuatro objetos: A {0, 1}, B {0, 1}, C {0, 1, 2} y D {0, 1}. Considrense las cuatro reglas: . Regla 1: Si A = 0 y B = 0, entonces C = 0. . Regla 2: Si A = 0 y D = 0, entonces C = 1. . Regla 3: Si A = 0 y B = 0, entonces C = 1. . Regla 4: Si A = 0, entonces B = 0. . Regla 5: Si B = 0, entonces A = 1. Supngase ahora que se desea aadir las tres ltimas reglas a una base de conocimiento que contiene las dos primeras reglas. Entonces, las Reglas 1 y 3 son inconsistentes, puesto que tienen la misma premisa pero diferentes conclusiones. Por lo que, la Regla 3 debe ser rechazada y el experto humano informado de la razn del rechazo. El experto humano corregir la regla en cuestin y / o las reglas existentes si fueran incorrectas. La Regla 4 entrar en la base de conocimiento, puesto que es consistente con las Reglas 1 y 2. La Regla 5 es inconsistente con la Regla 4. Por ello, la consistencia de ambas reglas debe ser comprobada antes de pasar a formar parte de la base de conocimiento. 2.4.2 Coherencia de Hechos Los datos o evidencias suministrados por los usuarios deben ser tambin consistentes en s y con el conjunto de reglas de la base de datos. Por ello, el sistema no debe aceptar hechos que contradigan el conjunto de reglas y / o el conjunto de hechos existente en cada instante del proceso. La coherencia de los hechos puede lograrse mediante las estrategias siguientes:

1. Eliminar todos los valores no factibles (los que contradicen el conjunto de reglas y / o hechos) de los objetos una vez detectados. Cuando se pregunte al usuario por informacin sobre los valores de un conjunto de objetos, el sistema experto debera aceptar slo los valores de cada objeto que sean consistentes con las reglas y con el conocimiento previo.

23

2. El motor de inferencia debe comprobar que los hechos conocidos no contradicen el conjunto de reglas. Si el sistema no elimina los valores no factibles, entonces el usuario podr dar evidencias contradictorias tales como Pago = autorizado y NIP = incorrecto en el ejemplo del cajero automtico (CA). Por ello, tan pronto como se de la primera evidencia, Pago = autorizado, el sistema debe seleccionar slo los valores del NIP que no conduzcan a conclusiones contradictorias.

3. Suministrar al usuario una lista de objetos a los que no se ha asignado valores previamente.

4. Para cada uno de los objetos, mostrar y aceptar slo sus valores factibles. 5. Actualizar continuamente la base de conocimiento, es decir, tan pronto como se d

un hecho o se obtenga una conclusin, y eliminar los valores no factibles. El motor de inferencia obtiene todas las conclusiones posibles examinando, y posiblemente concluyendo, las reglas tan pronto como una simple unidad de informacin llega al sistema.

2.5 EXPLICANDO CONCLUSIONES Las conclusiones no bastan para satisfacer al usuario de un sistema experto, por lo que, normalmente, los usuarios esperan que el sistema les d algn tipo de explicacin que indique el por qu de las conclusiones. Durante el proceso realizado por el motor de inferencia, las reglas activas (las que han concluido) forman la base del mecanismo de explicacin, que es regulado por el subsistema de explicacin. En los sistemas expertos basados en reglas, es fcil dar explicaciones de las conclusiones obtenidas. El motor de inferencia obtiene conclusiones basndose en un conjunto de reglas y, por tanto, conoce de qu regla procede cada conclusin. Por ello, el sistema puede dar al usuario la lista de hechos concluidos junto con las reglas que se han utilizado para obtenerlos. Ejemplo: Explicando conclusiones. Considrese las seis reglas de las Figuras 2.7 y 2.8. Como en el ejemplo proporcionado en Encadenamiento de reglas, supngase que se sabe que los objetos A, B, D, E, F, H e I son ciertos y que los restantes objetos toman valores desconocidos. Entonces, aplicando el Algoritmo de encadenamiento de reglas visto en el punto 2.3.3 y examinando las reglas que han sido ejecutadas, el sistema experto puede suministrar la explicacin siguiente a las conclusiones obtenidas: 1. Hechos dados: A = cierto, B = cierto, D = cierto, E = cierto, F = cierto, H = cierto, I = cierto. 2. Conclusiones y explicaciones: . C = cierto, basada en la Regla 1. . G = cierto, basada en la Regla 2. . J = cierto, basada en la Regla 3. . K = cierto, basada en la Regla 4. . L = cierto, basada en la Regla 5. . M = cierto, basada en la Regla 6.

24

CAPTULO 3: SISTEMAS EXPERTOS BASADOS EN PROBABILIDAD

3.1 INTRODUCCIN En la mayor parte de las aplicaciones, la incertidumbre es lo comn; por ejemplo, una pregunta tpica en diagnstico mdico es: dado que el paciente presenta un conjunto de sntomas, cul de las enfermedades posibles es la que tiene el paciente?. Esta situacin implica un cierto grado de incertidumbre puesto que: . Los hechos o datos pueden no ser conocidos con exactitud. Por ejemplo, un paciente puede no estar seguro de haber tenido fiebre la noche pasada. Por ello, hay un cierto grado de incertidumbre en la informacin asociada a cada paciente (subjetividad, imprecisin, ausencia de informacin, errores, datos ausentes, etc.). . El conocimiento no es determinista. Por ejemplo, las relaciones entre las enfermedades y los sntomas no son deterministas, puesto que un mismo conjunto de sntomas puede estar asociado a diferentes enfermedades. De hecho, no es extrao encontrar dos pacientes con los mismos sntomas pero diferentes enfermedades. La probabilidad es, hoy en da, la ms intuitiva y la ms aceptada de las medidas de incertidumbre. Lindley (1987), por ejemplo, dice: La nica descripcin satisfactoria de la incertidumbre es la probabilidad. Esto quiere decir que toda informacin incierta debe estar en forma de una probabilidad, que varias incertidumbres deben ser combinadas usando las reglas de la probabilidad, y que el clculo de probabilidades es adecuado para manejar situaciones que implican incertidumbre. En particular, las descripciones alternativas de la incertidumbre son innecesarias. 3.2 ALGUNOS CONCEPTOS BSICOS DE LA TEORA DE LA PROBABILIDAD 3.2.1 Medida de Probabilidad Para medir la incertidumbre se parte de un marco de discernimiento dado S, en el que se incluyen todos los posibles resultados de un cierto experimento como conjunto exhaustivo y mutuamente exclusivo. El conjunto S se conoce como espacio muestral. Una vez definido este conjunto, el objetivo consiste en asignar a todo subconjunto de S un nmero real que mida el grado de incertidumbre sobre su realizacin. Para obtener medidas con significado

25

fsico claro y prctico, se imponen ciertas condiciones o propiedades intuitivas adicionales que definen una clase de medidas que se conocen como medidas de probabilidad. Definicin: Medida de Probabilidad. Una funcin p que proyecta los subconjuntos A S en el intervalo [0, 1] se llama medida de probabilidad si satisface los siguientes axiomas: . Axioma 1 (Normalizacin): p(S) = 1. . Axioma 2 (Aditividad): Para cualquier sucesin infinita, A1, A2, . . ., de subconjuntos disjuntos de S, se cumple la igualdad:

De los axiomas anteriores pueden deducirse las siguientes propiedades: . Propiedad 1 (Normalizacin): p() = 0. . Propiedad 2 (Monotonicidad): Si A B S, entonces p(A) p(B). . Propiedad 3 (Continuidad-Consistencia): Para toda sucesin creciente A1 A2 . . . o decreciente A1 A2 . . . de subconjuntos de S se tiene:

. Propiedad 4 (Inclusin-Exclusin): Dado cualquier par de subconjuntos A y B de S, se cumple siempre la siguiente igualdad:

3.2.2 Distribuciones de Probabilidad Sea {X1, . . . , Xn} un conjunto de variables aleatorias discretas y {x1, . . . , xn} el conjunto de sus posibles realizaciones. Las variables aleatorias se denotan con maysculas y sus realizaciones se denotan con minsculas. Por ejemplo, si Xi es una variable binaria, entonces xi puede ser 1 0. Los resultados que siguen son tambin vlidos si las variables son continuas, pero en este caso los smbolos de suma deben sustituirse por integrales. Sea p(x1, . . . , xn) la funcin de probabilidad conjunta de las variables de X, es decir,

La funcin de probabilidad marginal de la i-sima variable se obtiene mediante la frmula:

Definicin: Probabilidad condicional: Sean X e Y dos conjuntos disjuntos de variables tales que p(y) > 0. Entonces, la probabilidad condicional (funcin de probabilidad condicionada) de X dado Y = y viene dada por:

26

La ecuacin (3.5) implica que la funcin de probabilidad conjunta de X e Y puede escribirse como:

Se obtiene un caso particular de (3.5) cuando X es una nica variable e Y es un subconjunto de variables. En este caso, (3.5) se convierte en:

que es la funcin de probabilidad de la i-sima variable, Xi, dado el subconjunto de variables {X1, . . . , Xk}. La suma del denominador de (3.7) se extiende a todos los valores posibles de Xi. 3.2.3 Dependencia e Independencia Definicin: Independencia de dos variables: Sean X e Y dos subconjuntos disjuntos del conjunto de variables aleatorias {X1, . . . , Xn}. Entonces se dice que X es independiente de Y si y solamente si:

para todos los valores posibles x e y de X e Y; en otro caso, X se dice dependiente de Y . Si X es independiente de Y, pueden combinarse (3.6) y (3.8) para obtener p(x, y)/p(y) = p(x), que implica:

Una propiedad importante de la relacin de independencia es su simetra, es decir, si X es independiente de Y, entonces Y es independiente de X. Esto ocurre porque:

Definicin: Independencia de un conjunto de variables: Las variables aleatorias {X1, . . . , Xm} se dice que son independientes si y slo si:

para todos los valores posibles x1, . . . , xm de X1, . . . , Xm. En otro caso, se dice que son dependientes.

27

Si X1, . . . , Xm son condicionalmente independientes dado otro subconjunto Y1, . . . , Yn, entonces:

3.2.4 Teorema de Bayes Una conocida frmula de la teora de la probabilidad puede obtenerse como sigue. Utilizando (3.3) y (3.5), se obtiene:

3.2.5 Tipos de Errores En situaciones de incertidumbre pueden cometerse dos tipos de errores: . Una decisin positiva falsa, tambin conocida como error de tipo I. . Una decisin negativa falsa, tambin conocida como error de tipo II. En un caso de diagnstico mdico, por ejemplo, los posibles errores son: . Error de Tipo I: Un paciente no tiene la enfermedad pero el doctor concluye que la tiene. . Error de Tipo II: Un paciente tiene la enfermedad pero el doctor concluye que no la tiene. Estos tipos de errores se ilustran en la Tabla 3.1.:

Tabla 3.1.

3.3 REGLAS GENERALIZADAS La medida de probabilidad puede utilizarse para extender los sistemas basados en reglas a situaciones de incertidumbre. Una forma de introducir la incertidumbre en los sistemas basados en reglas consiste en utilizar reglas generalizadas. Por ejemplo, dada la regla determinista: . Regla 1: Si A es cierta, entonces B es cierta, se puede introducir incertidumbre asociando una probabilidad a esta afirmacin. . Regla 2: Si A es cierta, entonces la probabilidad de que B sea cierta es p(b) = . Ac 0 1 es una medida de la incertidumbre de B. La Regla 1 es un caso especial de la Regla 2 haciendo = 1 (certeza). Pero cuando 0 < < 1 (incertidumbre), se puede

28

pensar en la Regla 2 como una regla generalizada. Por ello, el valor de determina el nivel de implicacin como sigue (figura 3.1): Implicacin fuerte ( = 1): Si la premisa de una regla es cierta, su conclusin debe ser tambin cierta. Por ello, dada la regla Si A es cierta, entonces B es cierta, se puede decir que A implica B con probabilidad 1. Esto se ilustra en la Figura 3.1(a). Implicacin dbil (0 < < 1): La regla anterior puede ser vista en un sentido generalizado cuando A implica B slo en algunas ocasiones. En este caso, se dice que A implica B con probabilidad p(B = cierto / A = cierto), como se muestra en la Figura 3.1(b). No implicacin ( = 0): El caso en que A no implica B puede considerarse como que A implica B con probabilidad 0. Esto se ilustra en la Figura 3.1(c).

Figura 3.1

El uso de reglas generalizadas requiere utilizar medidas de incertidumbre para objetos y reglas, junto con frmulas de agregacin para combinar la incertidumbre de los objetos en las premisas con las de las reglas para obtener la incertidumbre de los objetos en las conclusiones. Una forma alternativa de utilizar la medida de probabilidad consiste en describir las relaciones entre los objetos (variables) mediante una funcin de probabilidad conjunta. A los sistemas expertos que utilizan las funciones de probabilidad conjunta de las variables como base para hacer la inferencia, se les conoce como sistemas expertos de tipo probabilstico. 3.4 INTRODUCIENDO LOS SISTEMAS EXPERTOS BASADOS EN PROBABILIDAD El ncleo de los sistemas expertos basados en reglas es el conjunto de reglas que describen las relaciones entre los objetos (variables). En los sistemas expertos probabilsticos las relaciones entre las variables se describen mediante su funcin de probabilidad conjunta. Por ello, la funcin de probabilidad conjunta forma parte de lo que se llama conocimiento.

29

Ejemplo: Diagnostico mdico. Supngase que se dispone de una base de datos con informacin sobre N pacientes y que un paciente puede tener una y slo una de m enfermedades, e1, . . . , em, tal como muestra la Figura 3.2 para m = 5 enfermedades. Supngase tambin que un paciente puede tener ninguno, uno, o ms de n sntomas S1, . . . , Sn, como indica la Figura 3.3 para n = 3 sntomas. Supngase que la variable aleatoria enfermedad, E, toma como valores las enfermedades e1, . . . , em. Supngase tambin que los sntomas son variables binarias, de forma que cada una toma el valor 1, si est presente, o el valor 0, si est ausente. Cualquier variable aleatoria en el conjunto {E, S1, . . . , Sn} define una particin del conjunto universal de pacientes en una clase disjunta y exhaustiva de conjuntos. Entonces, combinando las enfermedades y los sntomas, cada paciente puede clasificarse en una y slo una regin tal como se muestra en la Figura 3.4, que proviene de superponer las Figuras 3.2 y 3.3. Por ejemplo, el crculo negro de la Figura 3.4 representa un paciente que tiene la enfermedad e4 y los tres sntomas: S1, S2 y S3.

Figura 3.2

Figura 3.3

30

Figura 3.4

3.5 LA BASE DE CONOCIMIENTO La base de conocimiento de un sistema experto basado en reglas consta del conjunto de objetos variables y del conjunto de reglas. La base de conocimiento de un sistema experto probabilstico consiste en un conjunto de variables, {X1, . . . , Xn}, y una funcin de probabilidad conjunta definida sobre ellas, p(x1, . . . , xn). Por ello, para construir la base de conocimiento de un sistema experto probabilstico, se necesita definir la funcin de probabilidad conjunta de las variables. El modelo ms general posible se basa en especificar directamente la funcin de probabilidad conjunta, es decir, asignar un valor numrico (parmetro) a cada una de las posibles combinaciones de valores de las variables. Pero, la especificacin directa de la funcin de probabilidad conjunta implica un gran nmero de parmetros por lo que, no hay ordenador en el mundo capaz de almacenarlo incluso para un valor de n tan pequeo como 50. Esta fue una de las primeras crticas al uso de la probabilidad en los sistemas expertos. Sin embargo, en la mayor parte de las situaciones prcticas, muchos subconjuntos de variables pueden ser independientes o condicionalmente independientes. En tales casos, se pueden obtener simplificaciones del modelo ms general teniendo en cuenta la estructura de independencia de las variables. Esto suele dar lugar a una reduccin importante del nmero de parmetros; a continuacin se dan los siguientes ejemplos de tales simplificaciones: 1. El Modelo de Sntomas Dependientes (MSD). 2. El Modelo de Sntomas Independientes (MSI). 3. El Modelo de Sntomas Relevantes Independientes (MSRI). 4. El Modelo de Sntomas Relevantes Dependientes (MSRD). Para introducir estos modelos se considera el problema del diagnstico mdico, en el que se tienen n sntomas S1, . . . , Sn, y una variable aleatoria E, que podra tomar uno de m valores posibles e1, . . . , em. En este problema se desea diagnosticar la presencia de una enfermedad dado un conjunto de sntomas s1, . . . , sk. Para ello se tiene la funcin de probabilidad conjunta de la enfermedad y los sntomas p(e, s1, . . . , sn). 3.5.1 El Modelo de Sntomas Dependientes

31

En este modelo se supone que los sntomas son dependientes pero que las enfermedades son independientes entre s, dados los sntomas. El MSD se ilustra en la Figura 3.5, donde todo sntoma se conecta con los dems sntomas y con todo valor posible de E (indicando dependencia). Entonces la funcin de probabilidad conjunta para el MSD puede escribirse como:

Figura 3.5

Esta ecuacin se obtiene utilizando (3.6) con X = {E} e Y = {S1, . . . , Sn}. Ahora, p(ei|s1,....sn) puede expresarse como:

La primera de las ecuaciones se deduce de (3.3), y la segunda se obtiene aplicando (3.6). La proporcionalidad se sigue de que p(s1, . . . , sn) es una constante de normalizacin. 3.5.2 El Modelo de Sntomas Independientes Debido a la imposibilidad de trabajar con el modelo anterior en muchos casos prcticos, resulta necesario proceder a la simplificacin del modelo. Una simplificacin posible consiste en suponer que, para una enfermedad dada, los sntomas son condicionalmente independientes entre s. El modelo resultante se denomina modelo de sntomas independientes (MSI) que se muestra en la Figura 3.6, donde los sntomas no estn ligados, para indicar la independencia. Puesto que los sntomas se suponen condicionalmente independientes dada la enfermedad, se tiene:

32

Figura 3.6

Por ello, se puede escribir la funcin de probabilidad conjunta de la enfermedad E dados los sntomas s1, . . . , sn como:

Sustituyendo (3.26) en (3.21), se obtiene el modelo de sntomas independientes (MSI). La ecuacin (3.26) muestra cmo la hiptesis de independencia modifica las probabilidades de todas las enfermedades cuando se conocen nuevos sntomas. 3.5.3 Modelo de Sntomas Relevantes Independientes

Se puede conseguir una reduccin an mayor del nmero de parmetros suponiendo que cada enfermedad tiene un nmero reducido de sntomas relevantes. En consecuencia, para cada valor ei de la enfermedad E se seleccionan algunos sntomas relevantes S1, . . . , Sr (relativamente pocos frente al total de sntomas) y los restantes sntomas se suponen independientes para ese valor de E. El MSRI se ilustra en la Figura 3.7. Ntese que para e1, el conjunto de sntomas relevantes es {S1, S2}; para e2, el conjunto de sntomas relevantes es {S2, S3, S4}; y as sucesivamente.

Figura 3.7

33

Por simplicidad de notacin, supngase que S1, . . . , Sri son relevantes para la enfermedad ei y que los restantes sntomas Sri+1, . . . , Sn son irrelevantes. Segn el MSRI, p(sj|ei) se supone idntica para todos los sntomas que son irrelevantes para la enfermedad ei. Entonces la funcin de probabilidad conjunta de la enfermedad ei dados los sntomas s1, . . . , sn puede escribirse como sigue:

Sustituyendo (3.28) en (3.21), se obtiene el MSRI. 3.5.4 El Modelo de Sntomas Relevantes Dependientes Aunque el MSRI reduce el nmero de parmetros considerablemente, es poco realista, ya que los sntomas asociados a ciertas enfermedades suelen producirse en grupos o sndromes. Por ello, puede ser poco razonable suponer que los sntomas relevantes son independientes. El modelo de sntomas relevantes dependientes (MSRD) evita este inconveniente. Se puede pensar en el MSRD como una solucin de compromiso entre el MSD y el MSRI. El MSRD se ilustra en la Figura 3.8, donde los sntomas relevantes para cada enfermedad estn conectados, indicando la dependencia.

Figura 3.8

34

Supngase que S1, . . . , Sri son relevantes para la enfermedad ei y que los restantes sntomas Sri+1, . . . , Sn son irrelevantes. Entonces segn el MSRD, la funcin de probabilidad conjunta de ei dados los sntomas s1, . . . , sn puede escribirse como:

donde pj = p(sj|ei), que es la misma para todas las enfermedades para las que Sj es irrelevante. Sustituyendo (3.32) en (3.21), se obtiene el MSRD. Sea cual sea el modelo elegido, la base de conocimiento debe contener el conjunto de variables de inters y el mnimo de parmetros (probabilidades o frecuencias) necesarios para especificar la funcin de probabilidad conjunta de las variables. 3.6 EL MOTOR DE INFERENCIA El motor de inferencia utiliza el conocimiento y los datos para responder a ciertas cuestiones hechas por el usuario. Los ejemplos de tales preguntas son: . Cuestin 1: Antes de que sea examinado por un doctor, cul es la enfermedad ms probable para el paciente?. Aqu no hay evidencia disponible. El paciente todava no ha sido examinado y el conjunto de sntomas que presenta el paciente es vaco (queda por determinar). El problema consiste en calcular la probabilidad marginal (inicial) de E,

. Cuestin 2: Dado que el paciente presenta un subconjunto de sntomas S1 = s1, . . . , sk = sk, qu enfermedad tiene el paciente con mayor probabilidad?. El conjunto evidencial en este caso consiste en el conjunto de valores s1, . . . , sk. El problema consiste en calcular la funcin de probabilidad conjunta para cada enfermedad ei dada la evidencia s1, . . . , sk:

Una de las tareas del motor de inferencia en los sistemas expertos probabilsticos consiste en calcular las probabilidades condicionales de diferentes enfermedades cuando se conocen nuevos sntomas o datos. El motor de inferencia es responsable de actualizar las probabilidades condicionales:

35

para todos los posibles valores de los sntomas, y de decidir cules tienen probabilidades condicionales altas. 3.7 CONTROL DE LA COHERENCIA Uno de los problemas ms serios de los sistemas expertos es la presencia de incoherencias en su base de conocimiento y/o en su memoria de trabajo. Existen algunas razones para ello, como ser: 1. Los expertos humanos pueden suministrar conocimiento incoherente. 2. El usuario puede suministrar datos incoherentes. 3. El motor de inferencia no actualiza los hechos . 4. No hay un subsistema para controlar la coherencia que evite que llegue conocimiento inconsistente a la base de conocimiento y/o la memoria de trabajo.

36

3.8 COMPARANDO LOS DOS TIPOS DE SISTEMAS EXPERTOS BASADOS EN REGLAS PROBABILISTICOS

Base de Conocimiento

Objetos y conjunto de reglas. Fcil de implementar, pues slo es necesario utilizar elementos simples, tales como objetos, conjuntos de valores, premisas, conclusiones y reglas. El conocimiento que puede ser almacenado es limitado.

Espacio de probabilidad, que incluye las variables, sus posibles valores, y su funcin de probabilidad conjunta. Inconveniente: el alto nmero de parmetros que manejan, lo que hace que sea difcil su especificacin y definicin.

Motor de Inferencia

Las conclusiones se obtienen de los hechos aplicando las diferentes estrategias de inferencia, tales como Modus Ponens, Modus Tollens y encadenamiento de reglas; por lo que es rpido y fcil de implementar.

Se basa en la evaluacin de las probabilidades condicionales utilizando uno o varios mtodos propuestos por los diferentes tipos de sistemas expertos probabilstico. El grado de dificultad depende del modelo seleccionado y vara desde baja, para los modelos de independencia, a alta, para los modelos de dependencia generales.

Subsistema de Explicacin

La explicacin es fcil, ya que se sabe qu reglas han sido utilizadas para concluir en cada momento. El motor de inferencia sabe qu reglas se han utilizado en el encadenamiento y han contribuido a obtener conclusiones y qu reglas se han utilizado sin xito.

Se basa en los valores relativos de las probabilidades condicionales que miden los grados de dependencia. Una comparacin de las probabilidades condicionales para diferentes conjuntos de evidencia permite analizar sus efectos en las conclusiones.

Subsistema de Aprendizaje

Consiste en incorporar nuevos objetos, nuevos conjuntos de valores factibles para los objetos, nuevas reglas o modificaciones de los objetos existentes, de los conjuntos de valores posibles, o de las reglas.

Consiste en incorporar o modificar la estructura del espacio de probabilidad: variables, conjunto de posibles valores, o los parmetros (valores de las probabilidades).

37

CAPTULO 4:

REDES NEURONALES

38

4.1 DEFINICIONES DE INTELIGENCIA ARTIFICIAL (IA)

Mtodos y algoritmos que permitan comportarse a las computadoras de modo inteligente.

Estudio de las facultades mentales a travs del uso de modelos computacionales. Desarrollo de autmatas (mquinas construidas por el hombre) para simular el

proceso deductivo e inductivo humano de adquisicin y aplicacin de conocimiento. Dogma central de la IA Los procesos que se llevan a cabo en el cerebro pueden ser analizados, a un nivel de abstraccin dado, como procesos computacionales de algn tipo". 4.1.1 CONTROVERSIA Durante el desarrollo de la IA siempre ha existido una controversia sobre los lmites de esta Ciencia. Hubert L. Dreyfus: Qu no pueden hacer las computadoras: Grandes artistas han tenido la sensacin de que la realidad era inflexiblemente rechazada por ambos filsofos y tecnologstas, y que la base de la inteligencia humana no puede ser aislada y explcitamente entendida.. Donald Michiel: Jefe cientfico del Instituto Turing: Es una equivocacin preguntar todo el tiempo, Pueden las computadoras pensar?, Pueden ellas ser realmente creativas?, para todos los propsitos prcticos que ellas pueden. El mejor camino para nosotros es dejar a los filsofos en su cuarto oscuro y avanzar usando la computadora al mximo..

4.2 EVOLUCIN DE LA IA Primera Generacin (hasta 1955) Esta generacin estableci las bases filosficas y los primeros modelos matemticos de esta disciplina. Alan Turing (1950) public Computing Machinery and Intelligence donde sugiere:

39

las maquinas pueden algunas veces competir con el hombre en todas las persecuciones intelectuales.. Claude Shannon (1950) public A Chess-Playing Machine en Scientific American analizando el problema del juego automtico de ajedrez (10120 movimientos posibles). En 1953, public Computers and Autmata con nuevos y sugestivos interrogantes. Podr construirse una mquina que: 1. Localice y repare sus propias averas?. 2. Se programe a s misma?. 3. Aprenda?.

Warren McCulloch and Walter Pitts (1943) desarrollaron el primer modelo matemtico de red neuronal en A Logical Calculus of the Ideas Immanent in Nervous Activity. Este modelo consista en una red de neuronas binarias y sinapsis. Este modelo es esencialmente equivalente a una mquina de Turing. Segunda Generacin:

La Conferencia de Dartmouth Organizada por John McCarthy y Marvin Minsky (1956), fund las bases modernas de esta disciplina bajo el lema: Para avanzar sobre las bases de la conjetura que todo aspecto del aprendizaje o cualquier otro rasgo de la inteligencia puede en principio describir que una mquina puede ser hecha para simularlo..

Logic Theorist fue uno de los primeros programas eficientes desarrollado por

Allen Newell, Herbert Simon y J.C. Shaw.

Mycin fue el pionero de los sistemas expertos (desarrollado por Edward Shortlie). Puede diagnosticar infecciones bacterianas a partir de sntomas.

En 1957 Allen Newell predijo que en un plazo de 10 aos, un ordenador sera el

campen del mundo de ajedrez. 4.3 EL TEST DE TURING Alan M. Turing (1912-1954), en el artculo Computing Machinery and Intelligence, describi un juego de imitacin para probar la inteligencia de las mquinas: Si la conversacin con una computadora es indistinguible de una con un humano, la computadora est desplegando inteligencia..

Test de Turing: Primera Fase:

40

Un interrogante intenta determinar cul de los dos comunicadores es un hombre y cul es una mujer cuestionando a cada uno. Las reglas del juego le exigen al hombre que intente engaar al interrogante y la mujer intente convencerlo que ella es la mujer. Se hacen preguntas a travs de un medio neutro como una terminal remota y cada reunin se asla en un cuarto separado para eliminar cualquier pista visual o audible. Test de Turing: Segunda Fase: Ahora el hombre es reemplazado por una computadora y los resmenes del juego. Si la computadora puede engaar al interrogante tan a menudo como el hombre lo hizo, nosotros decimos que la computadora est desplegando inteligencia.

4.4 CARACTERSTICAS DE LOS MODELOS DE IA Los modelos y algoritmos estndar de la IA tienen las siguientes caractersticas:

El conocimiento se representa explcitamente usando reglas, redes semnticas, modelos probabilsticos, etc.

Se imita el proceso humano de razonamiento lgico para resolver los problemas, centrando la atencin en las causas que intervienen en el problema y en sus relaciones (encadenamiento de reglas, inferencia probabilstica).

Se procesa la informacin secuencialmente.

Con el rpido desarrollo de la IA aparecieron un gran nmero de problemas complejos donde no se dispona de una representacin explcita del conocimiento y de un procedimiento de razonamiento lgico para resolverlo. - Posibles causas de este fallo: Procedimientos algortmicos y estructura computacional empleados eran incorrectos. - Posible solucin: Uso de estructuras computacionales paralelas inspiradas en redes neuronales biolgicas.

4.5 INSPIRACIN BIOLGICA Las neuronas reciben seales (inputs) de otras neuronas va conexiones sinpticas que pueden ser excitantes o inhibidoras. En funcin de las seales recibidas, una neurona enva a su vez una seal a otras neuronas por medio del axn.

41

Una neurona contiene un potencial interno continuo llamado potencial de membrana. Cuando ste excede un cierto valor umbral, la neurona puede transmitir todo su potencial por medio del axn. Se estima que el cerebro humano contiene ms de cien mil millones (1011) de neuronas y que hay ms de 1000 sinapsis a la entrada y a la salida de cada neurona. 4.6 REDES NEURONALES ARTIFICIALES (NEURAL NETWORKS) Neural Network Study (1988, AFCEA International Press, p. 60): una red nerviosa es un sistema compuesto de muchos elementos de procesamiento simple operando en paralelo cuya funcin es determinada por estructura de red, fuerzas de conexin y el proceso realizado al ejecutar elementos o nodos.. Haykin, S. (1994), Neural Networks: A Comprehensive Foundation, NY: Macmillan, p. 2: ... Una red nerviosa es un procesador distribuido masivamente en paralelo que tiene una propensin natural por guardar conocimiento experimental y hacerlo disponible para el uso. . Se parece el cerebro en dos aspectos: 1.- El conocimiento es adquirido por la red a travs de un proceso de aprendizaje. 2.- Las fuerzas de conexin interneurnicas conocidas como pesos sinpticos son usados para guardar el conocimiento. 4.7 REDES NEURONALES. ESTRUCTURA

42

Las redes neuronales artificiales estn compuestas de gran cantidad de

procesadores conectados entre s y actuando en paralelo. Los modelos neuronales biolgicos son mucho ms complejos que los modelos

computacionales actuales. El comportamiento de la red est determinado por su topologa, los pesos de las

conexiones y la funcin caracterstica de las neuronas. 4.7.1 REDES NEURONALES. CARACTERSTICAS

Aprendizaje adaptativo: Las RNA aprenden a realizar tareas a partir de un conjunto de datos dados en el proceso de aprendizaje.

Auto-organizacin: Pueden crear su propia organizacin o representacin de la informacin recibida.

Operacin en tiempo real: Las operaciones realizadas pueden ser llevadas a cabo por computadores paralelos, o dispositivos de hardware especiales que aprovechan esta capacidad.

Tolerancia a fallos parciales: La destruccin parcial de una red daa parcialmente el funcionamiento de la misma, pero no la destruye completamente. Esto es debido a la redundancia de la informacin contenida.

4.7.2 REDES NEURONALES. DEFINICIONES Definicin 1: Neurona o Unidad Procesadora: Una neurona, o unidad procesadora, sobre un conjunto de nodos N, es una tripleta (X; f; Y ), donde X es un subconjunto de N, Y es un nico nodo de N y f : es una funcin neuronal (tambin llamada funcin activacin) que calcula un valor de salida para Y basado en una combinacin lineal de los valores de las componentes de X, es decir,

Los elementos X, Y y f se denominan conjunto de nodos de entrada, conjunto de nodos de salida, y funcin neuronal de la unidad neuronal, respectivamente.

43

Definicin 2: Red Neuronal Artificial: Una red neuronal artificial (RNA) es un par (N;U), donde N es un conjunto de nodos y U es un conjunto de unidades procesadoras sobre N que satisface la siguiente condicin: Cada nodo Xi N tiene que ser un nodo de entrada o de salida de al menos una unidad procesadora de U. 4.7.3 EJEMPLO

44

4.8 EL APRENDIZAJE Existen dos fases en toda aplicacin de las redes neuronales: la fase de aprendizaje o entrenamiento y la fase de prueba.

Fase de Aprendizaje: Una caracterstica de las redes neuronales es su capacidad de aprender. Aprenden por la actualizacin o cambio de los pesos sinpticos que caracterizan a las conexiones. Los pesos son adaptados de acuerdo a la informacin extrada de los patrones de entrenamiento nuevos que se van presentando. Normalmente, los pesos ptimos se obtienen optimizando (minimizando o maximizando) alguna funcin de energa. Por ejemplo, un

45

criterio popular en el entrenamiento supervisado es minimizar el least-square-error (error cuadrtico medio) entre el valor deseado y el valor de salida de la red.

Fase de Prueba: Una vez calculados los pesos de la red, las neuronas de la ltima

capa se comparan con la salida deseada para determinar la validez del diseo. 4.8.1 EL APRENDIZAJE: METODOS Supervisado: Los datos estn constituidos por varios patrones de entrada y de salida. El hecho de conocer la salida implica que el entrenamiento se beneficia con la supervisin de un maestro.

No Supervisado: Para los modelos de entrenamiento No Supervisado, el conjunto de datos de entrenamiento consiste slo en los patrones de entrada. Por lo tanto, la red es entrenada sin el beneficio de un maestro. La red aprende a adaptarse basada en las experiencias recogidas de los patrones de entrenamiento anteriores.

4.8.2 APRENDIZAJE DE HEBB Hebb describe una forma de ajustar el peso de una conexin acorde a la correlacin existente entre los valores de las dos unidades de proceso que conecta. En su libro, The Organization of Behavior (1949) expresa: Cuando un axn de clula A es bastante como para excitar una clula B y repetidamente o persistentemente toma una parte disparndola, algn proceso de crecimiento o cambio metablico tiene lugar en una o ambas clulas tal que A es tan eficiente como una de las clulas B que al disparar se aumenta.. Computacionalmente, esto se traduce en: No Supervisado: el valor del peso wij es la correlacin del valor de las unidades xi y xj:

46

Supervisado: Se ajusta el valor del peso entre las dos unidades en proporcin a la diferencia entre los valores deseado y calculado en cada una de las unidades de la capa de salida.

es la constante de aprendizaje (0 < < 1). 4.9 VALIDACIN DEL MODELO Una vez que ha terminado el proceso de aprendizaje y los pesos de la red neuronal han sido calculados, es importante comprobar la calidad del modelo resultante. Algunas medidas estndar del error son: 1. La suma de los cuadrados de los errores (Sum Square Errors, SSE), definida como:

2. La raz cuadrada del error cuadrtico medio (Root Mean Square Error, RMSE) definida como:

3. El error mximo,

donde es la salida de la red para el vector de entrada ap . Ntese que en el caso de una nica salida, la funcin norma || . || se reduce a la funcin valor absoluto | . | usual. 4.10 SOBREAJUSTE (OVERFITTING) En estadstica es bien conocido que cuando se utiliza un modelo con muchos parmetros para ajustar un conjunto de datos procedente de procesos con pocos grados de libertad, el modelo obtenido puede no descubrir las tendencias reales del proceso original, aunque pueda presentar un error pequeo. La curva (a) pasa exactamente por los puntos de entrenamiento. La curva (b) muestra el comportamiento sobre un conjunto alternativo. La curva (c) es un polinomio de tercer grado. La diferencia entre ambos modelos puede verse en (d).

47

4.11 NEURONAS UNIDADES DE PROCESO

Neuronas: X = (x1; ... ; xi; ... ; xn), donde xi es el nivel de actividad de la i-sima neurona.

Pesos: Los pesos de la neurona i-sima forman un vector Wi = (wi1,.....;wij;...;win); donde wij es el peso de la conexin de xj a xi.

La actividad lineal de xi est dada por la funcin:

que depende de los pesos Wi.

Para incluir un valor umbral i para la neurona xi, se considera una neurona auxiliar de valor X0 = -1 y se conecta a xi con un peso i.

4.12 FUNCIONES DE ACTIVACIN

Funciones lineales: f(x) = x.

48

Funciones paso: Dan una salida binaria dependiente de si el valor de entrada est por encima o por debajo del valor umbral.

Funciones sigmoidales: Funciones montonas acotadas que dan una salida gradual

no lineal.

1. La funcin logstica de 0 a 1:

2. La funcin tangente hiperblica de -1 a 1: fc(x) = tanh(cx):

4.13 ARQUITECTURAS DE RED 1. Conexiones hacia delante. 2. Conexiones laterales. 3. Conexiones hacia atrs (o recurrentes).

49

4.14 LA RED DE HOPFIELD La red neuronal de Hopfield es una arquitectura formada por una sola capa que se utiliza principalmente como memoria auto asociativa, para almacenar y recuperar informacin. La informacin se almacena usando un mtodo simple de aprendizaje no supervisado que obtiene la matriz de pesos que hace que dado cada uno de los patrones de entrenamiento (almacenamiento) la red devuelva el mismo patrn (recuperacin). Posteriormente, cuando se tenga una configuracin arbitraria de las neuronas como entradas, la red devolver aquel patrn almacenado que est ms cerca de la configuracin de partida en trminos de la distancia de Hamming. 4.14.1 LA RED DE HOPFIELD MEMORIZANDO DATOS Se considera una red neuronal de una sola capa sobre un conjunto de neuronas binarias {x1;....xn} (con valores en {-1; 1}) donde cada neurona xi posee un vector de pesos wi = (wi1; ... ; win), con wii = 0 indicando que no existe conexin consigo misma. Se considera tambin la siguiente definicin binaria de la neurona:

Ahora, supngase que se quieren obtener los pesos apropiados para memorizar un patrn a=(a1; ... ; an). Entonces, los pesos tienen que satisfacer las siguientes condiciones de estabilidad:

por tanto la red devuelve el mismo patrn dado como entrada. Como se estn usando los

valores neuronales {-1; 1}, entonces y las condiciones anteriores de estabilidad se pueden alcanzar considerando los pesos:

El mismo algoritmo puede extenderse a varios patrones, {(ap1;...; apn); p = 1;..... ; r}

En este caso, cuando se da como entrada un patrn ap se obtiene:

50

El problema de estabilidad se determina por los trminos de correlacin cruzada en el segundo trmino de la suma en (8). Si es ms pequeo que n, entonces se puede concluir que el patrn es estable. 4.14.2 EJEMPLO: RECONOCIMIENTO DE CARACTERES Para este ejemplo se utiliza una red de Hopfield con 25 neuronas consistente en una cuadrcula 5 x 5 que recibe una imagen de puntos de una letra. Se consideran nicamente las tres representaciones habituales de las vocales A, E, e I. Los dgitos A, E, e I se representan como -1-11-1-1..., 1111-1...., y -1111-1...., respectivamente donde los valores negativos se representan en gris y los positivos en negro.

La matriz de pesos 25 x 25 se obtiene como:

El valor resultante, ignorando la constante de normalizacin, se representa por un cuadrado negro de pequeo tamao en la esquina superior izquierda (peso w12). En la siguiente figura, los colores negro y gris estn asociados a los pesos positivos y negativos, respectivamente, donde el tamao de la caja representa la magnitud del valor.

51

4.15 INFORMACIN CORRUPTA Una vez construida la red de Hopfield, sta reconoce las tres vocales an cuando se utiliza como entrada cualquier otra cuadrcula (digitalizacin) 5 x 5 correspondiente a una versin particular no estndar de la vocal.

4.16 ESTADOS ESPREOS Si se intenta utilizar la misma arquitectura de red para reconocer las cinco vocales:

52

como en este caso el nmero de patrones es mayor de 0,138 x n = 0,138 x 25 = 3,45, pueden aparecer algunos estados de falsa estabilidad en el modelo.

4.17 REDES MULTI -CAPA Entre las arquitecturas de red ms populares destacan las llamadas redes multi-capa o de retropropagacin. Definicin: Capa de Entrada de una Red Neuronal: Una unidad se dice que est en la capa de entrada de una red neuronal (X;U), si es la entrada de al menos una unidad funcional de U y no es la salida de ninguna unidad procesadora de U. Definicin: Capa de Salida de una Red Neuronal: Una unidad se dice que est en la capa de salida de una red funcional (X;U), si es la salida de al menos una unidad funcional de U y no es la entrada de ninguna unidad procesadora de U. Definicin: Capas Intermedias u Ocultas de una Red Neuronal: Una unidad se dice que est en la capa intermedia de una red neuronal (X;U), si es la entrada de al menos una unidad funcional de U y, al mismo tiempo, es la salida de al menos una unidad procesadora de U. 4.18 EL PERCEPTRN El perceptrn es una red neuronal de dos capas (una de entrada y una de salida) con conexiones hacia delante.

53

Cmo se pueden obtener los pesos adecuados para aprender un conjunto de patrones?.

4.18.1 EL PERCEPTRN (APRENDIZAJE)

Aprendizaje Hebbiano: Inicialmente se eligen valores aleatorios para los pesos. La idea del aprendizaje Hebbiano era modificar los pesos acorde a la correlacin entre las unidades. Se eligen los patrones de uno en uno; por ejemplo:

, entonces se modifica el peso:

Descenso de Gradiente: Inicialmente se eligen valores aleatorios para los pesos. La idea de este mtodo es utilizar un proceso iterativa que minimice la funcin de error:

En el caso lineal (f(x) = x) se tiene:

54

En general, se tiene:

El parmetro se llama tasa de aprendizaje. En el caso de funciones sigmoidales, las frmulas anteriores no involucran derivadas simblicas, pues:

Se han propuesto distintas mejoras de este mtodo para incrementar su eficiencia.

Se puede incluir un parmetro de inercia para acelerar la convergencia al mnimo:

Otros mtodos incluyen trminos de la funcin de error que penalizan grandes

pesos:

donde es un parmetro de regularizacin, que controla el equilibrio entre el modelo ajustado y la penalizacin. El efecto de esta regularizacin de los pesos es suavizar la funcin de error, ya que los pesos grandes estn usualmente asociados a valores de salida altos. 4.19 CLASIFICACI N LINEAL: PLANTEAMIENTO Los problemas de clasificacin consisten en asignar patrones dados a sus respectivas clases, o categoras, basndose en patrones representativos de cada clase.

55

Se puede construir un perceptrn con estos puntos para obtener automticamente el criterio de clasificacin. Por ejemplo, si se considera un perceptrn con dos entradas, xi y yi, y una salida ci con funcin de activacin lineal:

4.19.1 CLASIFICACI N LINEAL: APRENDIZAJE Descenso de gradiente con = 0,2.

56

Si se considera una funcin de activacin sigmoidal:

57

4.20 CLASIFICACI N NO LINEAL Supngase que se tiene un conjunto de 100 puntos aleatorios en el intervalo (-1; 1) clasificados en dos categoras: los que estn dentro del crculo (puntos rellenos), y los que estn fuera (puntos huecos).

58

Como estas dos categoras no son linealmente separables, entonces un perceptrn no puede obtener un criterio de clasificacin apropiado. 4.21 EL PERCEPTR N MULTI -CAPA

En este caso los patrones de aprendizaje son un conjunto de inputs

y sus correspondientes outputs El mtodo ms popular de aprendizaje se denomina retro-propagacin y est basado en minimizar la funcin de error mediante un mtodo de descenso de gradiente. Inicialmente se eligen valores aleatorios para los pesos.

59

4.22 RETRO-PROPAGACI N. LA CAPA DE SALIDA Los pesos correspondientes a las neuronas de la capa de salida yi = f(Yi) son modificados considerando los valores de las neuronas ocultas hi = f(Hi). En este caso, la funcin de error es:

4.22.1 RETRO-PROPAGACIN: LA CAPA OCULTA Los pesos correspondientes a las neuronas de la capa oculta hi = f(Hi) son modificados considerando los valores de las neuronas de entrada xi = f(Xi) y los de las neuronas de salida yi = f(Yi).

60

4.22.2 RETRO-PROPAGACIN: ALGORITMO 1. Inicializar los pesos con valores arbitrarios.

2. Elegir un patrn p y propagarlo hacia delante. Con ello obtenemos (outputs de las capas oculta y de salida). 3. Calcular los errores de salida:

4. Calcular los errores de la capa oculta:

5. Calcular:

y actualizar los pesos. 6. Repetir los pasos anteriores para cada patrn.

61

4.23 CLASIFICACI N NO LINEAL Perceptrn multicapa 2 : 5 : 1

4.24 MAPAS CATICOS: EL MAPA DE HENON El mapa de Henon es uno de los ejemplos ms ilustrativos de sistemas simples con dinmica compleja (caos determinista).

62

Para aproximar este mapa se utiliza una red neuronal 2:3:1 (la salida es xn y las entradas xn-1 x n-2).

4.24.1 EL MAPA DE HENON: RED NEURONAL

63

En algunos casos el proceso de optimizacin no converge al mnimo global, sino a uno local. Esto es debido al gran nmero de parmetros involucrados en la red y a las caractersticas de los modelos de aprendizaje.

4.25 REDES COMPETITIVAS Las redes competitivas son muy utilizadas para detectar automticamente grupos, o categoras, dentro de los datos disponibles. Cada patrn de entrada representa un punto en el espacio de configuracin (el espacio de entradas) donde se quieren obtener clases. Para ello, la capa de salida contiene tantas neuronas como clases, o categoras, como se quieran obtener.

4.25.1 REDES COMPETITIVAS: APRENDIZAJE Este tipo de arquitectura se entrena normalmente con un algoritmo consistente en seleccionar la ganadora (winner takes all"), por lo que slo son actualizados los pesos asociados a la neurona de mayor salida (la ganadora) para un patrn dado. Considrense los datos de entrenamiento consistentes en un conjunto de patrones de entrada (a1j; ... ; anj); j = 1; ... ; m. Se empieza con pequeos valores aleatorios para los pesos. A continuacin, se aplica el patrn (a1j; ... ; anj), y se selecciona la unidad de salida ganadora, sea yk. Los pesos asociados con esta neurona son modificados de acuerdo con:

64

El efecto es mover el vector peso (wk1; ... ; wkn) directamente hacia (a1j; ... ; anj).

65

CAPTULO 5:

CONCLUSIONES 5.1 CONCLUSIONES A partir del trabajo realizado se puede demostrar que mediante la Inteligencia Artificial se pueden resolver problemas que antes eran considerados altamente complejos y difciles de tratar a travs de ordenadores, como ser: el reconocimiento de la voz, juegos y sistemas de tipos deterministas y estocsticos, entre otros. Esta engloba varias reas, una de las cuales son los sistemas expertos, que estn presentes en la mayor parte de las reas de la Inteligencia Artificial. A pesar de que la adquisicin de un sistema experto es cara, la ganancia y la amortizacin son elevadas, adems cuenta con ciertas ventajas: pueden ser utilizados para realizar trabajos que son considerados inconfortables para el hombre, personal inexperto puede resolver problemas que requieren un mayor conocimiento, mediante su uso se obtienen grandes ahorros, entre otras ventajas. Estos se utilizan en transacciones bancarias, control de trfico, diagnstico mdico, etc. De los dos tipos de sistemas expertos, la regla determinista constituye la metodologa ms sencilla empleada en los sistemas expertos y es tratada por los Sistemas Basados en Reglas. De la misma manera, la incertidumbre es comn en muchas aplicaciones, donde una de las medidas ms aceptadas para tratar este problema es la probabilidad. Otra de las ramas de la Inteligencia Artificial son las Redes Neuronales, que pueden realizar tareas a partir de un proceso de aprendizaje mediante procesadores conectados entre s y actuando en paralelo.

66

BIBLIOGRAFA

- Enrique Castillo, Jos Manuel Gutirrez y Ali S. Hadi. Sistemas Expertos y Modelos de Redes Probabilsticas. Editorial Academia de Ingeniera (Espaa). Madrid, Espaa. 1998. ISBN 84-600-9395-6.

- Enrique Castillo, ngel Cobo, Jos Manuel Gutirrez y Rosa Eva Pruneda.

Introduccin a las Redes Funcionales con Aplicaciones Un Nuevo Paradigma Neuronal. Editorial Paraninfo. Madrid, Espaa. 1999. ISBN 84-283-2525-1.

- Jos Manuel Gutirrez (Universidad de Cantabria). Neural Networks. 2002.

67

NDICE

1. INTRODUCCIN 1 1.1 Introduccin. 1 1.2 Sistemas Expertos: Definicin. 2 1.3 Ejemplos de Aplicacin de Sistemas Expertos. 2 1.4 Por qu los Sistemas Expertos?. 3 1.5 Tipos de Sistemas Expertos. 4 1.6 Componentes de un Sistema Experto. 5 1.7 Desarrollo de un Sistema Experto. 7 1.8 Otras reas de la Inteligencia Artificial. 9

2. SISTEMAS BASADOS EN REGLAS 10 2.1 Introduccin. 10 2.2 La Base de Conocimiento. 10 2.3 El Motor de Inferencia. 12 2.4 Control de Coherencia. 20 2.5 Explicando Conclusiones. 23

3. SISTEMAS BASADOS EN PROBABILIDAD 24 3.1 Introduccin. 24 3.2 Algunos bsicos de la teora de la probabilidad. 24 3.3 Reglas generalizadas. 27 3.4 Introduciendo los Sistemas Expertos basados en Probabilidad. 28 3.5 La Base de Conocimiento. 30 3.6 El Motor de Inferencia. 34 3.7 Control de la Coherencia. 35 3.8 Comparando los dos tipos de Sistemas Expertos. 36

4. REDES NEURONALES 37

4.1 Definiciones de Inteligencia Artificial. 38 4.2 Evolucin de la Inteligencia Artificial. 38 4.3 El Test de Turing. 39 4.4 Caractersticas de los modelos de Inteligencia Artificial. 40 4.5 Inspiracin Biolgica. 40 4.6 Redes Neuronales Artificiales. 41 4.7 Redes Neuronales. Estructura. 41 4.8 El Aprendizaje. 44 4.9 Validacin del modelo. 46 4.10 Sobreajuste. 46 4.11 Neuronas Unidades de Proceso. 47 4.12 Funciones de Activacin. 47 4.13 Arquitecturas de Red. 48 4.14 La Red de Hopfield. 49

68

4.15 Informacin Corrupta. 51 4.16 Estados Espureos. 51 4.17 Redes Multi capa. 52 4.18 El Perceptrn. 52 4.19 Clasificacin Lineal: Planteamiento. 54 4.20 Clasificacin No Lineal. 57 4.21 El Perceptrn multi capa. 58 4.22 Retro - propagacin. La Capa de salida. 59 4.23 Clasificacin No lineal. 61 4.24 Mapas Caticos: El Mapa de Henon. 61 4.25 Redes Competitivas. 63

5. CONCLUSIONES 65

BIBLIOGRAF A 66

inteligenciaartificial (1)

Documents