instituto caro y cuervo · 2017. 3. 15. · ministerio de cultura instituto caro y cuervo...

10
MINISTERIO DE CULTURA INSTITUTO CARO Y CUERVO RESOLUCIÓN NÚMERO Q 218 DE 2015 O 7 SET. 2015 Por la cual se autoriza al Seminario Andrés Bello a dictar el "Díplomado en Análisís Computacional del Lenguaje", se establecen sus condiciones y se toman otras determinaciones LA DIRECTORA GENERAL DEL INSTITUTO CARO Y CUERVO En uso de sus facultades conferidas por la Resolución 6328 de 1958 del Ministerio de Educación Nacional, el Decreto 1422 de 1974, el Art. 137 del la ley 30 de 1992 y en especial de las conferidas en el Decreto 2712 de 201 O, y CONSIDERANDO: Que mediante el artículo segundo de la Resolución No. 6238 de 23 de diciembre de 1958, expedida por el Ministerio de Educación Nacional se "aceptó para l os efectos l egales, profesionales y académicos los diplomas, tulos profesionales y certificados que expida el Sem inario Andrés Bello". Que a través del Decreto No . 1422 de 17 de julio de 1974, en concordancia con el Acuerdo número 49 de 9 de mayo de 1973 expedido por el ICFES, el Gobierno Nacional autorizó al Instituto Caro y Cuervo para otorgar títulos académicos en la modalidad de posgrados como los de Maestría y Doctorado, dentro de los programas del Seminario Andrés Bello, unidad docente del Instituto, con un carácter estrictamente académico. Que de acuerdo con lo dispuesto en el artículo 12 de la Ley 30 de 1992, los programas de maestrías "buscan ampliar y desarrollar los conocimientos para la solución de problemas dísciplinaríos, interdisciplinaríos o profesionales, y dotar a la persona de los instrumentos básicos que la habilitan como investigador en un área específica de las ciencías o de las tecnologías o que le permitan profundizar teórica y conceptualmente en un campo de la fílosofía de las humanídades y de las artes", Que el artículo 21 de la Ley 30 de 1992, estableció las clases de instituciones de educación superior que pueden ser autorizadas por el Ministro de Educación Nacional previo concepto favorable del CESU, para ofrecer programas de Maestrías. Que el artículo 137 de la Ley 30 de 1992, reconoce el régimen especial del Instituto Caro y Cuervo y le permite conservar su naturaleza jurídica y de tal suerte ofrecer programas de Educación Superior, previa adecuación de su régimen académico en lo dispuesto en dicha Ley. Que el Decreto 836 de 1994, establece los procedimientos para la creación y funcionamiento de los programas de Maestría e indica quienes pueden ofrecer tales programas y sus requisitos mínimos. Que el Instituto Caro y Cuervo es un Establecimiento Público del orden nacional con personería jurídica, autonomía administrativa y patrimonio independiente y el 26 de mayo de 2015 bajo el Decreto número 1080, denominado "Único Reglamentario del Sector Cultura", en su artículo 1.1.4.1.1 se ratificó la Calidad de Establecimiento Público adscrito al Ministerio de Cultura. Que el I nstituto Caro y Cuervo tiene como objeto principal "Cultivar la investigación científica en los campos de la lingüística, la filología, la literatura, las humanidades y la historia de la cultura colombiana y fomentar estos estudios mediante la difusión de los mismos". ,.- /

Upload: others

Post on 27-Feb-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: INSTITUTO CARO Y CUERVO · 2017. 3. 15. · MINISTERIO DE CULTURA INSTITUTO CARO Y CUERVO RESOLUCIÓN NÚMERO ~ Q 218 DE 2015 O 7 SET. 2015 Por la cual se autoriza al Seminario Andrés

MINISTERIO DE CULTURA INSTITUTO CARO Y CUERVO

RESOLUCIÓN NÚMERO ~ Q 218 DE 2015

O 7 SET. 2015

Por la cual se autoriza al Seminario Andrés Bello a dictar el "Díplomado en Análisís Computacional del Lenguaje", se establecen sus condiciones y se toman otras determinaciones

LA DIRECTORA GENERAL DEL INSTITUTO CARO Y CUERVO En uso de sus facultades conferidas por la Resolución 6328 de 1958 del Ministerio de Educación

Nacional, el Decreto 1422 de 1974, el Art. 137 del la ley 30 de 1992 y en especial de las conferidas en el Decreto 2712 de 201 O, y

CONSIDERANDO:

Que mediante el artículo segundo de la Resolución No. 6238 de 23 de diciembre de 1958, expedida por el Ministerio de Educación Nacional se "aceptó para los efectos legales, profesionales y académicos los diplomas, títulos profesionales y certificados que expida el Seminario Andrés Bello".

Que a través del Decreto No. 1422 de 17 de julio de 1974, en concordancia con el Acuerdo número 49 de 9 de mayo de 1973 expedido por el ICFES, el Gobierno Nacional autorizó al Instituto Caro y Cuervo para otorgar títulos académicos en la modalidad de posgrados como los de Maestría y Doctorado, dentro de los programas del Seminario Andrés Bello, unidad docente del Instituto, con un carácter estrictamente académico.

Que de acuerdo con lo dispuesto en el artículo 12 de la Ley 30 de 1992, los programas de maestrías "buscan ampliar y desarrollar los conocimientos para la solución de problemas dísciplinaríos, interdisciplinaríos o profesionales, y dotar a la persona de los instrumentos básicos que la habilitan como investigador en un área específica de las ciencías o de las tecnologías o que le permitan profundizar teórica y conceptualmente en un campo de la fílosofía de las humanídades y de las artes",

Que el artículo 21 de la Ley 30 de 1992, estableció las clases de instituciones de educación superior que pueden ser autorizadas por el Ministro de Educación Nacional previo concepto favorable del CESU, para ofrecer programas de Maestrías.

Que el artículo 137 de la Ley 30 de 1992, reconoce el régimen especial del Instituto Caro y Cuervo y le permite conservar su naturaleza jurídica y de tal suerte ofrecer programas de Educación Superior, previa adecuación de su régimen académico en lo dispuesto en dicha Ley.

Que el Decreto 836 de 1994, establece los procedimientos para la creación y funcionamiento de los programas de Maestría e indica quienes pueden ofrecer tales programas y sus requisitos mínimos.

Que el Instituto Caro y Cuervo es un Establecimiento Público del orden nacional con personería jurídica, autonomía administrativa y patrimonio independiente y el 26 de mayo de 2015 bajo el Decreto número 1080, denominado "Único Reglamentario del Sector Cultura", en su artículo 1.1.4.1.1 se ratificó la Calidad de Establecimiento Público adscrito al Ministerio de Cultura.

Que el Instituto Caro y Cuervo tiene como objeto principal "Cultivar la investigación científica en los campos de la lingüística, la filología, la literatura, las humanidades y la historia de la cultura colombiana y fomentar estos estudios mediante la difusión de los mismos".

,.- /

Page 2: INSTITUTO CARO Y CUERVO · 2017. 3. 15. · MINISTERIO DE CULTURA INSTITUTO CARO Y CUERVO RESOLUCIÓN NÚMERO ~ Q 218 DE 2015 O 7 SET. 2015 Por la cual se autoriza al Seminario Andrés

MINISTERIO DE CULTURA INSTITUTO CARO Y CUERVO

RESOLUCIÓN No. ~ , 0 218 DE 2015 "POR LA CUAL SE AUTORIZA SEMINARIO ANDRÉS BELLO A DICTAR EL "DIPLOMADO EN ANAL/SIS COMPUTACIONAL DEL LENGUAJE'', SE ESTABLECEN SUS CONDICIONES Y SE TOMAN OTRAS DETERMINACIONES' .... ... .. ... ...... .... ... ...... ...... ... ......... .... ... ... ... .... ... .. ... .............. .,. : .. ... ............. .... ...... .. .. .PÁG. 2.

Que mediante el Decreto 2712 de 28 de julio de 2010, se aprobó la modificación de la estructura del Instituto Caro y Cuervo y se determinaron las funciones de sus dependencias; definiéndose en el numeral 6 del artículo 4 como una función de la Subdirección Académica la de "Promover y orientar la creación de los programas académicos que sean necesarios y pertinentes a las áreas del conocimiento propios de la institución".

Que el literal b) del artículo 6° del Acuerdo 002 del 8 de julio de 201 O, mediante el cual se adoptaron los Estatutos del Instituto Caro y Cuervo, estableció como una de las funciones y" facultades del Establecimiento Público la de crear, desarrollar y administrar programas de educación superior (nivel de posgrado) y programas de formación para el trabajo (no formal) a través del "Seminario Andrés Bello" dependencia del Instituto dedicada a la docencia, con los programas de posgrado que se enfocan en formar investigadores y en producir investigación en campos relacionados con la lengua, la literatura y con la reflexión sobre cultura.

Que desde hace más de 1 O años el Instituto ofrece oportunidades de actualización y/o profundización como parte de sus funciones de proyección social.

Que un diplomado en el Instituto Caro y Cuervo se define como un proceso de educación informal, que tiene como propósito la profundización en temas específicos de las áreas de conocimiento o actualización de la información sobre innovaciones de las mismas y que se estructura en unidades de enseñanza y aprendizaje a través de módulos o cursos organizados sobre un tema especifico y tiene suficiente duración y formalidad para garantizar la adquisición y suficiencia de los conocimientos.

Que en el Instituto Caro y Cuervo el diplomado en Análisis Computacional del Lenguaje debe tener las siguientes características: a) Intensidad académica de 100 horas. El diplomado está organizado alrededor de cuatro componentes básicos: 1. Componente técnico; 2. Componente de programación; 3. Componente teórico de lingüística computacional, y 4. Componente teórico de estadística básica, matemática y probabilidad. A través de esos cuatro componentes se aspira a entregar los fundamentos teóricos y metodológicos necesarios para comprender cómo funciona un sistema de procesamiento del lenguaje a través de corpus, y sentar las bases para que los estudiantes aprendan cómo diseñar un protocolo de análisis general, o adaptable a sus propias necesidades de investigación.

Con lo anterior, el Diplomado en Análisis Computacional del Lenguaje no se presenta como un curso para aprender a manejar determinado software, sino como un ejercicio teórico y metodológico que le permita a los estudiantes comprender la lógica que subyace en este tipo de análisis, las posibilidades que ofrecen las herramientas disponibles, y los caminos para enriquecer o personalizar los protocolos de aproximación a los corpus y la obtención de resultados significativos.

No es necesario contar con conocimientos previos de programación, estadística, matemática o álgebra. El diplomado ha sido diseñado para adaptarse al nivel de los aprendices, y se ha orientado específicamente para estudiantes sin experiencia previa en manejo de corpus y herramientas de análisis computacional del lenguaje, de modo que los contenidos, y su desarrollo, sean lo más claros y procedentes, sin implicar el manejo de conocimientos especializados de las ciencias exactas. El Diplomado puede desarrollarse satisfactoriamente con la posesión de al menos un smartphone, un acceso a internet, y el manejo de las cuatro operaciones aritméticas básicas (suma, resta, multiplicación y división). Es deseable que los JlStudiantes tengan a su disposición un computador portátil.

Page 3: INSTITUTO CARO Y CUERVO · 2017. 3. 15. · MINISTERIO DE CULTURA INSTITUTO CARO Y CUERVO RESOLUCIÓN NÚMERO ~ Q 218 DE 2015 O 7 SET. 2015 Por la cual se autoriza al Seminario Andrés

MINISTERIO DE CULTURA INSTITUTO CARO Y CUERVO

RESOLUCIÓN No:- Ü 218 DE 2015 "POR LA CUAL SE AUTORIZA SEMINARIO ANDRÉS BELLO A DICTAR EL 'DIPLOMADO EN ANÁLISIS COMPUTACIONAL DEL LENGUAJe', SE ESTABLECEN SUS CONDICIONES Y SE TOMAN OTRAS DETERMINACJONES" .... ... .... .. .. ... ................ ..... .... ... .. ........ .. .. .. .. .. ... ...... .............. ....... ..... .. ........... .... ....... PÁG. 3.

En mérito de lo expuesto, la Directora General del Instituto Caro y Cuervo,

RESUELVE:

ARTÍCULO PRIMERO. Autorícese al Seminario Andrés Bello la apertura del Diplomado denominado "Análisis Computacional del Lenguaje", de conformidad con la parte motiva del presente proveído.

ARTÍCULO SEGUNDO: Establézcanse las siguientes condiciones para el Diplomado en "Análisis Computacional del Lenguaje":

1. EL DIPLOMADO EN ANÁLISIS COMPUTACIONAL DEL LENGUAJE ESTÁ DIRIGIDO A:

Estudiantes y profesionales, interesados en conocer las herramientas y las bases teóricas y metodológicas para efectuar análisis cuantitativo de fenómenos del lenguaje mediante el uso de instrumentos computacionales.

2. OBJETIVOS

• Otorgar a los estudiantes los fundamentos teóricos que soportan la construcción y manejo de corpus y bases de datos aptos para la investigación del lenguaje, de modo que se garantice la comprensión de la estructura y el funcionamiento de los mismos.

• Examinar los fundamentos teóricos y técnicos que fundamentan el análisis computacional del lenguaje natural.

• Otorgar a los estudiantes los fundamentos teóricos y metodológicos para proponer, estructurar y llevar a cabo sus propios análisis de fenómenos del lenguaje en corpus, a través de herramientas computacionales determinadas.

• Producir materiales útiles para el análisis computacional del lenguaje, que tengan impacto verificable y efectivo en las redes de generación y transmisión del conocimiento especializado en esta disciplina (foros, wikis, etc .. . ).

3. CONTENIDOS

1. COMPONENTE TÉCNICO (5 horas)

a. ObjeUvo: Adquirir las habilidades básicas para proveerse de una plataforma de cómputo poder recolectar, procesar y estudiar corpora de gran tamaño utilizando "computación en la nube." Además adquirir la habilidad de aprendizaje autónomo en el proceso.

b. Explicación: Se busca que el estudiante aprenda a utilizar un servicio de computación en la nube (como Amazon Web Services) para tener una plataforma de procesamiento escalable y de "bajo" costo total y de propiedad.

c. Justificación: Para procesar grandes corpus se puede llegar a requerir grandes recursos computacionales (computadoras rápidas) y grandes cantidades de almacenamiento. Una computadora personal actual tiene la

__ / capacidad de procesar un corpus relativamente grande pero es difícil ampliar :,"

Page 4: INSTITUTO CARO Y CUERVO · 2017. 3. 15. · MINISTERIO DE CULTURA INSTITUTO CARO Y CUERVO RESOLUCIÓN NÚMERO ~ Q 218 DE 2015 O 7 SET. 2015 Por la cual se autoriza al Seminario Andrés

MINISTERIO DE CULTURA INSTITUTO CARO Y CUERVO

RESOLUCIÓN No.- . Ü 218 DE 2015 "POR LA CUAL SE AUTORIZA SEMINARIO ANDRÉS BELLO A DICTAR EL 'DIPLOMADO EN ANAL/SIS COMPUTACIONAL DEL LENGUAJE'', SE ESTABLECEN SUS CONDICIONES Y SE TOMAN OTRAS DETERMINACIONES" .. .. ............ .. ..... .. .. .. ....... ...... .............. .. ....... .......... ......... ... .. .. .. ..... .. ..... .. ...... .. .. .... .... PÁG. 4.

su capacidad a medida que las necesidades de cómputo y almacenamiento aumentan. Además, este enfoque tiene costos de propiedad que aparentan ser bajos como: energía, espacio, mantenimiento de hardware, software, copias de respaldo, seguridad informática, seguridad (robos), pérdida de información, etc. Cuando las necesidades aumentan, una opción es proveerse de un centro de cómputo con servidores más rápidos, tecnología con varios procesadores trabajando en paralelo y servidores a los que se les pueda aumentar la capacidad de almacenamiento en demanda. Los costos de esta opción son considerablemente mayores y se necesita un número importante de usuarios para amortizar la inversión. La alternativa racional a esta situación es la computación en la nube: recursos de cómputo que se adquieren a la medida y se pueden ampliar en demanda, y usarlos y ,pagar por ellos solo cuando se usen y sin costos de propiedad. Así, es necesario que los investigadores de la lingüística computacional aprendan a utilizar ese recurso para que puedan formular proyectos de cualquier tamaño sin que tengan que abordar ninguno de los problemas y costos de las plataformas de cómputo. Además, lo aprendido usando "la nube" se puede aplicar directamente en computadoras personales y centros de cómputo. Sin embargo, lo contrario no siempre es cierto.

d. Metodología: Cada estudiante abrirá una cuenta en Amazon Web Services y se proveerá de un servidor con la configuración básica para que sea gratuito por un año. Cada estudiante aprenderá a configurar en su servidor las herramientas necesarias: Linux (sistema operativo), Python (lenguaje de programación), NumPy/SciPy (matemáticas y estadística), NL toolkit (herramientas de PLN) y Scileam (herramientas de aprendizaje maquinal). En clase se darán las directrices necesarias para que cada alumno de manera autónoma logre el objetivo.

e. Recursos necesarios: i. Cada alumno requiere una tarjeta de crédito activa a la cual no se le

realizarán cargos para poder abrir la cuenta en AWS. En caso de no contar dicha tarjeta se diseñarán por parte del responsable estrategias para superar el requerimiento.

ii. Cada alumno requiere un smartphone, tableta o computadora portátil con cualquier sistema operativo para poder acceder remotamente a AWS.

iii. Una conexión de acceso a internet (no se requiere banda ancha) para compartir entre los alumnos en las sesiones de clase.

iv. Que cada alumno requiere un acceso a internet en su casa o trabajo para realizar las prácticas fuera de clase.

f. Evaluación: La evaluación de este objetivo se hará mediante las contribuciones que haga cada estudiante en los foros de preguntas y respuestas técnicas Stack Overflow y Stack Exchange. Cada alumno deberá crear un usuario en esos foros y contribuir con preguntas y respuestas. La medida cuantitativa del logro del objetivo será por la calidad y cantidad de las contribuciones, e.g. preguntas bien formuladas, respuestas documentadas, ejemplos, aclaraciones a preguntas ya hechas, traducciones de preguntas, etc.

g. Temas: i. Arquitectura básica de computadores: Entender qué es y qué hace el

(los) procesador(es), la memoria principal (RAM), el almacenamiento secundario (discos). Aprender a cuantificar cómo se mide la información desde bits hasta terab tes , cómo se transporta anchos

Page 5: INSTITUTO CARO Y CUERVO · 2017. 3. 15. · MINISTERIO DE CULTURA INSTITUTO CARO Y CUERVO RESOLUCIÓN NÚMERO ~ Q 218 DE 2015 O 7 SET. 2015 Por la cual se autoriza al Seminario Andrés

MINISTERIO DE CULTURA INSTITUTO CARO Y CUERVO

RESOLUCIÓN No. - 0 ~ 18 DE 2015 "POR LA CUAL SE AUTORIZA SEMINARIO ANDRÉS BELLO A DICTAR EL 'DIPLOMADO EN ANÁLISIS COMPUTACIONAL DEL LENGUAJe', SE ESTABLECEN SUS CONDICIONES Y SE TOMAN OTRAS DETERMINACIONES" ...... .... ..... ..... ... ........... ......... ..... ........ .... ..... .......... ......... .. .... ... ........ ........ ...... .. .. ... .. .PÁG. 5.

de banda) y cómo se procesa (rendimiento). ii. Conexión remota a servidores: putty y sch. iii. Comandos básicos de Linux. iv. Instalación de aplicaciones en Linux. v. Cómo usar los foros.

2. COMPONENTE DE PROGRAMACIÓN (25 horas)

a. Objetivo: Adquirir las habilidades de programación básicas para procesar textos y adquirir la capacidad de aprendizaje autónomo de la programación.

b. Explicación: La programación de las computadoras consiste en aprender el lenguaje con el que ellas hacen las tareas que nosotros queramos que hagan. Este lenguaje se puede aprender sin necesidad de ser un "hacker". Hacer programas · y herramientas para responder preguntas de la lingüística computacional es una tarea que requiere solamente lógica y aritmética básica.

c. Justificación: Las preguntas de investigación en lingüística de corpus son muchas y diversas. Estas pueden requerir realizar tareas particulares que los programas existentes no pueden realizar. Por ejemplo, suponga que un investigador quiere estudiar el uso de los signos de exclamación (¡!) en el español y para eso cuenta con un corpus de un millón de artículos de periódicos etiquetados con la fecha y el nombre del periódico. El investigador desea recolectar de cada artículo el número de usos de los signos de exclamación, la posición en el documento del uso, el número de palabras y caracteres entre los signos. Muchas observaciones, hipótesis y conclusiones interesantes se pueden hacer con esta información, sin embargo es prácticamente imposible encontrar un programa ya hecho que obtenga esa información. Es indispensable que un investigador sea capaz de procesar un corpus de acuerdo a su necesidad particular para responder sus preguntas particulares.

d. Metodología: Se darán clases para proveer los fundamentos de programación en Python con talleres y sesiones prácticas abordando problemas de programación asociados a textos. La metodología de enseñanza de la programación estará basada principalmente en el lenguaje y de manera secundaria en las matemáticas. La idea es producir programas que sean aproximadamente legibles en lenguaje natural (en inglés), e.g.:

sentence=["La" "casa" "estaba" "pintada" "de" "color'' "café"] ' , J , 1 ,

number_of_words_with_more_than_2_1etters=O for word in sentence:

if len(word)>2: number_of_words_with_more_than_2_1etters+=1

print number_of_words_with_more_than_2_1etters

e. Recursos necesarios: los mismos del objetivo anterior. f. Evaluación: Entre todos los estudiantes se construirá un conjunto de

herramientas para procesamiento de texto el cual · se mantendrá en un repositorio público de software como GitHub. Cada estudiante deberá contribuir con una herramienta como mínimo e. . un se arador de sílabas

Page 6: INSTITUTO CARO Y CUERVO · 2017. 3. 15. · MINISTERIO DE CULTURA INSTITUTO CARO Y CUERVO RESOLUCIÓN NÚMERO ~ Q 218 DE 2015 O 7 SET. 2015 Por la cual se autoriza al Seminario Andrés

MINISTERIO DE CULTURA INSTITUTO CARO Y CUERVO

RESOLUCIÓN No. - • 0 ~ 18 DE 2015 'POR LA CUAL SE AUTORIZA SEMINARIO ANDRÉS BELLO A DICTAR EL "DIPLOMADO EN ANAL/SIS COMPUTACIONAL DEL LENGUAJE', SE ESTABLECEN SUS CONDICIONES Y SE TOMAN OTRAS DETERMINACIONES" ............... .................. ..... .. .. .... ... ..... .. ....... ..... ............... ... ........ .... .............. ......... .... PÁG. 6.

podrá contribuir con mejoras, documentación y casos de ejemplo a otras herramientas de sus compañeros. La calificación cuantitativa estará dada por la cantidad y calidad de las contribuciones de cada alumno al conjunto de herramientas. Además, el logro de este objetivo también se evaluará con las contribuciones en el foro Stack Overflow.

g. Temas: 1. Tipos de datos en Python. Conceptos de variable, cadena, lista,

conjunto, tupla y diccionario. 2. Operadores, funciones y métodos incorporados en Python. 3. Estructuras IF, FOR, WHILE. 4. Manejo de archivos y de Internet. 5. Búsqueda de patrones con expresiones regulares. 6. Creación de funciones. 7. Uso de herramientas para Python, e.g. Natural Language

Toolkit, Scilearn.

3. COMPONENTE TEÓRICO DE LINGÜÍSTICA COMPUTACIONAL (40 horas)

a. Objetivo: Aprender los modelos y técnicas básicas de la lingüística computacional y el procesamiento del lenguaje natural.

b. Explicación: Los modelos estadísticos permiten descubrir conocimiento oculto en un corpus que por su tamaño no lo podemos leer manualmente para descubrir ese mismo conocimiento. El análisis lingüístico manual que hace el investigador es exacto, o sea cada caso u ocurrencia en el corpus del fenómeno lingüístico en el que estamos interesados se explica completamente. Sin embargo por las limitaciones humanas y las restricciones de costos, el número de casos que se explican es limitado. Usualmente este número de casos es tan bajo que no se obtiene evidencia estadística suficiente para probar adecuadamente las hipótesis del investigador. Con el análisis estadístico automático en un corpus grande se obtiene evidencia estadística pero cada caso está sujeto a errores. Estos errores provienen de la imprecisión de las "explicaciones" automáticas hechas no por un lingüista sino por un modelo matemático o un conjunto de reglas. Otra fuente de error es la calidad del corpus, que al aumentar este de tamaño se hace más difícil controlarla. El reto consiste en construir modelos con bajo error. Esto se consigue analizando fenómenos lingüísticos sencillos (e.g. ocurrencias) o usando modelos de reconocida eficacia y precisión. Sin embargo, siempre habrá un componente de error que tendremos que medir, estimar y controlar.

c. Justificación: Es el componente central del diplomado. En cuanto a la lingüística computacional se aborda qué preguntas se pueden responder con un corpus grande y cómo hacerlo. En cuanto al procesamiento del lenguaje natural se aborda qué tareas podemos ejecutar y cómo. Los demás componentes del diplomado son pre-requisitos o herramientas para este componente.

d. Metodología: Exposiciones magistrales y talleres prácticos para implementar los métodos usando Python y colecciones de textos. El aprendizaje de los modelos se obtendrá bajo la premisa de que solo se puede programar en una computadora algo que se entiende completamente. Además los alumnos deberán poder explicar en forma escrita las intuiciones y formalismos de los métodos cubiertos en el curso.

Page 7: INSTITUTO CARO Y CUERVO · 2017. 3. 15. · MINISTERIO DE CULTURA INSTITUTO CARO Y CUERVO RESOLUCIÓN NÚMERO ~ Q 218 DE 2015 O 7 SET. 2015 Por la cual se autoriza al Seminario Andrés

MINISTERIO DE CULTURA INSTITUTO CARO Y CUERVO

RESOLUCIÓN No. - Ü ~ 18 DE 2015 'POR LA CUAL SE AUTORIZA SEMINARIO ANDRÉS BELLO A DICTAR EL "DIPLOMADO EN ANÁLISIS COMPUTACIONAL DEL LENGUAJE", SE ESTABLECEN SUS CONDICIONES Y SE TOMAN OTRAS DETERMINACIONES" ........ ........... .. .. ... ..... ... ........... .. ... ... ... .... .. ... ....... .. ... ..... .... .. ..... .. .... ....... ...... .. ...... ..... PÁG. 7.

. /

e. Recursos: los mismos del primer componente del diplomado. f. Evaluación: Para la evaluación no se solicitarán entregables escritos sino que

se utilizará Wikipedia para tal fin . La evaluación cuantitativa de este componente se hará basada en la cantidad y calidad de las contribuciones de los alumnos a Wikipedia sobre los temas cubiertos en este componente. Se espera que los alumnos una vez asimilen mediante la teoría y la práctica los métodos estudiados sean capaces de hacer contribuciones puntuales en Wikipedia sobre ellos. Las contribuciones podrán ser: crear un artículo, extender un artículo, corregir un artículo, adicionar referencias a un artículo, traducir un artículo, adicionar enlaces.

g. Temas: i. Introducción:

1. Diferencia entre lingüística computacional (usar computadoras para estudiar la lengua - estadística, corpus) y procesamiento del lenguaje natural (que las computadoras entiendan el lenguaje humano - inteligencia artificial)

2. Métodos de investigación de la lingüística computacional (qué preguntas podemos responder con un corpus grande que solo lo puede "leer" una computadora)

3. Sub-tareas del procesamiento del lenguaje natural : segmentación (sílabas, palabras, oraciones, etc.), lematización, reducción a raíces (stemmers), colocaciones, dar pesos a las palabras, desambiguación, etiquetado con categorías gramaticales (POS tagging), análisis sintáctico (parsers)

4. Tareas del procesamiento del lenguaje natural: traducción, similitud textual, implicación textual, respuestas a preguntas, recuperación de información, categorización de textos, detección de plagio, atribución de autoría

5. Recursos: corpora, diccionarios, redes semánticas. ii. Análisis a nivel de palabras

1. Frecuencia de las palabras en el corpus. Ley de Zipf 2. Frecuencia de las palabras en documentos. TF-IDF

iii. Análisis a nivel de pares de palabras. Detección de colocaciones. iv. Modelos de orden de las palabras y letras

1. N-gramas 2. Modelos de Markov 3. Modelos ocultos de Markov y CRF (conditional random fields)

v. Representaciones vectoriales 1. Vector space model 2. Reducción de la dimensionalidad 3. Hipótesis distribucional

vi. Aprendizaje maquinal 1. Representaciones con atributos 2. Clasificación 3. Agrupamiento 4. Selección de atributos

4. COMPONENTE TEÓRICO DE MATEMÁTICAS, PROBABILIDAD Y ESTADÍSTICA BÁSICAS (10 horas)

Page 8: INSTITUTO CARO Y CUERVO · 2017. 3. 15. · MINISTERIO DE CULTURA INSTITUTO CARO Y CUERVO RESOLUCIÓN NÚMERO ~ Q 218 DE 2015 O 7 SET. 2015 Por la cual se autoriza al Seminario Andrés

MINISTERIO DE CULTURA INSTITUTO CARO Y CUERVO

º·,,.: "18 RESOLUCIÓN No. ...., DE 2015 "POR LA CUAL SE AUTORIZA SEMINARIO ANDRÉS BELLO A DICTAR EL "DIPLOMADO EN ANÁLISIS COMPUTACIONAL DEL LENGUAJE", SE ESTABLECEN SUS CONDICIONES Y SE TOMAN OTRAS DETERMINACIONES" ...................... . : .... .. .. .......... ..... .. .... . .. ........ ..... ... ..... .... ..... .. ............. .. .... .... .. ... .. ... .. .. PÁG. 8.

a. Objetivo: Proveer los conceptos matemáticos básicos para construir modelos estadísticos básicos.

b. Explicación: Proveer conceptos matemáticos básicos que pudiesen ser desconocidos, estar olvidados o mal aprendidos.

c. Justificación: Mantener el diplomado sin pre-requisitos y nivelar al grupo para que todos los alumnos tengan los elementos para entender los modelos estadísticos aplicados al lenguaje.

d. Metodología: Exposiciones magistrales de los temas y talleres prácticos con problemas asociados al procesamiento de textos.

e. Recursos: un Smartphone, tableta o computadora con un software de hoja de cálculo lnstalado.

f. Evaluación: Cada alumno será evaluado por la calidad y claridad pedagógica de un video corto (5 min. max.) en el que explique uno de los temas de este componente. El video debe ser presentado en clase y recibirá retroalimentación del maestro y sus compañeros. La versión final se publicará en YouTube.

g. Temas: i. Eventos y probabilidad ii. Distribución de probabilidad iii. Probabilidad condicional iv. Promedio y desviación estándar v. Números aleatorios vi. Significancia estadística vii. Medidas de correlación viii. Vectores y matrices ix. Operaciones de suma y multiplicación entre vectores y matrices

4. CARACTERÍSTICAS GENERALES

• Duración: Ocho (08) semanas • Modalidad: Presencial • Intensidad horaria: 100 horas • Costo: $ 644.350 • Cupo máximo: 30 estudiantes (5 cupos para investigadores del Instituto Caro y Cuervo y 25

cupos para público general).

5. PROCESO DE SELECCIÓN DE ASPIRANTES

Los aspirantes al Diplomado en Análisis Computacional del Lenguaje deberán diligenciar el formulario de inscripción que se encuentra en la página institucional del Instituto Caro y Cuervo www.caroycuervo.gov.co y adjuntar ~n formato digital PDF los siguientes documentos:

• Hoja de vida • Fotocopia del documento de identidad • Díploma de estudios profesionales o acta de grado; para estudiantes activos:

certificación de su calidad de estudiante expedida por su departamento, facultad o · unidad académica respectiva; debe incluir semestre en curso, plan de estudios, y estado del estudiante (activo o en semestre aplazado)

Page 9: INSTITUTO CARO Y CUERVO · 2017. 3. 15. · MINISTERIO DE CULTURA INSTITUTO CARO Y CUERVO RESOLUCIÓN NÚMERO ~ Q 218 DE 2015 O 7 SET. 2015 Por la cual se autoriza al Seminario Andrés

MINISTERIO DE CULTURA INSTITUTO CARO Y CUERVO

RESOLUCIÓN No. Ü ,¿ i 3 DE 2015 "POR LA CUAL SE AUTORIZA SEMINARIO ANDRÉS BELLO A DICTAR EL 'DIPLOMADO EN ANÁLISIS COMPUTACIONAL DEL LENGUAJE', SE ESTABLECEN SUS CONDICIONES Y SE TOMAN OTRAS DETERMINACIONES' ......... .... ...... ..... ... ..... ... ..... ....... .... .... ..... , ..... ....... .......... ........... ... .. ... .. .. .......... ... .. ... . PÁG. 9.

6. PROCESO DE MATRICULA

Una vez se publique la lista de admitidos, el pago por concepto de matricula se hará únicamente en efectivo, el aspirante debe consignar la suma de SEISCIENTOS CUARENTA Y CUATRO MIL TRESCIENTOS CINCUENTA PESOS M/CTE ($644.350). En cualquier sucursal del Banco Popular, en la cuenta corriente # 09006009-6 a nombre del Instituto Caro y Cuervo.

Como requisita para firmar la matrícula, el reciba de consignación de los aspirantes admitidos deberá entregarse en la secretaria del Seminario Andrés Bello con los documentos en físico adjuntas en forma digital durante la inscripción.

Los cupos de los estudiantes admitidos que no puedan participar en los diplomados por cualquier motivo o razón, no serán reservados para futuras convocatorias como tampoco se harán devoluciones de dinero por concepto de matrícula.

7. COBRO

La Constitución Política de Colombia en su artículo 67 establece "/a educación es un derecho de las personas y un servicio público con función social", respecto del cual "el Estado, la sociedad y la familia son responsables en cuanto a su prestación y acceso, siendo obligatorios entre los cinco y los quince años edad". Así, las instituciones educativas públicas y privadas establecen sus programas educativos, bajo un criterio de libertad vigilada. El artículo 69 de la Constitución Política de Colombia señala: "Se garantiza la autonomía universitaria. Las universidades podrán darse sus directivas y regirse por sus propios estatutos, de acuerdo con la ley".

Que en relación con lo anterior, el Instituto Caro y Cuervo ha realizado a través de La subdirección Académica, la estimación de los gastos que va a implicar el desarrollo del diplomado en Análisis Computacional del Lenguaje y el monto de recursos que van a ingresar por concepto de matrícula. Por tanto la matrícula del mismo tiene un valor de SEISCIENTOS CUARENTA Y CUATRO MIL TRESCIENTOS CINCUENTA PESOS M/CTE ($644.350).

8. REQUISITOS PARA LA CERTIFICACIÓN

• Llevar a cabo las lecturas previas y los ejercicios exigidos por el profesor. • Participar como mínimo en el 80% de las sesiones de cada uno de los módulos. • Entregar como mínimo el 80% de las evaluaciones programadas por el profesor. • Obtener una nota mínima de 3.0 (escala de 1.0 a 5.0) en cada una de los temas de los

módulos.

9. CALENDARIO

• Inscripciones: 15 de septiembre al 4 de octubre de 2015 a través de la página web www.caroycuervo.gov.co.

• Publicación lista de seleccionados: 5 de octubre de 2015 • Matriculas: 6 al 9 de octubre de 2015 • Inicio de clases: 13 de octubre de 2015 • Finalización de clases: 4 de diciembre 2015

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

.....

Page 10: INSTITUTO CARO Y CUERVO · 2017. 3. 15. · MINISTERIO DE CULTURA INSTITUTO CARO Y CUERVO RESOLUCIÓN NÚMERO ~ Q 218 DE 2015 O 7 SET. 2015 Por la cual se autoriza al Seminario Andrés

MINISTERIO DE CULTURA INSTITUTO CARO Y CUERVO

RESOLUCJÓN No. . Ü ~ i 8 DE 2015 "POR LA CUAL SE AUTORIZA SEMINARIO ANDRÉS BELLO A DICTAR EL "DIPLOMADO EN ANAL/SIS COMPUTACIONAL DEL LENGUAJE'' , SE ESTABLECEN SUS CONDICIONES y SE TOMAN OTRAS DETERMINACIONES' ...................... ... ... .. .. ......... .. .... ............... ...... .. ..... ...... ...... ... ... ......... ..... ............. .... . PÁG. 10.

• Horario 5:00 pm a 8:00 pm - martes a viernes • Lugar: Sede Casa de Cuervo (Calle 10 # 4-69, La Candelaria centro. Bogotá D.C.)

ARTÍCULO TERCERO: Autorícese al Seminario Andrés Bello para elaborar y aplicar el proceso de admisión al Diplomado en Análisis Computacional del Lenguaje.

ARTÍCULO CUARTO: Autorícese el cobro de SEISCIENTOS CUARENTA Y CUATRO MIL TRESCIENTOS CINCUENTA PESOS M/CTE ($ 644.350) a los estudiantes admitidos, a título de matrícula para el diplomado, los cuales deben consignarse en la cuenta corriente No. 09006009-6 del Banco Popular, a nombre del Instituto Caro y Cuervo, y entregar copia original de la consignación en la secretaría del Seminario Andrés Bello del Instituto Caro y Cuervo.

PARÁGRAFO PRIMERO: Inclúyase dentro de los estudiantes del diplomado a cinco (5) investigadores del Instituto Caro y Cuervo, quienes participarán a título gratuito, tendrán derecho a un cupo, para un total de cinco (5) cupos y serán becados por parte del Establecimiento Público.

PARÁGRAFO SEGUNDO: El recibo de consignación deberá entregarse en la secretaria del Seminario Andrés Bello con los documentos en físico que fueron adjuntos en forma digital durante la inscripción (únicamente los aspirantes admitidos), como requisito para firmar la matrícula.

PARÁGRAFO TERCERO: Quienes adelanten el programa de Diplomado en Análisis Computacional del Lenguaje en el Instituto Caro y Cuervo a través del Seminario Andrés Bello no serán considerados estudiantes regulares sino participantes de un programa de extensión.

PARÁGRAFO CUARTO: Los cupos de los estudiantes admitidos que no puedan participar en los diplomados por cualquier motivo o razón, no serán reservados para futuras convocatorias como tampoco se harán devoluciones de dinero por concepto de matrícula.

ARTICULO QUINTO: De conformidad con lo preceptuado en el literal c del artículo 95 del Decreto 2150 de 1995, publíquese en el Diario oficial el presente acto administrativo.

ARTÍCULO SÉXTO. La presente resolución rige a partir de la fecha de su expedición y contra esta no procede recurso alguno.

PUBLÍQUESE, COMUNÍQUESE Y CÚMPLASE Dada en Bogotá D.C., a los O 7 SET. 2015

CV/.r,?? / ,,., /2,A..___" CARMEN MILLÁN

Proyectó: Zoe Castro, Profesional Esp ializado SAB ~ Aprobó: Juan Manuel Espinosa-SAB . . ....-/ Revisó: Osear Fonseca, Asesor Jurídic ice· _

Mar arita Castañeda Var as, Su . · ectora administrativa financiera