distribución por longitud de las palabras de diferentes idiomas
TRANSCRIPT
![Page 1: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/1.jpg)
Distribución por longitud de las palabras de diferentes idiomas
C. Quesada-Granja
![Page 2: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/2.jpg)
Introducción
![Page 3: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/3.jpg)
Muchos fenómenos se pueden caracterizar mediante
distribuciones de probabilidad
![Page 4: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/4.jpg)
La distribución de las palabras según su número de letras
¿sigue algún modelo estadístico?
![Page 5: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/5.jpg)
Es decir…
![Page 6: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/6.jpg)
Si tomamos un texto y contamos…
• las palabras de 1 letra,• las palabras de 2 letras,• las palabras de 3 letras,• las palabras de 4 letras,• las palabras de 5 letras,• las palabras de 6 letras,• las palabras de 7 letras,
![Page 7: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/7.jpg)
… y representamos el resultado en un histograma…
0 5 1 0 1 5 2 0 2 50
5 0
1 0 0
1 5 0
2 0 0
2 5 0
3 0 0
Número de letras
Núm
ero
de p
alab
ras
![Page 8: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/8.jpg)
… ¿se parecerá a alguna distribución de probabilidad
conocida?
![Page 9: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/9.jpg)
Materiales y métodos
![Page 10: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/10.jpg)
Selección de los textos
Carácter enciclopédico
Para una docena de lenguas con alfabeto latino
Un fichero por cada lengua
![Page 11: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/11.jpg)
Contenido de los ficheros
2.500 palabras
Fragmentos de artículos destacados de Wikipedia
10 ó 12 artículos con temáticas diferentes, extraídos al azar
![Page 12: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/12.jpg)
Análisis de los ficheros
Programa en Matlab
Procesa los ficheros
Representa resultados mediante histogramas
![Page 13: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/13.jpg)
function datos = leer(namefile)texto = textread(namefile, '%s');numpal = size(texto);vectL = zeros(1,numpal(1));for i = 1:numpal vectL(i) = length(char(texto(i)));endhist(vectL, 1:max(vectL))
![Page 14: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/14.jpg)
Resultados
![Page 15: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/15.jpg)
La distribución de las palabras no es igual para todas las lenguas
Similitudes cuando se agrupan por familias lingüísticas
![Page 16: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/16.jpg)
Lenguas romances
![Page 17: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/17.jpg)
0 2 4 6 8 1 0 1 2 1 4 1 6 1 80
1 0 0
2 0 0
3 0 0
4 0 0
5 0 0
6 0 0
7 0 0
ESPAÑOLμ = 4,9380σ = 3,0571
0 2 4 6 8 1 0 1 2 1 4 1 6 1 80
1 0 0
2 0 0
3 0 0
4 0 0
5 0 0
6 0 0
7 0 0
FRANCÉSμ = 4,8667σ = 3,0697
1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 50
1 0 0
2 0 0
3 0 0
4 0 0
5 0 0
6 0 0
CATALÁNμ = 4,7331σ = 3,0985
0 5 1 0 1 50
1 0 0
2 0 0
3 0 0
4 0 0
5 0 0
6 0 0
Número de letras Número de letras
Número de letras Número de letras
Núm
ero
de p
alab
ras
Núm
ero
de p
alab
ras
Núm
ero
de p
alab
ras
Núm
ero
de p
alab
ras
![Page 18: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/18.jpg)
Lenguas germánicas occidentales
![Page 19: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/19.jpg)
0 2 4 6 8 1 0 1 2 1 4 1 6 1 80
1 0 0
2 0 0
3 0 0
4 0 0
5 0 0
6 0 0
INGLÉSμ = 4,8773σ = 2,6171
0 5 1 0 1 5 2 0 2 5 3 00
1 0 0
2 0 0
3 0 0
4 0 0
5 0 0
6 0 0
7 0 0
ALEMÁNμ = 6,0968σ = 3,6668
0 5 1 0 1 5 2 0 2 50
1 0 0
2 0 0
3 0 0
4 0 0
5 0 0
6 0 0
NEERLANDÉSμ = 5,2007σ = 3,0556
0 2 4 6 8 1 0 1 2 1 4 1 6 1 8 2 00
1 0 0
2 0 0
3 0 0
4 0 0
5 0 0
6 0 0
Número de letrasNúmero de letras Número de letras
Número de letras Número de letras
Núm
ero
de p
alab
ras
Núm
ero
de p
alab
ras
Núm
ero
de p
alab
ras
Núm
ero
de p
alab
ras
![Page 20: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/20.jpg)
Lenguas eslavas occidentales
![Page 21: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/21.jpg)
0 5 1 0 1 5 2 0 2 50
5 0
1 0 0
1 5 0
2 0 0
2 5 0
3 0 0
3 5 0
POLACOμ = 5,6452σ = 3,3431
0 2 4 6 8 1 0 1 2 1 4 1 6 1 80
5 0
1 0 0
1 5 0
2 0 0
2 5 0
3 0 0
3 5 0
CHECOμ = 5,3604σ = 2,9859
0 2 4 6 8 1 0 1 2 1 4 1 6 1 8 2 00
5 0
1 0 0
1 5 0
2 0 0
2 5 0
3 0 0
3 5 0
ESLOVACOμ = 5,6638σ = 3,2797
0 2 4 6 8 1 0 1 2 1 4 1 6 1 80
5 0
1 0 0
1 5 0
2 0 0
2 5 0
3 0 0
Número de letras Número de letras
Número de letras Número de letras
Núm
ero
de p
alab
ras
Núm
ero
de p
alab
ras
Núm
ero
de p
alab
ras
Núm
ero
de p
alab
ras
![Page 22: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/22.jpg)
Lenguas de otras familias
![Page 23: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/23.jpg)
0 5 1 0 1 5 2 0 2 5 3 00
5 0
1 0 0
1 5 0
2 0 0
2 5 0
3 0 0
3 5 0
0 2 4 6 8 1 0 1 2 1 4 1 6 1 8 2 00
5 0
1 0 0
1 5 0
2 0 0
2 5 0
3 0 0
3 5 0
EUSKERAμ = 6,5018σ = 2,8321
0 5 1 0 1 5 2 0 2 5 3 0 3 50
5 0
1 0 0
1 5 0
2 0 0
2 5 0
3 0 0
3 5 0
4 0 0
ISLANDÉSμ = 5,2470σ = 3,1405
0 5 1 0 1 5 2 0 2 50
5 0
1 0 0
1 5 0
2 0 0
2 5 0
3 0 0
HÚNGAROμ = 6,2615σ = 3,6546
FINÉSμ = 7,8866σ = 3,8362
Número de letras Número de letras
Número de letras Número de letras
Núm
ero
de p
alab
ras
Núm
ero
de p
alab
ras
Núm
ero
de p
alab
ras
Núm
ero
de p
alab
ras
![Page 24: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/24.jpg)
Conclusiones
![Page 25: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/25.jpg)
No se puede establecer un modelo estadístico común a todas las lenguas
Las lenguas de las mismas familias lingüísticas presentan características similares
![Page 26: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/26.jpg)
Posibles aplicaciones
Diseño de algoritmos para la detección automática de lenguas
Estudios de eficiencia
![Page 27: Distribución por longitud de las palabras de diferentes idiomas](https://reader033.vdocuments.pub/reader033/viewer/2022042602/55b4a797bb61ebd8738b45cc/html5/thumbnails/27.jpg)
Longitudes medias(*)
FINÉS 7,89
EUSKERA 6,50
HÚNGARO 6,26
ALEMÁN 6,10 5,92
ESLOVACO 5,66
POLACO 5,65
CHECO 5,36
ISLANDÉS 5,25
NEERLANDÉS 5,20
ESPAÑOL 4,94 4,96
INGLÉS 4,88 4,50
FRANCÉS 4,87 4,84
CATALÁN 4,73
(*) Fletcher Pratt, Secret and Urgent: the Story of Codes and Ciphers, Blue Ribbon Books, 1939, pp. 256-257.