antiplagium experimentación numérica. integrantes piere cordero patricia natividad gustavo...

34
ANTIPLAGIUM Experimentación Numérica

Upload: azucena-marcelo

Post on 18-Apr-2015

21 views

Category:

Documents


8 download

TRANSCRIPT

ANTIPLAGIUM

Experimentación Numérica

Integrantes

Piere CorderoPatricia NatividadGustavo BarrenecheaRenzo GómezKim Alvarado

Agenda

1. Objetivo de la Experimentación

2. Selección del Método Experimental

3. Hipótesis4. Ejecución del Experimento5. Resultados6. Conclusiones

Objetivo de la Experimentación

Objetivo

Encontrar el algoritmo más eficiente para la detección de plagio de documentos.

Comparar dos algoritmos según tiempo de ejecución y porcentaje de plagio.

Algoritmos a Comparar

Secuencia de Maximales

Lenguaje Natural

Factores Experimentales

Los factores elegidos para el análisis son:

El número de comparaciones entre documentos.

El tamaño de los documentos

Variables de Respuesta

El porcentaje de plagio de un documento contra los documentos de la base de datos.

El tiempo de ejecución del algoritmo de detección de plagio.

Selección del Método Experimental

Método Experimental

Se utilizará el estadístico T-Student.

Análisis con la distribución Normal.

Análisis de las medias con desviación estándar conocidas

Criterios de evaluación

Media muestral µ

Varianza muestral δ2

T-student

Sirve para comparar medias de muestras independientes.

Su objetivo es demostrar por hipótesis una muestra es mejor que otra.

Trabaja con la media y la varianza.

Requiere saber si las varianzas son iguales o no.

T-student

Alpha: Grado de confianza o de certeza.

Utilizaremos 95% como grado de certeza.

C: Punto crítico que separa la región a rechazar y la región de aceptación.

T-student

Sean:

Si: Varianza muestral del algoritmo ig.l.: Grados de libertad (n1+n2-2)

y la fórmula para hallar el estadístico t:

Hipótesis

Hipótesis para el tiempo de ejecución

H0: X1 < X2 : "Secuencia de Maximales requiere un mayor tiempo de ejecución que Lenguaje Natural“

H1: X1 >= X2: " Lenguaje Natural requiere un mayor tiempo de ejecución que Secuencia Maximales ”

Siendo:X1: Media de tiempo de ejecución de Lenguaje Natural.X2: Media de tiempo de ejecución de Secuencia Maximales.

Hipótesis para el porcentaje de plagio

H0: X1 < X2 : "Secuencia de Maximales detecta mayor porcentaje de plagio que Lenguaje Natural“

H1: X1 >= X2: " Lenguaje Natural detecta mayor porcentaje de plagio que Secuencia Maximales ”

Siendo:X1: Media de porcentaje de Lenguaje Natural.X2: Media de porcentaje de plagio de Secuencia Maximales.

Ejecución del Experimento

Muestra de ejecución

Datos Utilizados.

Ejecución del algoritmo Secuencia Maximales.

Ejecución del algoritmo Lenguaje Natural.

Datos utilizados

50 documentos de extensión .txt que serán comparados cada uno contra la los 49 restantes.

Ejecución del Experimento

Para los tiempo de ejecución

Secuencia Maximales Lenguaje NaturalItem Nro. Documento a comparar contra la BD Tiempo proceso (ms) Tiempo proceso (ms)

1 algoritmos.TXT 19262 6862 Arte evaluacion.txt 1592 1863 Articulo PLN V0.txt 44828 36174 Articulo PLN V1.txt 35136 15605 Articulo SRI internet.txt 82660 2656 Articulo SRI REVISTA.txt 7943 3667 Articulo SRI V1.txt 76794 38538 Articulo SRI V2.txt 92471 22319 Articulo SRI V3.txt 33925 2980

10 Articulo SRI.txt 52088 385311 Biometria wikipedia.txt 14351 29712 Biometria.TXT 14066 32813 CLEI 2007.txt 46217 285514 Compresion internet.txt 38987 60815 CompresionV0.txt 24530 46816 CompresionV1.txt 24048 92017 CompresionV2.txt 45116 96718 CompresionV3.txt 78221 227819 CompresionV4.txt 107678 337020 CompresionV5.txt 86935 255821 Cuadro de Mando Integral.TXT 6938 53122 Desenredadndo la madeja V1.txt 1829 26523 Desenredadndo la madeja V2.txt 4243 1716

24 Diagnostico tuberculosis Procesamiento.TXT 32074 92025 Espacio vectorial V0.txt 56375 1263

Para los tiempo de ejecución

Secuencia Maximales Lenguaje Natural

Item Nro. Documento a comparar contra la BD Tiempo proceso (ms) Tiempo proceso (ms)

26 Espacio vectorial V1.txt 14266 968

27 Espacio vectorial V2.txt 31406 702

28 Espacio vectorial V3.txt 17531 171

29 Espacio vectorial V4.txt 14485 156

30 Espacio vectorial V6.txt 16015 702

31 Evaluacion VAN RIJSBERGEN.txt 12594 686

32 Formato articulos CLEI.txt 7125 94

33 Informe final SRI.txt 138969 2496

34 introducci¢n a los sistemas de recuperaci¢n de informaci¢n.txt 24906 6162

35 Motor de B£squeda 1.TXT 50172 1872

36 Motores de busqueda 2.TXT 34891 749

37 Reconocimiento de voz 1.TXT 4187 796

38 Reconocimiento de voz 2.TXT 3219 1653

39 Reconocimiento de voz wikipedia.txt 31164 234

40 Reconocimiento de voz.TXT 16359 1295

41 Recuperacion de informacion.txt 24812 4290

42 SegmentacionV1.txt 58796 1295

43 SegmentacionV2.txt 52422 1326

44 SegmentacionV3.txt 42063 1202

45 SegmentacionV4.txt 56578 1358

46 SegmentacionV5.txt 62375 1606

47 SegmentacionV6.txt 78219 2777

48 SegmentacionV7.txt 94219 2667

49 SegmentacionV8.txt 97938 2621

50 Sistema Experto.TXT 45234 1497

Comparación de tiempo de ejecuciónD

ocum

ento

a c

om

para

r contr

a la B

Dalg

ori

tmos.T

XT

Art

e e

valu

acio

n.t

xt

Art

iculo

PL

N V

0.t

xt

Art

iculo

PL

N V

1.t

xt

Art

iculo

SR

I in

tern

et.

txt

Art

iculo

SR

I R

EV

IST

A.t

xt

Art

iculo

SR

I V

1.t

xt

Art

iculo

SR

I V

2.t

xt

Art

iculo

SR

I V

3.t

xt

Art

iculo

SR

I.tx

tB

iom

etr

ia w

ikip

edia

.txt

Bio

metr

ia.T

XT

CL

EI

2007.t

xt

Com

pre

sio

n inte

rnet.

txt

Com

pre

sio

nV

0.t

xt

Com

pre

sio

nV

1.t

xt

Com

pre

sio

nV

2.t

xt

Com

pre

sio

nV

3.t

xt

Com

pre

sio

nV

4.t

xt

Com

pre

sio

nV

5.t

xt

Cuadro

de M

ando I

nte

gra

l.T

XT

Desenre

dadndo la m

adeja

V1.t

xt

Desenre

dadndo la m

adeja

V2.t

xt

Dia

gnosti

co t

uberc

ulo

sis

Pro

ce

-sam

iento

.TX

TE

spacio

vecto

rial V

0.t

xt

Espacio

vecto

rial V

1.t

xt

Espacio

vecto

rial V

2.t

xt

Espacio

vecto

rial V

3.t

xt

Espacio

vecto

rial V

4.t

xt

Espacio

vecto

rial V

6.t

xt

Evalu

acio

n V

AN

RIJ

SB

ER

GE

N.t

xt

Form

ato

art

iculo

s C

LE

I.tx

tIn

form

e fi

nal S

RI.

txt

intr

oducci¢

n a

los s

iste

mas d

e r

e-

cupera

ci¢

n d

e info

rmaci¢

n.t

xt

Moto

r de B

£squeda 1

.TX

TM

oto

res d

e b

usqueda 2

.TX

TR

econocim

iento

de v

oz 1

.TX

TR

econocim

iento

de v

oz 2

.TX

TR

econocim

iento

de v

oz w

ikip

edia

.txt

Reconocim

iento

de v

oz.T

XT

Recupera

cio

n d

e info

rmacio

n.t

xt

Segm

enta

cio

nV

1.t

xt

Segm

enta

cio

nV

2.t

xt

Segm

enta

cio

nV

3.t

xt

Segm

enta

cio

nV

4.t

xt

Segm

enta

cio

nV

5.t

xt

Segm

enta

cio

nV

6.t

xt

Segm

enta

cio

nV

7.t

xt

Segm

enta

cio

nV

8.t

xt

Sis

tem

a E

xpert

o.T

XT

Item

Nro.

1 2 3 4 5 6 7 8 9 10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

0

20000

40000

60000

80000

100000

120000

140000

160000

Secuencia MaximalesLenguaje Natural

Para el porcentaje de detección de plagio

Secuencia Maximales

Lenguaje Natural

Item Nro. Documento a comparar contra la BD Porcentaje de plagio (%)

Porcentaje de plagio (%)

1 algoritmos.TXT 41 52 Arte evaluacion.txt 71 913 Articulo PLN V0.txt 70 534 Articulo PLN V1.txt 100 975 Articulo SRI internet.txt 100 316 Articulo SRI REVISTA.txt 55 867 Articulo SRI V1.txt 98 928 Articulo SRI V2.txt 99 969 Articulo SRI V3.txt 100 97

10 Articulo SRI.txt 96 9711 Biometria wikipedia.txt 41 812 Biometria.TXT 39 613 CLEI 2007.txt 53 714 Compresion internet.txt 39 615 CompresionV0.txt 100 10016 CompresionV1.txt 100 10017 CompresionV2.txt 100 10018 CompresionV3.txt 100 9719 CompresionV4.txt 81 6620 CompresionV5.txt 98 8521 Cuadro de Mando Integral.TXT 34 022 Desenredadndo la madeja V1.txt 46 023 Desenredadndo la madeja V2.txt 34 8

24Diagnostico tuberculosis Procesamiento.TXT 31 5

25 Espacio vectorial V0.txt 56 4

Para el porcentaje de detección de plagio

Secuencia Maximales Lenguaje Natural

Item Nro. Documento a comparar contra la BD Porcentaje de plagio (%)

Porcentaje de plagio (%)

26 Espacio vectorial V1.txt 68 65

27 Espacio vectorial V2.txt 68 22

28 Espacio vectorial V3.txt 96 72

29 Espacio vectorial V4.txt 75 34

30 Espacio vectorial V6.txt 60 33

31 Evaluacion VAN RIJSBERGEN.txt 13 0

32 Formato articulos CLEI.txt 23 0

33 Informe final SRI.txt 44 4

34introducci¢n a los sistemas de recuperaci¢n de informaci¢n.txt 96 57

35 Motor de B£squeda 1.TXT 60 22

36 Motores de busqueda 2.TXT 40 3

37 Reconocimiento de voz 1.TXT 69 86

38 Reconocimiento de voz 2.TXT 90 11

39 Reconocimiento de voz wikipedia.txt 56 0

40 Reconocimiento de voz.TXT 39 71

41 Recuperacion de informacion.txt 98 72

42 SegmentacionV1.txt 99 91

43 SegmentacionV2.txt 96 96

44 SegmentacionV3.txt 98 97

45 SegmentacionV4.txt 98 97

46 SegmentacionV5.txt 96 94

47 SegmentacionV6.txt 99 92

48 SegmentacionV7.txt 100 96

49 SegmentacionV8.txt 99 95

50 Sistema Experto.TXT 38 1

Comparación de porcentaje de detección de plagio

Docum

ento

a c

om

para

r contr

a la B

Dalg

ori

tmos.T

XT

Art

e e

valu

acio

n.t

xt

Art

iculo

PL

N V

0.t

xt

Art

iculo

PL

N V

1.t

xt

Art

iculo

SR

I in

tern

et.

txt

Art

iculo

SR

I R

EV

IST

A.t

xt

Art

iculo

SR

I V

1.t

xt

Art

iculo

SR

I V

2.t

xt

Art

iculo

SR

I V

3.t

xt

Art

iculo

SR

I.tx

tB

iom

etr

ia w

ikip

edia

.txt

Bio

metr

ia.T

XT

CL

EI

2007.t

xt

Com

pre

sio

n inte

rnet.

txt

Com

pre

sio

nV

0.t

xt

Com

pre

sio

nV

1.t

xt

Com

pre

sio

nV

2.t

xt

Com

pre

sio

nV

3.t

xt

Com

pre

sio

nV

4.t

xt

Com

pre

sio

nV

5.t

xt

Cuadro

de M

ando I

nte

gra

l.T

XT

Desenre

dadndo la m

adeja

V1.t

xt

Desenre

dadndo la m

adeja

V2.t

xt

Dia

gnosti

co t

uberc

ulo

sis

Pro

cesam

iento

.TX

TE

spacio

vecto

rial V

0.t

xt

Espacio

vecto

rial V

1.t

xt

Espacio

vecto

rial V

2.t

xt

Espacio

vecto

rial V

3.t

xt

Espacio

vecto

rial V

4.t

xt

Espacio

vecto

rial V

6.t

xt

Evalu

acio

n V

AN

RIJ

SB

ER

GE

N.t

xt

Form

ato

art

iculo

s C

LE

I.tx

tIn

form

e fi

nal S

RI.

txt

intr

oducci¢

n a

los s

iste

mas d

e r

ecupera

ci¢

n d

e

info

rmaci¢

n.t

xt

Moto

r de B

£squeda 1

.TX

TM

oto

res d

e b

usqueda 2

.TX

TR

econocim

iento

de v

oz 1

.TX

TR

econocim

iento

de v

oz 2

.TX

TR

econocim

iento

de v

oz w

ikip

edia

.txt

Reconocim

iento

de v

oz.T

XT

Recupera

cio

n d

e info

rmacio

n.t

xt

Segm

enta

cio

nV

1.t

xt

Segm

enta

cio

nV

2.t

xt

Segm

enta

cio

nV

3.t

xt

Segm

enta

cio

nV

4.t

xt

Segm

enta

cio

nV

5.t

xt

Segm

enta

cio

nV

6.t

xt

Segm

enta

cio

nV

7.t

xt

Segm

enta

cio

nV

8.t

xt

Sis

tem

a E

xpert

o.T

XT

Item

Nro.

1 2 3 4 5 6 7 8 9 10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

0

20

40

60

80

100

120

Secuencia MaximalesLenguaje Natural

Resultados

Resultados para el tiempo de ejecución

SECUENCIA MAXIMALES LENGUAJE NATURAL gl

n 50 50 98

Media 41165.04 1566.32

S 32052.89694 1310.19272

t = -8.7274 Rechazo Ho Si t > 1.9845 "Como t = -8.7274 < 1.9845 se acepta Ho"

Resultados para porcentaje de plagio

SECUENCIA MAXIMALES LENGUAJE NATURAL gl

n 50 50 98

Media 72 52.96

S 27.34436479 40.8870819

t = -2.7371 Rechazo Ho Si t > 1.9845

"Como t = -2.731 < 1.9845 se acepta Ho"

Conclusiones

Conclusiones

Se acepta la Hipótesis nula para el tiempo de ejecución, es decir el algoritmo de Secuencias Maximales requiere de un mayor tiempo de ejecución que el algoritmo Lenguaje Natural

Se acepta la Hipótesis nula para el porcentaje de detección de plagio, es decir el algoritmo de Secuencias Maximales detecta mayor porcentaje de plagio frente al algoritmo de Lenguaje Natural.

Bibliografía

Bibliografía

Estadística Descriptiva e Inferencial Córdova Zamora, Manuel (2003)