cost-e ective on-demand associative author name …introdução problema desambiguação associativa...

26

Upload: others

Post on 13-Feb-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

  • IntroduçãoProblema

    Desambiguação associativaEANDLAND

    SLANDExperimentos

    Cost-e�ective on-demand associative author namedisambiguation

    Adriano Veloso Anderson A. Ferreira

    Marcos André Gonçalves Alberto H.F. Laender

    Wagner Meira Jr.

    Departamento de Ciência da Computação

    Universidade Federal de Minas Gerais

    Information Processing & Management, 2011

    Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation

  • IntroduçãoProblema

    Desambiguação associativaEANDLAND

    SLANDExperimentos

    Índice

    1 Introdução

    2 Problema

    3 Desambiguação associativa

    4 EAND

    5 LAND

    6 SLAND

    7 Experimentos

    Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation

  • IntroduçãoProblema

    Desambiguação associativaEANDLAND

    SLANDExperimentos

    Introdução

    Citação

    Adriano Veloso, Anderson A. Ferreira, Marcos André Gonçalves,

    Alberto H. F. Laender, Wagner Meira Jr. Cost-e�ective on-demand

    associative author name disambiguation. Information Processing &

    Management, 2011.

    {f1, f2, ..., fm}{coauthor = Anderson A. Ferreira, Marcos André Gonçalves,Alberto H. F. Laender, Wagner Meira Jr}{title = Cost-e�ective on-demand associative author namedisambiguation. }{venue = Information Processing & Management}{year = 2011}

    Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation

  • IntroduçãoProblema

    Desambiguação associativaEANDLAND

    SLANDExperimentos

    Problema

    Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation

  • IntroduçãoProblema

    Desambiguação associativaEANDLAND

    SLANDExperimentos

    Desambiguação associativa

    Função de desambiguação

    Função de desambiguação

    {f1, f2, ..., fm}→ {a1,a2, ...,an}

    Regras de associação

    X → aiX ⊆ {f1, f2, ..., fm}

    Exemplo

    {coauthor = K. Talwar, title = Metric, venue = LATIN} � a1

    Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation

  • IntroduçãoProblema

    Desambiguação associativaEANDLAND

    SLANDExperimentos

    Desambiguação associativa

    Rxai ⊆ Rai ⊆ RR é o conjunto de regras arbitráriasRai é o conjunto de regras da forma X → aiRxai é o conjunto de regras da forma X → ai para a citação x

    θ = (X → ai ) mede a força de cada associação

    coauthor = K. Talwarθ=1.00−−−−→= a1

    venue = LATINθ=0.50−−−−→= a1

    Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation

  • IntroduçãoProblema

    Desambiguação associativaEANDLAND

    SLANDExperimentos

    Desambiguação associativa

    s(ai ,x) =∑|Rxai |j=1 θ(rj )|Rxai |

    medida de con�ança média

    Exemplo

    coauthor = K. Talwarθ=1.00−−−−−→= a1

    venue = LATINθ=0.50−−−−−→= a1

    s(a1,c) =1.00+0.50

    2= 0.75

    p̂(ai |x) = s(ai ,x)∑|n|j=1 s(aj ,x)

    normalização de s(ai ,x)

    Exemplo

    coauthor = K. Talwarθ=1.00−−−−−→= a1

    venue = LATINθ=0.50−−−−−→= a1

    s(a1,c) = 0.75p̂(a1|c) = 0.750.75 = 1

    Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation

  • IntroduçãoProblema

    Desambiguação associativaEANDLAND

    SLANDExperimentos

    Métodos

    3 desambiguadores baseados em associação:

    EAND (Eager Associative Name Disambiguation)LAND (Lazy Associative Name Disambiguation)SLAND (Self-training LAND)

    Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation

  • IntroduçãoProblema

    Desambiguação associativaEANDLAND

    SLANDExperimentos

    EAND

    Algorithm 1. Eager Associative Name Disambiguation Require: Examples in D; ���� , and citation x � T Ensure: The predicted author of citation x 1: ���� ⇐ ����� � � |�|�

    2: � ⇐ rules r extracted from ����� � ����

    3: for each author � do 4: ���

    � ⇐ rules � � � � ������ � �� � ���� and �� �

    5: Estimate ̂�� ��� 6: end for 7: Predict author � such that ̂�� ��� ̂�� ����� � � �

    Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation

  • IntroduçãoProblema

    Desambiguação associativaEANDLAND

    SLANDExperimentos

    Exemplo

    Label Coauthors Publication title Venue c1 a1 K.Talwar Doubling Metric LATIN c2 a1 T. Chan, K. Talwar Dimensional Embeddings SODA c3 a1 T. Chan Approximating TSP SODA c4 a1 T. Chan (among others) Metric Embeddings FOCS

    c5 a2 T. Ashwin, S. Ghosal Adaptable Similarity Search VLDB c6 a2 --- Explanation-Based Failure Recovery AAAI c7 a2 M. Bhide (among others) Dynamic Access Control Framework ICDE

    c8 a3 S. Sarawagi Creating Probabilistic DBs VLDB c9 a3 S. Puradkar (a. others) Semantic Web Based Pervasive AAAI

    c10 a4 V. Harinarayan Virtual Database Technology ICDE

    c11 a1? K. Talwar Approximating Unique Games SODA c12 a4 ?� V. Harinarayan Index Selection for OLAP ICDE c13 a4 ?� I. Mumick What is the DW Problem? VLDB c14 a4 ?� V. Harinarayan Aggregate-Query Processing VLDB c15 a5 ?� J. Hennessy (a. others) Flexible Use of Memory ISCA �

    Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation

  • IntroduçãoProblema

    Desambiguação associativaEANDLAND

    SLANDExperimentos

    EAND

    De�ne

    D = 10 conjunto de treinamentoσmin = 0.20 limite que separa regras frequentesπmin⇐ (σmin×|D|) = (0.20×10) = 2 função de popularidadedo autor

    c1 a1 K. Talwar Doubling Metric LATIN c2 a1 K. Talwar Dimensional Embeddings SODA

    c11 K. Talwar Approximating Unique Games SODA �Extrai a regra

    coauthor = K. Talwar ∧ venue = LATIN θ=1.00−−−−→= a1p̂(ai |c11) = 1.00Portanto preve que o autor a1é o autor correto para a citaçãoc11

    Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation

  • IntroduçãoProblema

    Desambiguação associativaEANDLAND

    SLANDExperimentos

    LAND

    Algorithm 2. Lazy Associative Name Disambiguation Require: Examples in �; ���� , and citation x � T Ensure: The predicted author of citation x 1: Let ����� be the set of examples in � in which feature �� has occurred 2: �� ⇐ ��

    3: for each feature �� � � do 4: �� ⇐�� � �����

    5: end for 6: ����

    � ⇐ ����� � � |�� |

    7: for each author � do 8: ���� ⇐ rules � � extracted from �� ���� �� � ����� 9: Estimate ̂��� 10: end for 11: Predict author � such that ̂��� � ̂�� ��� � � �

    Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation

  • IntroduçãoProblema

    Desambiguação associativaEANDLAND

    SLANDExperimentos

    Exemplo

    Label Coauthors Publication title Venue c1 a1 K.Talwar Doubling Metric LATIN c2 a1 T. Chan, K. Talwar Dimensional Embeddings SODA c3 a1 T. Chan Approximating TSP SODA c4 a1 T. Chan (among others) Metric Embeddings FOCS

    c5 a2 T. Ashwin, S. Ghosal Adaptable Similarity Search VLDB c6 a2 --- Explanation-Based Failure Recovery AAAI c7 a2 M. Bhide (among others) Dynamic Access Control Framework ICDE

    c8 a3 S. Sarawagi Creating Probabilistic DBs VLDB c9 a3 S. Puradkar (a. others) Semantic Web Based Pervasive AAAI

    c10 a4 V. Harinarayan Virtual Database Technology ICDE

    c11 a1? K. Talwar Approximating Unique Games SODA c12 a4 ?� V. Harinarayan Index Selection for OLAP ICDE c13 a4 ?� I. Mumick What is the DW Problem? VLDB c14 a4 ?� V. Harinarayan Aggregate-Query Processing VLDB c15 a5 ?� J. Hennessy (a. others) Flexible Use of Memory ISCA �

    Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation

  • IntroduçãoProblema

    Desambiguação associativaEANDLAND

    SLANDExperimentos

    LAND

    Dxé o novo conjunto de treinamento composto por todas as

    citações que correspondem com a citação x no conjunto de

    teste.Dc12 Label Coauthors Publication title Venue c7 a2 --- ---- ICDE c10 a4 V. Harinarayan ---- ICDE �

    Regras de associação para a citação c12:

    coauthor = V. Haribarayanθ=1.00−−−−→= a4

    coauthor = V. Haribarayan ∧ venue = ICDE θ=1.00−−−−→= a4venue = ICDE

    θ=0.50−−−−→= a4venue = ICDE

    θ=0.50−−−−→= a2Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation

  • IntroduçãoProblema

    Desambiguação associativaEANDLAND

    SLANDExperimentos

    LAND

    s(a4,c12) =1.00+1.00+0.50

    3= 0.83

    p̂(a4|c12) = 0.830.50+0.83 = 0.62s(a2,c12) =

    0.501

    = 0.50p̂(a2|c12) = 0.50.50+0.83 = 0.38

    Portanto, a4 é o autor correto para a citação c12, pois

    p̂(a4|c12)é maior do que p̂(a2|c12)

    Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation

  • IntroduçãoProblema

    Desambiguação associativaEANDLAND

    SLANDExperimentos

    SLAND

    Expansão de LAND

    Tenta resolver os seguintes problemas:

    Quando a probabilidade de dois autores é a mesmaQuando o conjunto Dx = /0

    Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation

  • IntroduçãoProblema

    Desambiguação associativaEANDLAND

    SLANDExperimentos

    SLAND

    Algorithm 3. Self-training LAND Require: Examples in �; ���� , ���� , ���� and citation x � T Ensure: The predicted author of citation x (if the prediction is not abstained) (The ten first steps are exactly the same ones shown in Algorithm 2, and thus they are omitted here) � 1: [11:] if ���� � ���� then 2: [12:] Create a new label, �� 3: [13:] Predict author �� 4: [14:] Include �� � �� in � 5: [15:] else if if ���� � ���� then 6: [16:] Predict author �� such that �̂��� � �̂��� �� � 7: [17:] Include �� � �� in � 8: [18:] else 9: [19:] Place x in the end of the queue 10: [20:] end if �

    Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation

  • IntroduçãoProblema

    Desambiguação associativaEANDLAND

    SLANDExperimentos

    SLAND

    Inclui novos exemplos nos dados de treinamento

    1 ∆(x) = p̂(ai |x)∑|n|j=1 p̂(aj |x)

    medida de con�abilidade

    2 ∆min é um parâmetro especi�cado pelo usuário

    se ∆(x)≥∆minNão inclui exemplos que não são con�áveis

    Coloca as citações randomicamente em uma �la deprioridades

    1 Olha a citação no início da �la e veri�ca a suacon�abilidade

    se ∆(x) < ∆minÉ colocada no �nal da �la

    se ∆(x)≥∆mininclui como novo exemplo nos dados de treinamento

    Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation

  • IntroduçãoProblema

    Desambiguação associativaEANDLAND

    SLANDExperimentos

    SLAND

    Encontra novos autores

    1 γ(x) é o número de regras extraídas para Dx2 γmin é um parâmetro especi�cado pelo usuário

    se γ(x) < γmincria um novo rótulo akinclui como novo exemplo nos dados detreinamento

    Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation

  • IntroduçãoProblema

    Desambiguação associativaEANDLAND

    SLANDExperimentos

    Exemplo

    c13 a4 ?� I. Mumick What is the DW Problem? VLDB c14 a4 ?� V. Harinarayan Aggregate-Query Processing VLDB c15 a5 ?� J. Hennessy (a. others) Flexible Use of Memory ISCA �

    ∆min = 1.50

    Dc13 Label Coauthors Publication title Venue c5 a2 --- ---- VLDB c8 a3 --- ---- VLDB �

    Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation

  • IntroduçãoProblema

    Desambiguação associativaEANDLAND

    SLANDExperimentos

    Exemplo

    Extrai as regras:

    venue = VLDBθ=0.50−−−−→= a4

    venue = VLDBθ=0.50−−−−→= a2

    1 ∆(c13) =p̂(a2|c13)p̂(a3|c13) =

    0.500.50 = 1< ∆min

    2 c13 é colocada no �nal da �la

    Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation

  • IntroduçãoProblema

    Desambiguação associativaEANDLAND

    SLANDExperimentos

    Exemplo

    Dc14 Label Coauthors Publication title Venue c8 a3 --- ---- VLDB c10 a4 V. Harinarayan ---- ICDE �

    1 ∆(c13) =p̂(a4|c13)p̂(a3|c13) =

    0.750.50 = 1.50≥∆min

    2 c14 é incluída nos dados de treinamento e o autor correto é a4,

    pois p̂(a4|c13) é maior que p̂(a3|c13).

    Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation

  • IntroduçãoProblema

    Desambiguação associativaEANDLAND

    SLANDExperimentos

    Exemplo

    1 Dc15 = /0

    1 γmin = 12 γ(c15) = 0 (o número de regras extraídas é igual a zero)

    2 é criado um novo autor a15 para c15 e é incluída nos dados de

    treinamento

    Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation

  • IntroduçãoProblema

    Desambiguação associativaEANDLAND

    SLANDExperimentos

    Avaliação

    Coleções:

    DBLPBDBComp

    Métricas:

    F1

    microF1 = é a média entre autores especí�cos e sobre todosos autores.macroF1= decisões para todos os autores foram contadas emum conjunto comum

    Baseline

    Métodos supervisionados: S-SVM, S-NB

    Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation

  • IntroduçãoProblema

    Desambiguação associativaEANDLAND

    SLANDExperimentos

    Resultados

    Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation

  • IntroduçãoProblema

    Desambiguação associativaEANDLAND

    SLANDExperimentos

    Resultados

    Emilia Alves de Souza Cost-e�ective on-demand associative author name disambiguation

    IntroduçãoProblemaDesambiguação associativaEANDLANDSLANDExperimentos