kontext.fraunhofer.dekontext.fraunhofer.de/haenelt/kurs/referate/zhangsinian_ws05/refer... · 8d: +...
TRANSCRIPT
�
����� ������������ �������������� �� �������������������� ���������
��������� ������ ����� � ��!�!��"
�����#�$%����$&��'�����(� )��*��+���,������ �-� .���������������/
)�� ���������� ������'��� 0� !��1$�" ,������� 2�� %���� )������
3����44555�#�����$��*��+����*�46�����7
!
�����
�� � ��������� �
!� ��������� *�� ,�#������#������ .���������8� ������������� �� 9�'�1� :��+��� ��* ;��+����������
"� ,�������� ��* ,��/�
8
%���� ����������
<���*�(����# �5�� �#������ � ���� ����� ��
��5������ ��* �#���=��# ���� ���� ����� ��
��5������
�7 � ������������ *�� <�5������ *�� ����� >���� +�5� �����
!7 ���������������� *�� <�5�#���� *�� ����� >��� ��* *�� �����-����#�� �����$>����
1
%���� ����������
?�� ����� ��������� ��+� �� '���#��*��� ����������
��* ;�������� �5�� ��������#� �����������
�7 � ��������������������
!7 � ����������� �������
"
%���� ����������
��� ����� � ���� ��� 0�������� ��� /�������������;�/�+����� �� *� *�� ?������� �*�� 0@���� *��#���������� �������*�� '��+��*�� ���*�
?���������,���������#�� >�������
$ 2&2�A ?��* B� ����$ ��* ��#'��5��*�� 0@������*���� >�������
$ ����*��* >������� 0����#��� ����44555��+��*�4C*�4��������4
$ >������� �� <�������# A�������44555��������*�4������#4#��*�#����C������#4'�#�+�������4���4
D
%���� ����������
�7� ��������������������
����� ��������� +������ ��� ����� >�������$����/������ 5��* ���� >�������$����/��� ��# +����������������#�� ;������� ��������# �������� *�+��5��* ��� <��=/�����3*�� ������ %����/���� '��2�/������7 +������E *���� >�������$����/���+����� ���� *�� ����'��� �*�� *�� F���#/�������*�5��#�� *�� >�����
%���� ����������
!7 � �������������������
�� 5��*�� ��� *�� 2�/����� �� *�� ������'������
����������� ���#� 2�/����� ���* ��#��������� �����
������ *�� ����'��� �*�� F���#/�������* �5��#��
*�� >���� 5��* ������ *��# *���� 2�/��������
+������ *�� >��� �-� ���� ���� ����� �����
�+�� ��� *����� 2�/������� 3G�*���� ,�#������#������.���������� G����# .���������� �#���� .���������� ��#�7
B
�����
�� %���� ����������
!� ������������������� ������������ �����
8� ������������� �� 9�'�1� :��+��� ��* ;��+����������
"� ,�������� ��* ,��/�
H
��������� ,�#������#������ .���������
�����������������+��#��� G�*���� *����� *���������#�� ,�/���� �������+������� �����5(����* ��#��+���3��9�'� �����������7�
2�� G�*���� ����� ������������ ������ +��������� *� ��������� ��������� 3.�$I##����#�7 '��>���� +�5� �����������+ ����� 2�/�������2�� �*�� *������ ���� *��� �5�� >���� *�� ��� ��� ������ >��� ���������� ����'��� ���* ��* �������*������������ ���*� 3��?� ��2� ��* )�;� �������* �������� �����* *��7
��
��������� ,�#������#������ .���������
<���+�� �5�� G������
$ ���� G����� '�� 2�/������� 2�#�� 2�#!� ��� 2�#$ ���� G���� '�� ����� *�� ��� ����� *�����
2�/������ �+������ ����� ���!� ��� ����
3��?� �##������� �##����+����� ��* �##����*5��*�� �� *����+�� ��� �##������(���7
��
��������� ,�#������#������ .���������
2�#����$���$����#������$G������ 38 2�#�� " ����7
J��� ���� �-� *�� J��K���� ����� ����3����7 ��
���� 2�/���� 32�#�7� 3��?� ����� � �� �� 2�#�� � G�� �� 2�#!� ! G�� �� 2�#87
J8�"L�J8�1LDJ8�8L�J8�!L!J8��L! ��!
J!�"L�J!�1L1J!�8L!J!�!L1J!��L� ��"
J��"L�J��1L�J��8L�J��!L8J���L� ��#
$��%$��&$��!$��"$��#
�!
��������� ,�#������#������ .���������
2�#����$���$����#������$G������ 38 2�#�� " ����7
���$���$����#������$G������ 3" ����� " ����7
.��� L Σ J��� � J���� L ��!����� 3�L87 ���
��������������� ����������'(�)���
K������������ �+������ <����������������$
J��K����3�+������ ���K���#��� #�$�##����#�7 �-� �5�� �����
J8�"L�J8�1LDJ8�8L�J8�!L!J8��L! ��!
J!�"L�J!�1L1J!�8L!J!�!L1J!��L� ��"
J��"L�J��1L�J��8L�J��!L8J���L� ��#
$��%$��&$��!$��"$��#
.��".��1.��8.��!.���$��#
.!�".!�1.!�8.!�!.!��$��"
."�"."�1."�8."�!."��$��%
.1�".1�1.1�8.1�!.1��$��&
.8�".8�1.8�8.8�!.8��$��!
$��%$��&$��!$��"$��#
�8
��������� ,�#������#������ .���������
2�#����$���$����#������$G������ 38 2�#�� " ����7
���$���$����#������$G������ 3" ����� " ����7
.��� L Σ J��� � J���� L ��!����� 3�L87
.��� L J��� � J���M J!�� � J!��M J8�� � J8�� L %
J8�"L�J8�1LDJ8�8L�J8�!L!J8��L! ��!
J!�"L�J!�1L1J!�8L!J!�!L1J!��L� ��"
J��"L�J��1L�J��8L�J��!L8J���L� ��#
$��%$��&$��!$��"$��#
.��".��1.��8.��!.���L"$��#
.!�".!�1.!�8.!�!.!��$��"
."�"."�1."�8."�!."��$��%
.1�".1�1.1�8.1�!.1��$��&
.8�".8�1.8�8.8�!.8��$��!
$��%$��&$��!$��"$��#
!�!L1J8��L!J8��L!
%
J!��L�
J���L�
$��#
���L�
���L�
J!��L�
J���L�
$��#
�1
��������� ,�#������#������ .���������
2�#����$���$����#������$G������ 38 2�#�� " ����7
���$���$����#������$G������ 3" ����� " ����7
.��� L Σ J��� � J���� L ��!����� 3�L87
.��! L J��� � J��!M J!�� � J!�!M J8�� � J8�! L *
J8�"L�J8�1LDJ8�8L�J8�!L!J8��L! ��!
J!�"L�J!�1L1J!�8L!J!�!L1J!��L� ��"
J��"L�J��1L�J��8L�J��!L8J���L� ��#
$��%$��&$��!$��"$��#
.��".��1.��8.��!L .���L" $��#
.!�".!�1.!�8.!�!.!��$��"
."�"."�1."�8."�!."��$��%
.1�".1�1.1�8.1�!.1��$��&
.8�".8�1.8�8.8�!.8��$��!
$��%$��&$��!$��"$��#
!�!L1J8�!L!J8��L!
*
J!�!L1
J��!L8
$��"
��1L�
��8L8
J!��L�
J���L�
$��#
�"
��������� ,�#������#������ .������������$���$����#������$G������ 3" ����� " ����7
.��� L Σ J��� � J���� L ��!����� 3�L87
2�� G����� ��� �������#3.��� L .���7 ��* �������������N
.��"L�.��1L�!.��8L8.��!L .���L" $��#
.!�"L1.!�1L!B.!�8L�8.!�!L!H.!��L $��"
."�"L�."�1L1."�8L!."�!L1."��L�$��%
.1�"L1.1�1L"!.1�8L�1.1�!L!B.1��L�!$��&
.8�"L!.8�1L�1.8�8LD.8�!L�8.8��L8 $��!
$��%$��&$��!$��"$��#
�D
��������� ,�#������#������ .������������$���$����#������$G������ 3" ����� " ����7
.��� L Σ J��� � J���� L ��!����� 3�L87
A������������ ���� L .��� 4 3.��� M .��� O .���7
��� �������������
����������'(�)���
*����� 0��� /������
����# ���� ����
���"���1���8���!����$��#
�!�"�!�1�!�8�!�!�!��$��"
�"�"�"�1�"�8�"�!�"��$��%
�1�"�1�1�1�8�1�!�1��$��&
�8�"�8�1�8�8�8�!�8��$��!
$��%$��&$��!$��"$��#
.��"L�.��1L�!.��8L8.��!L .���L" $��#
.!�"L1.!�1L!B.!�8L�8.!�!L!H.!��L $��"
."�"L�."�1L1."�8L!."�!L1."��L�$��%
.1�"L1.1�1L"!.1�8L�1.1�!L!B.1��L�!$��&
.8�"L!.8�1L�1.8�8LD.8�!L�8.8��L8 $��!
$��%$��&$��!$��"$��#
�
��������� ,�#������#������ .������������$���$����#������$G������ 3" ����� " ����7
.��� L Σ J��� � J���� L ��!����� 3�L87
A������������ ���� L .��� 4 3.��� M .��� O .���7
����L .��� 4 3.��� M .��� $ .���7
L " 4 3" M " $ "7
L ���
���"���1���8���!����L���
$��#
�!�"�!�1�!�8�!�!�!��$��"
�"�"�"�1�"�8�"�!�"��$��%
�1�"�1�1�1�8�1�!�1��$��&
�8�"�8�1�8�8�8�!�8��$��!
$��%$��&$��!$��"$��#
.��"L�.��1L�!.��8L8.��!L .���L"$��#
.!�"L1.!�1L!B.!�8L�8.!�!L!H.!��L $��"
."�"L�."�1L1."�8L!."�!L1."��L�$��%
.1�"L1.1�1L"!.1�8L�1.1�!L!B.1��L�!$��&
.8�"L!.8�1L�1.8�8LD.8�!L�8.8��L8 $��!
$��%$��&$��!$��"$��#
�B
��������� ,�#������#������ .������������$���$����#������$G������ 3" ����� " ����7
.��� L Σ J��� � J���� L ��!����� 3�L87
A������������ ���� L .��� 4 3.��� M .��� O .���7
���!L .��! 4 3.��� M .!�! $ .��!7
L 4 3 " M !H $ 7
L ��!"H
���"���1���8���!L��!"H
����L���
$��#
�!�"�!�1�!�8�!�!�!��$��"
�"�"�"�1�"�8�"�!�"��$��%
�1�"�1�1�1�8�1�!�1��$��&
�8�"�8�1�8�8�8�!�8��$��!
$��%$��&$��!$��"$��#
.��"L�.��1L�!.��8L8.��!L .���L"$��#
.!�"L1.!�1L!B.!�8L�8.!�!L!H.!��L $��"
."�"L�."�1L1."�8L!."�!L1."��L�$��%
.1�"L1.1�1L"!.1�8L�1.1�!L!B.1��L�!$��&
.8�"L!.8�1L�1.8�8LD.8�!L�8.8��L8 $��!
$��%$��&$��!$��"$��#
�H
��������� ,�#������#������ .���������A���������������$���$����#������$G������ 3" ����� " ����7
;�#��� �-� �����
2�� ����3��=�� ���� ���+��7� *�� *�� @#����
.����������$J�/���$0��� �+��� ������ ������ ��
���� ����� ,�#������#������ .������+��*�����?�
?�� ���� .������'�� 8 �������* ���!��* ���8
*�� ! +����� %��*�*���� �-� �����
���"L���
���1L�����
���8L��8 "
���!L��!"H
����L���
$��#
$��%$��&$��!$��"$��#
!�
��������� ,�#������#������ .���������A���������������$���$����#������$G������ 3� ����� � ����7
?�� *�� ����� ��������� 5��* ��� *�� ;�/��� �-� *��
��� ��� *�� �����-����#�� �����3��� ���� ���7
+���#���� �� 5��* ��# *�� P+�����Q ���� +�5�
>���� ����#�� ��� ���* *�� +����� %��*�*���� �-� *��
��5������ ����� ����� ������
���
���
���
+++
���
��HBH
���
$���
���
���
���
+++
���������������+++
��� "��HH1�����1"D���H!� ���'$��
���������������+++
$��$��,+++$��"$��#
!�
�����
�� %���� ����������
!� ��������� *�� ,�#������#������ .���������8� -��������� �����.�/�
1� :��+��� ��* ;��+����������
"� ,�������� ��* ,��/�
!!
������������� 9�'�<������#���/���
��������� ������#�� 0���
$ �������������� &�,�
������������ ��� ������#
#00�1������)>G,
#00� �) ���/���� R>���S� ������ >���
)>G,$:�����
#00� �) ���%����+�#���+��
/���� ���*�����#��/���� ����5��*�
>�/������� ����5��*�J�����
#00� �) �������
:�����$�����
� ������� ���� ��* >���
����� ������������ ��������$2�#$G��������$���$G�����
;�/��� �-� �����$���
!8
������������� 9�'�<������#���/���
��������� ������#�� 0���
$ �������������� &�,�
������������ ��� ������#
#00�1������)>G,
#00� �) ���/���� R>���S� ������ >���
)>G,$:�����
#00� �) ���%����+�#���+��
/���� ���*�����#��/���� ����5��*�
>�/������� ����5��*�J�����
#00� �) �������
:�����$�����
� ������� ���� ��* >���
����� ������������ ��������$2�#$G��������$���$G�����
;�/��� �-� �����$���
�����- �����-- �����---
!1
������������� 9�'�.���� �� G���*39�'�2�#����44555�#�����$��*��+����*�46�����7
��������� ������#�� 0���
$ �������������� &�,�
������������ ��� ������#
#00�1������)>G,
#00� �) ���/���� R>���S� ������ >���
)>G,$:�����
#00� �) ���%����+�#���+��
/���� ���*�����#��/���� ����5��*�
>�/������� ����5��*�J�����
#00� �) �������
:�����$�����
� ������� ���� ��* >���
����� ������������ ��������$2�#$G��������$���$G�����
;�/��� �-� �����$���
-2�������������$ ���&�,�,���37
--2�����������$ 0�+2�#>�/�����37$ ���0�+37$ ���2�#37$ ���>�/���37$ �������37$ ������37$ ���>�/��,���37$ ������,���37$ ����.�����:��37$ ������>�/��>�+��37$ ���������������37$ ������,�����J���37$ ���J��K��#�37
---2������3����$ *�#���G�����37$ ���������;�#���37
!"
������������� 9�'�������������2
$ )���������*�� ����� +����+���� G����3G��� ������ ���>��7 '�� 0�+����� +�5� &�,� ��� <�����$��#����+������ ��#�� ��# *�� ������ ���������#� ��#�
$ ������1����4-�3����44555��������#�4����47 ���������� ?�+�����/� A�# ����� I�����$����*���/��� T�*�� ����� ,�#��#�$%�� �+�� ��* *��?�+�����/ '��5��*��� 2�� <������#/������(����# �:�� �-� :��� ��* ;����� ���*�� �A�>�
!D
������������� 9�'������������2
$ ;����+����� '�� )>G,$2������� >������ '��
����5��*�� ������� ?���#��� '�� �������K�������
$ .�)����� ������ ������� ?�+�����/�
3����44T�/��������#�����4��#���4*�#�4��*�����7� Q U �� ����
����#� ���T�#� ��� ���#� 9�/����� U � ��$��������#�� ����$�������* ���� ����# ������ ��+���� 5������ �������� �� 9�'��V
<������� ��� >���'����+������ �-� *�� ��5��*��� �
���������� ������'���3��?� 2�#����$��*����� >�/�������
����5��*�$ J������ :�����$����� �-� ������#� 2����# ��*
������#�7
!
������������� 9�'�������3����2
$ ��������� *�� ������ 2�#����$���$����#������$
G������
$ ?���#��� *�� ���$���$����#������$G����� ��
>����
$ ?���#�� *�� ;�/���� �-� *�� ��� ��� *��
�����-����#�� ������
!B
������������� 9�'�<������#���/���
��������� ������#�� 0���
$ �������������� &�,�
������������ ��� ������#
#00�1������)>G,
#00� �) ���/���� R>���S� ������ >���
)>G,$:�����
#00� �) ���%����+�#���+��
/���� ���*�����#��/���� ����5��*�
>�/������� ����5��*�J�����
#00� �) �������
:�����$�����
� ������� ���� ��* >���
����� ������������ ��������$2�#$G��������$���$G�����
;�/��� �-� �����$���
!H
������������� 9�'����� �����+� ��� ?�������>� ����� ���/�* ������*5��*� ��� K���� V���'������V�
�7 ���*���� ���*��� ���*����
!7 ������#� ������# ������#�� ������#���
87 ��5� ��5�
17 ������ �����������������
"7 ������� ������
D7 ��+������� ��+������
7 #���� #����
B7 �'�����#/��� �'�����#/���
H7 ��#��*���� ��#��*���
��7 �#�����*� �#�����*
8�
�����
�� %���� ����������
!� ��������� *�� ,�#������#������ .���������8� ������������� �� 9�'�1� 4�������� ��5�������� ��
"� ,�������� ��* ,��/�
8�
:��+��� �� ;��+�����������7 6�3�'4������3T�'����5������������������7
3����44T�'������#�4T!��4��1�!4*�#�4���47 ���� ��� �7����� ��� �)� >��� ��* *�� >��� �5��#�� *�� >��� 5�� R�#����SR4�#����S ��* R�����SR4�����S�� �����������
WW +������� )>G,$:����� �-� 9�'�WW
8!
:��+��� �� ;��+����������!7 $�������'(������������#����#������������
3����44T�/��������#�����4��#���4*�#�4���47 �� ���� ,��� '�� 8" ������#� ����5��*�� �� ��� �� /����� 3�$��'$������'����3����44����5�/��*������45�/�4G���,C1���!�C����C5��*C����7
���(�� -+�� "�� ������#� ����5��*��
0@���� 5�� 555� ���/� ������ *�� �����+�� G�� /@���� ���#� 0@���� ��� 0�+$����5��*�+����#��� ��* '���� 5��5������
88
:��+��� �� ;��+����������874����'$�������������#����#������������
3����44T�/��������#�����4��#���4*�#�4���47 �� ,�#����
*�� ��������� +������ ��� ����� G���� '�� ;��/-������������� �� +��-#/��#���� *�� ������/ ����� 0����� ��#�� G�� /@���� $������$�������8���� ���3����44T�/��������#�����4��#���4*�#�4��#���$���*+��47 ��� ���������'� '��5��*���
81
:��+��� �� ;��+����������17 ������$������������������
<�����0�+ �:� �����+� ���� ��#� �� ����#+��#�(�/���� �����*� ������ ��#�� 0@���� ��� ��*���� ����#�� ��� ������# ����
8"
:��+��� �� ;��+����������"7 9��� 8��������4��������
�7 ;��+��*��� �� ��� 0�+�����
�� �������� J(���� /��� ���� ;��+��*��� �� ����� 0�+���� +�� ����� G������ *������ G�� /@���� *�� ���� -+��5�#�� ��* ��# �� *�� ,��� *�� :������ ����#������
8D
:��+��� �� ;��+����������"7 9��� 8��������4��������
�7 ;��+��*��� �� ��� 0�+�����
b) Lesen in Document-Stem-Association-Matrix
Bei 100 Dokumenten und 5000 unterschiedlichen Stems, enth(lt der Document-Stem-Matrix bereits eine halbe Million Integer(die meisten sind null). Diese Matrix soll in RAM statt in einer Datei gespeichert werden.
8
:��+��� �� ;��+����������"7 9��� 8��������4��������
�7 ;��+��*��� �� ��� 0�+�����
b) Lesen in Document-Stem-Association-Matrixc) Z(hlen von Stems in Dokumenten
Man k@nnte solche Class bzw. Method aus Lucenedirekt verwenden, wie IndexWeriter, IndexReader, TermDocs, etc., um die Laufzeit zu verk-rzen.
8B
�����
�� %���� ����������
!� ��������� *�� ,�#������#������ .���������8� ������������� �� 9�'�1� :��+��� ��* ;��+����������
"� ����� �� ����)�
8H
,�������� �� ,��/�$ ?����$X����� ��#��*�E ��+����$A���� ?������ 3�*��7
3�HHH7 G�*��� ���������� ������'��� ������ �**���� 0����� ,����� ,����*�
$ J��+��� �������* 3!��87 ���������� ������'��� ��#�*���� ��* 2���$G�����$;������� �-� >����������� ��* *�� 0�+� )��*��+���� *���/��'����� 30�+$;������� ����44����������$������'���*�4��+47
1�
,�������� �� ,��/�$ J����� �� ������� ��* 9�'�$2�/���������
3����44555�#�����$��*��+����*�46�����7
$ <����� 0�+ �:�� 3����44555��������#�4����47
39�'�2�# ����44555��������*��*�4#����4#�! D�4���T�#��4 *�#�4���������47
$ 9�/���� ,�#���3����44T�/��������#�����4��#���4*�#�4��*�����7
3T�'�2�# ����44T�/��������#�����4��#���4*�#�4���4��*�����7
$ ����/�� P>��5��� )>G, :�����Q3����44T�'������#�4���*�#��4T�#4��#4����#���4+��/��/�47
1�
�: �