khoa hỌc cƠ bẢn vÀ kỸ thuẬt - cÔng...

10
KHOA HỌC CƠ BẢN VÀ KTHUT - CÔNG NGH

Upload: others

Post on 18-Nov-2019

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: KHOA HỌC CƠ BẢN VÀ KỸ THUẬT - CÔNG NGHỆviethanit.edu.vn/wp-content/uploads/tapsan/9/1.pdf · nghĩa phát triển và duy trì một đồ thị văn hóa toàn cầu

KHOA HỌC CƠ BẢN VAgrave KỸ THUẬT - COcircNG NGHỆ

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

8

XAcircY DỰNG DỮ LIỆU LIEcircN KẾT CHO TRUNG TAcircM THOcircNG TIN TƯ LIỆU

TRƯỜNG CAO ĐẲNG CNTT HỮU NGHỊ VIỆT - HAgraveN

BUILDING LINK DATA FOR VIETHANIT LIBRARY

Nguyễn Thị Hoa Huệ Votilde Hoagraveng Phương Dung

Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven Khoa Cocircng nghệ thocircng tin huenth dungvhpviethaniteduvn

Toacutem tắt Cugraveng với sự ra đời vagrave phaacutet triển của web ngữ nghĩa việc xacircy dựng caacutec ứng dụng web sử

dụng dữ liệu liecircn kết ngagravey cagraveng được chuacute yacute trong một số lĩnh vực như thư viện y sinh học hay dữ liệu liecircn kết của Chiacutenh phủ Mục tiecircu chiacutenh lagrave để xuất bản chia sẻ dữ liệu thuacutec đẩy web ngữ nghĩa phaacutet triển vagrave duy trigrave một đồ thị văn hoacutea toagraven cầu về trao đổi thocircng tin Về phiacutea thư viện số của caacutec trường học quản lyacute vagrave xuất bản dữ liệu mocirc tả giaacuteo trigravenh nghiecircn cứu khoa học của caacuten bộ giảng viecircn vagrave đồ aacuten tốt nghiệp của sinh viecircnhellip rất quan trọng Đoacute lagrave caacutec nguồn tagravei liệu quyacute giaacute để sử dụng tham khảo vagrave phaacutet triển trong giảng dạy vagrave nghiecircn cứu khoa học cũng như ứng dụng trong thực tế Hơn nữa dữ liệu về caacutec tagravei liệu được xuất bản sẽ hỗ trợ kiểm soaacutet việc đạo văn trong caacutec nghiecircn cứu khaacutec Do vậy nghiecircn cứu nagravey tập trung vagraveo xacircy dựng ontology để định nghĩa dữ liệu liecircn kết nhằm mocirc tả caacutec tagravei liệu Từ đoacute nhoacutem taacutec giả đề xuất sử dụng 3 phương phaacutep để xacircy dựng dữ liệu liecircn kết cho Trung tacircm Thocircng tin tư liệu Trường Cao đẳng Cocircng nghệ thocircng tin Hữu nghị Việt - Hagraven

Từ khoacutea Dữ liệu liecircn kết ontology RDF thư viện

Abstract Nowadays along with the popularity of the semantic web interest is growing in building

web applications that use linked data in several domains such as libraries bio-medicine and linked government data The main goals are to publish share and interlink data This has significant potential for libraries which can create globally interlinked library data exchange and share data with other institutions In addition resources in a higher education institutions library play an important role for the teaching-research and study of lecturers staff and students of this institution Therefore in this paper we focus on developing the ontology OntLibrary to describe resources in VietHanIT library We then propose three methods to build linked data for VietHanIT library

Keywords Linked data ontology RDF library

TRƯỜNG CAO ĐẲNG COcircNG NGHỆ THOcircNG TIN HỮU NGHỊ VIỆT - HAgraveN

9

1 Giới thiệu

Ngagravey nay caacutec thư viện số thường xuyecircn phải xử lyacute số lượng lớn thocircng tin từ caacutec định dạng tagravei liệu số Tuy nhiecircn dữ liệu chủ yếu được thu thập bởi caacutec thư viện cho chiacutenh caacutec thư viện Hầu hết chuacuteng được ruacutet ra từ caacutec thư viện truyền thống được tập trung thagravenh caacutec tagravei nguyecircn điện tử magrave người dugraveng coacute liecircn quan coacute thể truy cập bằng caacutech queacutet caacutec bagravei baacuteo vagrave saacutech vv Noacutei chung dữ liệu về caacutec thực thể (chẳng hạn như saacutech taacutec giả vagrave caacutec cơ quan doanh nghiệp) được thu thập vagrave duy trigrave ở nhiều thư viện ở trong cũng như ngoagravei nước Trong thực tế caacutec liecircn kết từ dữ liệu đến caacutec nguồn dữ liệu coacute thể tồn tại nhưng nếu dữ liệu được mocirc tả dưới caacutec định dạng hoặc cuacute phaacutep khaacutec nhau sẽ dẫn đến khoacute khăn trong trao đổi dữ liệu thậm chiacute nhiều thư viện hiện đang bị cocirc lập về trao đổi dữ liệu

Web ngữ nghĩa (semantic web) vagrave đặc biệt lagrave dữ liệu liecircn kết [378] khuyến khiacutech caacutec tổ chức xuất bản chia sẻ vagrave liecircn kết cheacuteo dữ liệu của họ bằng caacutech sử dụng web [2] Khả năng hiển thị dữ liệu coacute thể cải thiện đaacuteng kể thocircng qua việc liecircn kết với caacutec nguồn thocircng tin khaacutec Tham gia vagraveo ldquođaacutem macircy ngữ nghĩardquo [4] coacute thể trợ giuacutep nhiều nhiệm vụ phức tạp magrave caacutec thư viện hiện đang phải đối mặt khi duy trigrave vagrave tối ưu hoacutea phaacutet hiện trugraveng lặp caacutec bộ dữ liệu cục bộ của chiacutenh họ

Tại Trường Cao đẳng Cocircng nghệ thocircng tin Hữu nghị Việt - Hagraven (VietHanIT) thư viện (chuacuteng tocirci gọi lagrave VietHanIT Library) đang lưu giữ caacutec tagravei liệu gồm Tagravei liệu tham khảo saacutech giaacuteo khoa giaacuteo trigravenh baacuteo caacuteo đồ aacuten tốt nghiệp của sinh viecircn luận văn thạc sĩ vagrave luận aacuten tiến sĩ của caacuten bộ giảng viecircn một số loại tạp chiacute định kỳhellip Lượng tagravei liệu được đưa vagraveo thư viện tăng lecircn hằng năm Đacircy chiacutenh lagrave cơ sở cho việc nghiecircn cứu vagrave phaacutet triển một thư viện số hiện đại coacute xuất bản dữ liệu liecircn kết

Mục điacutech chiacutenh của nghiecircn cứu nagravey lagrave xuất bản dữ liệu liecircn kết của VietHanIT Library dựa trecircn caacutec cocircng nghệ ngữ nghĩa web vagrave xacircy dựng mối quan hệ ngữ nghĩa với caacutec nguồn dữ liệu khaacutec Do đoacute trong nghiecircn cứu nagravey nhoacutem taacutec giả tập trung vagraveo việc giới thiệu bản thể học xacircy dựng cho VietHanIT Library vagrave đề xuất 3 phương phaacutep để xacircy dựng kho dữ liệu liecircn kết

Cấu truacutec phần cograven lại của nghiecircn cứu như sau Phần 2 trigravenh bagravey tổng quan về tigravenh higravenh nghiecircn cứu Phần 3 giới thiệu về OntLibrary một ontology được phaacutet triển để xacircy dựng dữ liệu liecircn kết cho VietHanIT Library trong phần 4 Từ đoacute aacutep dụng 3 phương phaacutep xacircy dựng kho dữ liệu liecircn kết Cuối cugraveng kết luận nghiecircn cứu được trigravenh bagravey trong phần 5

2 Tổng quan tigravenh higravenh nghiecircn cứu

Việc phaacutet triển dữ liệu liecircn kết cho thư viện bắt đầu được quan tacircm phaacutet triển từ những năm cuối của thập kỷ trước Từ năm 2009 chuỗi hội thảo khoa học về web ngữ nghĩa trong thư viện - Semantic Web in Libraries (SWIB) [5] được tổ chức hằng năm tại Đức Tại đacircy mỗi năm hội thảo thu huacutet hagraveng trăm caacutec nhagrave khoa học từ khắp nơi trecircn thế giới tham gia thảo luận về phaacutet triển ứng dụng web ngữ nghĩa cho thư viện Điều nagravey cho thấy mối quan tacircm rất lớn của cộng đồng web ngữ nghĩa đối với dữ liệu thư viện

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

10

Một số ứng dụng sử dụng dữ liệu liecircn kết đatilde được đưa vagraveo sử dụng như Thư viện Quốc gia Đức [7] Thư viện Quốc gia Hagraven Quốc [6] Caacutec dịch vụ dữ liệu liecircn kết nagravey đều cho pheacutep người dugraveng vagrave maacutey tiacutenh truy cập vagraveo dữ liệu thư viện chuacuteng sử dụng phương phaacutep tiếp cận dữ liệu liecircn kết nhằm thể hiện vagrave kết nối dữ liệu trecircn Web thocircng qua caacutec URI

Becircn cạnh đoacute một dự aacuten được tagravei trợ gần 1 tỷ đocirc la Mỹ trong hai năm 2014-2016 mang tecircn Linked Data for Libraries 2014 (LD4L 2014) [12] Dự aacuten lagrave sự hợp taacutec của Cornell University Library Harvard Library Innovation Lab vagrave Stanford University Libraries Mục tiecircu của dự aacuten lagrave tạo ra một mocirc higravenh lưu trữ tagravei nguyecircn ngữ nghĩa học thuật (Scholarly Resource Semantic Information Store-SRSIS) SRSIS dugraveng để lagravem việc với caacutec tổ chức caacute nhacircn thocircng qua mạng cộng taacutec vagrave coacute thể mở rộng của dữ liệu mở liecircn kết nhằm nắm bắt được những giaacute trị về mặt triacute tuệ magrave caacuten bộ thư viện caacutec chuyecircn gia trong caacutec lĩnh vực khaacutec nhau vagrave caacutec học giả đatilde bổ sung vagraveo nguồn thocircng tin khi họ miecircu tả chuacute thiacutech sắp xếp lựa chọn vagrave sử dụng Caacutec kết quả đatilde cocircng bố của caacutec dự aacuten lagrave cơ hội để nhoacutem taacutec giả kế thừa phaacutet triển thư viện số sử dụng dữ liệu liecircn kết mở cho thư viện Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven

Ứng dụng cocircng nghệ web ngữ nghĩa trong thư viện số cũng được quan tacircm nghiecircn cứu tại Việt Nam trong vagravei năm trở lại đacircy chẳng hạn [14 15] Caacutec đề tagravei nagravey đều tập trung vagraveo việc phaacutet triển một ontology đầy đủ về caacutec cocircng trigravenh nghiecircn cứu khoa học (CTNCKH) Từ đoacute xacircy dựng hệ thống đaacutep ứng nhu cầu tigravem kiếm tra cứu thống kecirc caacutec CTNCKH tại cơ quan chủ quản của từng đề tagravei Nhigraven chung caacutec đề tagravei trecircn đều tập trung xacircy dựng một ontology caacute nhacircn để quản lyacute thocircng tin liecircn quan tới từng khiacutea cạnh của thư viện magrave họ quan tacircm Tuy nhiecircn caacutec đề tagravei đều chưa xacircy dựng được kho dữ liệu liecircn kết

3 Xacircy dựng ontology OntLibrary Caacutec ontology đoacuteng vai trograve quan trọng trong caacutec thư viện số ngữ nghĩa Ontology khocircng chỉ

lagravem cho tri thức coacute thể sử dụng lại dễ dagraveng hơn noacute cograven lagrave nền tảng của việc tạo ra caacutec chuẩn bởi noacute lagravem rotilde caacutec khaacutei niệm becircn cạnh một thuật ngữ hoặc một mocirc higravenh

Ontology OntLibrary được xacircy dựng nhằm mocirc tả dữ liệu liecircn kết cho thư viện VietHanIT Mục điacutech chiacutenh lagrave tạo điều kiện cho thocircng tin về caacutec giaacuteo trigravenh tagravei liệu đồ aacuten tốt nghiệp trong thư viện VietHanIT trở thagravenh một phần của web bằng caacutech xuất bản chia sẻ vagrave liecircn kết cheacuteo dữ liệu trecircn web

Ontology OntLibrary được xacircy dựng dựa trecircn caacutec ontology được dugraveng phổ biến trong cộng đồng web ngữ nghĩa nhằm giuacutep caacutec dữ liệu được xuất bản chia sẻ trao đổi vagrave sử dụng lại dễ dagraveng hơn Tuy nhiecircn khocircng coacute một ontology đatilde tồn tại nagraveo phugrave hợp hoagraven toagraven trong việc mocirc tả caacutec tagravei nguyecircn của VietHanIT Library Do đoacute caacutec yecircu cầu mocirc higravenh hoacutea dữ liệu cần được phacircn tiacutech tỉ mỉ nhằm sử dụng lại từng phần của caacutec ontology đang tồn tại vagrave định nghĩa thecircm caacutec phần cần thiết chẳng hạn

- Để mocirc higravenh hoacutea dữ liệu nhằm biểu diễn con người (person) vagrave tổ chức cơ quan doanh nghiệp (corporate bodies) ứng dụng sử dụng một số ontology như tập caacutec phần tử RDA [1] từ

TRƯỜNG CAO ĐẲNG COcircNG NGHỆ THOcircNG TIN HỮU NGHỊ VIỆT - HAgraveN

11

vựng FOAF [9] Từ vựng FOAF lagrave cơ sở cho mocirc higravenh hoacutea dữ liệu cho Viethan Library vigrave FOAF mocirc tả tốt caacutec yecircu cầu chức năng của người vagrave caacutec cơ quan cocircng ty được sử dụng trong caacutec thực thể hồ sơ bản ghi

- Đối với đề mục chủ đề mocirc higravenh hoacutea dữ liệu dựa trecircn việc sử dụng Hệ thống tổ chức kiến thức đơn giản (SKOS) [10] vagrave caacutec thagravenh phần Dublin Core Metadata [11]

Hiện tại Viethan Library coacute chứa caacutec tagravei liệu (tagravei nguyecircn) (saacutech tham khảo saacutech giaacuteo khoa giaacuteo trigravenh baacuteo caacuteo đồ aacuten tốt nghiệp của sinh viecircn luận văn bagravei baacuteo tạp chiacute tagravei liệu đa phương tiện vagrave tagravei liệu điện tử) Do đoacute caacutec tagravei nguyecircn được mocirc tả trong caacutec lớp (class) Book TextBook StudentProject Thesis Slides vagrave Article Mỗi loại tagravei nguyecircn được chứa trong một container tương ứng do đoacute lớp Container được tạo ra

Tagravei nguyecircn được tạo ra bởi một hoặc nhiều taacutec giả lớp Author được sử dụng để mocirc tả thocircng tin của taacutec giả đoacute lagrave lớp con của lớp Person (định nghĩa trong FOAF) Caacutec taacutec giả lagravem việc cho Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven được chia thagravenh ba lớp Lecturer Officer vagrave Student Sự gắn kết giữa caacutec tagravei nguyecircn vagrave caacutec taacutec giả chiacutenh thể hiện qua thuộc tiacutenh hasAuthor vagrave thuộc tiacutenh nghịch đảo (owl inverseOf) của noacute isAuthorOf Ngoagravei ra mỗi đồ aacuten tốt nghiệp luận văn luận aacuten coacute iacutet nhất một taacutec giả vagrave được giaacutem saacutet bởi iacutet nhất một người hướng dẫn Người hướng dẫn coacute thể lagrave một giảng viecircn nhacircn viecircn hoặc người lagravem việc ngoagravei Trường Do đoacute thuộc tiacutenh isSupervisedBy được định nghĩa để chỉ ra mối quan hệ nagravey

Phần thocircng tin thiệu chung về một tagravei nguyecircn rất quan trọng giuacutep người đọc nắm được nội dung cơ bản của tagravei nguyecircn một caacutech nhanh choacuteng từ đoacute quyết định coacute chọn tagravei nguyecircn đoacute hay khocircng do đoacute nội dung toacutem tắt của tagravei nguyecircn cần được quản lyacute Ngoagravei ra một số thocircng tin như năm xuất bản số trang mục lục vagrave caacutec tagravei liệu tham khảohellip cũng cần được lưu trữ Caacutec thuộc tiacutenh dugraveng để mocirc tả những thocircng tin nagravey được sử dụng lại từ caacutec ontology sẵn coacute hoặc được định nghĩa thecircm bao gồm surname firstname title description subject abstract datehellip Phần lotildei ontology OntLibrary được thể hiện trong Higravenh 1

Higravenh 1 Ontology OntLibrary

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

12

Dựa trecircn ontology OntLibrary dữ liệu liecircn kết mocirc tả caacutec tagravei nguyecircn trong VietHanIT Library được tạo ra vagrave lưu lại dưới định dạng RDF Phần 4 dưới đacircy sẽ mocirc tả việc xacircy dựng kho dữ liệu liecircn kết cho VietHanIT Library

4 Xacircy dựng kho dữ liệu liecircn kết

Chuacuteng ta biết rằng mocirc tả biecircn mục được xem như cocircng việc mocirc tả caacutec khiacutea cạnh chiacutenh của caacutec nguồn tagravei nguyecircn Việc tạo ra tecircn vagrave tiecircu đề của tagravei nguyecircn nhằm bảo đảm sự truy cập tới tagravei nguyecircn nagravey RDF cho pheacutep mocirc tả bất kỳ loại tagravei nguyecircn sử dụng triples Caacutec cacircu mocirc tả một sự việc trong RDF được xacircy dựng thocircng qua caacutec thuộc tiacutenh vagrave giaacute trị của thuộc tiacutenh Viacute dụ ldquoCuốn đồ aacuten coacute tiecircu đề Lập trigravenh web PHP mySQLrdquo ldquoCuốn đồ aacuten được cocircng bố ngagravey 0162016rdquo vagrave ldquoCuốn đồ aacuten do Nguyễn Thị Việt Mỹ viếtrdquo Như vậy mocirc tả một cuốn đồ aacuten bằng RDF khocircng thể chỉ sử dụng một bản ghi với tất cả thuộc tiacutenh đi cugraveng với nhau như chuacuteng ta coacute thể thấy ở định dạng MARC21 Caacutech tiếp cận RDF rất khaacutec biecircn mục thư viện truyền thống được minh họa bởi MARC21 Với MARC21 caacutec mocirc tả về nhiều khiacutea cạnh của một tagravei nguyecircn bị ragraveng buộc với nhau bởi một cuacute phaacutep cụ thể của caacutec thẻ caacutec chỉ số vagrave caacutec trường con như một luồng dữ liệu duy nhất coacute thể nhận biết được thao taacutec như một toagraven thể Trong RDF dữ liệu phải được taacutech ra thagravenh caacutec statement (cacircu) đơn lẻ sau đoacute coacute thể được xử lyacute độc lập với nhau Việc xử lyacute bao gồm tổng hợp caacutec cacircu lệnh vagraveo một khung nhigraven dựa trecircn bản ghi Caacutec statement hay caacutec triple coacute thể được trộn hay kết hợp với caacutec tagravei nguyecircn khaacutec nhau để tạo ra caacutec khung nhigraven thacircn thiện với người dugraveng

Viacute dụ 24 lagrave một viacute dụ cho thấy sự aacutenh xạ của một đồ aacuten tốt nghiệp ldquoLập trigravenh web PHP mySQLrdquo vagraveo caacutec lớp vagrave thuộc tiacutenh của ontology OntLibrary (matilde của đồ aacuten được đaacutenh theo chuẩn thư viện vagrave tuacircn theo quy định của thư viện số hiện coacute của Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven)

Viacute dụ 24

ltrdfDescription rdfabout=ampinsDALT131605gt

ltdctitlegtXacircy dựng website baacuten maacutey tiacutenh xaacutech tayltdctitlegt

ltdcdescriptiongtĐồ aacuten tốt nghiệp của sinh viecircnltdcdescriptiongt

hellipltvhhasAuthor rdfresource=ampinsCCLT07B016gt

ltvhisSupervisedBy rdfresource=ampinsT04-15111-060gt

ltrdfDescriptiongt

Để xacircy dựng kho dữ liệu liecircn kết cho VietHanIT Library sau khi tigravem hiểu phacircn tiacutech caacutec hệ thống quản lyacute thư viện đang được sử dụng tại Trung tacircm Thocircng tin tư liệu nhoacutem taacutec giả để xuất 3 phương phaacutep như trong Higravenh 2 để xacircy dựng kho dữ liệu cho thư viện số ngữ nghĩa của VietHanIT Library

TRƯỜNG CAO ĐẲNG COcircNG NGHỆ THOcircNG TIN HỮU NGHỊ VIỆT - HAgraveN

13

5 Marshup dữ liệu liecircn kết

Trung tacircm Thocircng tin tư liệu Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven (VietHanIT Library) hiện nay đang sử dụng Hệ Quản trị thư viện tiacutech hợp matilde nguồn mở Koha Hệ thống Koha đatilde cập nhật được rất nhiều dữ liệu về đồ aacuten của sinh viecircn caacutec giaacuteo trigravenh tagravei liệu tham khảohellip Một trong những mục tiecircu quan trọng khi xacircy dựng kho dữ liệu liecircn kết lagrave kết nối với caacutec tập dữ liệu đatilde coacute vagrave taacutei sử dụng chuacuteng (nếu coacute thể) do đoacute hệ thống cần sử dụng lại nguồn dữ liệu hiện coacute trong KOHA bằng một cocircng cụ marshup

Higravenh 2 Xacircy dựng kho dữ liệu

Quy trigravenh lagravem việc mashup bao gồm caacutec bước Thứ nhất dữ liệu thocirc phải được chuyển đổi vagraveo RDF mocirc higravenh dữ liệu cơ bản cho SemanticWeb Caacutec bước tiếp theo lagrave định nghĩa dữ liệu liecircn kết từ tập tin RDF thu được

Coacute nhiều cocircng cụ vagrave bộ chuyển đổi coacute thể được sử dụng cho marshup dữ liệu liecircn kết Cocircng cụ jena-csv310 [13] được lựa chọn cho hệ thống nhằm phaacutet triển ứng dụng chuyển đổi dữ liệu dạng bảng như CSV vagraveo RDF vigrave jena-csv310 matilde nguồn mở Cocircng cụ jena-csv310 cho pheacutep nhận caacutec file CSV đưa vagraveo định dạng RDF

Higravenh 3 Dữ liệu triacutech xuất ra từ Cơ sở dữ liệu của hệ thống KOHA (viacute dụ)

Triacutech xuất thocircng tin tự động từ caacutec bagravei baacuteo quốc tế

Quản lyacute thư viện

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

14

Higravenh 4 (Viacute dụ) Dữ liệu được chuyển đổi sang định dạng RDF

từ file dữ liệu lấy từ CSDL của Hệ thống Koha

Dữ liệu của caacutec tagravei nguyecircn được lưu trong Cơ sở dữ liệu của hệ thống Koha dễ dagraveng được xuất ra file CSV (viacute dụ xem Higravenh 3) Thecircm vagraveo đoacute VietHanIT Library cograven lưu thocircng tin của caacutec tagravei liệu dưới dạng file excel tập tin nagravey được chuyển sang định dạng CSV bằng MS Excel Từ đoacute sử dụng cocircng cụ jena-csv310 toagraven bộ dữ liệu nagravey được tự động chuyển sang định dạng RDF Kết quả lấy được hơn 7 ngagraven bản ghi về caacutec tagravei nguyecircn được lưu trong định dạng RDF (viacute dụ xem Higravenh 4) Tuy nhiecircn dữ liệu RDF coacute được sau khi chuyển đổi chưa phải lagrave dữ liệu liecircn kết Do đoacute rất nhiều thực thể cần phải định nghĩa chẳng hạn caacutec taacutec giả caacutec nhagrave xuất bản Becircn cạnh đoacute nhiều thocircng tin cần phải bổ sung thecircm như phần toacutem tắt từ khoacutea số tranghellip nhằm coacute thể mocirc tả caacutec tagravei nguyecircn giagraveu ngữ nghĩa đảm bảo coacute thể mocirc tả tagravei nguyecircn theo tiecircu chuẩn MARC21 Đacircy lagrave giai đoạn khoacute nhất vagrave tốn thời gian nhất khi xacircy dựng bộ dữ liệu từ bất kỳ nguồn dữ liệu nagraveo do cần hiểu biết sacircu hơn về caacutec tập dữ liệu vigrave đoacute lagrave cơ sở của mashup Caacutec bước nagravey khocircng coacute trigravenh tự từng bước hoặc tự động thực hiện magrave đogravei hỏi caacutec nhagrave phaacutet triển phải tự nghiecircn cứu vagrave tự kiểm tra dữ liệu đacircy lagrave vấn đề khoacute khăn magrave chuacuteng tocirci gặp phải khi xacircy dựng bộ dữ liệu liecircn kết cho VietHanIT Library Dữ liệu được hiểu tốt hơn nghĩa lagrave cần tăng cường chuyển đổi dữ liệu sang dạng RDF vagrave liecircn kết đến caacutec bộ dữ liệu khaacutec

6 Triacutech xuất thocircng tin tự động từ caacutec bagravei baacuteo quốc tế lưu dưới định dạng PDF Caacutec tập tin PDF (định dạng văn bản khocircng phải định dạng higravenh ảnh scan) do caacutec taacutec giả

cung cấp Hệ thống quản lyacute thư viện được phaacutet triển dựa trecircn ngocircn ngữ lập trigravenh Java sẽ triacutech xuất một số dữ liệu tự động cần quản lyacute như tecircn bagravei baacuteo thocircng tin về caacutec taacutec giả toacutem tắt vagrave từ khoacutea Tuy nhiecircn việc truy xuất dữ liệu tự động hiện nay cograven coacute nhiều hạn chế chẳng hạn việc xử lyacute tecircn taacutec giả của một taacutec phẩm Chuacuteng ta biết rằng định dạng tecircn của một taacutec giả gồm Họ + Tecircn Tecircn + Họ hay đặc biệt đối với người Việt phổ biến coacute dạng Họ + Họ đệm + Tecircn Do vậy việc xaacutec định được họ vagrave tecircn taacutec giả tự động gặp rất nhiều khoacute khăn đocirci khi phải chỉnh sửa dữ liệu triacutech xuất tự động bằng thủ cocircng

7 Nhập dữ liệu thủ cocircng Thocircng tin về taacutec phẩm được người dugraveng (lagrave một trong caacutec taacutec giả) hoặc do admin của hệ

thống nhập vagraveo Thocircng tin do taacutec giả nhập vagraveo hệ thống sẽ được admin kiểm tra lại trước khi đưa vagraveo kho dữ liệu

TRƯỜNG CAO ĐẲNG COcircNG NGHỆ THOcircNG TIN HỮU NGHỊ VIỆT - HAgraveN

15

Như vậy kho dữ liệu liecircn kết của VietHanIT Library được tạo ra dựa trecircn việc chuyển đổi thu thập vagrave thecircm mới dữ liệu vagraveo dữ liệu được lưu trong định dạng RDFXML Kết quả của nghiecircn cứu nagravey đatilde được xuất bản trecircn web tại địa chỉ httpsparqlviethaniteduvn datasethtmltab=queryampds= libviethanit vagrave sử dụng tạo ra website ngữ nghĩa cho thư viện số của Trung tacircm Thocircng tin tư liệu tại địa chỉ httptvsviethaniteduvn

8 Kết luận Nghiecircn cứu nagravey đatilde trigravenh bagravey tổng quan về việc xacircy dựng ontology OntLibrary để định nghĩa

caacutec lớp vagrave thuộc tiacutenh nhằm tạo ra dữ liệu liecircn kết cho Trung tacircm Thocircng tin tư liệu Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven Từ đoacute nhoacutem taacutec giả đatilde đề xuất 3 phương phaacutep để xacircy dựng dữ liệu liecircn kết dựa trecircn dữ liệu coacute sẵn tại Trung tacircm Thocircng tin tư liệu của Trường đảm bảo tương thiacutech caacutec chuẩn thư viện magrave Trung tacircm hiện đang aacutep dụng chẳng hạn MARC21 Hiện nay kho dữ liệu mẫu đatilde được xuất bản online vagrave đang trong thời gian hoagraven thiện việc chuyển đổi toagraven bộ dữ liệu của Trung tacircm Thocircng tin tư liệu sang dạng dữ liệu liecircn kết

TAgraveI LIỆU THAM KHẢO

[1] Assumpcao FS Santarem Segundo JE Santos PLVAdC (2015) In RDA Element Sets and RDA Value Vocabularies Vocabularies for Resource Description in the Semantic Web Springer International Publishing Cham 147-158

[2] Bauer F Kaltenbock M (2012) Linked Open Data the Essentials A Quick Start Guide for Decision Makers Ed mono edition monomonochrom

[3] Berners-Lee T (2006) Linked data [online] Available httpswwww3orgDesignIssues LinkedDatahtml

[4] Hannemann J Kett J (2010) Linked Data for Libraries In World library and information congress 76th IFLA genenral conference and assembly httpwwwiaorgenia76 Gothenburg Sweden

[6] Myung-Ja K Han et al (2016) Linked Open Data in Practice Emblematica Online Germany

[5] Wonhong J Sangeun H Sam O (2015) The creation of a linked data-based application service at the national library of korea In iConference 2015 Proceedings

[7] The linked data service of the german national library Modelling of bibliographic data httpwwwdnbde (2016) Truy cập lần cuối cugraveng ngagravey 1512018

[8] Linked data - connect distributed data across the web httplinkeddataorgguides-and-tutorials Truy cập lần cuối cugraveng ngagravey 1512018

[9] httpxmlnscomfoafspec Truy cập lần cuối cugraveng ngagravey 1512018

[10] httpswwww3org200402skosreferences Truy cập lần cuối cugraveng ngagravey 1512018

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

16

[11] httpdublincoreorgdocumentsdces Truy cập lần cuối cugraveng ngagravey 1512018

[12] httpswwwld4lorg Truy cập lần cuối cugraveng ngagravey 1512018

[13] httpsmvnrepositorycomartifactorgapachejenajena-csv310 Truy cập lần cuối cugraveng ngagravey 1512018

[14] Nguyễn Ngọc Phuacute (2013) Ứng dụng web ngữ nghĩa vagrave khai phaacute dữ liệu xacircy dựng hệ thống tra cứu thống kecirc caacutec cocircng trigravenh nghiecircn cứu khoa học Đại học Đagrave Nẵng

[15] Phạm Thị Hồng Hạnh (2016) Ứng dụng web ngữ nghĩa để tra cứu thocircng tin khoa học cho Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven Đại học Đagrave Nẵng

Page 2: KHOA HỌC CƠ BẢN VÀ KỸ THUẬT - CÔNG NGHỆviethanit.edu.vn/wp-content/uploads/tapsan/9/1.pdf · nghĩa phát triển và duy trì một đồ thị văn hóa toàn cầu

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

8

XAcircY DỰNG DỮ LIỆU LIEcircN KẾT CHO TRUNG TAcircM THOcircNG TIN TƯ LIỆU

TRƯỜNG CAO ĐẲNG CNTT HỮU NGHỊ VIỆT - HAgraveN

BUILDING LINK DATA FOR VIETHANIT LIBRARY

Nguyễn Thị Hoa Huệ Votilde Hoagraveng Phương Dung

Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven Khoa Cocircng nghệ thocircng tin huenth dungvhpviethaniteduvn

Toacutem tắt Cugraveng với sự ra đời vagrave phaacutet triển của web ngữ nghĩa việc xacircy dựng caacutec ứng dụng web sử

dụng dữ liệu liecircn kết ngagravey cagraveng được chuacute yacute trong một số lĩnh vực như thư viện y sinh học hay dữ liệu liecircn kết của Chiacutenh phủ Mục tiecircu chiacutenh lagrave để xuất bản chia sẻ dữ liệu thuacutec đẩy web ngữ nghĩa phaacutet triển vagrave duy trigrave một đồ thị văn hoacutea toagraven cầu về trao đổi thocircng tin Về phiacutea thư viện số của caacutec trường học quản lyacute vagrave xuất bản dữ liệu mocirc tả giaacuteo trigravenh nghiecircn cứu khoa học của caacuten bộ giảng viecircn vagrave đồ aacuten tốt nghiệp của sinh viecircnhellip rất quan trọng Đoacute lagrave caacutec nguồn tagravei liệu quyacute giaacute để sử dụng tham khảo vagrave phaacutet triển trong giảng dạy vagrave nghiecircn cứu khoa học cũng như ứng dụng trong thực tế Hơn nữa dữ liệu về caacutec tagravei liệu được xuất bản sẽ hỗ trợ kiểm soaacutet việc đạo văn trong caacutec nghiecircn cứu khaacutec Do vậy nghiecircn cứu nagravey tập trung vagraveo xacircy dựng ontology để định nghĩa dữ liệu liecircn kết nhằm mocirc tả caacutec tagravei liệu Từ đoacute nhoacutem taacutec giả đề xuất sử dụng 3 phương phaacutep để xacircy dựng dữ liệu liecircn kết cho Trung tacircm Thocircng tin tư liệu Trường Cao đẳng Cocircng nghệ thocircng tin Hữu nghị Việt - Hagraven

Từ khoacutea Dữ liệu liecircn kết ontology RDF thư viện

Abstract Nowadays along with the popularity of the semantic web interest is growing in building

web applications that use linked data in several domains such as libraries bio-medicine and linked government data The main goals are to publish share and interlink data This has significant potential for libraries which can create globally interlinked library data exchange and share data with other institutions In addition resources in a higher education institutions library play an important role for the teaching-research and study of lecturers staff and students of this institution Therefore in this paper we focus on developing the ontology OntLibrary to describe resources in VietHanIT library We then propose three methods to build linked data for VietHanIT library

Keywords Linked data ontology RDF library

TRƯỜNG CAO ĐẲNG COcircNG NGHỆ THOcircNG TIN HỮU NGHỊ VIỆT - HAgraveN

9

1 Giới thiệu

Ngagravey nay caacutec thư viện số thường xuyecircn phải xử lyacute số lượng lớn thocircng tin từ caacutec định dạng tagravei liệu số Tuy nhiecircn dữ liệu chủ yếu được thu thập bởi caacutec thư viện cho chiacutenh caacutec thư viện Hầu hết chuacuteng được ruacutet ra từ caacutec thư viện truyền thống được tập trung thagravenh caacutec tagravei nguyecircn điện tử magrave người dugraveng coacute liecircn quan coacute thể truy cập bằng caacutech queacutet caacutec bagravei baacuteo vagrave saacutech vv Noacutei chung dữ liệu về caacutec thực thể (chẳng hạn như saacutech taacutec giả vagrave caacutec cơ quan doanh nghiệp) được thu thập vagrave duy trigrave ở nhiều thư viện ở trong cũng như ngoagravei nước Trong thực tế caacutec liecircn kết từ dữ liệu đến caacutec nguồn dữ liệu coacute thể tồn tại nhưng nếu dữ liệu được mocirc tả dưới caacutec định dạng hoặc cuacute phaacutep khaacutec nhau sẽ dẫn đến khoacute khăn trong trao đổi dữ liệu thậm chiacute nhiều thư viện hiện đang bị cocirc lập về trao đổi dữ liệu

Web ngữ nghĩa (semantic web) vagrave đặc biệt lagrave dữ liệu liecircn kết [378] khuyến khiacutech caacutec tổ chức xuất bản chia sẻ vagrave liecircn kết cheacuteo dữ liệu của họ bằng caacutech sử dụng web [2] Khả năng hiển thị dữ liệu coacute thể cải thiện đaacuteng kể thocircng qua việc liecircn kết với caacutec nguồn thocircng tin khaacutec Tham gia vagraveo ldquođaacutem macircy ngữ nghĩardquo [4] coacute thể trợ giuacutep nhiều nhiệm vụ phức tạp magrave caacutec thư viện hiện đang phải đối mặt khi duy trigrave vagrave tối ưu hoacutea phaacutet hiện trugraveng lặp caacutec bộ dữ liệu cục bộ của chiacutenh họ

Tại Trường Cao đẳng Cocircng nghệ thocircng tin Hữu nghị Việt - Hagraven (VietHanIT) thư viện (chuacuteng tocirci gọi lagrave VietHanIT Library) đang lưu giữ caacutec tagravei liệu gồm Tagravei liệu tham khảo saacutech giaacuteo khoa giaacuteo trigravenh baacuteo caacuteo đồ aacuten tốt nghiệp của sinh viecircn luận văn thạc sĩ vagrave luận aacuten tiến sĩ của caacuten bộ giảng viecircn một số loại tạp chiacute định kỳhellip Lượng tagravei liệu được đưa vagraveo thư viện tăng lecircn hằng năm Đacircy chiacutenh lagrave cơ sở cho việc nghiecircn cứu vagrave phaacutet triển một thư viện số hiện đại coacute xuất bản dữ liệu liecircn kết

Mục điacutech chiacutenh của nghiecircn cứu nagravey lagrave xuất bản dữ liệu liecircn kết của VietHanIT Library dựa trecircn caacutec cocircng nghệ ngữ nghĩa web vagrave xacircy dựng mối quan hệ ngữ nghĩa với caacutec nguồn dữ liệu khaacutec Do đoacute trong nghiecircn cứu nagravey nhoacutem taacutec giả tập trung vagraveo việc giới thiệu bản thể học xacircy dựng cho VietHanIT Library vagrave đề xuất 3 phương phaacutep để xacircy dựng kho dữ liệu liecircn kết

Cấu truacutec phần cograven lại của nghiecircn cứu như sau Phần 2 trigravenh bagravey tổng quan về tigravenh higravenh nghiecircn cứu Phần 3 giới thiệu về OntLibrary một ontology được phaacutet triển để xacircy dựng dữ liệu liecircn kết cho VietHanIT Library trong phần 4 Từ đoacute aacutep dụng 3 phương phaacutep xacircy dựng kho dữ liệu liecircn kết Cuối cugraveng kết luận nghiecircn cứu được trigravenh bagravey trong phần 5

2 Tổng quan tigravenh higravenh nghiecircn cứu

Việc phaacutet triển dữ liệu liecircn kết cho thư viện bắt đầu được quan tacircm phaacutet triển từ những năm cuối của thập kỷ trước Từ năm 2009 chuỗi hội thảo khoa học về web ngữ nghĩa trong thư viện - Semantic Web in Libraries (SWIB) [5] được tổ chức hằng năm tại Đức Tại đacircy mỗi năm hội thảo thu huacutet hagraveng trăm caacutec nhagrave khoa học từ khắp nơi trecircn thế giới tham gia thảo luận về phaacutet triển ứng dụng web ngữ nghĩa cho thư viện Điều nagravey cho thấy mối quan tacircm rất lớn của cộng đồng web ngữ nghĩa đối với dữ liệu thư viện

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

10

Một số ứng dụng sử dụng dữ liệu liecircn kết đatilde được đưa vagraveo sử dụng như Thư viện Quốc gia Đức [7] Thư viện Quốc gia Hagraven Quốc [6] Caacutec dịch vụ dữ liệu liecircn kết nagravey đều cho pheacutep người dugraveng vagrave maacutey tiacutenh truy cập vagraveo dữ liệu thư viện chuacuteng sử dụng phương phaacutep tiếp cận dữ liệu liecircn kết nhằm thể hiện vagrave kết nối dữ liệu trecircn Web thocircng qua caacutec URI

Becircn cạnh đoacute một dự aacuten được tagravei trợ gần 1 tỷ đocirc la Mỹ trong hai năm 2014-2016 mang tecircn Linked Data for Libraries 2014 (LD4L 2014) [12] Dự aacuten lagrave sự hợp taacutec của Cornell University Library Harvard Library Innovation Lab vagrave Stanford University Libraries Mục tiecircu của dự aacuten lagrave tạo ra một mocirc higravenh lưu trữ tagravei nguyecircn ngữ nghĩa học thuật (Scholarly Resource Semantic Information Store-SRSIS) SRSIS dugraveng để lagravem việc với caacutec tổ chức caacute nhacircn thocircng qua mạng cộng taacutec vagrave coacute thể mở rộng của dữ liệu mở liecircn kết nhằm nắm bắt được những giaacute trị về mặt triacute tuệ magrave caacuten bộ thư viện caacutec chuyecircn gia trong caacutec lĩnh vực khaacutec nhau vagrave caacutec học giả đatilde bổ sung vagraveo nguồn thocircng tin khi họ miecircu tả chuacute thiacutech sắp xếp lựa chọn vagrave sử dụng Caacutec kết quả đatilde cocircng bố của caacutec dự aacuten lagrave cơ hội để nhoacutem taacutec giả kế thừa phaacutet triển thư viện số sử dụng dữ liệu liecircn kết mở cho thư viện Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven

Ứng dụng cocircng nghệ web ngữ nghĩa trong thư viện số cũng được quan tacircm nghiecircn cứu tại Việt Nam trong vagravei năm trở lại đacircy chẳng hạn [14 15] Caacutec đề tagravei nagravey đều tập trung vagraveo việc phaacutet triển một ontology đầy đủ về caacutec cocircng trigravenh nghiecircn cứu khoa học (CTNCKH) Từ đoacute xacircy dựng hệ thống đaacutep ứng nhu cầu tigravem kiếm tra cứu thống kecirc caacutec CTNCKH tại cơ quan chủ quản của từng đề tagravei Nhigraven chung caacutec đề tagravei trecircn đều tập trung xacircy dựng một ontology caacute nhacircn để quản lyacute thocircng tin liecircn quan tới từng khiacutea cạnh của thư viện magrave họ quan tacircm Tuy nhiecircn caacutec đề tagravei đều chưa xacircy dựng được kho dữ liệu liecircn kết

3 Xacircy dựng ontology OntLibrary Caacutec ontology đoacuteng vai trograve quan trọng trong caacutec thư viện số ngữ nghĩa Ontology khocircng chỉ

lagravem cho tri thức coacute thể sử dụng lại dễ dagraveng hơn noacute cograven lagrave nền tảng của việc tạo ra caacutec chuẩn bởi noacute lagravem rotilde caacutec khaacutei niệm becircn cạnh một thuật ngữ hoặc một mocirc higravenh

Ontology OntLibrary được xacircy dựng nhằm mocirc tả dữ liệu liecircn kết cho thư viện VietHanIT Mục điacutech chiacutenh lagrave tạo điều kiện cho thocircng tin về caacutec giaacuteo trigravenh tagravei liệu đồ aacuten tốt nghiệp trong thư viện VietHanIT trở thagravenh một phần của web bằng caacutech xuất bản chia sẻ vagrave liecircn kết cheacuteo dữ liệu trecircn web

Ontology OntLibrary được xacircy dựng dựa trecircn caacutec ontology được dugraveng phổ biến trong cộng đồng web ngữ nghĩa nhằm giuacutep caacutec dữ liệu được xuất bản chia sẻ trao đổi vagrave sử dụng lại dễ dagraveng hơn Tuy nhiecircn khocircng coacute một ontology đatilde tồn tại nagraveo phugrave hợp hoagraven toagraven trong việc mocirc tả caacutec tagravei nguyecircn của VietHanIT Library Do đoacute caacutec yecircu cầu mocirc higravenh hoacutea dữ liệu cần được phacircn tiacutech tỉ mỉ nhằm sử dụng lại từng phần của caacutec ontology đang tồn tại vagrave định nghĩa thecircm caacutec phần cần thiết chẳng hạn

- Để mocirc higravenh hoacutea dữ liệu nhằm biểu diễn con người (person) vagrave tổ chức cơ quan doanh nghiệp (corporate bodies) ứng dụng sử dụng một số ontology như tập caacutec phần tử RDA [1] từ

TRƯỜNG CAO ĐẲNG COcircNG NGHỆ THOcircNG TIN HỮU NGHỊ VIỆT - HAgraveN

11

vựng FOAF [9] Từ vựng FOAF lagrave cơ sở cho mocirc higravenh hoacutea dữ liệu cho Viethan Library vigrave FOAF mocirc tả tốt caacutec yecircu cầu chức năng của người vagrave caacutec cơ quan cocircng ty được sử dụng trong caacutec thực thể hồ sơ bản ghi

- Đối với đề mục chủ đề mocirc higravenh hoacutea dữ liệu dựa trecircn việc sử dụng Hệ thống tổ chức kiến thức đơn giản (SKOS) [10] vagrave caacutec thagravenh phần Dublin Core Metadata [11]

Hiện tại Viethan Library coacute chứa caacutec tagravei liệu (tagravei nguyecircn) (saacutech tham khảo saacutech giaacuteo khoa giaacuteo trigravenh baacuteo caacuteo đồ aacuten tốt nghiệp của sinh viecircn luận văn bagravei baacuteo tạp chiacute tagravei liệu đa phương tiện vagrave tagravei liệu điện tử) Do đoacute caacutec tagravei nguyecircn được mocirc tả trong caacutec lớp (class) Book TextBook StudentProject Thesis Slides vagrave Article Mỗi loại tagravei nguyecircn được chứa trong một container tương ứng do đoacute lớp Container được tạo ra

Tagravei nguyecircn được tạo ra bởi một hoặc nhiều taacutec giả lớp Author được sử dụng để mocirc tả thocircng tin của taacutec giả đoacute lagrave lớp con của lớp Person (định nghĩa trong FOAF) Caacutec taacutec giả lagravem việc cho Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven được chia thagravenh ba lớp Lecturer Officer vagrave Student Sự gắn kết giữa caacutec tagravei nguyecircn vagrave caacutec taacutec giả chiacutenh thể hiện qua thuộc tiacutenh hasAuthor vagrave thuộc tiacutenh nghịch đảo (owl inverseOf) của noacute isAuthorOf Ngoagravei ra mỗi đồ aacuten tốt nghiệp luận văn luận aacuten coacute iacutet nhất một taacutec giả vagrave được giaacutem saacutet bởi iacutet nhất một người hướng dẫn Người hướng dẫn coacute thể lagrave một giảng viecircn nhacircn viecircn hoặc người lagravem việc ngoagravei Trường Do đoacute thuộc tiacutenh isSupervisedBy được định nghĩa để chỉ ra mối quan hệ nagravey

Phần thocircng tin thiệu chung về một tagravei nguyecircn rất quan trọng giuacutep người đọc nắm được nội dung cơ bản của tagravei nguyecircn một caacutech nhanh choacuteng từ đoacute quyết định coacute chọn tagravei nguyecircn đoacute hay khocircng do đoacute nội dung toacutem tắt của tagravei nguyecircn cần được quản lyacute Ngoagravei ra một số thocircng tin như năm xuất bản số trang mục lục vagrave caacutec tagravei liệu tham khảohellip cũng cần được lưu trữ Caacutec thuộc tiacutenh dugraveng để mocirc tả những thocircng tin nagravey được sử dụng lại từ caacutec ontology sẵn coacute hoặc được định nghĩa thecircm bao gồm surname firstname title description subject abstract datehellip Phần lotildei ontology OntLibrary được thể hiện trong Higravenh 1

Higravenh 1 Ontology OntLibrary

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

12

Dựa trecircn ontology OntLibrary dữ liệu liecircn kết mocirc tả caacutec tagravei nguyecircn trong VietHanIT Library được tạo ra vagrave lưu lại dưới định dạng RDF Phần 4 dưới đacircy sẽ mocirc tả việc xacircy dựng kho dữ liệu liecircn kết cho VietHanIT Library

4 Xacircy dựng kho dữ liệu liecircn kết

Chuacuteng ta biết rằng mocirc tả biecircn mục được xem như cocircng việc mocirc tả caacutec khiacutea cạnh chiacutenh của caacutec nguồn tagravei nguyecircn Việc tạo ra tecircn vagrave tiecircu đề của tagravei nguyecircn nhằm bảo đảm sự truy cập tới tagravei nguyecircn nagravey RDF cho pheacutep mocirc tả bất kỳ loại tagravei nguyecircn sử dụng triples Caacutec cacircu mocirc tả một sự việc trong RDF được xacircy dựng thocircng qua caacutec thuộc tiacutenh vagrave giaacute trị của thuộc tiacutenh Viacute dụ ldquoCuốn đồ aacuten coacute tiecircu đề Lập trigravenh web PHP mySQLrdquo ldquoCuốn đồ aacuten được cocircng bố ngagravey 0162016rdquo vagrave ldquoCuốn đồ aacuten do Nguyễn Thị Việt Mỹ viếtrdquo Như vậy mocirc tả một cuốn đồ aacuten bằng RDF khocircng thể chỉ sử dụng một bản ghi với tất cả thuộc tiacutenh đi cugraveng với nhau như chuacuteng ta coacute thể thấy ở định dạng MARC21 Caacutech tiếp cận RDF rất khaacutec biecircn mục thư viện truyền thống được minh họa bởi MARC21 Với MARC21 caacutec mocirc tả về nhiều khiacutea cạnh của một tagravei nguyecircn bị ragraveng buộc với nhau bởi một cuacute phaacutep cụ thể của caacutec thẻ caacutec chỉ số vagrave caacutec trường con như một luồng dữ liệu duy nhất coacute thể nhận biết được thao taacutec như một toagraven thể Trong RDF dữ liệu phải được taacutech ra thagravenh caacutec statement (cacircu) đơn lẻ sau đoacute coacute thể được xử lyacute độc lập với nhau Việc xử lyacute bao gồm tổng hợp caacutec cacircu lệnh vagraveo một khung nhigraven dựa trecircn bản ghi Caacutec statement hay caacutec triple coacute thể được trộn hay kết hợp với caacutec tagravei nguyecircn khaacutec nhau để tạo ra caacutec khung nhigraven thacircn thiện với người dugraveng

Viacute dụ 24 lagrave một viacute dụ cho thấy sự aacutenh xạ của một đồ aacuten tốt nghiệp ldquoLập trigravenh web PHP mySQLrdquo vagraveo caacutec lớp vagrave thuộc tiacutenh của ontology OntLibrary (matilde của đồ aacuten được đaacutenh theo chuẩn thư viện vagrave tuacircn theo quy định của thư viện số hiện coacute của Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven)

Viacute dụ 24

ltrdfDescription rdfabout=ampinsDALT131605gt

ltdctitlegtXacircy dựng website baacuten maacutey tiacutenh xaacutech tayltdctitlegt

ltdcdescriptiongtĐồ aacuten tốt nghiệp của sinh viecircnltdcdescriptiongt

hellipltvhhasAuthor rdfresource=ampinsCCLT07B016gt

ltvhisSupervisedBy rdfresource=ampinsT04-15111-060gt

ltrdfDescriptiongt

Để xacircy dựng kho dữ liệu liecircn kết cho VietHanIT Library sau khi tigravem hiểu phacircn tiacutech caacutec hệ thống quản lyacute thư viện đang được sử dụng tại Trung tacircm Thocircng tin tư liệu nhoacutem taacutec giả để xuất 3 phương phaacutep như trong Higravenh 2 để xacircy dựng kho dữ liệu cho thư viện số ngữ nghĩa của VietHanIT Library

TRƯỜNG CAO ĐẲNG COcircNG NGHỆ THOcircNG TIN HỮU NGHỊ VIỆT - HAgraveN

13

5 Marshup dữ liệu liecircn kết

Trung tacircm Thocircng tin tư liệu Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven (VietHanIT Library) hiện nay đang sử dụng Hệ Quản trị thư viện tiacutech hợp matilde nguồn mở Koha Hệ thống Koha đatilde cập nhật được rất nhiều dữ liệu về đồ aacuten của sinh viecircn caacutec giaacuteo trigravenh tagravei liệu tham khảohellip Một trong những mục tiecircu quan trọng khi xacircy dựng kho dữ liệu liecircn kết lagrave kết nối với caacutec tập dữ liệu đatilde coacute vagrave taacutei sử dụng chuacuteng (nếu coacute thể) do đoacute hệ thống cần sử dụng lại nguồn dữ liệu hiện coacute trong KOHA bằng một cocircng cụ marshup

Higravenh 2 Xacircy dựng kho dữ liệu

Quy trigravenh lagravem việc mashup bao gồm caacutec bước Thứ nhất dữ liệu thocirc phải được chuyển đổi vagraveo RDF mocirc higravenh dữ liệu cơ bản cho SemanticWeb Caacutec bước tiếp theo lagrave định nghĩa dữ liệu liecircn kết từ tập tin RDF thu được

Coacute nhiều cocircng cụ vagrave bộ chuyển đổi coacute thể được sử dụng cho marshup dữ liệu liecircn kết Cocircng cụ jena-csv310 [13] được lựa chọn cho hệ thống nhằm phaacutet triển ứng dụng chuyển đổi dữ liệu dạng bảng như CSV vagraveo RDF vigrave jena-csv310 matilde nguồn mở Cocircng cụ jena-csv310 cho pheacutep nhận caacutec file CSV đưa vagraveo định dạng RDF

Higravenh 3 Dữ liệu triacutech xuất ra từ Cơ sở dữ liệu của hệ thống KOHA (viacute dụ)

Triacutech xuất thocircng tin tự động từ caacutec bagravei baacuteo quốc tế

Quản lyacute thư viện

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

14

Higravenh 4 (Viacute dụ) Dữ liệu được chuyển đổi sang định dạng RDF

từ file dữ liệu lấy từ CSDL của Hệ thống Koha

Dữ liệu của caacutec tagravei nguyecircn được lưu trong Cơ sở dữ liệu của hệ thống Koha dễ dagraveng được xuất ra file CSV (viacute dụ xem Higravenh 3) Thecircm vagraveo đoacute VietHanIT Library cograven lưu thocircng tin của caacutec tagravei liệu dưới dạng file excel tập tin nagravey được chuyển sang định dạng CSV bằng MS Excel Từ đoacute sử dụng cocircng cụ jena-csv310 toagraven bộ dữ liệu nagravey được tự động chuyển sang định dạng RDF Kết quả lấy được hơn 7 ngagraven bản ghi về caacutec tagravei nguyecircn được lưu trong định dạng RDF (viacute dụ xem Higravenh 4) Tuy nhiecircn dữ liệu RDF coacute được sau khi chuyển đổi chưa phải lagrave dữ liệu liecircn kết Do đoacute rất nhiều thực thể cần phải định nghĩa chẳng hạn caacutec taacutec giả caacutec nhagrave xuất bản Becircn cạnh đoacute nhiều thocircng tin cần phải bổ sung thecircm như phần toacutem tắt từ khoacutea số tranghellip nhằm coacute thể mocirc tả caacutec tagravei nguyecircn giagraveu ngữ nghĩa đảm bảo coacute thể mocirc tả tagravei nguyecircn theo tiecircu chuẩn MARC21 Đacircy lagrave giai đoạn khoacute nhất vagrave tốn thời gian nhất khi xacircy dựng bộ dữ liệu từ bất kỳ nguồn dữ liệu nagraveo do cần hiểu biết sacircu hơn về caacutec tập dữ liệu vigrave đoacute lagrave cơ sở của mashup Caacutec bước nagravey khocircng coacute trigravenh tự từng bước hoặc tự động thực hiện magrave đogravei hỏi caacutec nhagrave phaacutet triển phải tự nghiecircn cứu vagrave tự kiểm tra dữ liệu đacircy lagrave vấn đề khoacute khăn magrave chuacuteng tocirci gặp phải khi xacircy dựng bộ dữ liệu liecircn kết cho VietHanIT Library Dữ liệu được hiểu tốt hơn nghĩa lagrave cần tăng cường chuyển đổi dữ liệu sang dạng RDF vagrave liecircn kết đến caacutec bộ dữ liệu khaacutec

6 Triacutech xuất thocircng tin tự động từ caacutec bagravei baacuteo quốc tế lưu dưới định dạng PDF Caacutec tập tin PDF (định dạng văn bản khocircng phải định dạng higravenh ảnh scan) do caacutec taacutec giả

cung cấp Hệ thống quản lyacute thư viện được phaacutet triển dựa trecircn ngocircn ngữ lập trigravenh Java sẽ triacutech xuất một số dữ liệu tự động cần quản lyacute như tecircn bagravei baacuteo thocircng tin về caacutec taacutec giả toacutem tắt vagrave từ khoacutea Tuy nhiecircn việc truy xuất dữ liệu tự động hiện nay cograven coacute nhiều hạn chế chẳng hạn việc xử lyacute tecircn taacutec giả của một taacutec phẩm Chuacuteng ta biết rằng định dạng tecircn của một taacutec giả gồm Họ + Tecircn Tecircn + Họ hay đặc biệt đối với người Việt phổ biến coacute dạng Họ + Họ đệm + Tecircn Do vậy việc xaacutec định được họ vagrave tecircn taacutec giả tự động gặp rất nhiều khoacute khăn đocirci khi phải chỉnh sửa dữ liệu triacutech xuất tự động bằng thủ cocircng

7 Nhập dữ liệu thủ cocircng Thocircng tin về taacutec phẩm được người dugraveng (lagrave một trong caacutec taacutec giả) hoặc do admin của hệ

thống nhập vagraveo Thocircng tin do taacutec giả nhập vagraveo hệ thống sẽ được admin kiểm tra lại trước khi đưa vagraveo kho dữ liệu

TRƯỜNG CAO ĐẲNG COcircNG NGHỆ THOcircNG TIN HỮU NGHỊ VIỆT - HAgraveN

15

Như vậy kho dữ liệu liecircn kết của VietHanIT Library được tạo ra dựa trecircn việc chuyển đổi thu thập vagrave thecircm mới dữ liệu vagraveo dữ liệu được lưu trong định dạng RDFXML Kết quả của nghiecircn cứu nagravey đatilde được xuất bản trecircn web tại địa chỉ httpsparqlviethaniteduvn datasethtmltab=queryampds= libviethanit vagrave sử dụng tạo ra website ngữ nghĩa cho thư viện số của Trung tacircm Thocircng tin tư liệu tại địa chỉ httptvsviethaniteduvn

8 Kết luận Nghiecircn cứu nagravey đatilde trigravenh bagravey tổng quan về việc xacircy dựng ontology OntLibrary để định nghĩa

caacutec lớp vagrave thuộc tiacutenh nhằm tạo ra dữ liệu liecircn kết cho Trung tacircm Thocircng tin tư liệu Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven Từ đoacute nhoacutem taacutec giả đatilde đề xuất 3 phương phaacutep để xacircy dựng dữ liệu liecircn kết dựa trecircn dữ liệu coacute sẵn tại Trung tacircm Thocircng tin tư liệu của Trường đảm bảo tương thiacutech caacutec chuẩn thư viện magrave Trung tacircm hiện đang aacutep dụng chẳng hạn MARC21 Hiện nay kho dữ liệu mẫu đatilde được xuất bản online vagrave đang trong thời gian hoagraven thiện việc chuyển đổi toagraven bộ dữ liệu của Trung tacircm Thocircng tin tư liệu sang dạng dữ liệu liecircn kết

TAgraveI LIỆU THAM KHẢO

[1] Assumpcao FS Santarem Segundo JE Santos PLVAdC (2015) In RDA Element Sets and RDA Value Vocabularies Vocabularies for Resource Description in the Semantic Web Springer International Publishing Cham 147-158

[2] Bauer F Kaltenbock M (2012) Linked Open Data the Essentials A Quick Start Guide for Decision Makers Ed mono edition monomonochrom

[3] Berners-Lee T (2006) Linked data [online] Available httpswwww3orgDesignIssues LinkedDatahtml

[4] Hannemann J Kett J (2010) Linked Data for Libraries In World library and information congress 76th IFLA genenral conference and assembly httpwwwiaorgenia76 Gothenburg Sweden

[6] Myung-Ja K Han et al (2016) Linked Open Data in Practice Emblematica Online Germany

[5] Wonhong J Sangeun H Sam O (2015) The creation of a linked data-based application service at the national library of korea In iConference 2015 Proceedings

[7] The linked data service of the german national library Modelling of bibliographic data httpwwwdnbde (2016) Truy cập lần cuối cugraveng ngagravey 1512018

[8] Linked data - connect distributed data across the web httplinkeddataorgguides-and-tutorials Truy cập lần cuối cugraveng ngagravey 1512018

[9] httpxmlnscomfoafspec Truy cập lần cuối cugraveng ngagravey 1512018

[10] httpswwww3org200402skosreferences Truy cập lần cuối cugraveng ngagravey 1512018

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

16

[11] httpdublincoreorgdocumentsdces Truy cập lần cuối cugraveng ngagravey 1512018

[12] httpswwwld4lorg Truy cập lần cuối cugraveng ngagravey 1512018

[13] httpsmvnrepositorycomartifactorgapachejenajena-csv310 Truy cập lần cuối cugraveng ngagravey 1512018

[14] Nguyễn Ngọc Phuacute (2013) Ứng dụng web ngữ nghĩa vagrave khai phaacute dữ liệu xacircy dựng hệ thống tra cứu thống kecirc caacutec cocircng trigravenh nghiecircn cứu khoa học Đại học Đagrave Nẵng

[15] Phạm Thị Hồng Hạnh (2016) Ứng dụng web ngữ nghĩa để tra cứu thocircng tin khoa học cho Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven Đại học Đagrave Nẵng

Page 3: KHOA HỌC CƠ BẢN VÀ KỸ THUẬT - CÔNG NGHỆviethanit.edu.vn/wp-content/uploads/tapsan/9/1.pdf · nghĩa phát triển và duy trì một đồ thị văn hóa toàn cầu

TRƯỜNG CAO ĐẲNG COcircNG NGHỆ THOcircNG TIN HỮU NGHỊ VIỆT - HAgraveN

9

1 Giới thiệu

Ngagravey nay caacutec thư viện số thường xuyecircn phải xử lyacute số lượng lớn thocircng tin từ caacutec định dạng tagravei liệu số Tuy nhiecircn dữ liệu chủ yếu được thu thập bởi caacutec thư viện cho chiacutenh caacutec thư viện Hầu hết chuacuteng được ruacutet ra từ caacutec thư viện truyền thống được tập trung thagravenh caacutec tagravei nguyecircn điện tử magrave người dugraveng coacute liecircn quan coacute thể truy cập bằng caacutech queacutet caacutec bagravei baacuteo vagrave saacutech vv Noacutei chung dữ liệu về caacutec thực thể (chẳng hạn như saacutech taacutec giả vagrave caacutec cơ quan doanh nghiệp) được thu thập vagrave duy trigrave ở nhiều thư viện ở trong cũng như ngoagravei nước Trong thực tế caacutec liecircn kết từ dữ liệu đến caacutec nguồn dữ liệu coacute thể tồn tại nhưng nếu dữ liệu được mocirc tả dưới caacutec định dạng hoặc cuacute phaacutep khaacutec nhau sẽ dẫn đến khoacute khăn trong trao đổi dữ liệu thậm chiacute nhiều thư viện hiện đang bị cocirc lập về trao đổi dữ liệu

Web ngữ nghĩa (semantic web) vagrave đặc biệt lagrave dữ liệu liecircn kết [378] khuyến khiacutech caacutec tổ chức xuất bản chia sẻ vagrave liecircn kết cheacuteo dữ liệu của họ bằng caacutech sử dụng web [2] Khả năng hiển thị dữ liệu coacute thể cải thiện đaacuteng kể thocircng qua việc liecircn kết với caacutec nguồn thocircng tin khaacutec Tham gia vagraveo ldquođaacutem macircy ngữ nghĩardquo [4] coacute thể trợ giuacutep nhiều nhiệm vụ phức tạp magrave caacutec thư viện hiện đang phải đối mặt khi duy trigrave vagrave tối ưu hoacutea phaacutet hiện trugraveng lặp caacutec bộ dữ liệu cục bộ của chiacutenh họ

Tại Trường Cao đẳng Cocircng nghệ thocircng tin Hữu nghị Việt - Hagraven (VietHanIT) thư viện (chuacuteng tocirci gọi lagrave VietHanIT Library) đang lưu giữ caacutec tagravei liệu gồm Tagravei liệu tham khảo saacutech giaacuteo khoa giaacuteo trigravenh baacuteo caacuteo đồ aacuten tốt nghiệp của sinh viecircn luận văn thạc sĩ vagrave luận aacuten tiến sĩ của caacuten bộ giảng viecircn một số loại tạp chiacute định kỳhellip Lượng tagravei liệu được đưa vagraveo thư viện tăng lecircn hằng năm Đacircy chiacutenh lagrave cơ sở cho việc nghiecircn cứu vagrave phaacutet triển một thư viện số hiện đại coacute xuất bản dữ liệu liecircn kết

Mục điacutech chiacutenh của nghiecircn cứu nagravey lagrave xuất bản dữ liệu liecircn kết của VietHanIT Library dựa trecircn caacutec cocircng nghệ ngữ nghĩa web vagrave xacircy dựng mối quan hệ ngữ nghĩa với caacutec nguồn dữ liệu khaacutec Do đoacute trong nghiecircn cứu nagravey nhoacutem taacutec giả tập trung vagraveo việc giới thiệu bản thể học xacircy dựng cho VietHanIT Library vagrave đề xuất 3 phương phaacutep để xacircy dựng kho dữ liệu liecircn kết

Cấu truacutec phần cograven lại của nghiecircn cứu như sau Phần 2 trigravenh bagravey tổng quan về tigravenh higravenh nghiecircn cứu Phần 3 giới thiệu về OntLibrary một ontology được phaacutet triển để xacircy dựng dữ liệu liecircn kết cho VietHanIT Library trong phần 4 Từ đoacute aacutep dụng 3 phương phaacutep xacircy dựng kho dữ liệu liecircn kết Cuối cugraveng kết luận nghiecircn cứu được trigravenh bagravey trong phần 5

2 Tổng quan tigravenh higravenh nghiecircn cứu

Việc phaacutet triển dữ liệu liecircn kết cho thư viện bắt đầu được quan tacircm phaacutet triển từ những năm cuối của thập kỷ trước Từ năm 2009 chuỗi hội thảo khoa học về web ngữ nghĩa trong thư viện - Semantic Web in Libraries (SWIB) [5] được tổ chức hằng năm tại Đức Tại đacircy mỗi năm hội thảo thu huacutet hagraveng trăm caacutec nhagrave khoa học từ khắp nơi trecircn thế giới tham gia thảo luận về phaacutet triển ứng dụng web ngữ nghĩa cho thư viện Điều nagravey cho thấy mối quan tacircm rất lớn của cộng đồng web ngữ nghĩa đối với dữ liệu thư viện

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

10

Một số ứng dụng sử dụng dữ liệu liecircn kết đatilde được đưa vagraveo sử dụng như Thư viện Quốc gia Đức [7] Thư viện Quốc gia Hagraven Quốc [6] Caacutec dịch vụ dữ liệu liecircn kết nagravey đều cho pheacutep người dugraveng vagrave maacutey tiacutenh truy cập vagraveo dữ liệu thư viện chuacuteng sử dụng phương phaacutep tiếp cận dữ liệu liecircn kết nhằm thể hiện vagrave kết nối dữ liệu trecircn Web thocircng qua caacutec URI

Becircn cạnh đoacute một dự aacuten được tagravei trợ gần 1 tỷ đocirc la Mỹ trong hai năm 2014-2016 mang tecircn Linked Data for Libraries 2014 (LD4L 2014) [12] Dự aacuten lagrave sự hợp taacutec của Cornell University Library Harvard Library Innovation Lab vagrave Stanford University Libraries Mục tiecircu của dự aacuten lagrave tạo ra một mocirc higravenh lưu trữ tagravei nguyecircn ngữ nghĩa học thuật (Scholarly Resource Semantic Information Store-SRSIS) SRSIS dugraveng để lagravem việc với caacutec tổ chức caacute nhacircn thocircng qua mạng cộng taacutec vagrave coacute thể mở rộng của dữ liệu mở liecircn kết nhằm nắm bắt được những giaacute trị về mặt triacute tuệ magrave caacuten bộ thư viện caacutec chuyecircn gia trong caacutec lĩnh vực khaacutec nhau vagrave caacutec học giả đatilde bổ sung vagraveo nguồn thocircng tin khi họ miecircu tả chuacute thiacutech sắp xếp lựa chọn vagrave sử dụng Caacutec kết quả đatilde cocircng bố của caacutec dự aacuten lagrave cơ hội để nhoacutem taacutec giả kế thừa phaacutet triển thư viện số sử dụng dữ liệu liecircn kết mở cho thư viện Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven

Ứng dụng cocircng nghệ web ngữ nghĩa trong thư viện số cũng được quan tacircm nghiecircn cứu tại Việt Nam trong vagravei năm trở lại đacircy chẳng hạn [14 15] Caacutec đề tagravei nagravey đều tập trung vagraveo việc phaacutet triển một ontology đầy đủ về caacutec cocircng trigravenh nghiecircn cứu khoa học (CTNCKH) Từ đoacute xacircy dựng hệ thống đaacutep ứng nhu cầu tigravem kiếm tra cứu thống kecirc caacutec CTNCKH tại cơ quan chủ quản của từng đề tagravei Nhigraven chung caacutec đề tagravei trecircn đều tập trung xacircy dựng một ontology caacute nhacircn để quản lyacute thocircng tin liecircn quan tới từng khiacutea cạnh của thư viện magrave họ quan tacircm Tuy nhiecircn caacutec đề tagravei đều chưa xacircy dựng được kho dữ liệu liecircn kết

3 Xacircy dựng ontology OntLibrary Caacutec ontology đoacuteng vai trograve quan trọng trong caacutec thư viện số ngữ nghĩa Ontology khocircng chỉ

lagravem cho tri thức coacute thể sử dụng lại dễ dagraveng hơn noacute cograven lagrave nền tảng của việc tạo ra caacutec chuẩn bởi noacute lagravem rotilde caacutec khaacutei niệm becircn cạnh một thuật ngữ hoặc một mocirc higravenh

Ontology OntLibrary được xacircy dựng nhằm mocirc tả dữ liệu liecircn kết cho thư viện VietHanIT Mục điacutech chiacutenh lagrave tạo điều kiện cho thocircng tin về caacutec giaacuteo trigravenh tagravei liệu đồ aacuten tốt nghiệp trong thư viện VietHanIT trở thagravenh một phần của web bằng caacutech xuất bản chia sẻ vagrave liecircn kết cheacuteo dữ liệu trecircn web

Ontology OntLibrary được xacircy dựng dựa trecircn caacutec ontology được dugraveng phổ biến trong cộng đồng web ngữ nghĩa nhằm giuacutep caacutec dữ liệu được xuất bản chia sẻ trao đổi vagrave sử dụng lại dễ dagraveng hơn Tuy nhiecircn khocircng coacute một ontology đatilde tồn tại nagraveo phugrave hợp hoagraven toagraven trong việc mocirc tả caacutec tagravei nguyecircn của VietHanIT Library Do đoacute caacutec yecircu cầu mocirc higravenh hoacutea dữ liệu cần được phacircn tiacutech tỉ mỉ nhằm sử dụng lại từng phần của caacutec ontology đang tồn tại vagrave định nghĩa thecircm caacutec phần cần thiết chẳng hạn

- Để mocirc higravenh hoacutea dữ liệu nhằm biểu diễn con người (person) vagrave tổ chức cơ quan doanh nghiệp (corporate bodies) ứng dụng sử dụng một số ontology như tập caacutec phần tử RDA [1] từ

TRƯỜNG CAO ĐẲNG COcircNG NGHỆ THOcircNG TIN HỮU NGHỊ VIỆT - HAgraveN

11

vựng FOAF [9] Từ vựng FOAF lagrave cơ sở cho mocirc higravenh hoacutea dữ liệu cho Viethan Library vigrave FOAF mocirc tả tốt caacutec yecircu cầu chức năng của người vagrave caacutec cơ quan cocircng ty được sử dụng trong caacutec thực thể hồ sơ bản ghi

- Đối với đề mục chủ đề mocirc higravenh hoacutea dữ liệu dựa trecircn việc sử dụng Hệ thống tổ chức kiến thức đơn giản (SKOS) [10] vagrave caacutec thagravenh phần Dublin Core Metadata [11]

Hiện tại Viethan Library coacute chứa caacutec tagravei liệu (tagravei nguyecircn) (saacutech tham khảo saacutech giaacuteo khoa giaacuteo trigravenh baacuteo caacuteo đồ aacuten tốt nghiệp của sinh viecircn luận văn bagravei baacuteo tạp chiacute tagravei liệu đa phương tiện vagrave tagravei liệu điện tử) Do đoacute caacutec tagravei nguyecircn được mocirc tả trong caacutec lớp (class) Book TextBook StudentProject Thesis Slides vagrave Article Mỗi loại tagravei nguyecircn được chứa trong một container tương ứng do đoacute lớp Container được tạo ra

Tagravei nguyecircn được tạo ra bởi một hoặc nhiều taacutec giả lớp Author được sử dụng để mocirc tả thocircng tin của taacutec giả đoacute lagrave lớp con của lớp Person (định nghĩa trong FOAF) Caacutec taacutec giả lagravem việc cho Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven được chia thagravenh ba lớp Lecturer Officer vagrave Student Sự gắn kết giữa caacutec tagravei nguyecircn vagrave caacutec taacutec giả chiacutenh thể hiện qua thuộc tiacutenh hasAuthor vagrave thuộc tiacutenh nghịch đảo (owl inverseOf) của noacute isAuthorOf Ngoagravei ra mỗi đồ aacuten tốt nghiệp luận văn luận aacuten coacute iacutet nhất một taacutec giả vagrave được giaacutem saacutet bởi iacutet nhất một người hướng dẫn Người hướng dẫn coacute thể lagrave một giảng viecircn nhacircn viecircn hoặc người lagravem việc ngoagravei Trường Do đoacute thuộc tiacutenh isSupervisedBy được định nghĩa để chỉ ra mối quan hệ nagravey

Phần thocircng tin thiệu chung về một tagravei nguyecircn rất quan trọng giuacutep người đọc nắm được nội dung cơ bản của tagravei nguyecircn một caacutech nhanh choacuteng từ đoacute quyết định coacute chọn tagravei nguyecircn đoacute hay khocircng do đoacute nội dung toacutem tắt của tagravei nguyecircn cần được quản lyacute Ngoagravei ra một số thocircng tin như năm xuất bản số trang mục lục vagrave caacutec tagravei liệu tham khảohellip cũng cần được lưu trữ Caacutec thuộc tiacutenh dugraveng để mocirc tả những thocircng tin nagravey được sử dụng lại từ caacutec ontology sẵn coacute hoặc được định nghĩa thecircm bao gồm surname firstname title description subject abstract datehellip Phần lotildei ontology OntLibrary được thể hiện trong Higravenh 1

Higravenh 1 Ontology OntLibrary

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

12

Dựa trecircn ontology OntLibrary dữ liệu liecircn kết mocirc tả caacutec tagravei nguyecircn trong VietHanIT Library được tạo ra vagrave lưu lại dưới định dạng RDF Phần 4 dưới đacircy sẽ mocirc tả việc xacircy dựng kho dữ liệu liecircn kết cho VietHanIT Library

4 Xacircy dựng kho dữ liệu liecircn kết

Chuacuteng ta biết rằng mocirc tả biecircn mục được xem như cocircng việc mocirc tả caacutec khiacutea cạnh chiacutenh của caacutec nguồn tagravei nguyecircn Việc tạo ra tecircn vagrave tiecircu đề của tagravei nguyecircn nhằm bảo đảm sự truy cập tới tagravei nguyecircn nagravey RDF cho pheacutep mocirc tả bất kỳ loại tagravei nguyecircn sử dụng triples Caacutec cacircu mocirc tả một sự việc trong RDF được xacircy dựng thocircng qua caacutec thuộc tiacutenh vagrave giaacute trị của thuộc tiacutenh Viacute dụ ldquoCuốn đồ aacuten coacute tiecircu đề Lập trigravenh web PHP mySQLrdquo ldquoCuốn đồ aacuten được cocircng bố ngagravey 0162016rdquo vagrave ldquoCuốn đồ aacuten do Nguyễn Thị Việt Mỹ viếtrdquo Như vậy mocirc tả một cuốn đồ aacuten bằng RDF khocircng thể chỉ sử dụng một bản ghi với tất cả thuộc tiacutenh đi cugraveng với nhau như chuacuteng ta coacute thể thấy ở định dạng MARC21 Caacutech tiếp cận RDF rất khaacutec biecircn mục thư viện truyền thống được minh họa bởi MARC21 Với MARC21 caacutec mocirc tả về nhiều khiacutea cạnh của một tagravei nguyecircn bị ragraveng buộc với nhau bởi một cuacute phaacutep cụ thể của caacutec thẻ caacutec chỉ số vagrave caacutec trường con như một luồng dữ liệu duy nhất coacute thể nhận biết được thao taacutec như một toagraven thể Trong RDF dữ liệu phải được taacutech ra thagravenh caacutec statement (cacircu) đơn lẻ sau đoacute coacute thể được xử lyacute độc lập với nhau Việc xử lyacute bao gồm tổng hợp caacutec cacircu lệnh vagraveo một khung nhigraven dựa trecircn bản ghi Caacutec statement hay caacutec triple coacute thể được trộn hay kết hợp với caacutec tagravei nguyecircn khaacutec nhau để tạo ra caacutec khung nhigraven thacircn thiện với người dugraveng

Viacute dụ 24 lagrave một viacute dụ cho thấy sự aacutenh xạ của một đồ aacuten tốt nghiệp ldquoLập trigravenh web PHP mySQLrdquo vagraveo caacutec lớp vagrave thuộc tiacutenh của ontology OntLibrary (matilde của đồ aacuten được đaacutenh theo chuẩn thư viện vagrave tuacircn theo quy định của thư viện số hiện coacute của Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven)

Viacute dụ 24

ltrdfDescription rdfabout=ampinsDALT131605gt

ltdctitlegtXacircy dựng website baacuten maacutey tiacutenh xaacutech tayltdctitlegt

ltdcdescriptiongtĐồ aacuten tốt nghiệp của sinh viecircnltdcdescriptiongt

hellipltvhhasAuthor rdfresource=ampinsCCLT07B016gt

ltvhisSupervisedBy rdfresource=ampinsT04-15111-060gt

ltrdfDescriptiongt

Để xacircy dựng kho dữ liệu liecircn kết cho VietHanIT Library sau khi tigravem hiểu phacircn tiacutech caacutec hệ thống quản lyacute thư viện đang được sử dụng tại Trung tacircm Thocircng tin tư liệu nhoacutem taacutec giả để xuất 3 phương phaacutep như trong Higravenh 2 để xacircy dựng kho dữ liệu cho thư viện số ngữ nghĩa của VietHanIT Library

TRƯỜNG CAO ĐẲNG COcircNG NGHỆ THOcircNG TIN HỮU NGHỊ VIỆT - HAgraveN

13

5 Marshup dữ liệu liecircn kết

Trung tacircm Thocircng tin tư liệu Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven (VietHanIT Library) hiện nay đang sử dụng Hệ Quản trị thư viện tiacutech hợp matilde nguồn mở Koha Hệ thống Koha đatilde cập nhật được rất nhiều dữ liệu về đồ aacuten của sinh viecircn caacutec giaacuteo trigravenh tagravei liệu tham khảohellip Một trong những mục tiecircu quan trọng khi xacircy dựng kho dữ liệu liecircn kết lagrave kết nối với caacutec tập dữ liệu đatilde coacute vagrave taacutei sử dụng chuacuteng (nếu coacute thể) do đoacute hệ thống cần sử dụng lại nguồn dữ liệu hiện coacute trong KOHA bằng một cocircng cụ marshup

Higravenh 2 Xacircy dựng kho dữ liệu

Quy trigravenh lagravem việc mashup bao gồm caacutec bước Thứ nhất dữ liệu thocirc phải được chuyển đổi vagraveo RDF mocirc higravenh dữ liệu cơ bản cho SemanticWeb Caacutec bước tiếp theo lagrave định nghĩa dữ liệu liecircn kết từ tập tin RDF thu được

Coacute nhiều cocircng cụ vagrave bộ chuyển đổi coacute thể được sử dụng cho marshup dữ liệu liecircn kết Cocircng cụ jena-csv310 [13] được lựa chọn cho hệ thống nhằm phaacutet triển ứng dụng chuyển đổi dữ liệu dạng bảng như CSV vagraveo RDF vigrave jena-csv310 matilde nguồn mở Cocircng cụ jena-csv310 cho pheacutep nhận caacutec file CSV đưa vagraveo định dạng RDF

Higravenh 3 Dữ liệu triacutech xuất ra từ Cơ sở dữ liệu của hệ thống KOHA (viacute dụ)

Triacutech xuất thocircng tin tự động từ caacutec bagravei baacuteo quốc tế

Quản lyacute thư viện

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

14

Higravenh 4 (Viacute dụ) Dữ liệu được chuyển đổi sang định dạng RDF

từ file dữ liệu lấy từ CSDL của Hệ thống Koha

Dữ liệu của caacutec tagravei nguyecircn được lưu trong Cơ sở dữ liệu của hệ thống Koha dễ dagraveng được xuất ra file CSV (viacute dụ xem Higravenh 3) Thecircm vagraveo đoacute VietHanIT Library cograven lưu thocircng tin của caacutec tagravei liệu dưới dạng file excel tập tin nagravey được chuyển sang định dạng CSV bằng MS Excel Từ đoacute sử dụng cocircng cụ jena-csv310 toagraven bộ dữ liệu nagravey được tự động chuyển sang định dạng RDF Kết quả lấy được hơn 7 ngagraven bản ghi về caacutec tagravei nguyecircn được lưu trong định dạng RDF (viacute dụ xem Higravenh 4) Tuy nhiecircn dữ liệu RDF coacute được sau khi chuyển đổi chưa phải lagrave dữ liệu liecircn kết Do đoacute rất nhiều thực thể cần phải định nghĩa chẳng hạn caacutec taacutec giả caacutec nhagrave xuất bản Becircn cạnh đoacute nhiều thocircng tin cần phải bổ sung thecircm như phần toacutem tắt từ khoacutea số tranghellip nhằm coacute thể mocirc tả caacutec tagravei nguyecircn giagraveu ngữ nghĩa đảm bảo coacute thể mocirc tả tagravei nguyecircn theo tiecircu chuẩn MARC21 Đacircy lagrave giai đoạn khoacute nhất vagrave tốn thời gian nhất khi xacircy dựng bộ dữ liệu từ bất kỳ nguồn dữ liệu nagraveo do cần hiểu biết sacircu hơn về caacutec tập dữ liệu vigrave đoacute lagrave cơ sở của mashup Caacutec bước nagravey khocircng coacute trigravenh tự từng bước hoặc tự động thực hiện magrave đogravei hỏi caacutec nhagrave phaacutet triển phải tự nghiecircn cứu vagrave tự kiểm tra dữ liệu đacircy lagrave vấn đề khoacute khăn magrave chuacuteng tocirci gặp phải khi xacircy dựng bộ dữ liệu liecircn kết cho VietHanIT Library Dữ liệu được hiểu tốt hơn nghĩa lagrave cần tăng cường chuyển đổi dữ liệu sang dạng RDF vagrave liecircn kết đến caacutec bộ dữ liệu khaacutec

6 Triacutech xuất thocircng tin tự động từ caacutec bagravei baacuteo quốc tế lưu dưới định dạng PDF Caacutec tập tin PDF (định dạng văn bản khocircng phải định dạng higravenh ảnh scan) do caacutec taacutec giả

cung cấp Hệ thống quản lyacute thư viện được phaacutet triển dựa trecircn ngocircn ngữ lập trigravenh Java sẽ triacutech xuất một số dữ liệu tự động cần quản lyacute như tecircn bagravei baacuteo thocircng tin về caacutec taacutec giả toacutem tắt vagrave từ khoacutea Tuy nhiecircn việc truy xuất dữ liệu tự động hiện nay cograven coacute nhiều hạn chế chẳng hạn việc xử lyacute tecircn taacutec giả của một taacutec phẩm Chuacuteng ta biết rằng định dạng tecircn của một taacutec giả gồm Họ + Tecircn Tecircn + Họ hay đặc biệt đối với người Việt phổ biến coacute dạng Họ + Họ đệm + Tecircn Do vậy việc xaacutec định được họ vagrave tecircn taacutec giả tự động gặp rất nhiều khoacute khăn đocirci khi phải chỉnh sửa dữ liệu triacutech xuất tự động bằng thủ cocircng

7 Nhập dữ liệu thủ cocircng Thocircng tin về taacutec phẩm được người dugraveng (lagrave một trong caacutec taacutec giả) hoặc do admin của hệ

thống nhập vagraveo Thocircng tin do taacutec giả nhập vagraveo hệ thống sẽ được admin kiểm tra lại trước khi đưa vagraveo kho dữ liệu

TRƯỜNG CAO ĐẲNG COcircNG NGHỆ THOcircNG TIN HỮU NGHỊ VIỆT - HAgraveN

15

Như vậy kho dữ liệu liecircn kết của VietHanIT Library được tạo ra dựa trecircn việc chuyển đổi thu thập vagrave thecircm mới dữ liệu vagraveo dữ liệu được lưu trong định dạng RDFXML Kết quả của nghiecircn cứu nagravey đatilde được xuất bản trecircn web tại địa chỉ httpsparqlviethaniteduvn datasethtmltab=queryampds= libviethanit vagrave sử dụng tạo ra website ngữ nghĩa cho thư viện số của Trung tacircm Thocircng tin tư liệu tại địa chỉ httptvsviethaniteduvn

8 Kết luận Nghiecircn cứu nagravey đatilde trigravenh bagravey tổng quan về việc xacircy dựng ontology OntLibrary để định nghĩa

caacutec lớp vagrave thuộc tiacutenh nhằm tạo ra dữ liệu liecircn kết cho Trung tacircm Thocircng tin tư liệu Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven Từ đoacute nhoacutem taacutec giả đatilde đề xuất 3 phương phaacutep để xacircy dựng dữ liệu liecircn kết dựa trecircn dữ liệu coacute sẵn tại Trung tacircm Thocircng tin tư liệu của Trường đảm bảo tương thiacutech caacutec chuẩn thư viện magrave Trung tacircm hiện đang aacutep dụng chẳng hạn MARC21 Hiện nay kho dữ liệu mẫu đatilde được xuất bản online vagrave đang trong thời gian hoagraven thiện việc chuyển đổi toagraven bộ dữ liệu của Trung tacircm Thocircng tin tư liệu sang dạng dữ liệu liecircn kết

TAgraveI LIỆU THAM KHẢO

[1] Assumpcao FS Santarem Segundo JE Santos PLVAdC (2015) In RDA Element Sets and RDA Value Vocabularies Vocabularies for Resource Description in the Semantic Web Springer International Publishing Cham 147-158

[2] Bauer F Kaltenbock M (2012) Linked Open Data the Essentials A Quick Start Guide for Decision Makers Ed mono edition monomonochrom

[3] Berners-Lee T (2006) Linked data [online] Available httpswwww3orgDesignIssues LinkedDatahtml

[4] Hannemann J Kett J (2010) Linked Data for Libraries In World library and information congress 76th IFLA genenral conference and assembly httpwwwiaorgenia76 Gothenburg Sweden

[6] Myung-Ja K Han et al (2016) Linked Open Data in Practice Emblematica Online Germany

[5] Wonhong J Sangeun H Sam O (2015) The creation of a linked data-based application service at the national library of korea In iConference 2015 Proceedings

[7] The linked data service of the german national library Modelling of bibliographic data httpwwwdnbde (2016) Truy cập lần cuối cugraveng ngagravey 1512018

[8] Linked data - connect distributed data across the web httplinkeddataorgguides-and-tutorials Truy cập lần cuối cugraveng ngagravey 1512018

[9] httpxmlnscomfoafspec Truy cập lần cuối cugraveng ngagravey 1512018

[10] httpswwww3org200402skosreferences Truy cập lần cuối cugraveng ngagravey 1512018

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

16

[11] httpdublincoreorgdocumentsdces Truy cập lần cuối cugraveng ngagravey 1512018

[12] httpswwwld4lorg Truy cập lần cuối cugraveng ngagravey 1512018

[13] httpsmvnrepositorycomartifactorgapachejenajena-csv310 Truy cập lần cuối cugraveng ngagravey 1512018

[14] Nguyễn Ngọc Phuacute (2013) Ứng dụng web ngữ nghĩa vagrave khai phaacute dữ liệu xacircy dựng hệ thống tra cứu thống kecirc caacutec cocircng trigravenh nghiecircn cứu khoa học Đại học Đagrave Nẵng

[15] Phạm Thị Hồng Hạnh (2016) Ứng dụng web ngữ nghĩa để tra cứu thocircng tin khoa học cho Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven Đại học Đagrave Nẵng

Page 4: KHOA HỌC CƠ BẢN VÀ KỸ THUẬT - CÔNG NGHỆviethanit.edu.vn/wp-content/uploads/tapsan/9/1.pdf · nghĩa phát triển và duy trì một đồ thị văn hóa toàn cầu

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

10

Một số ứng dụng sử dụng dữ liệu liecircn kết đatilde được đưa vagraveo sử dụng như Thư viện Quốc gia Đức [7] Thư viện Quốc gia Hagraven Quốc [6] Caacutec dịch vụ dữ liệu liecircn kết nagravey đều cho pheacutep người dugraveng vagrave maacutey tiacutenh truy cập vagraveo dữ liệu thư viện chuacuteng sử dụng phương phaacutep tiếp cận dữ liệu liecircn kết nhằm thể hiện vagrave kết nối dữ liệu trecircn Web thocircng qua caacutec URI

Becircn cạnh đoacute một dự aacuten được tagravei trợ gần 1 tỷ đocirc la Mỹ trong hai năm 2014-2016 mang tecircn Linked Data for Libraries 2014 (LD4L 2014) [12] Dự aacuten lagrave sự hợp taacutec của Cornell University Library Harvard Library Innovation Lab vagrave Stanford University Libraries Mục tiecircu của dự aacuten lagrave tạo ra một mocirc higravenh lưu trữ tagravei nguyecircn ngữ nghĩa học thuật (Scholarly Resource Semantic Information Store-SRSIS) SRSIS dugraveng để lagravem việc với caacutec tổ chức caacute nhacircn thocircng qua mạng cộng taacutec vagrave coacute thể mở rộng của dữ liệu mở liecircn kết nhằm nắm bắt được những giaacute trị về mặt triacute tuệ magrave caacuten bộ thư viện caacutec chuyecircn gia trong caacutec lĩnh vực khaacutec nhau vagrave caacutec học giả đatilde bổ sung vagraveo nguồn thocircng tin khi họ miecircu tả chuacute thiacutech sắp xếp lựa chọn vagrave sử dụng Caacutec kết quả đatilde cocircng bố của caacutec dự aacuten lagrave cơ hội để nhoacutem taacutec giả kế thừa phaacutet triển thư viện số sử dụng dữ liệu liecircn kết mở cho thư viện Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven

Ứng dụng cocircng nghệ web ngữ nghĩa trong thư viện số cũng được quan tacircm nghiecircn cứu tại Việt Nam trong vagravei năm trở lại đacircy chẳng hạn [14 15] Caacutec đề tagravei nagravey đều tập trung vagraveo việc phaacutet triển một ontology đầy đủ về caacutec cocircng trigravenh nghiecircn cứu khoa học (CTNCKH) Từ đoacute xacircy dựng hệ thống đaacutep ứng nhu cầu tigravem kiếm tra cứu thống kecirc caacutec CTNCKH tại cơ quan chủ quản của từng đề tagravei Nhigraven chung caacutec đề tagravei trecircn đều tập trung xacircy dựng một ontology caacute nhacircn để quản lyacute thocircng tin liecircn quan tới từng khiacutea cạnh của thư viện magrave họ quan tacircm Tuy nhiecircn caacutec đề tagravei đều chưa xacircy dựng được kho dữ liệu liecircn kết

3 Xacircy dựng ontology OntLibrary Caacutec ontology đoacuteng vai trograve quan trọng trong caacutec thư viện số ngữ nghĩa Ontology khocircng chỉ

lagravem cho tri thức coacute thể sử dụng lại dễ dagraveng hơn noacute cograven lagrave nền tảng của việc tạo ra caacutec chuẩn bởi noacute lagravem rotilde caacutec khaacutei niệm becircn cạnh một thuật ngữ hoặc một mocirc higravenh

Ontology OntLibrary được xacircy dựng nhằm mocirc tả dữ liệu liecircn kết cho thư viện VietHanIT Mục điacutech chiacutenh lagrave tạo điều kiện cho thocircng tin về caacutec giaacuteo trigravenh tagravei liệu đồ aacuten tốt nghiệp trong thư viện VietHanIT trở thagravenh một phần của web bằng caacutech xuất bản chia sẻ vagrave liecircn kết cheacuteo dữ liệu trecircn web

Ontology OntLibrary được xacircy dựng dựa trecircn caacutec ontology được dugraveng phổ biến trong cộng đồng web ngữ nghĩa nhằm giuacutep caacutec dữ liệu được xuất bản chia sẻ trao đổi vagrave sử dụng lại dễ dagraveng hơn Tuy nhiecircn khocircng coacute một ontology đatilde tồn tại nagraveo phugrave hợp hoagraven toagraven trong việc mocirc tả caacutec tagravei nguyecircn của VietHanIT Library Do đoacute caacutec yecircu cầu mocirc higravenh hoacutea dữ liệu cần được phacircn tiacutech tỉ mỉ nhằm sử dụng lại từng phần của caacutec ontology đang tồn tại vagrave định nghĩa thecircm caacutec phần cần thiết chẳng hạn

- Để mocirc higravenh hoacutea dữ liệu nhằm biểu diễn con người (person) vagrave tổ chức cơ quan doanh nghiệp (corporate bodies) ứng dụng sử dụng một số ontology như tập caacutec phần tử RDA [1] từ

TRƯỜNG CAO ĐẲNG COcircNG NGHỆ THOcircNG TIN HỮU NGHỊ VIỆT - HAgraveN

11

vựng FOAF [9] Từ vựng FOAF lagrave cơ sở cho mocirc higravenh hoacutea dữ liệu cho Viethan Library vigrave FOAF mocirc tả tốt caacutec yecircu cầu chức năng của người vagrave caacutec cơ quan cocircng ty được sử dụng trong caacutec thực thể hồ sơ bản ghi

- Đối với đề mục chủ đề mocirc higravenh hoacutea dữ liệu dựa trecircn việc sử dụng Hệ thống tổ chức kiến thức đơn giản (SKOS) [10] vagrave caacutec thagravenh phần Dublin Core Metadata [11]

Hiện tại Viethan Library coacute chứa caacutec tagravei liệu (tagravei nguyecircn) (saacutech tham khảo saacutech giaacuteo khoa giaacuteo trigravenh baacuteo caacuteo đồ aacuten tốt nghiệp của sinh viecircn luận văn bagravei baacuteo tạp chiacute tagravei liệu đa phương tiện vagrave tagravei liệu điện tử) Do đoacute caacutec tagravei nguyecircn được mocirc tả trong caacutec lớp (class) Book TextBook StudentProject Thesis Slides vagrave Article Mỗi loại tagravei nguyecircn được chứa trong một container tương ứng do đoacute lớp Container được tạo ra

Tagravei nguyecircn được tạo ra bởi một hoặc nhiều taacutec giả lớp Author được sử dụng để mocirc tả thocircng tin của taacutec giả đoacute lagrave lớp con của lớp Person (định nghĩa trong FOAF) Caacutec taacutec giả lagravem việc cho Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven được chia thagravenh ba lớp Lecturer Officer vagrave Student Sự gắn kết giữa caacutec tagravei nguyecircn vagrave caacutec taacutec giả chiacutenh thể hiện qua thuộc tiacutenh hasAuthor vagrave thuộc tiacutenh nghịch đảo (owl inverseOf) của noacute isAuthorOf Ngoagravei ra mỗi đồ aacuten tốt nghiệp luận văn luận aacuten coacute iacutet nhất một taacutec giả vagrave được giaacutem saacutet bởi iacutet nhất một người hướng dẫn Người hướng dẫn coacute thể lagrave một giảng viecircn nhacircn viecircn hoặc người lagravem việc ngoagravei Trường Do đoacute thuộc tiacutenh isSupervisedBy được định nghĩa để chỉ ra mối quan hệ nagravey

Phần thocircng tin thiệu chung về một tagravei nguyecircn rất quan trọng giuacutep người đọc nắm được nội dung cơ bản của tagravei nguyecircn một caacutech nhanh choacuteng từ đoacute quyết định coacute chọn tagravei nguyecircn đoacute hay khocircng do đoacute nội dung toacutem tắt của tagravei nguyecircn cần được quản lyacute Ngoagravei ra một số thocircng tin như năm xuất bản số trang mục lục vagrave caacutec tagravei liệu tham khảohellip cũng cần được lưu trữ Caacutec thuộc tiacutenh dugraveng để mocirc tả những thocircng tin nagravey được sử dụng lại từ caacutec ontology sẵn coacute hoặc được định nghĩa thecircm bao gồm surname firstname title description subject abstract datehellip Phần lotildei ontology OntLibrary được thể hiện trong Higravenh 1

Higravenh 1 Ontology OntLibrary

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

12

Dựa trecircn ontology OntLibrary dữ liệu liecircn kết mocirc tả caacutec tagravei nguyecircn trong VietHanIT Library được tạo ra vagrave lưu lại dưới định dạng RDF Phần 4 dưới đacircy sẽ mocirc tả việc xacircy dựng kho dữ liệu liecircn kết cho VietHanIT Library

4 Xacircy dựng kho dữ liệu liecircn kết

Chuacuteng ta biết rằng mocirc tả biecircn mục được xem như cocircng việc mocirc tả caacutec khiacutea cạnh chiacutenh của caacutec nguồn tagravei nguyecircn Việc tạo ra tecircn vagrave tiecircu đề của tagravei nguyecircn nhằm bảo đảm sự truy cập tới tagravei nguyecircn nagravey RDF cho pheacutep mocirc tả bất kỳ loại tagravei nguyecircn sử dụng triples Caacutec cacircu mocirc tả một sự việc trong RDF được xacircy dựng thocircng qua caacutec thuộc tiacutenh vagrave giaacute trị của thuộc tiacutenh Viacute dụ ldquoCuốn đồ aacuten coacute tiecircu đề Lập trigravenh web PHP mySQLrdquo ldquoCuốn đồ aacuten được cocircng bố ngagravey 0162016rdquo vagrave ldquoCuốn đồ aacuten do Nguyễn Thị Việt Mỹ viếtrdquo Như vậy mocirc tả một cuốn đồ aacuten bằng RDF khocircng thể chỉ sử dụng một bản ghi với tất cả thuộc tiacutenh đi cugraveng với nhau như chuacuteng ta coacute thể thấy ở định dạng MARC21 Caacutech tiếp cận RDF rất khaacutec biecircn mục thư viện truyền thống được minh họa bởi MARC21 Với MARC21 caacutec mocirc tả về nhiều khiacutea cạnh của một tagravei nguyecircn bị ragraveng buộc với nhau bởi một cuacute phaacutep cụ thể của caacutec thẻ caacutec chỉ số vagrave caacutec trường con như một luồng dữ liệu duy nhất coacute thể nhận biết được thao taacutec như một toagraven thể Trong RDF dữ liệu phải được taacutech ra thagravenh caacutec statement (cacircu) đơn lẻ sau đoacute coacute thể được xử lyacute độc lập với nhau Việc xử lyacute bao gồm tổng hợp caacutec cacircu lệnh vagraveo một khung nhigraven dựa trecircn bản ghi Caacutec statement hay caacutec triple coacute thể được trộn hay kết hợp với caacutec tagravei nguyecircn khaacutec nhau để tạo ra caacutec khung nhigraven thacircn thiện với người dugraveng

Viacute dụ 24 lagrave một viacute dụ cho thấy sự aacutenh xạ của một đồ aacuten tốt nghiệp ldquoLập trigravenh web PHP mySQLrdquo vagraveo caacutec lớp vagrave thuộc tiacutenh của ontology OntLibrary (matilde của đồ aacuten được đaacutenh theo chuẩn thư viện vagrave tuacircn theo quy định của thư viện số hiện coacute của Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven)

Viacute dụ 24

ltrdfDescription rdfabout=ampinsDALT131605gt

ltdctitlegtXacircy dựng website baacuten maacutey tiacutenh xaacutech tayltdctitlegt

ltdcdescriptiongtĐồ aacuten tốt nghiệp của sinh viecircnltdcdescriptiongt

hellipltvhhasAuthor rdfresource=ampinsCCLT07B016gt

ltvhisSupervisedBy rdfresource=ampinsT04-15111-060gt

ltrdfDescriptiongt

Để xacircy dựng kho dữ liệu liecircn kết cho VietHanIT Library sau khi tigravem hiểu phacircn tiacutech caacutec hệ thống quản lyacute thư viện đang được sử dụng tại Trung tacircm Thocircng tin tư liệu nhoacutem taacutec giả để xuất 3 phương phaacutep như trong Higravenh 2 để xacircy dựng kho dữ liệu cho thư viện số ngữ nghĩa của VietHanIT Library

TRƯỜNG CAO ĐẲNG COcircNG NGHỆ THOcircNG TIN HỮU NGHỊ VIỆT - HAgraveN

13

5 Marshup dữ liệu liecircn kết

Trung tacircm Thocircng tin tư liệu Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven (VietHanIT Library) hiện nay đang sử dụng Hệ Quản trị thư viện tiacutech hợp matilde nguồn mở Koha Hệ thống Koha đatilde cập nhật được rất nhiều dữ liệu về đồ aacuten của sinh viecircn caacutec giaacuteo trigravenh tagravei liệu tham khảohellip Một trong những mục tiecircu quan trọng khi xacircy dựng kho dữ liệu liecircn kết lagrave kết nối với caacutec tập dữ liệu đatilde coacute vagrave taacutei sử dụng chuacuteng (nếu coacute thể) do đoacute hệ thống cần sử dụng lại nguồn dữ liệu hiện coacute trong KOHA bằng một cocircng cụ marshup

Higravenh 2 Xacircy dựng kho dữ liệu

Quy trigravenh lagravem việc mashup bao gồm caacutec bước Thứ nhất dữ liệu thocirc phải được chuyển đổi vagraveo RDF mocirc higravenh dữ liệu cơ bản cho SemanticWeb Caacutec bước tiếp theo lagrave định nghĩa dữ liệu liecircn kết từ tập tin RDF thu được

Coacute nhiều cocircng cụ vagrave bộ chuyển đổi coacute thể được sử dụng cho marshup dữ liệu liecircn kết Cocircng cụ jena-csv310 [13] được lựa chọn cho hệ thống nhằm phaacutet triển ứng dụng chuyển đổi dữ liệu dạng bảng như CSV vagraveo RDF vigrave jena-csv310 matilde nguồn mở Cocircng cụ jena-csv310 cho pheacutep nhận caacutec file CSV đưa vagraveo định dạng RDF

Higravenh 3 Dữ liệu triacutech xuất ra từ Cơ sở dữ liệu của hệ thống KOHA (viacute dụ)

Triacutech xuất thocircng tin tự động từ caacutec bagravei baacuteo quốc tế

Quản lyacute thư viện

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

14

Higravenh 4 (Viacute dụ) Dữ liệu được chuyển đổi sang định dạng RDF

từ file dữ liệu lấy từ CSDL của Hệ thống Koha

Dữ liệu của caacutec tagravei nguyecircn được lưu trong Cơ sở dữ liệu của hệ thống Koha dễ dagraveng được xuất ra file CSV (viacute dụ xem Higravenh 3) Thecircm vagraveo đoacute VietHanIT Library cograven lưu thocircng tin của caacutec tagravei liệu dưới dạng file excel tập tin nagravey được chuyển sang định dạng CSV bằng MS Excel Từ đoacute sử dụng cocircng cụ jena-csv310 toagraven bộ dữ liệu nagravey được tự động chuyển sang định dạng RDF Kết quả lấy được hơn 7 ngagraven bản ghi về caacutec tagravei nguyecircn được lưu trong định dạng RDF (viacute dụ xem Higravenh 4) Tuy nhiecircn dữ liệu RDF coacute được sau khi chuyển đổi chưa phải lagrave dữ liệu liecircn kết Do đoacute rất nhiều thực thể cần phải định nghĩa chẳng hạn caacutec taacutec giả caacutec nhagrave xuất bản Becircn cạnh đoacute nhiều thocircng tin cần phải bổ sung thecircm như phần toacutem tắt từ khoacutea số tranghellip nhằm coacute thể mocirc tả caacutec tagravei nguyecircn giagraveu ngữ nghĩa đảm bảo coacute thể mocirc tả tagravei nguyecircn theo tiecircu chuẩn MARC21 Đacircy lagrave giai đoạn khoacute nhất vagrave tốn thời gian nhất khi xacircy dựng bộ dữ liệu từ bất kỳ nguồn dữ liệu nagraveo do cần hiểu biết sacircu hơn về caacutec tập dữ liệu vigrave đoacute lagrave cơ sở của mashup Caacutec bước nagravey khocircng coacute trigravenh tự từng bước hoặc tự động thực hiện magrave đogravei hỏi caacutec nhagrave phaacutet triển phải tự nghiecircn cứu vagrave tự kiểm tra dữ liệu đacircy lagrave vấn đề khoacute khăn magrave chuacuteng tocirci gặp phải khi xacircy dựng bộ dữ liệu liecircn kết cho VietHanIT Library Dữ liệu được hiểu tốt hơn nghĩa lagrave cần tăng cường chuyển đổi dữ liệu sang dạng RDF vagrave liecircn kết đến caacutec bộ dữ liệu khaacutec

6 Triacutech xuất thocircng tin tự động từ caacutec bagravei baacuteo quốc tế lưu dưới định dạng PDF Caacutec tập tin PDF (định dạng văn bản khocircng phải định dạng higravenh ảnh scan) do caacutec taacutec giả

cung cấp Hệ thống quản lyacute thư viện được phaacutet triển dựa trecircn ngocircn ngữ lập trigravenh Java sẽ triacutech xuất một số dữ liệu tự động cần quản lyacute như tecircn bagravei baacuteo thocircng tin về caacutec taacutec giả toacutem tắt vagrave từ khoacutea Tuy nhiecircn việc truy xuất dữ liệu tự động hiện nay cograven coacute nhiều hạn chế chẳng hạn việc xử lyacute tecircn taacutec giả của một taacutec phẩm Chuacuteng ta biết rằng định dạng tecircn của một taacutec giả gồm Họ + Tecircn Tecircn + Họ hay đặc biệt đối với người Việt phổ biến coacute dạng Họ + Họ đệm + Tecircn Do vậy việc xaacutec định được họ vagrave tecircn taacutec giả tự động gặp rất nhiều khoacute khăn đocirci khi phải chỉnh sửa dữ liệu triacutech xuất tự động bằng thủ cocircng

7 Nhập dữ liệu thủ cocircng Thocircng tin về taacutec phẩm được người dugraveng (lagrave một trong caacutec taacutec giả) hoặc do admin của hệ

thống nhập vagraveo Thocircng tin do taacutec giả nhập vagraveo hệ thống sẽ được admin kiểm tra lại trước khi đưa vagraveo kho dữ liệu

TRƯỜNG CAO ĐẲNG COcircNG NGHỆ THOcircNG TIN HỮU NGHỊ VIỆT - HAgraveN

15

Như vậy kho dữ liệu liecircn kết của VietHanIT Library được tạo ra dựa trecircn việc chuyển đổi thu thập vagrave thecircm mới dữ liệu vagraveo dữ liệu được lưu trong định dạng RDFXML Kết quả của nghiecircn cứu nagravey đatilde được xuất bản trecircn web tại địa chỉ httpsparqlviethaniteduvn datasethtmltab=queryampds= libviethanit vagrave sử dụng tạo ra website ngữ nghĩa cho thư viện số của Trung tacircm Thocircng tin tư liệu tại địa chỉ httptvsviethaniteduvn

8 Kết luận Nghiecircn cứu nagravey đatilde trigravenh bagravey tổng quan về việc xacircy dựng ontology OntLibrary để định nghĩa

caacutec lớp vagrave thuộc tiacutenh nhằm tạo ra dữ liệu liecircn kết cho Trung tacircm Thocircng tin tư liệu Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven Từ đoacute nhoacutem taacutec giả đatilde đề xuất 3 phương phaacutep để xacircy dựng dữ liệu liecircn kết dựa trecircn dữ liệu coacute sẵn tại Trung tacircm Thocircng tin tư liệu của Trường đảm bảo tương thiacutech caacutec chuẩn thư viện magrave Trung tacircm hiện đang aacutep dụng chẳng hạn MARC21 Hiện nay kho dữ liệu mẫu đatilde được xuất bản online vagrave đang trong thời gian hoagraven thiện việc chuyển đổi toagraven bộ dữ liệu của Trung tacircm Thocircng tin tư liệu sang dạng dữ liệu liecircn kết

TAgraveI LIỆU THAM KHẢO

[1] Assumpcao FS Santarem Segundo JE Santos PLVAdC (2015) In RDA Element Sets and RDA Value Vocabularies Vocabularies for Resource Description in the Semantic Web Springer International Publishing Cham 147-158

[2] Bauer F Kaltenbock M (2012) Linked Open Data the Essentials A Quick Start Guide for Decision Makers Ed mono edition monomonochrom

[3] Berners-Lee T (2006) Linked data [online] Available httpswwww3orgDesignIssues LinkedDatahtml

[4] Hannemann J Kett J (2010) Linked Data for Libraries In World library and information congress 76th IFLA genenral conference and assembly httpwwwiaorgenia76 Gothenburg Sweden

[6] Myung-Ja K Han et al (2016) Linked Open Data in Practice Emblematica Online Germany

[5] Wonhong J Sangeun H Sam O (2015) The creation of a linked data-based application service at the national library of korea In iConference 2015 Proceedings

[7] The linked data service of the german national library Modelling of bibliographic data httpwwwdnbde (2016) Truy cập lần cuối cugraveng ngagravey 1512018

[8] Linked data - connect distributed data across the web httplinkeddataorgguides-and-tutorials Truy cập lần cuối cugraveng ngagravey 1512018

[9] httpxmlnscomfoafspec Truy cập lần cuối cugraveng ngagravey 1512018

[10] httpswwww3org200402skosreferences Truy cập lần cuối cugraveng ngagravey 1512018

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

16

[11] httpdublincoreorgdocumentsdces Truy cập lần cuối cugraveng ngagravey 1512018

[12] httpswwwld4lorg Truy cập lần cuối cugraveng ngagravey 1512018

[13] httpsmvnrepositorycomartifactorgapachejenajena-csv310 Truy cập lần cuối cugraveng ngagravey 1512018

[14] Nguyễn Ngọc Phuacute (2013) Ứng dụng web ngữ nghĩa vagrave khai phaacute dữ liệu xacircy dựng hệ thống tra cứu thống kecirc caacutec cocircng trigravenh nghiecircn cứu khoa học Đại học Đagrave Nẵng

[15] Phạm Thị Hồng Hạnh (2016) Ứng dụng web ngữ nghĩa để tra cứu thocircng tin khoa học cho Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven Đại học Đagrave Nẵng

Page 5: KHOA HỌC CƠ BẢN VÀ KỸ THUẬT - CÔNG NGHỆviethanit.edu.vn/wp-content/uploads/tapsan/9/1.pdf · nghĩa phát triển và duy trì một đồ thị văn hóa toàn cầu

TRƯỜNG CAO ĐẲNG COcircNG NGHỆ THOcircNG TIN HỮU NGHỊ VIỆT - HAgraveN

11

vựng FOAF [9] Từ vựng FOAF lagrave cơ sở cho mocirc higravenh hoacutea dữ liệu cho Viethan Library vigrave FOAF mocirc tả tốt caacutec yecircu cầu chức năng của người vagrave caacutec cơ quan cocircng ty được sử dụng trong caacutec thực thể hồ sơ bản ghi

- Đối với đề mục chủ đề mocirc higravenh hoacutea dữ liệu dựa trecircn việc sử dụng Hệ thống tổ chức kiến thức đơn giản (SKOS) [10] vagrave caacutec thagravenh phần Dublin Core Metadata [11]

Hiện tại Viethan Library coacute chứa caacutec tagravei liệu (tagravei nguyecircn) (saacutech tham khảo saacutech giaacuteo khoa giaacuteo trigravenh baacuteo caacuteo đồ aacuten tốt nghiệp của sinh viecircn luận văn bagravei baacuteo tạp chiacute tagravei liệu đa phương tiện vagrave tagravei liệu điện tử) Do đoacute caacutec tagravei nguyecircn được mocirc tả trong caacutec lớp (class) Book TextBook StudentProject Thesis Slides vagrave Article Mỗi loại tagravei nguyecircn được chứa trong một container tương ứng do đoacute lớp Container được tạo ra

Tagravei nguyecircn được tạo ra bởi một hoặc nhiều taacutec giả lớp Author được sử dụng để mocirc tả thocircng tin của taacutec giả đoacute lagrave lớp con của lớp Person (định nghĩa trong FOAF) Caacutec taacutec giả lagravem việc cho Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven được chia thagravenh ba lớp Lecturer Officer vagrave Student Sự gắn kết giữa caacutec tagravei nguyecircn vagrave caacutec taacutec giả chiacutenh thể hiện qua thuộc tiacutenh hasAuthor vagrave thuộc tiacutenh nghịch đảo (owl inverseOf) của noacute isAuthorOf Ngoagravei ra mỗi đồ aacuten tốt nghiệp luận văn luận aacuten coacute iacutet nhất một taacutec giả vagrave được giaacutem saacutet bởi iacutet nhất một người hướng dẫn Người hướng dẫn coacute thể lagrave một giảng viecircn nhacircn viecircn hoặc người lagravem việc ngoagravei Trường Do đoacute thuộc tiacutenh isSupervisedBy được định nghĩa để chỉ ra mối quan hệ nagravey

Phần thocircng tin thiệu chung về một tagravei nguyecircn rất quan trọng giuacutep người đọc nắm được nội dung cơ bản của tagravei nguyecircn một caacutech nhanh choacuteng từ đoacute quyết định coacute chọn tagravei nguyecircn đoacute hay khocircng do đoacute nội dung toacutem tắt của tagravei nguyecircn cần được quản lyacute Ngoagravei ra một số thocircng tin như năm xuất bản số trang mục lục vagrave caacutec tagravei liệu tham khảohellip cũng cần được lưu trữ Caacutec thuộc tiacutenh dugraveng để mocirc tả những thocircng tin nagravey được sử dụng lại từ caacutec ontology sẵn coacute hoặc được định nghĩa thecircm bao gồm surname firstname title description subject abstract datehellip Phần lotildei ontology OntLibrary được thể hiện trong Higravenh 1

Higravenh 1 Ontology OntLibrary

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

12

Dựa trecircn ontology OntLibrary dữ liệu liecircn kết mocirc tả caacutec tagravei nguyecircn trong VietHanIT Library được tạo ra vagrave lưu lại dưới định dạng RDF Phần 4 dưới đacircy sẽ mocirc tả việc xacircy dựng kho dữ liệu liecircn kết cho VietHanIT Library

4 Xacircy dựng kho dữ liệu liecircn kết

Chuacuteng ta biết rằng mocirc tả biecircn mục được xem như cocircng việc mocirc tả caacutec khiacutea cạnh chiacutenh của caacutec nguồn tagravei nguyecircn Việc tạo ra tecircn vagrave tiecircu đề của tagravei nguyecircn nhằm bảo đảm sự truy cập tới tagravei nguyecircn nagravey RDF cho pheacutep mocirc tả bất kỳ loại tagravei nguyecircn sử dụng triples Caacutec cacircu mocirc tả một sự việc trong RDF được xacircy dựng thocircng qua caacutec thuộc tiacutenh vagrave giaacute trị của thuộc tiacutenh Viacute dụ ldquoCuốn đồ aacuten coacute tiecircu đề Lập trigravenh web PHP mySQLrdquo ldquoCuốn đồ aacuten được cocircng bố ngagravey 0162016rdquo vagrave ldquoCuốn đồ aacuten do Nguyễn Thị Việt Mỹ viếtrdquo Như vậy mocirc tả một cuốn đồ aacuten bằng RDF khocircng thể chỉ sử dụng một bản ghi với tất cả thuộc tiacutenh đi cugraveng với nhau như chuacuteng ta coacute thể thấy ở định dạng MARC21 Caacutech tiếp cận RDF rất khaacutec biecircn mục thư viện truyền thống được minh họa bởi MARC21 Với MARC21 caacutec mocirc tả về nhiều khiacutea cạnh của một tagravei nguyecircn bị ragraveng buộc với nhau bởi một cuacute phaacutep cụ thể của caacutec thẻ caacutec chỉ số vagrave caacutec trường con như một luồng dữ liệu duy nhất coacute thể nhận biết được thao taacutec như một toagraven thể Trong RDF dữ liệu phải được taacutech ra thagravenh caacutec statement (cacircu) đơn lẻ sau đoacute coacute thể được xử lyacute độc lập với nhau Việc xử lyacute bao gồm tổng hợp caacutec cacircu lệnh vagraveo một khung nhigraven dựa trecircn bản ghi Caacutec statement hay caacutec triple coacute thể được trộn hay kết hợp với caacutec tagravei nguyecircn khaacutec nhau để tạo ra caacutec khung nhigraven thacircn thiện với người dugraveng

Viacute dụ 24 lagrave một viacute dụ cho thấy sự aacutenh xạ của một đồ aacuten tốt nghiệp ldquoLập trigravenh web PHP mySQLrdquo vagraveo caacutec lớp vagrave thuộc tiacutenh của ontology OntLibrary (matilde của đồ aacuten được đaacutenh theo chuẩn thư viện vagrave tuacircn theo quy định của thư viện số hiện coacute của Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven)

Viacute dụ 24

ltrdfDescription rdfabout=ampinsDALT131605gt

ltdctitlegtXacircy dựng website baacuten maacutey tiacutenh xaacutech tayltdctitlegt

ltdcdescriptiongtĐồ aacuten tốt nghiệp của sinh viecircnltdcdescriptiongt

hellipltvhhasAuthor rdfresource=ampinsCCLT07B016gt

ltvhisSupervisedBy rdfresource=ampinsT04-15111-060gt

ltrdfDescriptiongt

Để xacircy dựng kho dữ liệu liecircn kết cho VietHanIT Library sau khi tigravem hiểu phacircn tiacutech caacutec hệ thống quản lyacute thư viện đang được sử dụng tại Trung tacircm Thocircng tin tư liệu nhoacutem taacutec giả để xuất 3 phương phaacutep như trong Higravenh 2 để xacircy dựng kho dữ liệu cho thư viện số ngữ nghĩa của VietHanIT Library

TRƯỜNG CAO ĐẲNG COcircNG NGHỆ THOcircNG TIN HỮU NGHỊ VIỆT - HAgraveN

13

5 Marshup dữ liệu liecircn kết

Trung tacircm Thocircng tin tư liệu Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven (VietHanIT Library) hiện nay đang sử dụng Hệ Quản trị thư viện tiacutech hợp matilde nguồn mở Koha Hệ thống Koha đatilde cập nhật được rất nhiều dữ liệu về đồ aacuten của sinh viecircn caacutec giaacuteo trigravenh tagravei liệu tham khảohellip Một trong những mục tiecircu quan trọng khi xacircy dựng kho dữ liệu liecircn kết lagrave kết nối với caacutec tập dữ liệu đatilde coacute vagrave taacutei sử dụng chuacuteng (nếu coacute thể) do đoacute hệ thống cần sử dụng lại nguồn dữ liệu hiện coacute trong KOHA bằng một cocircng cụ marshup

Higravenh 2 Xacircy dựng kho dữ liệu

Quy trigravenh lagravem việc mashup bao gồm caacutec bước Thứ nhất dữ liệu thocirc phải được chuyển đổi vagraveo RDF mocirc higravenh dữ liệu cơ bản cho SemanticWeb Caacutec bước tiếp theo lagrave định nghĩa dữ liệu liecircn kết từ tập tin RDF thu được

Coacute nhiều cocircng cụ vagrave bộ chuyển đổi coacute thể được sử dụng cho marshup dữ liệu liecircn kết Cocircng cụ jena-csv310 [13] được lựa chọn cho hệ thống nhằm phaacutet triển ứng dụng chuyển đổi dữ liệu dạng bảng như CSV vagraveo RDF vigrave jena-csv310 matilde nguồn mở Cocircng cụ jena-csv310 cho pheacutep nhận caacutec file CSV đưa vagraveo định dạng RDF

Higravenh 3 Dữ liệu triacutech xuất ra từ Cơ sở dữ liệu của hệ thống KOHA (viacute dụ)

Triacutech xuất thocircng tin tự động từ caacutec bagravei baacuteo quốc tế

Quản lyacute thư viện

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

14

Higravenh 4 (Viacute dụ) Dữ liệu được chuyển đổi sang định dạng RDF

từ file dữ liệu lấy từ CSDL của Hệ thống Koha

Dữ liệu của caacutec tagravei nguyecircn được lưu trong Cơ sở dữ liệu của hệ thống Koha dễ dagraveng được xuất ra file CSV (viacute dụ xem Higravenh 3) Thecircm vagraveo đoacute VietHanIT Library cograven lưu thocircng tin của caacutec tagravei liệu dưới dạng file excel tập tin nagravey được chuyển sang định dạng CSV bằng MS Excel Từ đoacute sử dụng cocircng cụ jena-csv310 toagraven bộ dữ liệu nagravey được tự động chuyển sang định dạng RDF Kết quả lấy được hơn 7 ngagraven bản ghi về caacutec tagravei nguyecircn được lưu trong định dạng RDF (viacute dụ xem Higravenh 4) Tuy nhiecircn dữ liệu RDF coacute được sau khi chuyển đổi chưa phải lagrave dữ liệu liecircn kết Do đoacute rất nhiều thực thể cần phải định nghĩa chẳng hạn caacutec taacutec giả caacutec nhagrave xuất bản Becircn cạnh đoacute nhiều thocircng tin cần phải bổ sung thecircm như phần toacutem tắt từ khoacutea số tranghellip nhằm coacute thể mocirc tả caacutec tagravei nguyecircn giagraveu ngữ nghĩa đảm bảo coacute thể mocirc tả tagravei nguyecircn theo tiecircu chuẩn MARC21 Đacircy lagrave giai đoạn khoacute nhất vagrave tốn thời gian nhất khi xacircy dựng bộ dữ liệu từ bất kỳ nguồn dữ liệu nagraveo do cần hiểu biết sacircu hơn về caacutec tập dữ liệu vigrave đoacute lagrave cơ sở của mashup Caacutec bước nagravey khocircng coacute trigravenh tự từng bước hoặc tự động thực hiện magrave đogravei hỏi caacutec nhagrave phaacutet triển phải tự nghiecircn cứu vagrave tự kiểm tra dữ liệu đacircy lagrave vấn đề khoacute khăn magrave chuacuteng tocirci gặp phải khi xacircy dựng bộ dữ liệu liecircn kết cho VietHanIT Library Dữ liệu được hiểu tốt hơn nghĩa lagrave cần tăng cường chuyển đổi dữ liệu sang dạng RDF vagrave liecircn kết đến caacutec bộ dữ liệu khaacutec

6 Triacutech xuất thocircng tin tự động từ caacutec bagravei baacuteo quốc tế lưu dưới định dạng PDF Caacutec tập tin PDF (định dạng văn bản khocircng phải định dạng higravenh ảnh scan) do caacutec taacutec giả

cung cấp Hệ thống quản lyacute thư viện được phaacutet triển dựa trecircn ngocircn ngữ lập trigravenh Java sẽ triacutech xuất một số dữ liệu tự động cần quản lyacute như tecircn bagravei baacuteo thocircng tin về caacutec taacutec giả toacutem tắt vagrave từ khoacutea Tuy nhiecircn việc truy xuất dữ liệu tự động hiện nay cograven coacute nhiều hạn chế chẳng hạn việc xử lyacute tecircn taacutec giả của một taacutec phẩm Chuacuteng ta biết rằng định dạng tecircn của một taacutec giả gồm Họ + Tecircn Tecircn + Họ hay đặc biệt đối với người Việt phổ biến coacute dạng Họ + Họ đệm + Tecircn Do vậy việc xaacutec định được họ vagrave tecircn taacutec giả tự động gặp rất nhiều khoacute khăn đocirci khi phải chỉnh sửa dữ liệu triacutech xuất tự động bằng thủ cocircng

7 Nhập dữ liệu thủ cocircng Thocircng tin về taacutec phẩm được người dugraveng (lagrave một trong caacutec taacutec giả) hoặc do admin của hệ

thống nhập vagraveo Thocircng tin do taacutec giả nhập vagraveo hệ thống sẽ được admin kiểm tra lại trước khi đưa vagraveo kho dữ liệu

TRƯỜNG CAO ĐẲNG COcircNG NGHỆ THOcircNG TIN HỮU NGHỊ VIỆT - HAgraveN

15

Như vậy kho dữ liệu liecircn kết của VietHanIT Library được tạo ra dựa trecircn việc chuyển đổi thu thập vagrave thecircm mới dữ liệu vagraveo dữ liệu được lưu trong định dạng RDFXML Kết quả của nghiecircn cứu nagravey đatilde được xuất bản trecircn web tại địa chỉ httpsparqlviethaniteduvn datasethtmltab=queryampds= libviethanit vagrave sử dụng tạo ra website ngữ nghĩa cho thư viện số của Trung tacircm Thocircng tin tư liệu tại địa chỉ httptvsviethaniteduvn

8 Kết luận Nghiecircn cứu nagravey đatilde trigravenh bagravey tổng quan về việc xacircy dựng ontology OntLibrary để định nghĩa

caacutec lớp vagrave thuộc tiacutenh nhằm tạo ra dữ liệu liecircn kết cho Trung tacircm Thocircng tin tư liệu Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven Từ đoacute nhoacutem taacutec giả đatilde đề xuất 3 phương phaacutep để xacircy dựng dữ liệu liecircn kết dựa trecircn dữ liệu coacute sẵn tại Trung tacircm Thocircng tin tư liệu của Trường đảm bảo tương thiacutech caacutec chuẩn thư viện magrave Trung tacircm hiện đang aacutep dụng chẳng hạn MARC21 Hiện nay kho dữ liệu mẫu đatilde được xuất bản online vagrave đang trong thời gian hoagraven thiện việc chuyển đổi toagraven bộ dữ liệu của Trung tacircm Thocircng tin tư liệu sang dạng dữ liệu liecircn kết

TAgraveI LIỆU THAM KHẢO

[1] Assumpcao FS Santarem Segundo JE Santos PLVAdC (2015) In RDA Element Sets and RDA Value Vocabularies Vocabularies for Resource Description in the Semantic Web Springer International Publishing Cham 147-158

[2] Bauer F Kaltenbock M (2012) Linked Open Data the Essentials A Quick Start Guide for Decision Makers Ed mono edition monomonochrom

[3] Berners-Lee T (2006) Linked data [online] Available httpswwww3orgDesignIssues LinkedDatahtml

[4] Hannemann J Kett J (2010) Linked Data for Libraries In World library and information congress 76th IFLA genenral conference and assembly httpwwwiaorgenia76 Gothenburg Sweden

[6] Myung-Ja K Han et al (2016) Linked Open Data in Practice Emblematica Online Germany

[5] Wonhong J Sangeun H Sam O (2015) The creation of a linked data-based application service at the national library of korea In iConference 2015 Proceedings

[7] The linked data service of the german national library Modelling of bibliographic data httpwwwdnbde (2016) Truy cập lần cuối cugraveng ngagravey 1512018

[8] Linked data - connect distributed data across the web httplinkeddataorgguides-and-tutorials Truy cập lần cuối cugraveng ngagravey 1512018

[9] httpxmlnscomfoafspec Truy cập lần cuối cugraveng ngagravey 1512018

[10] httpswwww3org200402skosreferences Truy cập lần cuối cugraveng ngagravey 1512018

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

16

[11] httpdublincoreorgdocumentsdces Truy cập lần cuối cugraveng ngagravey 1512018

[12] httpswwwld4lorg Truy cập lần cuối cugraveng ngagravey 1512018

[13] httpsmvnrepositorycomartifactorgapachejenajena-csv310 Truy cập lần cuối cugraveng ngagravey 1512018

[14] Nguyễn Ngọc Phuacute (2013) Ứng dụng web ngữ nghĩa vagrave khai phaacute dữ liệu xacircy dựng hệ thống tra cứu thống kecirc caacutec cocircng trigravenh nghiecircn cứu khoa học Đại học Đagrave Nẵng

[15] Phạm Thị Hồng Hạnh (2016) Ứng dụng web ngữ nghĩa để tra cứu thocircng tin khoa học cho Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven Đại học Đagrave Nẵng

Page 6: KHOA HỌC CƠ BẢN VÀ KỸ THUẬT - CÔNG NGHỆviethanit.edu.vn/wp-content/uploads/tapsan/9/1.pdf · nghĩa phát triển và duy trì một đồ thị văn hóa toàn cầu

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

12

Dựa trecircn ontology OntLibrary dữ liệu liecircn kết mocirc tả caacutec tagravei nguyecircn trong VietHanIT Library được tạo ra vagrave lưu lại dưới định dạng RDF Phần 4 dưới đacircy sẽ mocirc tả việc xacircy dựng kho dữ liệu liecircn kết cho VietHanIT Library

4 Xacircy dựng kho dữ liệu liecircn kết

Chuacuteng ta biết rằng mocirc tả biecircn mục được xem như cocircng việc mocirc tả caacutec khiacutea cạnh chiacutenh của caacutec nguồn tagravei nguyecircn Việc tạo ra tecircn vagrave tiecircu đề của tagravei nguyecircn nhằm bảo đảm sự truy cập tới tagravei nguyecircn nagravey RDF cho pheacutep mocirc tả bất kỳ loại tagravei nguyecircn sử dụng triples Caacutec cacircu mocirc tả một sự việc trong RDF được xacircy dựng thocircng qua caacutec thuộc tiacutenh vagrave giaacute trị của thuộc tiacutenh Viacute dụ ldquoCuốn đồ aacuten coacute tiecircu đề Lập trigravenh web PHP mySQLrdquo ldquoCuốn đồ aacuten được cocircng bố ngagravey 0162016rdquo vagrave ldquoCuốn đồ aacuten do Nguyễn Thị Việt Mỹ viếtrdquo Như vậy mocirc tả một cuốn đồ aacuten bằng RDF khocircng thể chỉ sử dụng một bản ghi với tất cả thuộc tiacutenh đi cugraveng với nhau như chuacuteng ta coacute thể thấy ở định dạng MARC21 Caacutech tiếp cận RDF rất khaacutec biecircn mục thư viện truyền thống được minh họa bởi MARC21 Với MARC21 caacutec mocirc tả về nhiều khiacutea cạnh của một tagravei nguyecircn bị ragraveng buộc với nhau bởi một cuacute phaacutep cụ thể của caacutec thẻ caacutec chỉ số vagrave caacutec trường con như một luồng dữ liệu duy nhất coacute thể nhận biết được thao taacutec như một toagraven thể Trong RDF dữ liệu phải được taacutech ra thagravenh caacutec statement (cacircu) đơn lẻ sau đoacute coacute thể được xử lyacute độc lập với nhau Việc xử lyacute bao gồm tổng hợp caacutec cacircu lệnh vagraveo một khung nhigraven dựa trecircn bản ghi Caacutec statement hay caacutec triple coacute thể được trộn hay kết hợp với caacutec tagravei nguyecircn khaacutec nhau để tạo ra caacutec khung nhigraven thacircn thiện với người dugraveng

Viacute dụ 24 lagrave một viacute dụ cho thấy sự aacutenh xạ của một đồ aacuten tốt nghiệp ldquoLập trigravenh web PHP mySQLrdquo vagraveo caacutec lớp vagrave thuộc tiacutenh của ontology OntLibrary (matilde của đồ aacuten được đaacutenh theo chuẩn thư viện vagrave tuacircn theo quy định của thư viện số hiện coacute của Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven)

Viacute dụ 24

ltrdfDescription rdfabout=ampinsDALT131605gt

ltdctitlegtXacircy dựng website baacuten maacutey tiacutenh xaacutech tayltdctitlegt

ltdcdescriptiongtĐồ aacuten tốt nghiệp của sinh viecircnltdcdescriptiongt

hellipltvhhasAuthor rdfresource=ampinsCCLT07B016gt

ltvhisSupervisedBy rdfresource=ampinsT04-15111-060gt

ltrdfDescriptiongt

Để xacircy dựng kho dữ liệu liecircn kết cho VietHanIT Library sau khi tigravem hiểu phacircn tiacutech caacutec hệ thống quản lyacute thư viện đang được sử dụng tại Trung tacircm Thocircng tin tư liệu nhoacutem taacutec giả để xuất 3 phương phaacutep như trong Higravenh 2 để xacircy dựng kho dữ liệu cho thư viện số ngữ nghĩa của VietHanIT Library

TRƯỜNG CAO ĐẲNG COcircNG NGHỆ THOcircNG TIN HỮU NGHỊ VIỆT - HAgraveN

13

5 Marshup dữ liệu liecircn kết

Trung tacircm Thocircng tin tư liệu Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven (VietHanIT Library) hiện nay đang sử dụng Hệ Quản trị thư viện tiacutech hợp matilde nguồn mở Koha Hệ thống Koha đatilde cập nhật được rất nhiều dữ liệu về đồ aacuten của sinh viecircn caacutec giaacuteo trigravenh tagravei liệu tham khảohellip Một trong những mục tiecircu quan trọng khi xacircy dựng kho dữ liệu liecircn kết lagrave kết nối với caacutec tập dữ liệu đatilde coacute vagrave taacutei sử dụng chuacuteng (nếu coacute thể) do đoacute hệ thống cần sử dụng lại nguồn dữ liệu hiện coacute trong KOHA bằng một cocircng cụ marshup

Higravenh 2 Xacircy dựng kho dữ liệu

Quy trigravenh lagravem việc mashup bao gồm caacutec bước Thứ nhất dữ liệu thocirc phải được chuyển đổi vagraveo RDF mocirc higravenh dữ liệu cơ bản cho SemanticWeb Caacutec bước tiếp theo lagrave định nghĩa dữ liệu liecircn kết từ tập tin RDF thu được

Coacute nhiều cocircng cụ vagrave bộ chuyển đổi coacute thể được sử dụng cho marshup dữ liệu liecircn kết Cocircng cụ jena-csv310 [13] được lựa chọn cho hệ thống nhằm phaacutet triển ứng dụng chuyển đổi dữ liệu dạng bảng như CSV vagraveo RDF vigrave jena-csv310 matilde nguồn mở Cocircng cụ jena-csv310 cho pheacutep nhận caacutec file CSV đưa vagraveo định dạng RDF

Higravenh 3 Dữ liệu triacutech xuất ra từ Cơ sở dữ liệu của hệ thống KOHA (viacute dụ)

Triacutech xuất thocircng tin tự động từ caacutec bagravei baacuteo quốc tế

Quản lyacute thư viện

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

14

Higravenh 4 (Viacute dụ) Dữ liệu được chuyển đổi sang định dạng RDF

từ file dữ liệu lấy từ CSDL của Hệ thống Koha

Dữ liệu của caacutec tagravei nguyecircn được lưu trong Cơ sở dữ liệu của hệ thống Koha dễ dagraveng được xuất ra file CSV (viacute dụ xem Higravenh 3) Thecircm vagraveo đoacute VietHanIT Library cograven lưu thocircng tin của caacutec tagravei liệu dưới dạng file excel tập tin nagravey được chuyển sang định dạng CSV bằng MS Excel Từ đoacute sử dụng cocircng cụ jena-csv310 toagraven bộ dữ liệu nagravey được tự động chuyển sang định dạng RDF Kết quả lấy được hơn 7 ngagraven bản ghi về caacutec tagravei nguyecircn được lưu trong định dạng RDF (viacute dụ xem Higravenh 4) Tuy nhiecircn dữ liệu RDF coacute được sau khi chuyển đổi chưa phải lagrave dữ liệu liecircn kết Do đoacute rất nhiều thực thể cần phải định nghĩa chẳng hạn caacutec taacutec giả caacutec nhagrave xuất bản Becircn cạnh đoacute nhiều thocircng tin cần phải bổ sung thecircm như phần toacutem tắt từ khoacutea số tranghellip nhằm coacute thể mocirc tả caacutec tagravei nguyecircn giagraveu ngữ nghĩa đảm bảo coacute thể mocirc tả tagravei nguyecircn theo tiecircu chuẩn MARC21 Đacircy lagrave giai đoạn khoacute nhất vagrave tốn thời gian nhất khi xacircy dựng bộ dữ liệu từ bất kỳ nguồn dữ liệu nagraveo do cần hiểu biết sacircu hơn về caacutec tập dữ liệu vigrave đoacute lagrave cơ sở của mashup Caacutec bước nagravey khocircng coacute trigravenh tự từng bước hoặc tự động thực hiện magrave đogravei hỏi caacutec nhagrave phaacutet triển phải tự nghiecircn cứu vagrave tự kiểm tra dữ liệu đacircy lagrave vấn đề khoacute khăn magrave chuacuteng tocirci gặp phải khi xacircy dựng bộ dữ liệu liecircn kết cho VietHanIT Library Dữ liệu được hiểu tốt hơn nghĩa lagrave cần tăng cường chuyển đổi dữ liệu sang dạng RDF vagrave liecircn kết đến caacutec bộ dữ liệu khaacutec

6 Triacutech xuất thocircng tin tự động từ caacutec bagravei baacuteo quốc tế lưu dưới định dạng PDF Caacutec tập tin PDF (định dạng văn bản khocircng phải định dạng higravenh ảnh scan) do caacutec taacutec giả

cung cấp Hệ thống quản lyacute thư viện được phaacutet triển dựa trecircn ngocircn ngữ lập trigravenh Java sẽ triacutech xuất một số dữ liệu tự động cần quản lyacute như tecircn bagravei baacuteo thocircng tin về caacutec taacutec giả toacutem tắt vagrave từ khoacutea Tuy nhiecircn việc truy xuất dữ liệu tự động hiện nay cograven coacute nhiều hạn chế chẳng hạn việc xử lyacute tecircn taacutec giả của một taacutec phẩm Chuacuteng ta biết rằng định dạng tecircn của một taacutec giả gồm Họ + Tecircn Tecircn + Họ hay đặc biệt đối với người Việt phổ biến coacute dạng Họ + Họ đệm + Tecircn Do vậy việc xaacutec định được họ vagrave tecircn taacutec giả tự động gặp rất nhiều khoacute khăn đocirci khi phải chỉnh sửa dữ liệu triacutech xuất tự động bằng thủ cocircng

7 Nhập dữ liệu thủ cocircng Thocircng tin về taacutec phẩm được người dugraveng (lagrave một trong caacutec taacutec giả) hoặc do admin của hệ

thống nhập vagraveo Thocircng tin do taacutec giả nhập vagraveo hệ thống sẽ được admin kiểm tra lại trước khi đưa vagraveo kho dữ liệu

TRƯỜNG CAO ĐẲNG COcircNG NGHỆ THOcircNG TIN HỮU NGHỊ VIỆT - HAgraveN

15

Như vậy kho dữ liệu liecircn kết của VietHanIT Library được tạo ra dựa trecircn việc chuyển đổi thu thập vagrave thecircm mới dữ liệu vagraveo dữ liệu được lưu trong định dạng RDFXML Kết quả của nghiecircn cứu nagravey đatilde được xuất bản trecircn web tại địa chỉ httpsparqlviethaniteduvn datasethtmltab=queryampds= libviethanit vagrave sử dụng tạo ra website ngữ nghĩa cho thư viện số của Trung tacircm Thocircng tin tư liệu tại địa chỉ httptvsviethaniteduvn

8 Kết luận Nghiecircn cứu nagravey đatilde trigravenh bagravey tổng quan về việc xacircy dựng ontology OntLibrary để định nghĩa

caacutec lớp vagrave thuộc tiacutenh nhằm tạo ra dữ liệu liecircn kết cho Trung tacircm Thocircng tin tư liệu Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven Từ đoacute nhoacutem taacutec giả đatilde đề xuất 3 phương phaacutep để xacircy dựng dữ liệu liecircn kết dựa trecircn dữ liệu coacute sẵn tại Trung tacircm Thocircng tin tư liệu của Trường đảm bảo tương thiacutech caacutec chuẩn thư viện magrave Trung tacircm hiện đang aacutep dụng chẳng hạn MARC21 Hiện nay kho dữ liệu mẫu đatilde được xuất bản online vagrave đang trong thời gian hoagraven thiện việc chuyển đổi toagraven bộ dữ liệu của Trung tacircm Thocircng tin tư liệu sang dạng dữ liệu liecircn kết

TAgraveI LIỆU THAM KHẢO

[1] Assumpcao FS Santarem Segundo JE Santos PLVAdC (2015) In RDA Element Sets and RDA Value Vocabularies Vocabularies for Resource Description in the Semantic Web Springer International Publishing Cham 147-158

[2] Bauer F Kaltenbock M (2012) Linked Open Data the Essentials A Quick Start Guide for Decision Makers Ed mono edition monomonochrom

[3] Berners-Lee T (2006) Linked data [online] Available httpswwww3orgDesignIssues LinkedDatahtml

[4] Hannemann J Kett J (2010) Linked Data for Libraries In World library and information congress 76th IFLA genenral conference and assembly httpwwwiaorgenia76 Gothenburg Sweden

[6] Myung-Ja K Han et al (2016) Linked Open Data in Practice Emblematica Online Germany

[5] Wonhong J Sangeun H Sam O (2015) The creation of a linked data-based application service at the national library of korea In iConference 2015 Proceedings

[7] The linked data service of the german national library Modelling of bibliographic data httpwwwdnbde (2016) Truy cập lần cuối cugraveng ngagravey 1512018

[8] Linked data - connect distributed data across the web httplinkeddataorgguides-and-tutorials Truy cập lần cuối cugraveng ngagravey 1512018

[9] httpxmlnscomfoafspec Truy cập lần cuối cugraveng ngagravey 1512018

[10] httpswwww3org200402skosreferences Truy cập lần cuối cugraveng ngagravey 1512018

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

16

[11] httpdublincoreorgdocumentsdces Truy cập lần cuối cugraveng ngagravey 1512018

[12] httpswwwld4lorg Truy cập lần cuối cugraveng ngagravey 1512018

[13] httpsmvnrepositorycomartifactorgapachejenajena-csv310 Truy cập lần cuối cugraveng ngagravey 1512018

[14] Nguyễn Ngọc Phuacute (2013) Ứng dụng web ngữ nghĩa vagrave khai phaacute dữ liệu xacircy dựng hệ thống tra cứu thống kecirc caacutec cocircng trigravenh nghiecircn cứu khoa học Đại học Đagrave Nẵng

[15] Phạm Thị Hồng Hạnh (2016) Ứng dụng web ngữ nghĩa để tra cứu thocircng tin khoa học cho Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven Đại học Đagrave Nẵng

Page 7: KHOA HỌC CƠ BẢN VÀ KỸ THUẬT - CÔNG NGHỆviethanit.edu.vn/wp-content/uploads/tapsan/9/1.pdf · nghĩa phát triển và duy trì một đồ thị văn hóa toàn cầu

TRƯỜNG CAO ĐẲNG COcircNG NGHỆ THOcircNG TIN HỮU NGHỊ VIỆT - HAgraveN

13

5 Marshup dữ liệu liecircn kết

Trung tacircm Thocircng tin tư liệu Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven (VietHanIT Library) hiện nay đang sử dụng Hệ Quản trị thư viện tiacutech hợp matilde nguồn mở Koha Hệ thống Koha đatilde cập nhật được rất nhiều dữ liệu về đồ aacuten của sinh viecircn caacutec giaacuteo trigravenh tagravei liệu tham khảohellip Một trong những mục tiecircu quan trọng khi xacircy dựng kho dữ liệu liecircn kết lagrave kết nối với caacutec tập dữ liệu đatilde coacute vagrave taacutei sử dụng chuacuteng (nếu coacute thể) do đoacute hệ thống cần sử dụng lại nguồn dữ liệu hiện coacute trong KOHA bằng một cocircng cụ marshup

Higravenh 2 Xacircy dựng kho dữ liệu

Quy trigravenh lagravem việc mashup bao gồm caacutec bước Thứ nhất dữ liệu thocirc phải được chuyển đổi vagraveo RDF mocirc higravenh dữ liệu cơ bản cho SemanticWeb Caacutec bước tiếp theo lagrave định nghĩa dữ liệu liecircn kết từ tập tin RDF thu được

Coacute nhiều cocircng cụ vagrave bộ chuyển đổi coacute thể được sử dụng cho marshup dữ liệu liecircn kết Cocircng cụ jena-csv310 [13] được lựa chọn cho hệ thống nhằm phaacutet triển ứng dụng chuyển đổi dữ liệu dạng bảng như CSV vagraveo RDF vigrave jena-csv310 matilde nguồn mở Cocircng cụ jena-csv310 cho pheacutep nhận caacutec file CSV đưa vagraveo định dạng RDF

Higravenh 3 Dữ liệu triacutech xuất ra từ Cơ sở dữ liệu của hệ thống KOHA (viacute dụ)

Triacutech xuất thocircng tin tự động từ caacutec bagravei baacuteo quốc tế

Quản lyacute thư viện

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

14

Higravenh 4 (Viacute dụ) Dữ liệu được chuyển đổi sang định dạng RDF

từ file dữ liệu lấy từ CSDL của Hệ thống Koha

Dữ liệu của caacutec tagravei nguyecircn được lưu trong Cơ sở dữ liệu của hệ thống Koha dễ dagraveng được xuất ra file CSV (viacute dụ xem Higravenh 3) Thecircm vagraveo đoacute VietHanIT Library cograven lưu thocircng tin của caacutec tagravei liệu dưới dạng file excel tập tin nagravey được chuyển sang định dạng CSV bằng MS Excel Từ đoacute sử dụng cocircng cụ jena-csv310 toagraven bộ dữ liệu nagravey được tự động chuyển sang định dạng RDF Kết quả lấy được hơn 7 ngagraven bản ghi về caacutec tagravei nguyecircn được lưu trong định dạng RDF (viacute dụ xem Higravenh 4) Tuy nhiecircn dữ liệu RDF coacute được sau khi chuyển đổi chưa phải lagrave dữ liệu liecircn kết Do đoacute rất nhiều thực thể cần phải định nghĩa chẳng hạn caacutec taacutec giả caacutec nhagrave xuất bản Becircn cạnh đoacute nhiều thocircng tin cần phải bổ sung thecircm như phần toacutem tắt từ khoacutea số tranghellip nhằm coacute thể mocirc tả caacutec tagravei nguyecircn giagraveu ngữ nghĩa đảm bảo coacute thể mocirc tả tagravei nguyecircn theo tiecircu chuẩn MARC21 Đacircy lagrave giai đoạn khoacute nhất vagrave tốn thời gian nhất khi xacircy dựng bộ dữ liệu từ bất kỳ nguồn dữ liệu nagraveo do cần hiểu biết sacircu hơn về caacutec tập dữ liệu vigrave đoacute lagrave cơ sở của mashup Caacutec bước nagravey khocircng coacute trigravenh tự từng bước hoặc tự động thực hiện magrave đogravei hỏi caacutec nhagrave phaacutet triển phải tự nghiecircn cứu vagrave tự kiểm tra dữ liệu đacircy lagrave vấn đề khoacute khăn magrave chuacuteng tocirci gặp phải khi xacircy dựng bộ dữ liệu liecircn kết cho VietHanIT Library Dữ liệu được hiểu tốt hơn nghĩa lagrave cần tăng cường chuyển đổi dữ liệu sang dạng RDF vagrave liecircn kết đến caacutec bộ dữ liệu khaacutec

6 Triacutech xuất thocircng tin tự động từ caacutec bagravei baacuteo quốc tế lưu dưới định dạng PDF Caacutec tập tin PDF (định dạng văn bản khocircng phải định dạng higravenh ảnh scan) do caacutec taacutec giả

cung cấp Hệ thống quản lyacute thư viện được phaacutet triển dựa trecircn ngocircn ngữ lập trigravenh Java sẽ triacutech xuất một số dữ liệu tự động cần quản lyacute như tecircn bagravei baacuteo thocircng tin về caacutec taacutec giả toacutem tắt vagrave từ khoacutea Tuy nhiecircn việc truy xuất dữ liệu tự động hiện nay cograven coacute nhiều hạn chế chẳng hạn việc xử lyacute tecircn taacutec giả của một taacutec phẩm Chuacuteng ta biết rằng định dạng tecircn của một taacutec giả gồm Họ + Tecircn Tecircn + Họ hay đặc biệt đối với người Việt phổ biến coacute dạng Họ + Họ đệm + Tecircn Do vậy việc xaacutec định được họ vagrave tecircn taacutec giả tự động gặp rất nhiều khoacute khăn đocirci khi phải chỉnh sửa dữ liệu triacutech xuất tự động bằng thủ cocircng

7 Nhập dữ liệu thủ cocircng Thocircng tin về taacutec phẩm được người dugraveng (lagrave một trong caacutec taacutec giả) hoặc do admin của hệ

thống nhập vagraveo Thocircng tin do taacutec giả nhập vagraveo hệ thống sẽ được admin kiểm tra lại trước khi đưa vagraveo kho dữ liệu

TRƯỜNG CAO ĐẲNG COcircNG NGHỆ THOcircNG TIN HỮU NGHỊ VIỆT - HAgraveN

15

Như vậy kho dữ liệu liecircn kết của VietHanIT Library được tạo ra dựa trecircn việc chuyển đổi thu thập vagrave thecircm mới dữ liệu vagraveo dữ liệu được lưu trong định dạng RDFXML Kết quả của nghiecircn cứu nagravey đatilde được xuất bản trecircn web tại địa chỉ httpsparqlviethaniteduvn datasethtmltab=queryampds= libviethanit vagrave sử dụng tạo ra website ngữ nghĩa cho thư viện số của Trung tacircm Thocircng tin tư liệu tại địa chỉ httptvsviethaniteduvn

8 Kết luận Nghiecircn cứu nagravey đatilde trigravenh bagravey tổng quan về việc xacircy dựng ontology OntLibrary để định nghĩa

caacutec lớp vagrave thuộc tiacutenh nhằm tạo ra dữ liệu liecircn kết cho Trung tacircm Thocircng tin tư liệu Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven Từ đoacute nhoacutem taacutec giả đatilde đề xuất 3 phương phaacutep để xacircy dựng dữ liệu liecircn kết dựa trecircn dữ liệu coacute sẵn tại Trung tacircm Thocircng tin tư liệu của Trường đảm bảo tương thiacutech caacutec chuẩn thư viện magrave Trung tacircm hiện đang aacutep dụng chẳng hạn MARC21 Hiện nay kho dữ liệu mẫu đatilde được xuất bản online vagrave đang trong thời gian hoagraven thiện việc chuyển đổi toagraven bộ dữ liệu của Trung tacircm Thocircng tin tư liệu sang dạng dữ liệu liecircn kết

TAgraveI LIỆU THAM KHẢO

[1] Assumpcao FS Santarem Segundo JE Santos PLVAdC (2015) In RDA Element Sets and RDA Value Vocabularies Vocabularies for Resource Description in the Semantic Web Springer International Publishing Cham 147-158

[2] Bauer F Kaltenbock M (2012) Linked Open Data the Essentials A Quick Start Guide for Decision Makers Ed mono edition monomonochrom

[3] Berners-Lee T (2006) Linked data [online] Available httpswwww3orgDesignIssues LinkedDatahtml

[4] Hannemann J Kett J (2010) Linked Data for Libraries In World library and information congress 76th IFLA genenral conference and assembly httpwwwiaorgenia76 Gothenburg Sweden

[6] Myung-Ja K Han et al (2016) Linked Open Data in Practice Emblematica Online Germany

[5] Wonhong J Sangeun H Sam O (2015) The creation of a linked data-based application service at the national library of korea In iConference 2015 Proceedings

[7] The linked data service of the german national library Modelling of bibliographic data httpwwwdnbde (2016) Truy cập lần cuối cugraveng ngagravey 1512018

[8] Linked data - connect distributed data across the web httplinkeddataorgguides-and-tutorials Truy cập lần cuối cugraveng ngagravey 1512018

[9] httpxmlnscomfoafspec Truy cập lần cuối cugraveng ngagravey 1512018

[10] httpswwww3org200402skosreferences Truy cập lần cuối cugraveng ngagravey 1512018

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

16

[11] httpdublincoreorgdocumentsdces Truy cập lần cuối cugraveng ngagravey 1512018

[12] httpswwwld4lorg Truy cập lần cuối cugraveng ngagravey 1512018

[13] httpsmvnrepositorycomartifactorgapachejenajena-csv310 Truy cập lần cuối cugraveng ngagravey 1512018

[14] Nguyễn Ngọc Phuacute (2013) Ứng dụng web ngữ nghĩa vagrave khai phaacute dữ liệu xacircy dựng hệ thống tra cứu thống kecirc caacutec cocircng trigravenh nghiecircn cứu khoa học Đại học Đagrave Nẵng

[15] Phạm Thị Hồng Hạnh (2016) Ứng dụng web ngữ nghĩa để tra cứu thocircng tin khoa học cho Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven Đại học Đagrave Nẵng

Page 8: KHOA HỌC CƠ BẢN VÀ KỸ THUẬT - CÔNG NGHỆviethanit.edu.vn/wp-content/uploads/tapsan/9/1.pdf · nghĩa phát triển và duy trì một đồ thị văn hóa toàn cầu

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

14

Higravenh 4 (Viacute dụ) Dữ liệu được chuyển đổi sang định dạng RDF

từ file dữ liệu lấy từ CSDL của Hệ thống Koha

Dữ liệu của caacutec tagravei nguyecircn được lưu trong Cơ sở dữ liệu của hệ thống Koha dễ dagraveng được xuất ra file CSV (viacute dụ xem Higravenh 3) Thecircm vagraveo đoacute VietHanIT Library cograven lưu thocircng tin của caacutec tagravei liệu dưới dạng file excel tập tin nagravey được chuyển sang định dạng CSV bằng MS Excel Từ đoacute sử dụng cocircng cụ jena-csv310 toagraven bộ dữ liệu nagravey được tự động chuyển sang định dạng RDF Kết quả lấy được hơn 7 ngagraven bản ghi về caacutec tagravei nguyecircn được lưu trong định dạng RDF (viacute dụ xem Higravenh 4) Tuy nhiecircn dữ liệu RDF coacute được sau khi chuyển đổi chưa phải lagrave dữ liệu liecircn kết Do đoacute rất nhiều thực thể cần phải định nghĩa chẳng hạn caacutec taacutec giả caacutec nhagrave xuất bản Becircn cạnh đoacute nhiều thocircng tin cần phải bổ sung thecircm như phần toacutem tắt từ khoacutea số tranghellip nhằm coacute thể mocirc tả caacutec tagravei nguyecircn giagraveu ngữ nghĩa đảm bảo coacute thể mocirc tả tagravei nguyecircn theo tiecircu chuẩn MARC21 Đacircy lagrave giai đoạn khoacute nhất vagrave tốn thời gian nhất khi xacircy dựng bộ dữ liệu từ bất kỳ nguồn dữ liệu nagraveo do cần hiểu biết sacircu hơn về caacutec tập dữ liệu vigrave đoacute lagrave cơ sở của mashup Caacutec bước nagravey khocircng coacute trigravenh tự từng bước hoặc tự động thực hiện magrave đogravei hỏi caacutec nhagrave phaacutet triển phải tự nghiecircn cứu vagrave tự kiểm tra dữ liệu đacircy lagrave vấn đề khoacute khăn magrave chuacuteng tocirci gặp phải khi xacircy dựng bộ dữ liệu liecircn kết cho VietHanIT Library Dữ liệu được hiểu tốt hơn nghĩa lagrave cần tăng cường chuyển đổi dữ liệu sang dạng RDF vagrave liecircn kết đến caacutec bộ dữ liệu khaacutec

6 Triacutech xuất thocircng tin tự động từ caacutec bagravei baacuteo quốc tế lưu dưới định dạng PDF Caacutec tập tin PDF (định dạng văn bản khocircng phải định dạng higravenh ảnh scan) do caacutec taacutec giả

cung cấp Hệ thống quản lyacute thư viện được phaacutet triển dựa trecircn ngocircn ngữ lập trigravenh Java sẽ triacutech xuất một số dữ liệu tự động cần quản lyacute như tecircn bagravei baacuteo thocircng tin về caacutec taacutec giả toacutem tắt vagrave từ khoacutea Tuy nhiecircn việc truy xuất dữ liệu tự động hiện nay cograven coacute nhiều hạn chế chẳng hạn việc xử lyacute tecircn taacutec giả của một taacutec phẩm Chuacuteng ta biết rằng định dạng tecircn của một taacutec giả gồm Họ + Tecircn Tecircn + Họ hay đặc biệt đối với người Việt phổ biến coacute dạng Họ + Họ đệm + Tecircn Do vậy việc xaacutec định được họ vagrave tecircn taacutec giả tự động gặp rất nhiều khoacute khăn đocirci khi phải chỉnh sửa dữ liệu triacutech xuất tự động bằng thủ cocircng

7 Nhập dữ liệu thủ cocircng Thocircng tin về taacutec phẩm được người dugraveng (lagrave một trong caacutec taacutec giả) hoặc do admin của hệ

thống nhập vagraveo Thocircng tin do taacutec giả nhập vagraveo hệ thống sẽ được admin kiểm tra lại trước khi đưa vagraveo kho dữ liệu

TRƯỜNG CAO ĐẲNG COcircNG NGHỆ THOcircNG TIN HỮU NGHỊ VIỆT - HAgraveN

15

Như vậy kho dữ liệu liecircn kết của VietHanIT Library được tạo ra dựa trecircn việc chuyển đổi thu thập vagrave thecircm mới dữ liệu vagraveo dữ liệu được lưu trong định dạng RDFXML Kết quả của nghiecircn cứu nagravey đatilde được xuất bản trecircn web tại địa chỉ httpsparqlviethaniteduvn datasethtmltab=queryampds= libviethanit vagrave sử dụng tạo ra website ngữ nghĩa cho thư viện số của Trung tacircm Thocircng tin tư liệu tại địa chỉ httptvsviethaniteduvn

8 Kết luận Nghiecircn cứu nagravey đatilde trigravenh bagravey tổng quan về việc xacircy dựng ontology OntLibrary để định nghĩa

caacutec lớp vagrave thuộc tiacutenh nhằm tạo ra dữ liệu liecircn kết cho Trung tacircm Thocircng tin tư liệu Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven Từ đoacute nhoacutem taacutec giả đatilde đề xuất 3 phương phaacutep để xacircy dựng dữ liệu liecircn kết dựa trecircn dữ liệu coacute sẵn tại Trung tacircm Thocircng tin tư liệu của Trường đảm bảo tương thiacutech caacutec chuẩn thư viện magrave Trung tacircm hiện đang aacutep dụng chẳng hạn MARC21 Hiện nay kho dữ liệu mẫu đatilde được xuất bản online vagrave đang trong thời gian hoagraven thiện việc chuyển đổi toagraven bộ dữ liệu của Trung tacircm Thocircng tin tư liệu sang dạng dữ liệu liecircn kết

TAgraveI LIỆU THAM KHẢO

[1] Assumpcao FS Santarem Segundo JE Santos PLVAdC (2015) In RDA Element Sets and RDA Value Vocabularies Vocabularies for Resource Description in the Semantic Web Springer International Publishing Cham 147-158

[2] Bauer F Kaltenbock M (2012) Linked Open Data the Essentials A Quick Start Guide for Decision Makers Ed mono edition monomonochrom

[3] Berners-Lee T (2006) Linked data [online] Available httpswwww3orgDesignIssues LinkedDatahtml

[4] Hannemann J Kett J (2010) Linked Data for Libraries In World library and information congress 76th IFLA genenral conference and assembly httpwwwiaorgenia76 Gothenburg Sweden

[6] Myung-Ja K Han et al (2016) Linked Open Data in Practice Emblematica Online Germany

[5] Wonhong J Sangeun H Sam O (2015) The creation of a linked data-based application service at the national library of korea In iConference 2015 Proceedings

[7] The linked data service of the german national library Modelling of bibliographic data httpwwwdnbde (2016) Truy cập lần cuối cugraveng ngagravey 1512018

[8] Linked data - connect distributed data across the web httplinkeddataorgguides-and-tutorials Truy cập lần cuối cugraveng ngagravey 1512018

[9] httpxmlnscomfoafspec Truy cập lần cuối cugraveng ngagravey 1512018

[10] httpswwww3org200402skosreferences Truy cập lần cuối cugraveng ngagravey 1512018

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

16

[11] httpdublincoreorgdocumentsdces Truy cập lần cuối cugraveng ngagravey 1512018

[12] httpswwwld4lorg Truy cập lần cuối cugraveng ngagravey 1512018

[13] httpsmvnrepositorycomartifactorgapachejenajena-csv310 Truy cập lần cuối cugraveng ngagravey 1512018

[14] Nguyễn Ngọc Phuacute (2013) Ứng dụng web ngữ nghĩa vagrave khai phaacute dữ liệu xacircy dựng hệ thống tra cứu thống kecirc caacutec cocircng trigravenh nghiecircn cứu khoa học Đại học Đagrave Nẵng

[15] Phạm Thị Hồng Hạnh (2016) Ứng dụng web ngữ nghĩa để tra cứu thocircng tin khoa học cho Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven Đại học Đagrave Nẵng

Page 9: KHOA HỌC CƠ BẢN VÀ KỸ THUẬT - CÔNG NGHỆviethanit.edu.vn/wp-content/uploads/tapsan/9/1.pdf · nghĩa phát triển và duy trì một đồ thị văn hóa toàn cầu

TRƯỜNG CAO ĐẲNG COcircNG NGHỆ THOcircNG TIN HỮU NGHỊ VIỆT - HAgraveN

15

Như vậy kho dữ liệu liecircn kết của VietHanIT Library được tạo ra dựa trecircn việc chuyển đổi thu thập vagrave thecircm mới dữ liệu vagraveo dữ liệu được lưu trong định dạng RDFXML Kết quả của nghiecircn cứu nagravey đatilde được xuất bản trecircn web tại địa chỉ httpsparqlviethaniteduvn datasethtmltab=queryampds= libviethanit vagrave sử dụng tạo ra website ngữ nghĩa cho thư viện số của Trung tacircm Thocircng tin tư liệu tại địa chỉ httptvsviethaniteduvn

8 Kết luận Nghiecircn cứu nagravey đatilde trigravenh bagravey tổng quan về việc xacircy dựng ontology OntLibrary để định nghĩa

caacutec lớp vagrave thuộc tiacutenh nhằm tạo ra dữ liệu liecircn kết cho Trung tacircm Thocircng tin tư liệu Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven Từ đoacute nhoacutem taacutec giả đatilde đề xuất 3 phương phaacutep để xacircy dựng dữ liệu liecircn kết dựa trecircn dữ liệu coacute sẵn tại Trung tacircm Thocircng tin tư liệu của Trường đảm bảo tương thiacutech caacutec chuẩn thư viện magrave Trung tacircm hiện đang aacutep dụng chẳng hạn MARC21 Hiện nay kho dữ liệu mẫu đatilde được xuất bản online vagrave đang trong thời gian hoagraven thiện việc chuyển đổi toagraven bộ dữ liệu của Trung tacircm Thocircng tin tư liệu sang dạng dữ liệu liecircn kết

TAgraveI LIỆU THAM KHẢO

[1] Assumpcao FS Santarem Segundo JE Santos PLVAdC (2015) In RDA Element Sets and RDA Value Vocabularies Vocabularies for Resource Description in the Semantic Web Springer International Publishing Cham 147-158

[2] Bauer F Kaltenbock M (2012) Linked Open Data the Essentials A Quick Start Guide for Decision Makers Ed mono edition monomonochrom

[3] Berners-Lee T (2006) Linked data [online] Available httpswwww3orgDesignIssues LinkedDatahtml

[4] Hannemann J Kett J (2010) Linked Data for Libraries In World library and information congress 76th IFLA genenral conference and assembly httpwwwiaorgenia76 Gothenburg Sweden

[6] Myung-Ja K Han et al (2016) Linked Open Data in Practice Emblematica Online Germany

[5] Wonhong J Sangeun H Sam O (2015) The creation of a linked data-based application service at the national library of korea In iConference 2015 Proceedings

[7] The linked data service of the german national library Modelling of bibliographic data httpwwwdnbde (2016) Truy cập lần cuối cugraveng ngagravey 1512018

[8] Linked data - connect distributed data across the web httplinkeddataorgguides-and-tutorials Truy cập lần cuối cugraveng ngagravey 1512018

[9] httpxmlnscomfoafspec Truy cập lần cuối cugraveng ngagravey 1512018

[10] httpswwww3org200402skosreferences Truy cập lần cuối cugraveng ngagravey 1512018

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

16

[11] httpdublincoreorgdocumentsdces Truy cập lần cuối cugraveng ngagravey 1512018

[12] httpswwwld4lorg Truy cập lần cuối cugraveng ngagravey 1512018

[13] httpsmvnrepositorycomartifactorgapachejenajena-csv310 Truy cập lần cuối cugraveng ngagravey 1512018

[14] Nguyễn Ngọc Phuacute (2013) Ứng dụng web ngữ nghĩa vagrave khai phaacute dữ liệu xacircy dựng hệ thống tra cứu thống kecirc caacutec cocircng trigravenh nghiecircn cứu khoa học Đại học Đagrave Nẵng

[15] Phạm Thị Hồng Hạnh (2016) Ứng dụng web ngữ nghĩa để tra cứu thocircng tin khoa học cho Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven Đại học Đagrave Nẵng

Page 10: KHOA HỌC CƠ BẢN VÀ KỸ THUẬT - CÔNG NGHỆviethanit.edu.vn/wp-content/uploads/tapsan/9/1.pdf · nghĩa phát triển và duy trì một đồ thị văn hóa toàn cầu

CHUYEcircN ĐỀ KHOA HỌC VAgrave GIAacuteO DỤC - 09 (4-2018)

16

[11] httpdublincoreorgdocumentsdces Truy cập lần cuối cugraveng ngagravey 1512018

[12] httpswwwld4lorg Truy cập lần cuối cugraveng ngagravey 1512018

[13] httpsmvnrepositorycomartifactorgapachejenajena-csv310 Truy cập lần cuối cugraveng ngagravey 1512018

[14] Nguyễn Ngọc Phuacute (2013) Ứng dụng web ngữ nghĩa vagrave khai phaacute dữ liệu xacircy dựng hệ thống tra cứu thống kecirc caacutec cocircng trigravenh nghiecircn cứu khoa học Đại học Đagrave Nẵng

[15] Phạm Thị Hồng Hạnh (2016) Ứng dụng web ngữ nghĩa để tra cứu thocircng tin khoa học cho Trường Cao đẳng CNTT Hữu nghị Việt - Hagraven Đại học Đagrave Nẵng