updating user profile using ontology-based semantic similarity

43
Author Reformat, M.; Golmohammadi, S.K. Department of Electrical and Computer Engineering, University of Alberta, Canada Content Type Conferences This paper appears in: Fuzzy Systems, 2009. FUZZ- IEEE 2009. IEEE International Conference on Issue Date : 20-24 Aug. 2009 Speaker Pei Mei Chen

Upload: maia-donovan

Post on 02-Jan-2016

62 views

Category:

Documents


0 download

DESCRIPTION

Updating User Profile using Ontology-based Semantic Similarity. Author : Reformat, M.; Golmohammadi, S.K. Department of Electrical and Computer Engineering, University of Alberta, Canada Content Type : Conferences - PowerPoint PPT Presentation

TRANSCRIPT

Author : Reformat, M.; Golmohammadi, S.K.Department of Electrical and Computer Engineering, University of Alberta, Canada

Content Type : Conferences

This paper appears in: Fuzzy Systems, 2009. FUZZ-IEEE 2009. IEEE International Conference on

Issue Date : 20-24 Aug. 2009

Speaker : Pei Mei Chen

摘要 序論 背景與相關工作

◦本體論◦語意相似度◦使用者設定檔

找到相關項目◦概念◦語意相似度的項目◦項目的重要性◦計算相關項目

音樂領域的應用◦音樂本體論◦音樂領域的語意相似度

結果與討論◦實驗概要◦使用者設定檔和網頁項目◦結果與討論

結論 參考文獻

使用者設定檔被當作支援於提取相關資料的一種手段,而相關資料是根據指出使用者興趣的內容。

在本文中,我們透過分析使用者網路造訪的行為,而提出一個基礎本體論的語意相似度的方法和結合重要的方法,以開發和維護使用者的設定檔,並確定項目是使用者最高關聯的興趣。我們提出建議方法是用於系統來更新在音樂領域的使用者設定檔。

個人化網站的目的是幫助使用者尋找相關的資料和服務,其透過調整從網路上檢索使用者個人化的資訊。

推薦系統採用了不同的訊息過濾方法,如下:◦ 協同式過濾-以其他使用者經過思考的項目做為統計資料的條件。◦ 內容式過濾-依據特徵為基礎項目。

不管資訊過濾技術,為了查看造訪資訊與檢索這些目的,在確認使用者的特徵時,使用者設定檔扮演著一個很關鍵的角色。

使用者設定檔描繪了使用者的興趣,以及有關使用者的資訊和知識領域。為了建立有效和準確的推薦系統,代表使用者偏好是一個必要的要素。而推薦系統對照使用者設定檔,並以一些參考設定檔或項目特點,以預測使用者考慮過的興趣項目。

使用者設定檔能利用明確或暗地裡的方式收集資訊來建構而成。◦ 明確的方法-例如:使用者被要求製作一個優選項目之清單或排名/比較假設項目。

◦ 暗地裡的方法-以使用者網路造訪的模式下去分析。 此外,使用者很常改變其興趣,而且使用者都不願意詳細指明全部的調整和修改他們的目的還有興趣。因此,利用暗地裡的方式收集有關使用者的資訊是非常理想的技術。

使用者設定檔的應用作為一種手段,進而將過濾資訊儲存在網路上,是一個最合適和有效的選擇部分資訊和服務的方法之一,以滿足使用者的需求和要求。從網路上檢索而來的資訊與使用者設定檔進行比對的過程,此種做法是一個非常重要的觀點。

在本文中,採用了自動學習和更新使用者設定檔的方法。被推薦的方法屬於隱含的技術-它處理和分析使用者在網路上活動的行為模式,並且根據使用者的網路日誌提取資訊,以修改使用者設定檔。

被推薦的方法依賴於分析網路日誌,就是為了發現概念和項目,以描繪使用者的趨勢和新的興趣。這些被發現的概念和項目與使用者設定檔進行比較,並將最相關的加到此設定檔中。該機制用於確定相關項目,並基於一個新採用的概念建立出基礎本體論的語意相似度。

為了便於說明,本論文實施了推薦的方法來更新在音樂領域的使用者設定檔。全部的例子和實驗用於解說推薦方法都涉及到該領域。

本體論 本體論利用有關兩層本體論階層來定義語意網應用:本體論定

義層和本體論實體層。◦ 本體論定義層-代表一個框架,用於在給定的領域中建立一個本體論結構和定義概念。本體論結構是建立在一個類別與類別之間的 is-a ( 繼承 ) 關聯基礎上。

◦ 本體論實體層-由具體資訊所組成的,以表示本體論類別的實體。 本體論類別的定義使用了兩種類型的屬性:

◦ 資料類型屬性-為布林、浮點數、整數、字串等(例如:字元、日期、小數、時間);

◦ 物件屬性-定義非繼承之間類別的關係,這些關係遵循著資源描述框架(RDF),其是由三元組所組成的,即主體 - 述語 -目的

本體論 一 種 特 殊 的 本 體 論 語 言 稱 為 OWL(Web Ontology

Language) 已開發至詳細的說明定義以及實體層。 OWL 已被證實是有限制因素的情況下,描述複雜屬性之間的關係。

OWL與規則語言兩者被放在一起已經完全克服。根據此結果,語意網規則語言( SWRL )已經被提出了,其結合了 OWL與 RuleML (子語言規則標記語言)。

本體論 在 SWRL裡,一個規則公理是由推論前提(身體)和推論結果

(頭)而組成的。基本元素-推論前提和推論結果兩者皆是原子。 SWRL確定了五個基本原子,其建立在本體論的概念定義基礎上。原子如下:◦ C ( x ) - 用於檢查如果給予個體 x 是一個概念 C 的實體 舉例來說:曲目(昨天)檢查,如果昨天是曲目的實體概念;◦ P ( x , y ) - 允許檢查如果 X 和 Y 兩個個體都是透過屬性 P而有相關聯的

 舉例來說:曲風(昨天 , 搖滾)是”找尋”昨天和搖滾個體之間的曲風屬性;◦ Q ( x , z ) - 驗證如果個體為 x 其資料屬性 Q將有一個 z 值;◦ sameAs ( x , y ) - 認為如果個體 x 和 y 是相同的;◦ differentFrom ( x , y ) - 認為如果個體 x 和 y 是不同的;

其能使用變數來代替個體。 P ( x , y )原子能用於下面的狀況-曲風(? t, 搖滾),而它將描繪一個問題:什麼曲目是屬於搖滾的曲風?

語意相似度 一個有效而且符合人類直覺知識是基於本體論節點(類別)。

◦ 在基礎節點相似度的方法只是比對節點之間的距離。◦ 在基礎邊緣相似度的方法是定義少數邊緣節點之間的概念。

這些方法主要的問題是假設在本體論的連結是一致地。 換句話說,概念 A 和 B 可能有相同距離(即彼此之間的邊緣或

節點數)的概念 C 和 D ,而實際上 A 和 B 的相似度可能遠不等於 C 和 D 相似度。

語意相似度 這裡能提出加權邊緣的概念。不同方法的分配權重,其描述如下:◦ 網路密度 - 密度越大( # 節點在本體論的一個部分)節點之間的

差距越小◦ 節點的深度 - 當節點更接近本體論的底部時就能縮短其距離◦ 連結的類型 - 連結類型影響邊緣權重的計算,例如:繼承、部分

等◦ 其他特殊子連結的效力 - 這是區分所有的子節點和連結節點,其

邊緣權重的不同,可以被看作是特殊子節點至父節點的親密度,與兄弟節點至父節點的親密度相比。

語意相似度 羅德里格斯等人提出了相似度函數的定義,根據三種不同的相似度進行加權。一個相似的本體論 p的類別 a 至本體論 q的類別 b,表示為:

Sw :代表字與同義詞集進行對照,並以類別 a 和 b表示Su :一特徵對應相同類型的類別 a 和 b的特徵Sn :一語意鄰近區塊匹配,其以同義詞集或特徵比對類別為基礎進行在語意鄰區的比對(語意鄰區對於一個既定的概念是一套與最低差距做過比較的一個非負整數的概念集)ws :由各自的相似度權重所組成的,例如: ww是同義詞集之間的相似度權重

語意相似度 相似度方法中定義比對過程的專有名詞:

A 和 B :類別 a 和 b的描述集,即在語意鄰區中的同義詞集、識別特徵集和類別集( A∩ B ):代表交集( A/ B ):代表差| |:一個集合的基數α:是一個函數,其定義非共同特點的相對重要性

使用者設定檔 使用者設定檔用於確認使用者的興趣和偏好。建置使用者設定檔的流程可以區分成兩類:◦ 知識型-認為使用者模型為靜態,並利用問卷和訪談去比對已存在

的使用者模型◦ 行為型-建構了一個發現從使用者的行為為基礎模式的使用者模型,而使用者行為即在網路上應用機器學習的技術(機器學習的技術是應用於找出有興趣的網頁)

大多數的推薦系統使用行為型的方法,其使用者在一個二進制的方式,而二進制的設定檔開發是基於使用者的網頁評價以區分有興趣或沒興趣。

使用者設定檔 網路使用探勘-使用資料探勘的方法從網路資料發現模式的過

程,努力尋找基於使用者的網路日誌所駐留在伺服器上的使用者偏好。(網路日誌描繪一個網站的使用-訪客的 IP 位址、時間和訪問的日期,以及訪問的檔案)

根據使用者的行為,方法分配在領域本體論現有項目的興趣分數。此方法用於重新排序從搜尋引擎搜尋來的結果,以提供個性化的結果。在個性化的網路代理人之情況下,代理人能學習使用者偏好和發現網路上根據這些偏好的資訊來源。例如:WebWatcher 和 Syskill & Webert。◦ WebWatcher同時使用 TFIDF (從以前瀏覽來學習)和強化學習(從超文件結構來學習),以建議適當的連結給與興趣和網頁。

◦ Syskill & Webert利用使用者設定檔和使用貝氏分類法去學習有關”有趣性”的網頁。

概念 在本文中,我們提出了一個方法來定義以使用者興趣為主的新項目,並且更新設定檔,和與他們最相關的項目。

建議的方法來更新使用者設定檔,而不要求使用者明確地提供與他們興趣變化相關的任何資訊,這需透過資料(網路日誌)描述使用者的網路造訪行為過程。

該方法使用基礎本體論語意相似度去比對根據使用者在網路上瀏覽的項目,而這些項目是從使用者設定檔而來的。此外,對重要的瀏覽項目進行評估,重要的是與相似性進行結合,以獲得相關的級別。

概念 初步為從網路日誌文件中提取 URI,此外,除了 URI,在過

程中必須確定每個網頁已被造訪了多少次。(提取網址是用於下載這些網頁的)

每一頁的處理是為了定義相關領域的詞彙(相關領域詞彙又稱未來項目)。一個裝載詞彙的袋子代表了一個網頁經由使用者造訪而獲得一個簡單的詞彙網頁索引。我們從知識領域資料庫中提取的項目清單以過濾掉不相關的詞彙,至於音樂領域的話為MusicBrainz。

一旦領域相關的項目經定義後,我們會評估他們對於使用者興趣的相關性。

結合計算相似度的重要性

概念 語意相似度估計基於領域本體論包含了現有項目之間不同的關

係。而相似度估計有兩個項目,其中一個項目是從使用者設定檔,而另一個項目是從網頁上發現一組項目而來的。

網頁項目是從使用者設定檔的相似項目來認定為一組能被增加至設定檔的項目。為了表現使用者的觀點,即選擇使用者感興趣的項目,而這項評估是根據計算使用者已觀看網頁的次數和特定的項目。

最後一個步驟為定義相關項目是一個簡單的兩項評估組合 - 語意相似度和項目的重要性。

語意相似度的項目 事實上難以找到一對相似項目的位置,即我們處理的項目不存在一個數值空間裡。因此,也不可能定義項目之間的距離。為了評估相似度我們提出一個新穎的技術,即在非數值空間裡估計相似度之間的項目。該技術使用一個本體論和建立在此本體論上的規則。

本體論代表著一個知識網路,其包含本體論類別之間的關係。這些關係能分為兩種類型:◦ is-a (繼承) - 代表父類別與子類別的關係◦ 物件屬性 - 代表現存類別之間的關係

而其是根據本體論開發人員所識別和定義的 - 這些關係描繪了存在類別之間的語意關係。

語意相似度的項目 在章節 II 的 A 部分中,我們發現規則可以建立使用關係並定義

在本體論中,且該規則能描述相關類別之間不同層次的相似度。例如:讓我們假設我們有兩個類別 - 藝術家和工作,而他們製造他們之間的關係。如果我們建立一個前提:

那麼我們就可以使用它來建立一個規則,以表達兩個不同工作之間相似的程度。換句話說,我們能說如果工作 1 和工作 2 都有相同的關係 - 藝術家 A ,那麼他們之間存在某種程度的相似性。

語意相似度的項目 評估兩個相似類別之間的過程中開始建造一些規則,以考慮到不同類型的關係存在在這兩個類別之間。一個人檢查每條規則,並根據他們自己的主觀意見來決定一個存在於兩個類別之間的相似度級別。分配給這個級別的規則,像是上頁的規則能以此形式被提出:

此規則如果皆有工作 1 和工作 2 ,在關係中即做出相同的Artist_A,然後這兩個工作之間的相似度層級就都在 K 級。(在一般情況下,兩個類別之間的相似度能根據多個規則下去評估)

類別:斜體關係:底線

項目的重要性 語意相似度測量在這裡代表提出一個通用的相似度是為了測量

既定的項目。領域本體論的關係,與這些關係為基礎所建立的規則,都是由專家來開發的。

因此,得出的相似度,在一定的程度上,專家知識的意見將嵌入在本體論裡。這並不意味著使用者感興趣的全部都是從他們設定檔的相似度項目。

項目的重要性 為了解決這個問題,我們採用了一個重要的衡量項目 I(ci) ,如下:

ci:是基於使用者的網路活動而來Ndj(ci) :指多個事件,而其項目ci是在 dj網頁上Ndj:在 dj網頁上是一個總項目數NP:代表總網頁數。

計算相關項目 該級別的相關網頁項目到使用者設定檔項目的計算是根據結合

語意相似度的項目和其重要性。此過程是預先使用模糊理論,在這種情況下,語意相似度和重要性被模糊化。

一些語言項目已定義在交談領域的兩個方法裡。對於提出相似度方法的交談領域是從 0 到 10的範圍裡,以及三種不同的語言標籤已定義為:小、中和高。模糊集合都是與這些標籤做聯想的,且均勻分散在交談領域中。

對於重要的方法,範圍是從 0 到 1 ,和三個項目:小、中和高也已定義了。然而,他們的分類是不一致的-數值為 0.6以上的代表為高重要性。

計算相關項目 一旦相似性和重要性的值被單一規則模糊化(質量中心的去模

糊化),是被用於歸納使用者設定檔項目的網頁項目的關聯層級:

這個規則的滿意層級代表一個項目的相關層級。如果起始值的關聯已建立-那麼一個項目的關聯值高於起始值的話,將被加到使用者的設定檔中。

音樂本體論 音樂本體論( MO )是一項首先提出致力於音樂領域發展一個

正式規格的概念和描述物件之間的關係。它建立在三個本體論上:◦ 時間軸-表示時間的資訊◦ 事件-表示事件◦ 書目記錄功能需求( FRBR )的概念-工作(藝術的創作)、表現

(物理的具體化)、項目(如表示的原型)和表達(實現工作)

音樂本體論 在五個類別中有超過 500項物件被填充於我們的MO (音樂本體論)中,而五個類別為:獨奏音樂藝術家、樂團、曲目、唱片和風格。

我們使用MusicBrainz來填充 MO的個體。MusicBrainz並沒有提供明確的曲目風格、唱片和藝術家,因此我們從維基( 300種風格在 13個類別中)檢索資訊。

音樂本體論 類 別 MusicArtist ( 音 樂 藝 術 家 ) 連 到

MusicalManifestation (音樂的表現)透過物件的屬性製造出來的(該星號 * 表示 多個連結)。這意味著多個MusicalManifestation 能 被 做 出 MusicArtist 和 屬 於MusicArtist 類 型 的 MusicGroup ( 樂 團 ) 或 者 是SoloMusicArtist (獨奏音樂藝術家)。

一 個 MusicArtist 能 與 多 種 風 格 有 關 聯 , 以 及 都 是MusicalManifestation類型的唱片和曲目。

音樂領域的語意相似度 SWRL 規則是建立在第 III 章的第 C 部分所提出的規則基礎上。我們認為這樣的類別為:曲目、唱片、風格、獨奏音樂藝家和樂團,而該物件屬性(關係)為:製造者、製造、風格、曲目、合作、類似。

總共有 34條規則用來評估項目之間的語意相似度,每條規則被指配到一個特定的相似層級裡。例如, SWRL 規則之一的介紹如下:

音樂領域的語意相似度 總共有 34條規則用來評估項目之間的語意相似度,每條規則被指配到一個特定的相似層級裡。例如, SWRL 規則之一的介紹如下:

規則聲稱,如果曲目在使用者設定檔和曲目在使用者造訪網頁而兩者皆從同樣的風格,那麼他們之間的相似層級是 5 。這是一個相當於從第 III 章節的第 B部分的規則:

實驗概要 在我們的實驗中,我們使用了一個現實生活中的場景例子,其中一個使用者定義初始設定檔,並瀏覽音樂相關的網頁。我們在三個不同的期間中檢索 URI和造訪多個網頁。從使用者造訪的網頁中提取音樂相關的項目。

所有這些網頁項目與從使用者設定檔的項目相比。每個項目都標有相關的數值,而計算是基於語意相似度和重要性的值。該項目的相關數值是定義起始值 (0.5)以上才會被增加到使用者設定檔中。

使用者設定檔和網頁項目 使用者設定檔包括以下音樂相關的項目:兩位音樂藝術家、兩張唱片和四首曲目(表二)。該項目從第一次會議都列於表一中。

結果與討論 從第一次會議的網頁項目去比對從使用者設定檔的項目。 34條規則(第 IV 章節第 B部分)和 OWA運算子有語言的量

詞 OR 用於獲取語意相似度數值。結果顯示在表二,其可以注意到兩個項目(曲目和藝術家)的語意相似度等於 9 。

重要數值的計算是以造訪的數量,即使用者為每個獨一無二的網頁所付出的情況(表二中括弧中的數值)。

使用從第 III 章節的第 D 部分的規則評估關聯的數值,見表三。該 項 目Britney_Spears 、 American_Life 、 Back_to_Basics 、 Christina_Aguilera 和The_Emancipation_of_Mimi被增加到使用者設定檔中。

該論文提出一項新的相關方法,其結合語意相似度定義一套規則,以建立使用領域本體論,和獲取從使用者網路造訪的統計資訊。

新的方法包含一般認為的知識領域(根據領域本體論的相似度感知),和估計使用者興趣(根據使用者從網頁瀏覽的內容獲取統計資訊)。並在音樂領域中,推薦關聯方法以得到更新使用者設定檔的過程。

[1] G. Adomavicius, G., and A. Tuzhilin, A., Personalization technologies: A process-oriented perspective, Communications of the ACM, Vol. 48. No.10, pp. 83-9, 2005.

[2] R. Armstrong, D. Freitag, T. Joachims, and T. Mitchell, WebWatcher: A learning apprentice for the world wide web, in Proc. of AAAI Spring Symp. on Inf. Gathering from Heterogeneous, Dist. Environments, AAAI Press, pp. 6–12, 1995.

[3] T. R. Gruber, A translation approach to portable ontology specifications, Knowledge Acquisition, Vol. 5, pp. 199-220, 1993.

[4] I. Horrocks, and P. F. Patel-Schneider, Proposal for OWL Rule Language, 13th Int. WWW Conference, pp. 723-731, 2004.

[5] J. J. Jiang, and D. W. Conrath, Semantic Similarity Based on Corpus Statistics and Lexical Taxonomy, in Proc. ROCLING, Taiwan, 1997.

[6] K. Lakiotaki, P. Delias, and V. Sakkalis, N. F., User profiling based on multi-criteria analysis: The role of utility functions, Operational Research, Vol. 9, No. 1, pp. 3-16, 2009.

[7] S. E. Middleton, N. Shadbolt, and D. C. De Roure, Ontological user profiling in recommender systems, ACM Transactions on Information Systems, Vol. 22, pp. 54-88, 2004.

[8] M. Pazzani, J. Muramatsu and D. Billsus, Syskill & webert: Identifying interesting web sites, in Proc. of AAAI Spring Symposium on Machine Learning in Information Access, Portland, Oregon, 1996.

[9] Y. Raimond, and S. A. Abdallah, The timeline ontology, OWL-DL ontology, http://purl.org/NET/c4dm/timeline.owl, 2006.

[10] Y. Raimond, S. Abdallah, M. Sandler, and F. Giasson, The music ontology, in Proc. of the Intern. Conf. on Music Information Retrieval, pp. 417-422, September 2007.

[11] P. Resnik, Development and application of a metric on semantic nets, IEEE Trans. on SMC, Vol. 19, pp. 17-30, 1989.

[12] P. Resnik, Semantic Similarity in a Taxonomy: An Information- Based, J of Artificial Intelligence Research, Vol. 11, pp. 95-130, 1999.

[13] M. A. Rodriguez, and M. J. Egenhofer, Determining Semantic Similarity among Entity Classes from Different Ontologies, IEEE Trans. on Knowledge and Data Engineering, Vol. 15, pp. 442-456, 2003.

[14] F. Sebastiani, Machine learning in automated text categorization, ACM Computing Surveys, Vol. 34, pp. 1-47, 2002.

[15] M. Shanahan, The event calculus explained, in Artificial Intelligence Today, Lecture Notes in AI no. 1600, Springer, pp. 409–430, 1999.

[16] X. Shen, B. Tan, and C. Zhai, Ucair: Capturing and exploiting context for personalized search, in Proc. of the Information Retrieval in Context Workshop, SIGIR IRiX, Brazil, 2005.

[17] A. Sheth, I. B. Arpinar, and V. Kashyap, Relationships at the heart of Semantic Web: modeling, discovering and exploiting complex semantic relationships, in Enhancing the Power of the Web, Heidelberg: Springer, pp. 63-94, 2004.

[18] A. Sieg, B. Mobasher, R. Burke, Web Search Personalization with Ontological User Profiles, in Proc. of the 16th ACM Conf. on information and knowledge management, pp. 525-534, Portugal, 2007.

[19] J. Trajkova, and S. Gauch, Improving ontology-based user profiles, in Proc. of RIAO, Vaucluse, France, pp. 380-389, 2004.

[20] R. R. Yager, On ordered weighted averaging aggregation operators in multi-criteria decision making, IEEE Trans. SMC, Vol. 18, pp. 183- 190, 1988.

[21] MusicBrainz: http://musicbrainz.com/ [22] OWL: http://www.w3.org/2007/OWL/wiki/OWL_Working_Group [23] RDF: http://www.w3.org/RDF/

The End