web usage mining: discovery and applications of usage patterns from web data...
Post on 19-Dec-2015
222 views
TRANSCRIPT
Web Usage Mining: Discovery and Applications of UsagePatterns from Web Data
指導教授:黃三益老師 第二組:洪瑞麟 m964020015 蔡育洲 m964020034 陳怡綾 m964020041
SIGKDD Explorations. Copyrightc 2000 ACM SIGKDD, Jan 2000
Introduction
Web mining: Data mining efforts associated with the Web content, usage, and structure
To discover usage patterns from Web data, in order to understand and better serve the needs of Web-based applications.
Classes
Web Content Mining: mining the data on the Web (text, image, audio, video, metadata and hyperlinks)
Web Structure Mining: mining the Web structure data
Web Usage Mining: mining the Web log data (preprocessing, pattern discovery, and pattern analysis )
Data type Content: The real data in the Web pages
(text and graphics) Structure: describes the organization of
the content. (as a tree structure) Usage: describes the pattern of usage of
Web pages (IP addresses, page references, and the date and time of accesses.)
User Profile: provides demographic information about users of the Web site. (registration data and customer profile information)
Data source (Web traffic )
Server Level Collection log files, Packet sniffing, Cookies, Query
data and CGI script Client Level Collection
Javascript, Java applet, and the modified browser
Proxy Level Collection Proxy caching
Data abstractions
user a single individual that is accessing file from one or
more Web servers through a browser page view
consists of every file that contributes to the display on a user's browser at one time
click-stream a sequential series of page view requests
user session the click-stream of page views for a singe user
across the entire Web server session (visit)
The set of page-views in a user session for a particular Web site
episode Any semantically meaningful subset of a user or
server session
Preprocessing
Usage Preprocessing 資料處理最為複雜 可能會遭遇的問題
單一 IP 位置,多個 Server Session 使用者可能透過 Proxy 來進行連結。
多個 IP 位置,單一 Server Session 一些 ISP 會在不同的 Session 間,隨機指定 IP 位置。
多個 IP 位置,單一 User 使用者可能透過多台機器進行連結。
多個 Agent ,單一 User 使用者使用一個以上的瀏覽器來進行瀏覽。即使在同一
台機器上,其也會被視為不同的使用者。
Preprocessing
Content Preprocessing 將文字、圖像、 script 、或是多媒體形式的
檔案轉換為網頁使用探勘流程有用的格式 通常這個過程也執行分類( classification )
或分群( clustering )等類型的內容探勘
Preprocessing
Structure Preprocessing 網站的結構是由 page view 的超連結所建立 結構可由類似網站內容的處理方法來取得 動態的內容會造成比靜態 page view 更多的
問題
Pattern Discovery
Statistical Analysis Association Rules Clustering Classification Sequential Patterns Dependency Modeling
Statistical Analysis
最常使用到的方法 透過 session file 的分析,即可在
page view 、瀏覽的路徑長度或時間等特性上,進行頻率、平均值、中位數等不同的描述統計分析
Clustering
將一群有相關特性的項目群組起來 usage cluster
將有類似瀏覽行為的使用者群組起來 運用人口統計上的特性,進行電子商務應用的
市場區隔 提供個人化的網頁
page cluster 找尋擁有相關內容的網頁群集 適合網際網路搜尋引擎的使用
Classification
將資料項目對應到一些已事先定義的類別 將使用者的使用紀錄歸類於一個或特定的
類別或分類 i.e. 在 /Procduct/Music 下單的客戶中,
有 30% 的人是屬於 18-25 歲的族群,且居住在西岸
Dependency Modeling
發展一模式,代表 Web domain 中各個變數之間的重要關係
如建立一個模式以代表在不同階段,一個瀏覽者所會執行的不同動作
可以提供分析使用者行為的理論架構 預測未來網站資源的消耗
資料來源 國內某健康檢查中心 2002 年 9 月 ~10
月顧客上網資料 log 檔 IP 瀏覽的網頁代碼 瀏覽網頁的時間、進入與離開網站的時間
會員基本資料 編號、性別、地區 年齡、加入會員的日期
結果與分析 (A001,R008)B002 所代表的意義是在瀏覽首頁
(A001) 及登錄健檢結果查詢的網頁 (R008) 之狀況下也會瀏覽檢驗結果解讀的網頁 (B002) ,此結果與一般我們上網查詢健檢結果的狀況相符。可以將三個網頁擺在一起或是建立超連結,以改善網頁設計架構。
支持度可以看出網頁被瀏覽時受歡迎的程度,可提供醫療業者推出健檢項目搭配促銷的決策參考。
當醫療業者欲推出某網頁廣告的資訊時,可以參考信賴度。