「105年度政府開放資料研究案」資料結構化專家會議簡報 v1.2 20160617
Post on 21-Feb-2017
327 Views
Preview:
TRANSCRIPT
壹、緒論─研究動機
3
• 鼓勵機關分享所用的資訊,以銜接現有個別機關片斷化的服務。
--第四階段電子化政府計畫(101年至105年)
• 大量資料未來必須從紀錄的源頭開始,進行資料結構的設計與資料連結性的預先處理。
• 政府機關應領頭釋出數位化與可結構化的後設資料集,這些資料在釋出之後,能接續被使用者依其應用目的進行結構化的重整,進而建立共通標準與公定格式。
--李治安、林誠夏、莊庭瑞(2014)
壹、緒論─研究目的
4
1. 檢視目前政府機關網站(政府資料開放平臺、勞動部、中央氣象局、行政院原子能委員會)上之內容分類及屬性,並蒐集、彙整國內外相關研究,選擇通用類別的網站內容定義結構化處理的標的。
2. 擇定3個網站中的最新消息/新聞稿(擇一)的內容頁依據所訂定之網站資料格式化處理標的進行實作並驗證。
3. 自實作之結構化網頁中轉為資料集並進行SEO搜尋優化成果。
貳、文獻探討-1
5
資料來源:Spivack, N. (2007). Web 3.0 – The Best Official Definition Imaginable. Available from: http://www.novaspivack.com/technology/web-3-0-the-best-official-definition-imaginable. Last access 2016/4/7.
貳、文獻探討-2
6
Web 1.0
• Closed
• Individual Publishing
• One-Way Communication
• Passive Involvement
• Read-Only Content
• Personal Websites
Web 2.0
• Collaborative
• Group Participation
• Two-Way Communication
• Active Involvement
• User-Generated Content
• Blogging
Web 3.0
• Semantic Web
• Sites where computers will be generated raw data on their own
• Devices will be able to exchange data between each other and even generate new information.
資料來源:Matusky, R. (2015). Web 2.0 vs. Web 3.0 – What Really is the Difference. Available from: http://randymatusky.com/2015/04/03/web-2-0-vs-web-3-0-what-really-is-the-difference/. Last access 2016/4/7.
Markup
Vocabulary
貳、文獻探討-3
7
資料來源:W3C (2015). Vocabularies. Available from: https://www.w3.org/standards/semanticweb/ontology. Last access 2016/4/7.Schema.org (2016). About Schema.org. Available from: https://schema.org/docs/faq.html#0. Last access 2016/4/7.
• What is a Vocabulary?
- Define the concepts and relationships.
- Classify the terms that can be used in a particular application.
- Characterize possible relationships.
- Define possible constraints on using those terms.
- The basic building blocks for inference techniques on the Semantic Web.
• What are Vocabularies Used For?
- Help data integration.
- Organize knowledge.
Shared markup
vocabulary
Easier to find relevant
information
Enable new tools and
applications
Semantic Web
貳、文獻探討-4
8
資料來源:Guha, R. V., Brickley, D., & Macbeth, S. (2015). Schema.org: Evolution of Structured Data on the Web. Available from: http://queue.acm.org/detail.cfm?id=2857276. Last access 2016/4/7.
• Markup Vocabulary
Before 1997:
- XML
- MCF
1997~2004
- RDF
- RDFS
- OWL
- RSS
- vCard/hCard
- IETF
- FOAF
After 2011
- Schema.org
貳、文獻探討-5
9
資料來源:schema.org. (2016). About Schema.org. Available from: https://schema.org/docs/faq.html#0. Last access: 2016/4/7.
Guha, R. V., Brickley, D., & Macbeth, S. (2015). Schema.org: Evolution of Structured Data on the Web. Available from: http://queue.acm.org/detail.cfm?id=2857276. Last access 2016/4/7.
• Why schema.org?
- 2011 created by all the major search engines: Google, Bing, Yandex, Yahoo!
- Inspired by earlier work like Microformats, FOAF, OpenCyc, etc.
- Came through collaborations
- Applications:
22%
31.30%
0%
5%
10%
15%
20%
25%
30%
35%
2014 2015
schema.org markup
Sample: 10 billion pages from a combination of the Google index and Web Data Commons
Source: https://www.data.gov/developers/blog/support-schemaorg-datagov. Last access: 2016/4/7
貳、文獻探討-6
10
• GSA(2013)之開放與結構內容模式計畫(Open and Structured Content Models Project)指出,政府機關網站通常會使用「文章(articles)」與「活動(events)」兩種內容型式:
文章內容模式:
內容欄位 必填(R)/選填(O) 數量 內容欄位 必填(R)/選填(O) 數量
標題 Required 1 語言 Optional 1
短標 Optioinal 1 讀者 Optional 多個
完整標題 Required 1 參考資料 Optional 多個
描述 Required 1 主題 Required 多個
短描述 Optional 1 文章主體 Required 1
詳細描述 Required 1 文章段落 Required 多個
URL Optional 1 -段落標題 Required 1
文章類型 Optional 1 -段落主體 Required 1
日期 Optional 1 相關多媒體 Optional 1
上架日期 Required 1 影片 Optional 多個
第一次發布日期 Optional 1 音訊 Optional 多個
最後修正日期 Optional 1 影像 Optional 多個
釋出日期 Optional 1 評分 Optional 1
資料來源單位 Required 1 資料來源URL Optional 多個
提供者 Optional 1 相關URL Optional 多個
作者 Optional 多個
貳、文獻探討-7
11
活動內容模式:
內容欄位 必填(R)/選填(O) 數量 內容欄位 必填(R)/選填(O) 數量
標題 Required 1 URL Optional 1
短標 Optioinal 1 電話會議號碼 Optional 1
描述 Required 1 視訊會議資訊 Optional 1
詳細描述 Optional 1 -實體位址 Optional 1
活動類型 Required 1 國家 Optional 1
開始時間 Required 1 地址位置 Required 1
結束時間 Required 1 地區 Required 1
參與型態 Required 1 郵遞區號 Required 1
活動聯絡方式 Required 1 街名 Required 1
活動URL Optional 1 地理座標 Optional 1
聯絡email Optional 1 註冊資訊 Optional 1
贊助單位 Optional 多個 註冊型態 Required 1
講者 Required 多個 註冊費用 Required 1
姓名 Required 1 註冊URL Optional 1
主題 Required 1 注意事項 Optional 1
所屬單位 Optional 1 活動資料 Optional 多個
自傳 Optional 1 活動資料型態 Required 1
講者型態 Required 1 活動資料取得來源 Required 1
活動型式 Optional 1 主題 Optional 1
場地資訊 Optional 多個 活動回饋 Optional 1
場地型態 Required 1 評比 Optional 1
地點 Required 多個 建議 Optional 1
-虛擬位址 Optional 1 語言 Optional 多個
貳、文獻探討-8
12
• 政府網站版型與內容管理規範─網站架構與單元名稱建議表
第一層 第二層
公告資訊
最新消息
新聞稿
活動訊息
*RSS訂閱
機關介紹
組織架構
業務職掌
歷史沿革
重要人事
重要事件
下屬機關介紹
第一層 第二層
機關業務資訊
施政方針
法規資訊
統計資料
出版品
*雙語詞彙
*常見問答
機關聯絡資訊
機關基本聯絡資訊
各單位聯絡資訊
機關服務時間
相關連結
上層機關或下屬機關網站
屬性相近之服務連結
業務相關之單位網站
貳、文獻探討-9
13
資料來源:國家發展委員會(2015)。政府網站版型與內容管理規範。取自:http://www.webguide.nat.gov.tw/index.php/ch/speci/。Last access 2016/4/7.
• 政府網站版型與內容管理規範─網站架構與單元名稱建議表
第一層 第二層
民意交流
*意見信箱
*留言版/討論區/論壇
民意調查/問卷調查
*便民服務線上申辦
申辦項目/下載表格
*影音專區課程演講錄音
宣導短片
*會員專區
個人帳號維護
加入會員
電子報訂閱
第一層 第二層
*網站安全政策
*隱私權保護政策
*政府網站資料開放宣告
註:以*標示者表示在政府網站之中重要的內容單元,建議可列為網頁的重要元素,放置在更清楚的位置。然而,若要歸類在內容主架構中,則建議放在如上表的分類之下。
貳、文獻探討-8
14資料來源:本研究整理
• 政府網站架構與schema.org對應表
政府網站架構 Schema.org
公告資訊>最新消息/新聞稿 Thing > CreativeWork > Article > NewsArticle
公告資訊>活動訊息 Thing > Event
機關介紹>重要人事 Thing > Person
機關業務資訊>*常見問答 Thing > CreativeWork > WebPage > QAPage
機關聯絡資訊Thing > Organization > LocalBusiness >
GovernmentOffice
相關連結Thing > Organization > LocalBusiness >
GovernmentOffice
*便民服務>申辦項目/下載表格Thing > CreativeWork > MediaObject >
DataDownload
民意交流>*意見信箱 Thing > CreativeWork > EmailMessage
15
參、研究方法-1
Observation
觀察
Induction
歸納
Deduction
演繹
Testing
測試
Evaluation
評估
1
2
34
5
1.以六何法分析問題(情境/需求)2.研析國內外相關文獻3.瞭解現況:政府機關網站共通性內容
4.預設需求假設及構想5.召開專家座談會
1.綜整議題及需求2.分析變更衝擊3.產出規範草案
1.檢視規範草案是否符合議題與需求:平臺上公評
2.調整規範草案3.提交規範草案4.實作以展示規範草案1.公開規範草案及實作展示
2.通知試辦機關及邀請社群閱覽3.蒐集試辦機關、社群及民眾回饋意見
1.分析回饋意見2.驗證確認規範3.產出規範
參、研究方法-實作檢測方式-1
17
1. Google Structured Data Testing Tool
(1) 檢測標的
- 網頁內容結構化程度(支援microdata / JSON-LD語法)
- 找出有標記問題的語法
(2) 檢測方法
a. 貼上網頁URL或是HTML source code
b. 驗證後查看結果
c. 根據錯誤報告修改錯誤標記
參、研究方法-實作檢測方式-2
18
2. SEO SiteCheckup
(1) 檢測標的
- 檢測結構化網業是否能表現在搜尋引擎優化上(SEO)
- 找出有標記問題的語法,提供錯誤報告
(2) 檢測方法
a. 貼上網頁URL
b. 測試後查看報告
網站SEO總體表現
網站是否包含非通用類型meta tag
參、研究方法-實作檢測方式-3
19
2. Import.io
(1) 檢測標的
- 結構化網頁是否利於機器直接抓取
(2) 檢測方法
a. 輸入網址
b. 查看機器讀取結果,判斷結構化程度
原始網頁呈現 機器抓取結果
肆、研究結果-政府機關網站盤點結果-1
20
• 共通性架構:網站
架構政府資料開放平臺
(data.gov.tw)
勞動部(www.mol.gov.tw)
原子能委員會(www.aec.gov.tw)
中央氣象局(www.cwb.gov.tw)
公告資訊
最新消息 關於平臺>最新消息 新聞公告>公布欄 訊息公告>最新消息關於氣象局>最新消息
新聞稿 -- 新聞公告>新聞稿 訊息公告>新聞稿
活動訊息 -- 新聞公告>活動訊息 -- --
*RSS訂閱 -- 首頁>RSS 首頁>RSS 首頁>RSS服務
機關介紹
組織架構 --本部簡介>職掌及組織
關於本會>組織架構 關於氣象局>組織架構
業務職掌 --關於本會>任務與沿革
關於氣象局>重要業務
歷史沿革 -- 關於氣象局>組織簡介
重要人事 --本部簡介>正副首長介紹
關於本會>首長介紹 --
重要事件 關於平臺>關於我們本部簡介>勞動大事記
-- --
下屬機關介紹
-- -- 關於本會>組織架構 --
肆、研究結果-政府機關網站盤點結果-2
21
• 共通性架構:網站
架構政府資料開放平臺
(data.gov.tw)
勞動部(www.mol.gov.tw)
原子能委員會(www.aec.gov.tw)
中央氣象局(www.cwb.gov.tw)
機關業務資訊
施政方針 --重大政策>施政主軸
施政與法規>施政績效
關於氣象局>施政目標
法規資訊 -- 業務專區施政與法規>原子能法規
便民服務>政府資訊
統計資料關於平臺>網站使用統計/資料分類統計
勞動統計專網 資訊公開 氣候>氣候統計
出版品便民服務>政府資訊公開
便民專區>出版品索取
便民服務>出版品
*雙語詞彙 --便民服務>雙語詞彙
便民專區>雙語詞彙
常識>雙語詞彙
*常見問答 關於平臺>常見問答便民服務>常見問答
便民專區>FAQ 常識>常見問答
機關聯絡資訊
機關聯絡基本資訊 首頁便民服務>政府資訊公開 關於本會>組織
架構
關於氣象局>組織簡介
各單位聯絡資訊 -- -- --
機關服務時間 -- -- -- --
肆、研究結果-政府機關網站盤點結果-3
22
• 共通性架構:網站
架構政府資料開放平臺
(data.gov.tw)
勞動部(www.mol.gov.tw)
原子能委員會(www.aec.gov.tw)
中央氣象局(www.cwb.gov.tw)
相關連結
上層機關或下屬機關網站
--本部簡介>職掌及組織
關於本會>組織架構 --
屬性相近之服務連結
互動專區>交流討論 首頁>外部連結便民專區>核能相關網站
便民服務>好站介紹
業務相關之單位網站
--首頁>勞動部所屬機關
首頁 首頁
民意交流
*意見信箱 互動專區>我還想要 首頁>民意信箱 首頁>意見信箱 首頁>意見箱
*留言版/討論區/論壇
互動專區>交流討論 -- -- --
民意調查/問卷調查
-- -- --便民服務>滿意度調查
*便民服務
線上申辦 -- --
便民專區>線上服務 便民服務>資料申購申辦項目/下載表格
-- 便民服務>表單下載
肆、研究結果-政府機關網站盤點結果-4
23
• 共通性架構:網站
架構政府資料開放平臺
(data.gov.tw)
勞動部(www.mol.gov.tw)
原子能委員會(www.aec.gov.tw)
中央氣象局(www.cwb.gov.tw)
*影音專區
課程演講錄音 -- -- -- --
宣導短片 -- 業務專區>懶人包 核物料管制>懶人包 影音
*會員專區
個人帳號維護首頁>登入平臺
-- --首頁>會員登入
加入會員 -- --
電子報訂閱 --便民服務>電子報訂閱
首頁>電子報 --
*網站安全政策 首頁>政府資料開放平臺隱私權保護、使用及資訊安全政策
首頁>隱私權政策及網站安全政策
首頁>資訊安全及隱私權政策
首頁>資訊安全政策
*隱私權保護政策
首頁>隱私權保護政策
*政府網站資料開放宣告
授權條款首頁>政府網站資料開放宣告
首頁>政府網站資料開放宣告
--
伍、結論與建議-1
24
• 網站架構歸類
本研究者歸類 4個網站共通性架構
文章(Article)
新聞文章 最新消息、公布欄、新聞稿
相關連結 外部連結、核能相關網站、好站介紹
常見問答 常見問答、FAQ
資料下載 表單下載、線上服務、資料申購
出版品 政府資訊公開、出版品索取、出版品
影音 懶人包、影音
其他
任務與沿革、重要業務、RSS、電子報訂閱、電子報、施政主軸、施政績效、施政目標、業務專區、源子能法規、政府資訊、勞動統計專網、資訊公開、氣候統計、網站使用統計、資料分類統計、雙語詞彙、交流討論、網站安全政策、隱私權保護政策、政府網站資料開放宣告
活動(Event)
活動訊息 活動訊息
人物介紹 正副首長介紹、首長介紹
機關聯絡資訊 組織簡介、職掌及組織、組織架構
民意信箱 我還想要、民意信箱、意見信箱、意見箱
伍、結論與建議-2
25
• 文章(Article)內容模式-1
GSA內容欄位 schema.org對應語彙型態
英文 中文 屬性 來源
*Title 標題 name Thing Text
ShortTitle 短標 alternateName Thing Text
*FullTitle 完整標題 headline Thing>CreativeWork Text
*Description 描述 description Thing Text
ShortDescription 短描述 -- -- --
*DetailedDescription 詳細描述disambiguatingDes
criptionThing Text
URL URL url Thing URL
ArticleType 文章類型 -- -- --
Dates 日期 -- -- --
*DatePosted 上架日期 dateCreated Thing>CreativeWork Date/DateTime
DateFirstPublished 第一次發布日期 datePublished Thing>CreativeWork Date
DateLastModified 最後修正日期 dateModified Thing>CreativeWork Date/DateTime
DateReleased 釋出日期 -- -- --
*SourceOrganization 資料來源單位 sourceOrganization Thing>CreativeWork Organization
Contributor 提供者 contributor Thing>CreativeWork Organization/Person
伍、結論與建議-3
26
• 文章(Article)內容模式-2
GSA內容欄位 schema.org對應語彙型態
英文 中文 屬性 來源
Author 作者 author Thing>CreativeWork Organization/Person
InLanguage 語言 inLanguage Thing>CreativeWork Language/Text
Audience 讀者 audience Thing>CreativeWork Audience
References 參考資料 -- -- --
*Topics 主題 -- -- --
*ArticleBody 文章主體 articleBody Thing>CreativeWork>Article Text
*ArticleSection 文章段落 articleSection Thing>CreativeWork>Article Text
*-SectionTitle -段落標題 -- -- --
*-SectionBody -段落主體 -- -- --
RelatedMultimedia 相關多媒體 -- -- --
Video 影片 video Thing>CreativeWork VideoObject
Audio 音訊 audio Thing>CreativeWork AudioObject
Image 影像 image Thing ImageObject/URL
AggregateRating 評分 aggregateRating Thing>CreativeWork AggregateRaing
IsBasedOnURL 資料來源URL isBasedOn Thing>CreativeWork URL
RelatedURLs 相關URL relatedLink Thing>CreativeWork>WebPage URL
伍、結論與建議-4
27
• 活動(Event)內容模式-1
GSA內容欄位 schema.org對應語彙型態
英文 中文 屬性 來源
*Title 標題 name Thing Text
ShortTitle 短標 alternateName Thing Text
*Description 描述 description Thing Text
DetailedDescription 詳細描述disambiguating
DescriptionThing Text
*EventType 活動類型 -- -- --
*StartDateTime 開始時間 startDate Thing>Event Date
*EndDateTime 結束時間 endDate Thing>Event Date
*AttendanceType 參與型態 -- -- --
*EventContact 活動聯絡方式 contactPoint Thing>Organization ContactPoint
EventURL 活動URL url Thing URL
ContactEmail 聯絡email email Thing>Organization Text
Sponsor 贊助單位 sponsor Thing>Event Organization/Person
伍、結論與建議-5
28
• 活動(Event)內容模式-2
GSA內容欄位 schema.org對應語彙型態
英文 中文 屬性 來源
*Speaker 講者 performer Thing>Event Organization/Person
*Name 姓名 name Thing>Person Text
*Title 職稱 jobTitle Thing>Person Text
OrganizationAffiliation 所屬單位 affiliation Thing>Person Organization
Biography 自傳 -- -- --
*SpeakerType 講者型態 -- -- --
EventFormat 活動型式 -- -- --
*VenueInformation 場地資訊 location Thing>EventPlace/PostalAddress/
Text
*VenueType 場地型態 -- -- --
*Location 地點 -- -- --
-VirtualAddress -虛擬位址 -- -- --
URL URL url Thing URL
TeleconferenceNumber 電話會議號碼 telephone Thing>Organization Text
VideoconferenceInfo 視訊會議資訊 -- -- --
伍、結論與建議-6
29
• 活動(Event)內容模式-3
GSA內容欄位 schema.org對應語彙型態
英文 中文 屬性 來源
-PostalAddress -實體位址 -- -- --
addressCountry 國家 -- -- --
*addressLocality 地址位置 -- -- --
*addressRegion 地區 -- -- --
*postalCode 郵遞區號 -- -- --
*streetAddress 街名 -- -- --
GeoCoordinates 地理座標 geo Thing>PlaceGeoCoordinates/Geo
Shape
Registratioininformation 註冊資訊 -- -- --
*RegistrationType 註冊型態 -- -- --
*RegistrationCost 註冊費用 -- -- --
RegistrationURL 註冊URL -- -- --
RegistrationNote 注意事項 -- -- --
伍、結論與建議-7
30
• 活動(Event)內容模式-4
GSA內容欄位 schema.org對應語彙型態
英文 中文 屬性 來源
EventMaterials 活動資料 offers Thing>Event Offer
*EventMaterialsType 活動資料型態 -- -- --
*EventMaterialsArtifact 活動資料取得來源 -- -- --
Topics 主題 -- -- --
EventFeedback 活動回饋 -- -- --
Rating 評比 aggregateRating Thing>Event AggregateRating
EventComments 建議 comment Thing>CreativeWork Comment
InLanguage 語言 inLanguage Thing>Event Language/Text
top related