機器學習 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. directory motivation...

24
機機機機 機機機機 : 機機機機機 961456 機機機 961536 機機機

Post on 22-Dec-2015

264 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 機器學習 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. Directory Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier

機器學習

指導教授 : 歐昱言教授 961456 闕裕峰 961536 黃茱

Page 2: 機器學習 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. Directory Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier

Directory

Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier Results Reference Q & A

Page 3: 機器學習 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. Directory Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier

Motivation

越來越多的基因體資料被發現而被定序

有如此大量的資訊卻不知道該基因體的作用或者是在組織的表現為何

能透過機器學習的方式,在初步找出基因體與組織的關連性

Page 4: 機器學習 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. Directory Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier

What is Promoter ? 啟動子 (promoter) 是一個基因轉訊開端的訊息提供者

Page 5: 機器學習 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. Directory Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier

Target

Promoter在模型內會有高度的跨組織的表現性,很容易指出這些 promoter擁有的共同的結構模式

藉由探討 Promoter,透過機器學習的方式,在初步找出老鼠基因體與組織的關連性

Page 6: 機器學習 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. Directory Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier

Flow Chart

Tissue-Specific

屬性結合

Promoter 處理

分類器

Page 7: 機器學習 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. Directory Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier

Tissue-Specific

STEP 1 先由多個 Sample ID 計算出, 61 個組織後,再算出每個基因的 Z-Score ,當 Z-Score 高過 於 3 時,才算 tissue specific ,也就是分類後有表現,我們把它設成為 TRUE ,小於三的則設為 FALSE 。

STEP 2 要有 50 個以上的 tissue specific 才是我們要當作分類的組織。

Page 8: 機器學習 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. Directory Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier

Tissue-Specific

( 圖一 Sample id)

Page 9: 機器學習 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. Directory Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier

Tissue-Specific

( 圖二 Subset 形式 )

Page 10: 機器學習 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. Directory Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier

Tissue-Specific

( 圖三 Z-Score)

Page 11: 機器學習 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. Directory Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier

Properties Combination

將 tissue specific 的條件化作為一個表格後,開始做屬性的結合

我們在論文中所抓的檔案是可以得到 Affy probe ID ,屬性則是要從 Entrez ID 來做連結才能找到基因序列,這時就需要到生物的資料庫來找尋,我們使用的是 DAVID 以 BioGPS來做我們的搜尋依據。

Page 12: 機器學習 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. Directory Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier

Properties Combination

Affy probe ID

Entrez ID

ATCGDNA

Gene ID Converton

Mouse Promoter

( 圖四 屬性結合步驟 )

Page 13: 機器學習 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. Directory Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier

Properties Combination

( 圖五 DAVID ID Conversion tool)

( 圖六 BioGPS ID Conversion tool)

Page 14: 機器學習 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. Directory Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier

Promoter Process

STEP 1 promoter 長 1201 個 DNA 以一條 promoter 來說,計算在 promoter中, A 的數量有幾個除以總長度 1201 設為第一個屬性, T 的數量有幾個除以總長度 1201設為第二個屬性,以此類推。

一個單位 (ex A) 的有四個屬性,兩個單位 (ex AA) 的有十六個屬性,三個單位 (ex AAA) 的有六十四個屬性,共有八十四個屬性。

Page 15: 機器學習 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. Directory Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier

Promoter Process

( 圖七 屬性表 )

Page 16: 機器學習 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. Directory Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier

Promoter Process

STEP 2 最後加上 0,1 即為先前 Z-Score 所判斷是否為

tissue specific 的 TRUE 、 FALSE 值,將之存成 .CSV 檔,之後要放入分類器做分析

Page 17: 機器學習 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. Directory Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier

Promoter Process

( 圖八 共 84 個屬性的 .csv 檔 )

Page 18: 機器學習 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. Directory Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier

Classifier

使用的流程: 啟動 WEKA → Open file( 選擇我們圖八處理完

的 .csv 檔 ) →Classify 點擊 Choose 選擇 RandomForest → Start

Page 19: 機器學習 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. Directory Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier

Classifier

( 圖九 裡面參數的用途 )

Page 20: 機器學習 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. Directory Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier

Classifier

( 圖十 WEKA 分類結果 )

Page 21: 機器學習 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. Directory Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier

Results

F (FALSE) T (TRUE) <-- classified as

  136 21 |   N (Negative)

    95 7 |   P (Positive)

Accuracy : 0.55212 Precision : 0.06862 Recall : 0.04895

Page 22: 機器學習 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. Directory Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier

Reference

Su,A.I., Wiltshire,T., Batalov,S., Lapp,H., Ching,K.A., Block,D.,Zhang,J., Soden,R., Hayakawa,M., Kreiman,G. et al. (2004)

A gene atlas of the mouse and human protein-encoding transcriptomes. Proc. Natl Acad. Sci. USA, 101, 6062–6067.

http://ims.tw/archives/553 http://mypaper.pchome.com.tw/ciliate/post/205172 http://david.abcc.ncifcrf.gov/conversion.jsp http://biogps.gnf.org/#goto=welcome Modeling tissue-specific structural patterns in human and mouse

promoters(Alexis Vandenbon1 and Kenta Nakai1,2,3,*) http://www.scfbio-iitd.res.in/tutorial/promoter.html

Page 23: 機器學習 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. Directory Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier

Q & A

Page 24: 機器學習 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. Directory Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier

Thanks for your

Attention