機器學習 指導教授 : 歐昱言 教授 961456 闕裕峰 961536 黃茱纓. directory motivation...

Post on 22-Dec-2015

264 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

機器學習

指導教授 : 歐昱言教授 961456 闕裕峰 961536 黃茱

Directory

Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier Results Reference Q & A

Motivation

越來越多的基因體資料被發現而被定序

有如此大量的資訊卻不知道該基因體的作用或者是在組織的表現為何

能透過機器學習的方式,在初步找出基因體與組織的關連性

What is Promoter ? 啟動子 (promoter) 是一個基因轉訊開端的訊息提供者

Target

Promoter在模型內會有高度的跨組織的表現性,很容易指出這些 promoter擁有的共同的結構模式

藉由探討 Promoter,透過機器學習的方式,在初步找出老鼠基因體與組織的關連性

Flow Chart

Tissue-Specific

屬性結合

Promoter 處理

分類器

Tissue-Specific

STEP 1 先由多個 Sample ID 計算出, 61 個組織後,再算出每個基因的 Z-Score ,當 Z-Score 高過 於 3 時,才算 tissue specific ,也就是分類後有表現,我們把它設成為 TRUE ,小於三的則設為 FALSE 。

STEP 2 要有 50 個以上的 tissue specific 才是我們要當作分類的組織。

Tissue-Specific

( 圖一 Sample id)

Tissue-Specific

( 圖二 Subset 形式 )

Tissue-Specific

( 圖三 Z-Score)

Properties Combination

將 tissue specific 的條件化作為一個表格後,開始做屬性的結合

我們在論文中所抓的檔案是可以得到 Affy probe ID ,屬性則是要從 Entrez ID 來做連結才能找到基因序列,這時就需要到生物的資料庫來找尋,我們使用的是 DAVID 以 BioGPS來做我們的搜尋依據。

Properties Combination

Affy probe ID

Entrez ID

ATCGDNA

Gene ID Converton

Mouse Promoter

( 圖四 屬性結合步驟 )

Properties Combination

( 圖五 DAVID ID Conversion tool)

( 圖六 BioGPS ID Conversion tool)

Promoter Process

STEP 1 promoter 長 1201 個 DNA 以一條 promoter 來說,計算在 promoter中, A 的數量有幾個除以總長度 1201 設為第一個屬性, T 的數量有幾個除以總長度 1201設為第二個屬性,以此類推。

一個單位 (ex A) 的有四個屬性,兩個單位 (ex AA) 的有十六個屬性,三個單位 (ex AAA) 的有六十四個屬性,共有八十四個屬性。

Promoter Process

( 圖七 屬性表 )

Promoter Process

STEP 2 最後加上 0,1 即為先前 Z-Score 所判斷是否為

tissue specific 的 TRUE 、 FALSE 值,將之存成 .CSV 檔,之後要放入分類器做分析

Promoter Process

( 圖八 共 84 個屬性的 .csv 檔 )

Classifier

使用的流程: 啟動 WEKA → Open file( 選擇我們圖八處理完

的 .csv 檔 ) →Classify 點擊 Choose 選擇 RandomForest → Start

Classifier

( 圖九 裡面參數的用途 )

Classifier

( 圖十 WEKA 分類結果 )

Results

F (FALSE) T (TRUE) <-- classified as

  136 21 |   N (Negative)

    95 7 |   P (Positive)

Accuracy : 0.55212 Precision : 0.06862 Recall : 0.04895

Reference

Su,A.I., Wiltshire,T., Batalov,S., Lapp,H., Ching,K.A., Block,D.,Zhang,J., Soden,R., Hayakawa,M., Kreiman,G. et al. (2004)

A gene atlas of the mouse and human protein-encoding transcriptomes. Proc. Natl Acad. Sci. USA, 101, 6062–6067.

http://ims.tw/archives/553 http://mypaper.pchome.com.tw/ciliate/post/205172 http://david.abcc.ncifcrf.gov/conversion.jsp http://biogps.gnf.org/#goto=welcome Modeling tissue-specific structural patterns in human and mouse

promoters(Alexis Vandenbon1 and Kenta Nakai1,2,3,*) http://www.scfbio-iitd.res.in/tutorial/promoter.html

Q & A

Thanks for your

Attention

top related