excelによる遺伝子名の誤変換 -傾向と対策-

10
13.10.31 Excel ににににににににににに - ににににに - 1 ににに にににに にににに にににににに にににに にににに http://github.com/kokitsuyuzaki/Bi oHack-JSBi2013 @wakutek a @antiplas tics @yui fu

Upload: haruka-ozaki

Post on 13-Jun-2015

691 views

Category:

Documents


9 download

DESCRIPTION

13.10.31 JSBi 2013年年会のDBCLSオーガナイズの”Open Science Award & BioHack Competition“において発表したスライド

TRANSCRIPT

Page 1: Excelによる遺伝子名の誤変換 -傾向と対策-

13.10.31

Excel による遺伝子名の誤変換 - 傾向と対策 -

1

尾崎遼 東京大学 露崎弘毅 東京理科大学 横山貴央 東京大学

http://github.com/kokitsuyuzaki/BioHack-JSBi2013

@wakuteka

@antiplastics

@yuifu

Page 2: Excelによる遺伝子名の誤変換 -傾向と対策-

共同研究者は Excel がお好き

2

Excel

Excel じゃない

Page 3: Excelによる遺伝子名の誤変換 -傾向と対策-

Excel で遺伝子名が日付に変換される問題

Page 4: Excelによる遺伝子名の誤変換 -傾向と対策-

Excel で遺伝子名が日付に変換される問題

Page 5: Excelによる遺伝子名の誤変換 -傾向と対策-

Excel で遺伝子名が日付に変換される

• デフォルトではセルの書式が「標準」設定

• → 日付っぽいと日付になってしまう

• 例 : Oct4 → 4-Oct ( October 4 と認識)

Page 6: Excelによる遺伝子名の誤変換 -傾向と対策-

傾向の調査

NCBI Gene

Page 7: Excelによる遺伝子名の誤変換 -傾向と対策-

傾向の調査

Page 8: Excelによる遺伝子名の誤変換 -傾向と対策-

単射でない場合がある

• 同じ生物種の異なる Gene symbol が同じ日付に変換される

• Marc1, MARCH1 → 1-Mar MARC2, MARCH2 → 2-Mar の2種類

• → 元がどれだか分からない!意外にも SEP* と SEPT* は相互排他的

だった

Page 9: Excelによる遺伝子名の誤変換 -傾向と対策-

対策

1. Excel の設定を変える → 負けた気がする

2. ルールベースで戻す → (全)単射でないと無理

3. Identifier を省かない → 修復可能(だけど解決ではない)

4. Excel ファイルを他の言語でつくる

1.例 : R で Excel ファイルをつくってしまう → 色んな書式設定できて便利

http://qiita.com/yuifu/items/aaff8c6bc8955124c6e0

library(xlsx)df <- data.frame(gene_symbol=c("OCT4", "SOX2", "KLF4", "C-MYC"), expression=c(1,6,9,4))wb <- createWorkbook(type=“xlsx")sheet <- createSheet(wb, sheet=“sheet1")cs1 <- CellStyle(wb) + DataFormat("@")addDataFrame(df, sheet, startColumn=1, row.names=F, colStyle=list(`1`=cs1))saveWorkbook(wb, file="test.xlsx")

Page 10: Excelによる遺伝子名の誤変換 -傾向と対策-

まとめ

1.    あ

2.    あ

• Identifier を省かない → 修復可能(だけど解決ではない)

• Excel ファイルを他の言語でつくる

• あ