excelによる遺伝子名の誤変換 -傾向と対策-
DESCRIPTION
13.10.31 JSBi 2013年年会のDBCLSオーガナイズの”Open Science Award & BioHack Competition“において発表したスライドTRANSCRIPT
13.10.31
Excel による遺伝子名の誤変換 - 傾向と対策 -
1
尾崎遼 東京大学 露崎弘毅 東京理科大学 横山貴央 東京大学
http://github.com/kokitsuyuzaki/BioHack-JSBi2013
@wakuteka
@antiplastics
@yuifu
共同研究者は Excel がお好き
2
Excel
Excel じゃない
Excel で遺伝子名が日付に変換される問題
Excel で遺伝子名が日付に変換される問題
Excel で遺伝子名が日付に変換される
• デフォルトではセルの書式が「標準」設定
• → 日付っぽいと日付になってしまう
• 例 : Oct4 → 4-Oct ( October 4 と認識)
傾向の調査
NCBI Gene
傾向の調査
単射でない場合がある
• 同じ生物種の異なる Gene symbol が同じ日付に変換される
• Marc1, MARCH1 → 1-Mar MARC2, MARCH2 → 2-Mar の2種類
• → 元がどれだか分からない!意外にも SEP* と SEPT* は相互排他的
だった
対策
1. Excel の設定を変える → 負けた気がする
2. ルールベースで戻す → (全)単射でないと無理
3. Identifier を省かない → 修復可能(だけど解決ではない)
4. Excel ファイルを他の言語でつくる
1.例 : R で Excel ファイルをつくってしまう → 色んな書式設定できて便利
http://qiita.com/yuifu/items/aaff8c6bc8955124c6e0
library(xlsx)df <- data.frame(gene_symbol=c("OCT4", "SOX2", "KLF4", "C-MYC"), expression=c(1,6,9,4))wb <- createWorkbook(type=“xlsx")sheet <- createSheet(wb, sheet=“sheet1")cs1 <- CellStyle(wb) + DataFormat("@")addDataFrame(df, sheet, startColumn=1, row.names=F, colStyle=list(`1`=cs1))saveWorkbook(wb, file="test.xlsx")
まとめ
1. あ
2. あ
• Identifier を省かない → 修復可能(だけど解決ではない)
• Excel ファイルを他の言語でつくる
• あ