ゲノムビッグデータチャレンジbd.comp.ae.keio.ac.jp/wp-content/uploads/2014/03/...生命とit...
Post on 05-Feb-2020
0 Views
Preview:
TRANSCRIPT
ゲノムビッグデータチャレンジ
慶應義塾大学理工学部生命情報学科
榊原康文
「ビッグデータ・イノベーションシンポジウム2014」
2014年3月17日
遺伝子検査・診断
• アンジェリーナ・ジョリー,がん予防で両乳房切除
• 遺伝子検査の結果,乳がんや卵巣がんリスクを高め
る恐れのある病的変異のある遺伝子が見つかった
• 「将来の乳がん予防のための乳房切除」
生命とITIT企業「グーグル(Google)」が出資するベンチャー企業
「23andMe」という会社のサービスは?
唾液のサンプルを送付
個人のDNA情報の解析:
– 祖先などに関する情報
– (病気(がんなどの)リスク (現在,サービスを中止中)
– 解析情報はインターネット経由で閲覧
– バイオとITが産業レベルでも結びついた技術がいよいよ私た
ちの生活の身近に迫っていることを示唆
– Googleの戦略:ネット検索,メール,ブログ,動画,地図,そ
していよいよDNA情報?
1個の受精卵
中にはたくさんの遺伝子が入っている
コピーして増やす
DNA
体は60兆個の細胞でできている
遺伝子は全部で約3万種類,30億文字ある。
新聞50年分:
朝刊と夕刊をすみからすみまで読んで,365日×50年 分
コピーして増やす
やせた人
太った人
肌の色が違う人
1個の受精卵
一人一人の遺伝子の違いは約0.1%
30億文字の中で300万カ所
この違いにより,体質が決まる
がんになりやすさも違ってくる
生まれつき遺伝子は少しずつちがう
[http://nordwave.net/Great_Britain/category/science/]
地球上70億人の「個人」の多様性
• 一塩基多型(SNP)
• 挿入,欠失(Indel)
• コピー数多型(CNV)
• 構造多型(SV)
• 目の色
• 肌の色
• 糖尿病になりやすさ
• がんになりやすさ
NHGRI GWA Catalogwww.genome.gov/GWAStudieswww.ebi.ac.uk/fgpt/gwas/
Catalog of Published Genome-Wide Association Studies
Catalog of Published Genome-Wide Association Studies
1番染色体
生命科学における「情報爆発」
ゲノム配列情報の蓄積
決定済:真核生物 313 種, 原核生物 12631 種⇒ ついに1000ゲノムを超えた!!
進行中:真核生物 6661 種, 原核生物 20931 種( 2014年3月現在,GOLD Genomes OnLine Database v4.0 )
生命科学におけるムーアの
法則:
① 半導体の集積度は18ヶ月で二倍になるという経験則
② GenBankにおけるDNA配列データの増加度:
最初のゲノム解読:1995年インフルエンザ菌 1.8Mbp(Haemophilus influenzae)
医学・生命科学ビッグデータ時代の到来
オミックスデータベース
ゲノム配列,遺伝子発現プロファイル,エピゲノム,化合物データベース
バイオバンク
検体の収集・管理,...
電子カルテ EHR(患者の履歴,検査値,臨床データ),PHR コホート
個人ゲノム,SNPs,環境要因,生活習慣
ビッグデータの特徴 (3つのV)
①Volume(量) ②Variety(多様性) ③Velocity(発生頻度)
化合物
GATTTAAGATT
ゲノム変異
C A B C
発現プロファイル
がんゲノムハブ(CGHub)【UCSC】
(1ぺタバイト)
遺伝子ネットワーク
化合物データベース【PubChem】
(1億1700万化合物)
遺伝子ネットワーク【KEGG PATHWAY】
(24万エントリー)
遺伝子発現【NCBI GEO】
(92万細胞サンプル)
予測学
• 多くの事象は予測できると主張
「何を買うか」から「いつ死ぬか」まで,あなたの行動はすべて読まれている
「ヤバい予測学」,エリック・シーゲル (著), 矢羽野薫 (翻訳)
• 保険会社は被保険者の死亡年齢を予測
• 患者が30日以内に再入院するかどうか
を予測して退院の判断に役立てる
• 米国税庁は予測技術から脱税摘発を25倍
に増加
• ある州では犯罪が起きやすい地域を予測し
た上で警官が巡回する
バイオインフォマティクスという分野
①近年の生命科学データの爆発的な増大!
②コンピュータを用いる2つのアプローチ:
i. 網羅的(ハイスループット)なウエット実験から生成される大量データの処理
ii. 実験前にコンピュータによる情報処理を徹底的に行うことにより,ウエット実験を絞り込み効率化する ⇒インシリコスクリーニング
③バイオインフォマティシャンの育成は喫緊の課題
「なぜ生命科学の解析にコンピュータが必要なのか?」
例題:ゲノム配列からの解析出芽酵母の6番染色体のある領域:
CDS
AAGTAAGTTGTTAGTGTAACTATGATCACGGCTGCGTGCCGGGTAATAAATCAATTTTGA
GGAAAACTGGAAGTTCACCACTGAGAATGATCAACGGCAGGGAAACGTTATACCAAACAA
AGCATTCTACCTCTAGGGAAGCTGGAAACTTGAATTACCCACTATAGCTTGTCTTTTAGT
GATCCATTATTCCAACCTATTGCAATTCCAAGAAAATAAACTAGGAACTTTTTTTTTTGG
AAGAATAAGAAAAGGAGAAAAAGTAGACATACTGTATATACACGAGGGCGTATCGTTCAC
CAGAAAGAATATAAACATAACAAGATAAACATGTCAGGCTTGAGAACTGTTTCTGCTTCA
TCCGGTAATGGAAAGAGCTATGACTCTATTATGAAAATTTTATTGATTGGTGATTCTGGT
GTTGGGAAATCATGTTTATTGGTTCGTTTTGTTGAAGACAAATTTAACCCGTCATTTATC
ACCACCATTGGTATTGATTTCAAAATAAAGACTGTCGATATCAACGGTAAGAAGGTAAAG
CTGCAACTTTGGGATACCGCTGGTCAAGAACGTTTCCGGACAATCACCACAGCGTATTAT
CGTGGTGCTATGGGTATCATTCTTGTATATGATGTGACAGACGAGAGAACATTTACTAAT
ATCAAGCAATGGTTTAAAACCGTTAATGAGCATGCGAACGATGAAGCACAGCTACTGTTG
GTTGGTAACAAGAGCGATATGGAGACGAGAGTGGTAACAGCTGATCAAGGTGAAGCCTTG
GCTAAGGAGCTGGGTATACCATTCATCGAGTCCAGTGCTAAGAACGATGACAATGTCAAC
GAGATTTTTTTCACCTTGGCGAAGTTAATCCAAGAAAAAATCGACAGTAACAAGCTTGTT
GGCGTCGGTAACGGTAAAGAGGGCAATATTAGCATCAATAGTGGGAGCGGAAACAGTTCT
AAATCAAATTGCTGTTGAAGAAAAGAAGATTTTTGCTTCTTTGAGAATTAATCGTGAACT
GGAATTAGAGCTATAAATCGCTTGATTCTTTTTTCCCTTTTTCTCAATATTCGCAGGTTA
TTTTTCCTTTATATATATACATTGTTTGTATCTTTTTTTGATTACCATACTTACTATTTT
例題:ゲノム配列からの解析出芽酵母の6番染色体のある領域:
開始コドン
ATG
終止コドン
TGA
遺伝子領域:SEC4(YFL005W)
納豆菌(Bacillus subtilis natto )のゲノム(Nishito et al., BMC Genomics, 2010)
T
・・
・
・
・
A
・
・
・・
納豆菌ゲノム
G C
A
T
GC
-ポリグルタミン酸(PGA)
ドラッグデリバリーシステム
水の浄化
(朝日新聞 朝刊科学面2010年5月14日)
サプリメント化粧品
納豆菌ゲノムの解読から分かること
1. ゲノム全長:410万塩基対,総遺伝子数:4,429
2. γポリグルタミン酸の合成関連遺伝子群
非常に高い吸水性,保湿力,カルシウム結合能 ⇒ 化粧品,石鹸,
サプリメント,納豆樹脂(紙オムツ,水質浄化剤),など
3. ナットウキナーゼ遺伝子
プロテアーゼの一種 ⇒ 血栓溶解能,血圧降下,コレステロール
低下などの血中脂質改善
4. エラスターゼ遺伝子
エラスチン(動脈などの弾性繊維の主成分)の分解 ⇒ 動脈硬化
症,高血圧,糖尿病,などの改善
5. 納豆菌ゲノムブラウザー
http://www.natto-genome.org/
さまざまな納豆菌
(Nishito et al., 2010)
Bacillussubtilisnatto
納豆菌(BEST195)ゲノムの決定
食味・成分の違い
原料(大豆)
製造方法
菌株ゲノム
あづま食品(栃木)奥野食品(三重)
水戸納豆(茨城)やぐちフーズ(埼玉)
丸美屋(熊本)
ヤマダフーズ(秋田)
タカノフーズ(茨城)
黒石納豆(青森)
鎌倉山納豆(神奈川)ミツカン(愛知)旭松食品(大阪)
高畠納豆(山形)萬歳食品(宮城)
オシキリ食品(北海道)
キネマ(ネパール)
多くの工業株が存在
納豆は日本の伝統的食品
②「ビッグデータ実践演習教材等」 ②-4
• これからの生命科学において要となるツールである次世代シークエンサーが産生する大規模データを用いたゲノム解析を体験する
⇒ 納豆菌株のゲノム比較解析
1. 演習で行う具体的な課題を決定し,そのためのデータ解析ソフトウエアと環境を整備した.
2. バイオインフォマティクス専用のR言語の処理系 Bioconductor を準備して,主成分分析などを行う統計解析基盤を整備した.
top related