ajacs advanced: ngsデータベース検索
TRANSCRIPT
情報・システム研究機構 ライフサイエンス統合データベースセンター
仲里 猛留
Research Organization of Information and Systems (ROIS)Database Center for Life Science (DBCLS),
NAKAZATO, Takeru
2015/1/27
@chalkless
第1回 データ解析よろず相談会:AJACS advanced (AJACSa)
NGSデータベース検索
遺伝研W412撮影可
自己紹介
3
仲里 猛留名前なかざと たけるふりがな
所属 情報・システム研究機構 ライフサイエンス統合 データベースセンター
Twitter chalkless
詳しくは所属のページをごらんください...
質問などどうぞ
http://dbcls.rois.ac.jp/~nakazato/
4
Wet浸透圧調節・イオン輸送イオントランスポーターの
クローニング
東工大院・生命理工
阪大院・情報科学文献情報を利用した マイクロアレイデータの 生物学的知見の付与
99.4
02.4
05.10
08.9
15.1
07.4
NEC バイオIT事業推進センター文献検索(もどき)ツールの開発
遺伝子(群)への文献情報を用いた アノテーションづけ
07.9
Dry
ライフサイエンス 統合データベースセンター
遺伝子、疾患のアノテーションキーワードづけ、用語整備
NGSデータの整理
休眠時代
(部署解体 → 異動)毎日、PowerPointで営業資料作成
Dry
Dry
こんな実験生物を使っていました...
鰻
血圧調節 分子生物学っぽく 言ってみる イオン濃度調節
mouse の系高Na食 or 高K食変化が見にくい
ウナギ 淡水と海水を行き来(サケ、マスと同じ)
SWFWbloodurine
Anguilla japonica
淡水/海水で遺伝子発現が どうかわるか。 (イオントランスポーター中心)
wet時代・ ウナギの海水適応機構
組織局在
膵臓と後腸に強い発現
wet時代・ ウナギの海水適応機構
8
経時変化
淡水 → 海水 で発現増大
wet時代・ ウナギの海水適応機構
9
H2O H2O
Na+
Cl-
Ca2+
Mg2+
HCO3-
HCO3-
Osm
H2O
eSult ?
腸内
血液
腸細胞
wet時代・ ウナギの海水適応機構海水適応に伴う浸透圧適応モデル
ライフサイエンス統合データベースセンター特任助教。博士(情報科学)。東京工業大学の学部 ・修士課程にて魚類の遺伝子研究を行い、2002年修了。同年、NECバイオ IT事業推進センターに入社し、遺伝子発現データの解析用ソフトの開発を行う。2007 年同部門の解体に伴い、現職に転職。2008 年大阪大学情報科学研究科にて博士号取得。最近は、公共データベース中のNGS データを検索するウェブサービスを作成。研究活動も行う。
自分の研究用に検索エンジンを作ったら、世界中のユーザーから反響があった。大勢の役に立ててうれしかった
仲 里猛 留Nakazato Takeru
25www.nature.com/naturedigest ©2014 Nature Japan K.K., trading as Nature Publishing Group. All rights reserved.
ワタクシも取材してもらいました (Natureダイジェスト '15年1月号)
本題だんだん
アンケート
NGS機器を使っている
NGSのデータ解析をしている
NGSをやってみたい
本題
次世代シーケンサー(NGS)
電気泳動式 キャピラリ式 NGS
Next Generation Sequencing → High-Throughput Sequencing
ABI社
北海道システム社
750 (base/lane) × 48/4 lanes = 9kbase
500 (base/lane) × 96 lane = 48kbase
36 (base/seq) × 300M seq/run = 10.8Gbase
次世代とか新型とか
ちっとも新しくない 「新しい昆虫採集案内」
昭和46年出版 昭和52年改訂
PubMed
BLAST
データベース 検索システム
GenBankEMBLDDBJ
BLAST
MEDLINE
塩基配列
文献
登録
Entrez Gene
登録
整理
NGSデータ
SRA
データベース 検索システム
GenBankEMBLDDBJ
BLAST
MEDLINE
塩基配列
文献
登録
登録
登録SRA Search
SRA:
Sequence Read Archive
ちなみに、昔は Short Read Archive
データを使ってもらう
データを集める
Total: 52,387
3,660
Total: 3.3 petabase
http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?
JGA (Japanese Genotype-Phenotype Archive)Controlled-access データのアーカイブ
DRAへのデータ登録
http://trace.ddbj.nig.ac.jp/dra/submission.html
FASTQ データ@DRR001107.1 GEZQ5FO01EEA7F length=77GCAACATTCAACACATATGTGTTGAATGTTGCACGACGGNGTG...+DRR001107.1 GEZQ5FO01EEA7F length=77C@BBBECCECDBBBAAAAA<441111<?@>?=?????44!000...
4行1組 1行目: @ + タイトル 2行目:塩基配列 3行目: + (+ タイトル) 4行目:シーケンスクオリティ
+
メタデータ = 実験情報プロジェクト名、生物種、シーケンサー、...
× 数千万 数十億
mappingde novo assemble
Quality check
データベース検索
Download自分で
発現量解析 SNP検出ゲノム
http://trace.ddbj.nig.ac.jp/DRASearch/
SRAを検索してみましょう
SRAのデータ構造(簡略版)
http://trace.ddbj.nig.ac.jp/dra/submission.html に現バージョン(後出)あり
ワインが飲みたい
どれにする?
どうしようかなぁ...
Soleil Hikumo Rouge名前タイプワイナリー
ブドウ品種製造年
生産地
赤で重くないやつ
→ 中身のクオリティによる足切り
赤旭洋酒山梨ピノノワール+ベイリーA
2012年
→ メタデータによる選択
目的が多種多様
SRAの検索は意外とツラい
ゲノム、発現解析、エピゲ、メタゲ、...
対象生物種も多種多様
データベースの構造
ヒト、マウス、メタゲノム、微生物、...
study:プロジェクト情報experiment:個々の実験情報
DBCLS SRAhttp://sra.dbcls.jp/
35
生物種による検索上のレベルや下のレベルでも検索可能
論文からの検索
疾患から検索
Total: 52,387
3,660
http://sra.dbcls.jp/trends.html
http://sra.dbcls.jp/trends.html
HiSeq 2000
GA II454 GS GLX Titanium
NCBI SRA やめます事件 (2011/2/22)http://www.nlm.nih.gov/pubs/techbull/jf11/jf11_ncbi_reprint_sra.html
発現はGEOへ
BioProject
SRA GEO
Project Summary
Run data
Umbrella Project
Study
Sample
Platform
Sample
Run data
Primary Project
Exp
Run
BioSample
Sample
SRAのデータ構造(最新版)
http://trace.ddbj.nig.ac.jp/dra/submission.html を改
http://aoe.dbcls.jp/
AOE(あおい):遺伝子発現データの目次サイト※ マイクロアレイ+NGS
PMID: 24167589
NGS(発現)データの (生物学的)解釈
[参考]
mappingde novo assemble
Quality check
データベース検索
Download自分で
発現量解析 SNP検出ゲノム
Statistics
?
wt/diseaseDrug(+/-)
microarray
Interpretation frombiological viewpoint
...
k-means
raw data (sequence)
normalization
clustering
PCA
gene list (cluster) What is biological features?
What is relationships toinitial conditions?
mapping
Next generation Sequencing
raw data (intensity)
No
biology!
Gene Ontology
DNA binding
androgen receptor binding
enzyme binding
transcription coactivator activity
tubulin binding
ubiquitin protein ligase binding
...
Molecular Function Biological Process
DNA damage response, signal transduction by p53 class mediator
resulting in transcription of p21 class mediator
G2 DNA damage checkpoint
androgen receptor signaling pathway
apoptotic process
cellular response to indole-3-methanol
chromosome segregation
double-strand break repair via homologous recombination
positive regulation of DNA repair
positive regulation of protein ubiquitination
postreplication repair
regulation of cell proliferation
regulation of transcription from RNA polymerase II promoter
regulation of transcription from RNA polymerase III promoter
response to DNA damage stimulus
response to estrogen stimulus
response to ionizing radiation
...
BRCA1-A complex
BRCA1-BARD1 complex
gamma-tubulin ring complex
nucleus
protein complex
ribonucleoprotein complex
ubiquitin ligase complex
Cellular Component
Example) BRCA1 (Gene ID: 672)
Controlled vocabulary for representing biological features
GO assign and enrichment analysishttp://david.abcc.ncifcrf.gov/
TogoTV (Tutorial movie)http://togotv.dbcls.jp/
Gene Ontology, ...
DNA binding
androgen receptor binding
enzyme binding
transcription coactivator activity
tubulin binding
ubiquitin protein ligase binding
...
Molecular Function Biological Process
DNA damage response, signal transduction by p53 class mediator
resulting in transcription of p21 class mediator
G2 DNA damage checkpoint
androgen receptor signaling pathway
apoptotic process
cellular response to indole-3-methanol
chromosome segregation
double-strand break repair via homologous recombination
positive regulation of DNA repair
positive regulation of protein ubiquitination
postreplication repair
regulation of cell proliferation
regulation of transcription from RNA polymerase II promoter
regulation of transcription from RNA polymerase III promoter
response to DNA damage stimulus
response to estrogen stimulus
response to ionizing radiation
...
BRCA1-A complex
BRCA1-BARD1 complex
gamma-tubulin ring complex
nucleus
protein complex
ribonucleoprotein complex
ubiquitin ligase complex
Cellular Component
Example) BRCA1 (Gene ID: 672)
No information on
diseases and anatomy
MeSH terms
50
Medical Subject Headings
> 23,000 terms
Controlled vocabulary
15 categories
Disease, Drugs, Anatomy, ...
Gene MeSH
Article
MeSH keywords related to BRCA1
51
Example) BRCA1 (Gene ID: 672)
Breast Neoplasms
Ovarian Neoplasms
BRCA1 Protein
Tumor Suppressor Proteins
Rad51 Recombinase
Breast
Chromosomes, Human, Pair 17
0
0
0
5.91 × 10-136
1.66 × 10-54
1.52 × 10-43
9.03 × 10-23
Disease
Chemicals and Drugs
Anatomy
MeSH Terms Category p-value
Differences and similarities between type 1/2 diabetes
52
MeSH keywords type 1
diabe
tes
type 2
diabe
tes
10e-1010e-0910e-0810e-0710e-0610e-0510e-0410e-0310e-020.050.100.200.300.400.500.751
p-valueCategory
Diseases
Chemicalsand drugs
Anatomy
Diabetes MellitusDiabetes Mellitus, Type 1Diabetes Mellitus, Type 2
Autoimmune DiseasesInsulin Resistance
ObesityInsulin
AdiponectinPancreas
SpleenAdipocytes
Implementation
53
http://gendoo.dbcls.jp/
Reference: Gendoo: Functional profiling of gene and disease features using MeSH vocabulary. Nucleic Acids Res, 37 (Suppl. 2), 2009. PMID: 19498079