2 バイオインフォマティクス実習・実践...第2回...

37
第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科 中林潤

Upload: others

Post on 21-Sep-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

第2回バイオインフォマティクス実習・実践

東京医科歯科大学

統合教育機構

教養部 数学科

中林潤

Page 2: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

今日の内容

• 次世代シーケンサーの概説

原理、データのフォーマット

• コンピュータの操作

GUIとCUI、ターミナル上でのコマンドの入力法

• Hisat2

マッピング用プログラムHisat2を使って、データベースにアクセス

し、参照ゲノムにマッピングする

• Integrative Genomics Viewer

マッピングされたSAMファイルからインデックス、カウントデータ

を作成、画面に表示する

Page 3: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

カバー率 = (N × L) / G : 1塩基当りの断片数リード数 : Nリード数 : Lゲノム長 : G

…AGGTGCATGCCGCATCGATCGAGC…

AGGTGCATG

GCATGCCGCATGCATCGATCGAGC

paired endsingle end

ゲノム

リード

DNAを断片化して配列を読む→参照ゲノムにマッピング→配列を再構成する

カバー率が十分でないと正確な配列情報が得られない。

次世代シーケンスデータ

Page 4: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

• 1行目:@配列ID

• 2行目:塩基配列

• 3行目:+配列ID 説明

• 4行目:クオリティー値(シーケンスエラーの生じる確率)

@Seq-ID

AGGTGCATCGATGCGCGAATAAT

+

!1’’*))++//?”AAA{{

FASTQファイルフォーマット

Page 5: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

ATGC

EGFR

正常組織

非微小乳頭がん

微小乳頭がん

マッピングした配列の例(Whole Exome Sequencingの場合)

Page 6: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

SRA Sequence Read Archive

raw sequence dataが登録されているデータベース

https://www.ncbi.nlm.nih.gov/sra

Page 7: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

• Graphical User Interface (GUI)

コンピュータのディスプレイ上で、アイコンや画像などを多用し、マウスなどのポインティングデバイスで直感的操作を可能とするユーザーインターフェース

• Character User Interface (CUI)

コマンドや情報を文字によって表示し、コンピュータの操作を行うユーザーインターフェース

PCの操作方法(GUIとCUI)

Page 8: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

• CUI環境を提供するプログラム

•ターミナル上でコマンドを入力して、プログラムを実行する

•実行結果がターミナル上に文字で表示される

• Windows10ではUbuntu18.04、Macではターミナルを使う

ターミナル(端末)

Page 9: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

ファイルの階層構造

C:

ユーザー

プログラムファイル

ユーザー名

Microsoft Office

IGV 2.8.2

R

ダウンロード

デスクトップ

ピクチャ

hisat2-2.2.0Documents

USER@DesktopPC X

$cd /mnt/c/Users/ユーザ名/Documents/hisat2-2.2.0

hg19

Page 10: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

Hisat2の書式

USER@DesktopPC X

$ ./hisat2 -p CPU数 -x 参照ゲノム --sra-acc SRA_accession_number -S 出力ファイル名.sam

-x:参照ゲノムを指定--sra-acc:SRAデータベースのアクセション番号を指定-S:出力ファイル名 SAMフォーマットで出力-p:使用するCPU数

Page 11: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

USER@DesktopPC X

$ ./hisat2 -p 4 -x ../hg19/genome --sra-acc SRR11619645 -S SRR11619645.sam

Hisat2の実行

Page 12: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

http://www.broadinstitute.org/igv/

Integrative Genomics Viewer (IGV)

マッピングされた配列断片の可視化ツール

Page 13: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

ゲノムを選択 hg19

トラック

リファレンスゲノム

Genomeの選択

Page 14: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

igvtoolsのウインドウが開くCommandメニューを選択

IGV tools

Page 15: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

• igvtoolsでsamファイルを染色体順にソートします。

コマンドメニューからSortを選択

Input fileからSRR11619645.samを選択

runボタンをクリック

SRR11619645.sorted.samファイルが出力されます。

SAM fileのソート

Page 16: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

• igvtoolsでインデックスを作成

コマンドメニューからIndexを選択

Input fileからSRR11619645.sorted.samを選択

runボタンをクリック

SRR11619645.sorted.sam.saiファイルが出力されます

indexの作成

Page 17: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

TDFファイルの作成

• igvtoolsでカウントデータを作成

コマンドメニューからCountを選択

Input fileからSRR11619645.sorted.samを選択

runボタンをクリック

SRR11619645.sorted.sam.tdfファイルが出力されます

Page 18: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

fileメニューLoad from FileからSRR11619645.sorted.sam とSRR11619645.sorted.sam.tdfを選択してアップロード

fileのupload

Page 19: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

遺伝子名PSMB4を入力

タグ:配列の断片

遺伝子を選択して表示

Page 20: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

今日のまとめ

• Hisat2を使ってSRAデータベースから配列断片の情報を取得し、参照ゲノムにマッピングする

• Integrative Genomics ViewerでSAMファイルのソート、インデックスの作成、カウントファイルを作成する

•作成されたファイルをIGVにアップロードして可視化する

Page 21: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

マッピングはNGS解析の第一歩

https://www.nasa.gov/audience/forstudents/5-8/features/nasa-knows/who-was-neil-armstrong-58.html

Page 22: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

次回のための準備

•統計解析ソフトRのインストール

• BiocManagerパッケージのインストール

• edgeRパッケージのインストール

Page 23: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

統計解析ソフトRのインストール

• Rはオープンソース・フリーソフトウェアの統計解析用プログラム言語およびその開発実行環境

•オークランド大学のRoss IhakaとRobert Clifford Gentlemanによって開発された

•現在はR Development Core Teamによってメンテナンスされている

Page 24: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

Rのダウンロードとインストール

•日本のミラーサイト

https://cran.ism.ac.jp

https://ftp.yz.yamagata-u.ac.jp/pub/cran/

から自分のPCのOSに合った(Windows または Mac)インストーラーをダウンロードする

•ダウンロードしたインストーラーをダブルクリックして実行する

•途中の質問はすべてデフォルト状態でインストールする

Page 25: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

各OSのインストーラへのリンク

Page 26: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

Windowsの場合

baseをクリック

Page 27: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

R-4.0.0が最新バージョン

インストーラーへのリンク

Page 28: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

Windowsの場合

• RToolsのインストール

https://cran.r-project.org/bin/windows/Rtools/

rtools40-x86_64.exeをクリックしてダウンロード

Page 29: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

RToolsへのリンク

Rtoolsをクリック

Page 30: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

rtools40-x86_64.exe

インストーラーへのリンク

Page 31: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

Macの場合 インストーラーへのリンク

Page 32: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

XQuartzのインストール

• https://www.xquartz.org/

からインストーラーをダウンロード

ダウンロードしたインストーラーをダブルクリックして展開、実行する

インストーラーへのリンク

Page 33: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

BiocManagerとedgeRのインストール

R X

>install.packages(“BiocManager”)>BiocManager::install(“edgeR”)

Page 34: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

Gene Expression Omnibus

https://www.ncbi.nlm.nih.gov/geo/

入力欄にGSE143213と入力して検索

Page 35: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

GSE143213

GSE143213_read_comut_bulk.txt.gzをクリックしてダウンロード

Page 36: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

参考資料

•データの元論文

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7010798/pdf/41467_2020_Article_14442.pdf

•次回の実習で実行するRコマンド

https://qiita.com/junakabayashi/items/a3ba6b2c05691a5de38d

Page 37: 2 バイオインフォマティクス実習・実践...第2回 バイオインフォマティクス実習・実践 東京医科歯科大学 統合教育機構 教養部 数学科

アンケートにご協力ください。

第2回実習簡易アンケート QRコード

https://www.yokohama-cu.ac.jp/amedrc/section/support/bioinfomatics2.html

先端医科学研究センター バイオインフォマティクス解析室のHPからアンケートにアクセス