2 バイオインフォマティクス実習・実践...第2回...
TRANSCRIPT
第2回バイオインフォマティクス実習・実践
東京医科歯科大学
統合教育機構
教養部 数学科
中林潤
今日の内容
• 次世代シーケンサーの概説
原理、データのフォーマット
• コンピュータの操作
GUIとCUI、ターミナル上でのコマンドの入力法
• Hisat2
マッピング用プログラムHisat2を使って、データベースにアクセス
し、参照ゲノムにマッピングする
• Integrative Genomics Viewer
マッピングされたSAMファイルからインデックス、カウントデータ
を作成、画面に表示する
カバー率 = (N × L) / G : 1塩基当りの断片数リード数 : Nリード数 : Lゲノム長 : G
…AGGTGCATGCCGCATCGATCGAGC…
AGGTGCATG
GCATGCCGCATGCATCGATCGAGC
paired endsingle end
ゲノム
リード
DNAを断片化して配列を読む→参照ゲノムにマッピング→配列を再構成する
カバー率が十分でないと正確な配列情報が得られない。
次世代シーケンスデータ
• 1行目:@配列ID
• 2行目:塩基配列
• 3行目:+配列ID 説明
• 4行目:クオリティー値(シーケンスエラーの生じる確率)
@Seq-ID
AGGTGCATCGATGCGCGAATAAT
+
!1’’*))++//?”AAA{{
FASTQファイルフォーマット
ATGC
EGFR
正常組織
非微小乳頭がん
微小乳頭がん
マッピングした配列の例(Whole Exome Sequencingの場合)
SRA Sequence Read Archive
raw sequence dataが登録されているデータベース
https://www.ncbi.nlm.nih.gov/sra
• Graphical User Interface (GUI)
コンピュータのディスプレイ上で、アイコンや画像などを多用し、マウスなどのポインティングデバイスで直感的操作を可能とするユーザーインターフェース
• Character User Interface (CUI)
コマンドや情報を文字によって表示し、コンピュータの操作を行うユーザーインターフェース
PCの操作方法(GUIとCUI)
• CUI環境を提供するプログラム
•ターミナル上でコマンドを入力して、プログラムを実行する
•実行結果がターミナル上に文字で表示される
• Windows10ではUbuntu18.04、Macではターミナルを使う
ターミナル(端末)
ファイルの階層構造
C:
ユーザー
プログラムファイル
ユーザー名
Microsoft Office
IGV 2.8.2
R
ダウンロード
デスクトップ
ピクチャ
hisat2-2.2.0Documents
USER@DesktopPC X
$cd /mnt/c/Users/ユーザ名/Documents/hisat2-2.2.0
hg19
Hisat2の書式
USER@DesktopPC X
$ ./hisat2 -p CPU数 -x 参照ゲノム --sra-acc SRA_accession_number -S 出力ファイル名.sam
-x:参照ゲノムを指定--sra-acc:SRAデータベースのアクセション番号を指定-S:出力ファイル名 SAMフォーマットで出力-p:使用するCPU数
USER@DesktopPC X
$ ./hisat2 -p 4 -x ../hg19/genome --sra-acc SRR11619645 -S SRR11619645.sam
Hisat2の実行
http://www.broadinstitute.org/igv/
Integrative Genomics Viewer (IGV)
マッピングされた配列断片の可視化ツール
ゲノムを選択 hg19
トラック
リファレンスゲノム
Genomeの選択
igvtoolsのウインドウが開くCommandメニューを選択
IGV tools
• igvtoolsでsamファイルを染色体順にソートします。
コマンドメニューからSortを選択
Input fileからSRR11619645.samを選択
runボタンをクリック
SRR11619645.sorted.samファイルが出力されます。
SAM fileのソート
• igvtoolsでインデックスを作成
コマンドメニューからIndexを選択
Input fileからSRR11619645.sorted.samを選択
runボタンをクリック
SRR11619645.sorted.sam.saiファイルが出力されます
indexの作成
TDFファイルの作成
• igvtoolsでカウントデータを作成
コマンドメニューからCountを選択
Input fileからSRR11619645.sorted.samを選択
runボタンをクリック
SRR11619645.sorted.sam.tdfファイルが出力されます
fileメニューLoad from FileからSRR11619645.sorted.sam とSRR11619645.sorted.sam.tdfを選択してアップロード
fileのupload
遺伝子名PSMB4を入力
タグ:配列の断片
遺伝子を選択して表示
今日のまとめ
• Hisat2を使ってSRAデータベースから配列断片の情報を取得し、参照ゲノムにマッピングする
• Integrative Genomics ViewerでSAMファイルのソート、インデックスの作成、カウントファイルを作成する
•作成されたファイルをIGVにアップロードして可視化する
マッピングはNGS解析の第一歩
https://www.nasa.gov/audience/forstudents/5-8/features/nasa-knows/who-was-neil-armstrong-58.html
次回のための準備
•統計解析ソフトRのインストール
• BiocManagerパッケージのインストール
• edgeRパッケージのインストール
統計解析ソフトRのインストール
• Rはオープンソース・フリーソフトウェアの統計解析用プログラム言語およびその開発実行環境
•オークランド大学のRoss IhakaとRobert Clifford Gentlemanによって開発された
•現在はR Development Core Teamによってメンテナンスされている
Rのダウンロードとインストール
•日本のミラーサイト
https://cran.ism.ac.jp
https://ftp.yz.yamagata-u.ac.jp/pub/cran/
から自分のPCのOSに合った(Windows または Mac)インストーラーをダウンロードする
•ダウンロードしたインストーラーをダブルクリックして実行する
•途中の質問はすべてデフォルト状態でインストールする
各OSのインストーラへのリンク
Windowsの場合
baseをクリック
R-4.0.0が最新バージョン
インストーラーへのリンク
Windowsの場合
• RToolsのインストール
https://cran.r-project.org/bin/windows/Rtools/
rtools40-x86_64.exeをクリックしてダウンロード
RToolsへのリンク
Rtoolsをクリック
rtools40-x86_64.exe
インストーラーへのリンク
Macの場合 インストーラーへのリンク
XQuartzのインストール
• https://www.xquartz.org/
からインストーラーをダウンロード
ダウンロードしたインストーラーをダブルクリックして展開、実行する
インストーラーへのリンク
BiocManagerとedgeRのインストール
R X
>install.packages(“BiocManager”)>BiocManager::install(“edgeR”)
Gene Expression Omnibus
https://www.ncbi.nlm.nih.gov/geo/
入力欄にGSE143213と入力して検索
GSE143213
GSE143213_read_comut_bulk.txt.gzをクリックしてダウンロード
参考資料
•データの元論文
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7010798/pdf/41467_2020_Article_14442.pdf
•次回の実習で実行するRコマンド
https://qiita.com/junakabayashi/items/a3ba6b2c05691a5de38d
アンケートにご協力ください。
第2回実習簡易アンケート QRコード
https://www.yokohama-cu.ac.jp/amedrc/section/support/bioinfomatics2.html
先端医科学研究センター バイオインフォマティクス解析室のHPからアンケートにアクセス