メタバーコーディングのフレームワークとアルゴリズム
TRANSCRIPT
土壌海水淡水
未消化物糞
遺骸生物体など
メタゲノム 塩基配列 生物種名
メタバーコーディングって何?
生物相の把握
(Thomsen et al. 2012)
海水に溶け出た魚類の DNAから、魚類相を把握できる
メタバーコーディングのポジティブスパイラル
メタバーコーディング
未知生物発見
従来法による記載分類
DNA データベース充実
容易にコピー・検索できる DNA 情報に基づいているため、記載が進み、
データベースが充実するほど新種探索・生物相把握能力が向上する
新種探索生物相把握能力向上
土壌海水淡水
未消化物糞
遺骸生物体など
メタゲノム 塩基配列 生物種名
メタバーコーディングのプロセス
PCRで特定の遺伝子座を増幅同時にサンプル識別用タグ配列付加多サンプルを混合してNGSで解読
最近
土壌海水淡水
未消化物糞
遺骸生物体など
メタゲノム 塩基配列 生物種名
メタバーコーディングのプロセス
タグ配列に基いて由来サンプルを特定配列から低品質な部位を除去
低品質な配列を除去ノイズの多そうな配列を除去キメラと思われる配列を除去
類似度n%以上の配列をまとめる類似する既知配列からホスト生物を推定
… demultiplexing ……… quality-trimming …………… quality-filtering ……… denoising ……… chimera removal …… clustering … barcoding
最近
土壌海水淡水
未消化物糞
遺骸生物体など
メタゲノム 塩基配列 生物種名
メタバーコーディングのプロセス
タグ配列に基いて由来サンプルを特定配列から低品質な部位を除去
低品質な配列を除去ノイズの多そうな配列を除去キメラと思われる配列を除去
類似度n%以上の配列をまとめる類似する既知配列からホスト生物を推定
… demultiplexing ……… quality-trimming …………… quality-filtering ……… denoising ……… chimera removal …… clustering … barcoding
Claidenthttp://www.claident.org/
最近
mothurQIIMEがよく使われている
土壌海水淡水
未消化物糞
遺骸生物体など
メタゲノム 塩基配列 生物種名
メタバーコーディングのプロセス
タグ配列に基いて由来サンプルを特定配列から低品質な部位を除去
低品質な配列を除去ノイズの多そうな配列を除去キメラと思われる配列を除去
類似度n%以上の配列をまとめる類似する既知配列からホスト生物を推定
… demultiplexing ……… quality-trimming …………… quality-filtering ……… denoising ……… chimera removal …… clustering … barcoding
Claidenthttp://www.claident.org/
最近
mothurQIIMEがよく使われている
single-linkage clustering
single-linkage と complete-linkage
閾値より類似度が高い配列の組が同じクラスタにまとまる
閾値より類似度が低い配列の組が含まれていても構わない
single-linkage と complete-linkage
single-linkage clustering complete-linkage clustering
閾値より類似度が高い配列の組が同じクラスタにまとまるが、閾値より類似度が低い配列の組が含まれないように分割される
95% の閾値では、 90% 一致でもまとまることがある(complete-linkage の場合。 single-linkage なら 0% ですらあり得る )
5%5%
代表配列を中心とする半径 5% 距離内の
配列がまとめられる
読み間違いのパターンは無数だが、完璧な読み取りは一通り
真の配列読み間違いがない配列
読み間違いがある配列 1読み間違いがある配列 2読み間違いがある配列 3
ATAGCTATCGGCTCTATATATATCGGCTA.......................................-.....................................T..................................-...
読み間違いのパターンは無数だが、完璧な読み取りは一通り
真の配列読み間違いがない配列
読み間違いがある配列 1読み間違いがある配列 2読み間違いがある配列 3
ATAGCTATCGGCTCTATATATATCGGCTA.......................................-.....................................T..................................-...
読み間違いがない配列のリード数
読み間違いがある配列のうちの 1 種類のリード数
≫
読み間違いのパターンは無数だが、完璧な読み取りは一通り
真の配列読み間違いがない配列
読み間違いがある配列 1読み間違いがある配列 2読み間違いがある配列 3
ATAGCTATCGGCTCTATATATATCGGCTA.......................................-.....................................T..................................-...
≫ 配列は似ている読み間違いがない配列のリード数
読み間違いがある配列のうちの 1 種類のリード数
読み間違いのパターンは無数だが、完璧な読み取りは一通り
たくさんある配列に非常によく似たまれな配列を読み間違いがある配列とみなして除去 (Li et al. 2012)
≫ 配列は似ている読み間違いがない配列のリード数
読み間違いがある配列のうちの 1 種類のリード数
読み間違いのパターンは無数だが、完璧な読み取りは一通り
たくさんある配列に非常によく似たまれな配列を読み間違いがある配列とみなして除去 (Li et al. 2012)
≫ 配列は似ている読み間違いがない配列のリード数
読み間違いがある配列のうちの 1 種類のリード数
100% 除去できるわけではない
キメラは PCR の 2 サイクル目以降に生成される
親配列 1親配列 2
キメラ配列 1
キメラ配列の親配列のリード数
キメラ配列のうちの 1 種類のリード数
> キメラは親配列の継ぎ接ぎ
上の条件を満たす配列をキメラとみなして除去
(Edgar et al. 2011)
キメラは PCR の 2 サイクル目以降に生成される
親配列 1親配列 2
キメラ配列 1
キメラ配列の親配列のリード数
キメラ配列のうちの 1 種類のリード数
> キメラは親配列の継ぎ接ぎ
上の条件を満たす配列をキメラとみなして除去
(Edgar et al. 2011)
100% 除去できるわけではないおそらく読み間違いの除去より困難
DNA バーコーディングの 2 つのシチュエーション
● 候補の種は全種記載済● 候補の種は全種バーコード配
列をデータベースに登録済
● 候補の種に新種含む可能性● 候補の種の一部でバーコード
配列がデータベースに未登録
DNA バーコーディングの 2 つのシチュエーション
● 候補の種は全種記載済● 候補の種は全種バーコード配
列をデータベースに登録済
● 候補の種に新種含む可能性● 候補の種の一部でバーコード
配列がデータベースに未登録
必ず既知のいずれかの種
と同定される
DNA バーコーディングの 2 つのシチュエーション
● 候補の種は全種記載済● 候補の種は全種バーコード配
列をデータベースに登録済
● 候補の種に新種含む可能性● 候補の種の一部でバーコード
配列がデータベースに未登録
必ず既知のいずれかの種
と同定される
既知のいずれでもない既知のいずれか不明
があり得る
DNA バーコーディングの 2 つのシチュエーション
● 候補の種は全種記載済● 候補の種は全種バーコード配
列をデータベースに登録済
● 候補の種に新種含む可能性● 候補の種の一部でバーコード
配列がデータベースに未登録
必ず既知のいずれかの種
と同定される
既知のいずれでもない既知のいずれか不明
があり得る
データベース内の最も似ている配列の持ち主と同種と判定すればよい
DNA バーコーディングの 2 つのシチュエーション
● 候補の種は全種記載済● 候補の種は全種バーコード配
列をデータベースに登録済
● 候補の種に新種含む可能性● 候補の種の一部でバーコード
配列がデータベースに未登録
必ず既知のいずれかの種
と同定される
既知のいずれでもない既知のいずれか不明
があり得る
データベース内の最も似ている配列の持ち主と同種と判定すればよい
Query-centric auto-k-NN (QCauto) method1.最近隣配列 (A) を探し出して変異量 (DQA) を算出2.DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る
A
DQA問い合わせ配列
配列空間
B
Query-centric auto-k-NN (QCauto) method1.最近隣配列 (A) を探し出して変異量 (DQA) を算出2.DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3.DQN≤DQBを満たすすべての配列 (N) を得る
A
DQB
N
N
N
問い合わせ配列
配列空間
B
Query-centric auto-k-NN (QCauto) method1.最近隣配列 (A) を探し出して変異量 (DQA) を算出2.DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3.DQN≤DQBを満たすすべての配列 (N) を得る4. A, B, N の全配列で共通する分類群を採用
A
DQB
N
N
N
問い合わせ配列
配列空間
B
Query-centric auto-k-NN (QCauto) method1.最近隣配列 (A) を探し出して変異量 (DQA) を算出2.DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3.DQN≤DQBを満たすすべての配列 (N) を得る4. A, B, N の全配列で共通する分類群を採用
A
DQB
N
N
N
問い合わせ配列
配列空間
B
配列空間
問い合わせ配列と最近隣配列間の変異量
DQA
DQB
同定結果分類群内の最大変異量
<≤
=
従来法との比較 Leave-One-Out Cross-Validation
DNA データベース
human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…
従来法との比較 Leave-One-Out Cross-Validation
human ACATAGC…
無作為に1 本抜く
human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…
DNA データベース
従来法との比較 Leave-One-Out Cross-Validation
human ACATAGC…
無作為に1 本抜く
human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…
chimp ACATTCT…cow TACGTCT…cat GCTGTGT…
1 配列欠損した DNA データベースDNA データベース
従来法との比較 Leave-One-Out Cross-Validation
human ACATAGC…
human の DNA を右のデータベースを使ってプログラムで同定して正解かどうかを調べる
無作為に1 本抜く
human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…
chimp ACATTCT…cow TACGTCT…cat GCTGTGT…
DNA データベース 1 配列欠損した DNA データベース
従来法との比較 Leave-One-Out Cross-Validation
human ACATAGC…
human の DNA を右のデータベースを使ってプログラムで同定して正解かどうかを調べる
無作為に1 本抜く
human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…
chimp ACATTCT…cow TACGTCT…cat GCTGTGT…
抜き取った DNA はプログラムからは未知のものになる
DNA データベース 1 配列欠損した DNA データベース
動物・植物・真菌・細菌での LOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
動物・植物・真菌・細菌での LOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
1NN は種レベルでもよく同定できるが誤同定多数
動物・植物・真菌・細菌での LOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
NNC, QC は門~科までは1NN に次ぐ程度には同定可能
動物・植物・真菌・細菌での LOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
我々はまだまだ属や種レベルの多様性は把握できていない
QCauto 法で種同定するには 1 種当たり何個体のバーコード配列が必要か推定してみた
● 50個体以上のバーコード配列がある種を 50 種抽出● 選ばれた種で、以下を 10回試行し、種同定成功率を計算
QCauto 法で種同定するには 1 種当たり何個体のバーコード配列が必要か推定してみた
● 50個体以上のバーコード配列がある種を 50 種抽出● 選ばれた種で、以下を 10回試行し、種同定成功率を計算
1.無作為に 1本配列を抽出 ( 重複なし )
QCauto 法で種同定するには 1 種当たり何個体のバーコード配列が必要か推定してみた
● 50個体以上のバーコード配列がある種を 50 種抽出● 選ばれた種で、以下を 10回試行し、種同定成功率を計算
1.無作為に 1本配列を抽出 ( 重複なし )2.選ばれなかった配列から x本を無作為抽出し、それ以外をデータ
ベースから抹消
QCauto 法で種同定するには 1 種当たり何個体のバーコード配列が必要か推定してみた
● 50個体以上のバーコード配列がある種を 50 種抽出● 選ばれた種で、以下を 10回試行し、種同定成功率を計算
1.無作為に 1本配列を抽出 ( 重複なし )2.選ばれなかった配列から x本を無作為抽出し、それ以外をデータ
ベースから抹消3. 1 の配列を 2 のデータベースを用いて QCauto 法で同定
QCauto 法で種同定するには 1 種当たり何個体のバーコード配列が必要か推定してみた
● 50個体以上のバーコード配列がある種を 50 種抽出● 選ばれた種で、以下を 10回試行し、種同定成功率を計算
1.無作為に 1本配列を抽出 ( 重複なし )2.選ばれなかった配列から x本を無作為抽出し、それ以外をデータ
ベースから抹消3. 1 の配列を 2 のデータベースを用いて QCauto 法で同定
x 個体のバーコード配列がデータベースにある状況をシミュレート
まとめ
● メタバーコーディングで水中の生物相把握が簡単になる…多分● メタバーコーディングで新種探索が迅速化できる● 配列クラスタリングのアルゴリズムに注意が必要● 読み間違いやキメラはプログラムでは完全には除去できない● 配列未登録種がある場合は QCauto 法で同定するのが安全● 分子同定用配列データベースは極めて不十分● 昆虫では 1 種当たり 15個体の登録が必要● 脊椎動物は全種記載の上で全種各 1個体の登録がよい● 動植物プランクトンに関しては未検討
NN-centric auto-k-NN method1.最近隣配列 (A) を探し出して変異量 (DQA) を算出2.DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る
A
DQA問い合わせ配列
配列空間
B
NN-centric auto-k-NN method1.最近隣配列 (A) を探し出して変異量 (DQA) を算出2.DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3.DAN≤DABを満たす全ての配列 (N) を得る
A
DAB
B
N
N
N問い合わせ配列
配列空間
NN-centric auto-k-NN method1.最近隣配列 (A) を探し出して変異量 (DQA) を算出2.DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3.DAN≤DABを満たす全ての配列 (N) を得る4. A, B, N の全配列で共通する分類群を採用
A
DAB
B
N
N
N問い合わせ配列
配列空間
NN-centric auto-k-NN method1.最近隣配列 (A) を探し出して変異量 (DQA) を算出2.DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3.DAN≤DABを満たす全ての配列 (N) を得る4. A, B, N の全配列で共通する分類群を採用
A
DAB
B
N
N
N問い合わせ配列
配列空間
問い合わせ配列と最近隣配列間の変異量
DQA
DAB
同定結果分類群内の最大変異量<
≤=
誤同定の要因
● 見かけ上の誤同定● 問い合わせ配列の同定情報が間違っている● 既知配列の同定情報が間違っている● 分類体系が系統関係を反映していない
● 本当の誤同定● バーコード領域が incomplete lineage sorting や浸透交雑・水平伝播によって種の系統関係を反映していない
● 変異量の指標 (BLAST raw score) が不適● 規準が不適
全分類群全遺伝子座での LOOCV 結果
correctly identified incorrectly identified cannot identified but incorrectly identified at higher-level cannot identified
属レベルが最も誤同定が多い
属レベルで誤同定が多いのは何故か ?
● 種を記載するとき、無理にでも属は指定する必要がある
● 系統関係と整合的でない分類群が属で設立されやすいのでは ?● 正しくない属に入れられてしまう種も多いのでは ?
誤同定の要因
● 見かけ上の誤同定● 問い合わせ配列の同定情報が間違っている● 既知配列の同定情報が間違っている● 分類体系が系統関係を反映していない
● 本当の誤同定● バーコード領域が incomplete lineage sorting や浸透交雑・水平伝播によって種の系統関係を反映していない
● 変異量の指標 (BLAST raw score) が不適● 規準が不適
「属レベルが最も誤同定が多い」のは、これが多いことを示している ?
複数の同定結果を優先順位を付けて統合する
● 複数の既知配列データベースでの同定結果● 種以下まで情報がある既知配列のみのデータベースでの同定結果● 科以下まで情報がある既知配列のみのデータベースでの同定結果
● 厳しい制約下の同定結果と制約を緩めた同定結果● 類似配列の厳密一致分類群を採用した同定結果● 類似配列の 90% 多数決合意分類群を採用した同定結果
● 複数の遺伝子座での同定結果● 遺伝子座 A の配列での同定結果● 遺伝子座 Bの配列での同定結果
優先度 綱 目 科 属 種
高 哺乳綱 霊長目 ヒト科
低 哺乳綱 霊長目 ヒト科 ヒト属 ヒト
複数の同定結果を優先順位を付けて統合する
綱 目 科 属 種
統合結果 哺乳綱 霊長目 ヒト科 ヒト属 ヒト
優先度 綱 目 科 属 種
高 哺乳綱 霊長目 ヒト科 ゴリラ属 ゴリラ
低 哺乳綱 霊長目 ヒト科 ヒト属 ヒト
複数の同定結果を優先順位を付けて統合する
綱 目 科 属 種
統合結果 哺乳綱 霊長目 ヒト科 ゴリラ属 ゴリラ
優先度 綱 目 科 属 種
同 哺乳綱 霊長目 ヒト科 ゴリラ属 ゴリラ
同 哺乳綱 霊長目 ヒト科 ヒト属 ヒト
複数の同定結果を優先順位を付けて統合する
綱 目 科 属 種
統合結果 哺乳綱 霊長目 ヒト科
優先度 綱 目 科 属 種
同 哺乳綱 霊長目 ヒト科 ゴリラ属 ゴリラ
同 哺乳綱 霊長目 ヒト科 ヒト属
複数の同定結果を優先順位を付けて統合する
綱 目 科 属 種
統合結果 哺乳綱 霊長目 ヒト科 ゴリラ属 ゴリラ
動物 COX1 での no-LOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
動物 COX1 での LOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
細菌 16S での no-LOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
細菌 16S での LOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
真菌 ITS での no-LOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
真菌 ITS での LOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
植物 matK での no-LOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
植物 matK での LOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
植物 rbcL での no-LOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
植物 rbcL での LOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
植物 trnH-psbA での LOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
従来法との比較 2 Leave-One-Order-Out CV
human ACATAGC…
無作為に1 本抜く
human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…
DNA データベース
従来法との比較 2 Leave-One-Order-Out CV
human ACATAGC…
無作為に1 本抜く
human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…
cow TACGTCT…cat GCTGTGT…
DNA データベース 1目の全配列欠損した DNA データベース
従来法との比較 2 Leave-One-Order-Out CV
human ACATAGC…
human の DNA を右のデータベースを使ってプログラムで同定して正解かどうかを調べる
無作為に1 本抜く
human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…
cow TACGTCT…cat GCTGTGT…
DNA データベース 1目の全配列欠損した DNA データベース
従来法との比較 2 Leave-One-Order-Out CV
human ACATAGC…
human の DNA を右のデータベースを使ってプログラムで同定して正解かどうかを調べる
無作為に1 本抜く
human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…
cow TACGTCT…cat GCTGTGT…
抜き取った DNA の「目」はプログラムからは未知のものになる
DNA データベース 1目の全配列欠損した DNA データベース
動物・植物・真菌・細菌での LOOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
動物・植物・真菌・細菌での LOOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentifiedphylum, class では5NN, NNC, QCはよく似た結果
動物・植物・真菌・細菌での LOOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
「既知の綱の未知の目」と正しく判定できた件数は
QC>>NNC>>5NN