160817 ismb2016読み会
TRANSCRIPT
Prediction of ribosome footprint profile shapesfrom transcript sequences
20160816 ISMB2016 読み会
尾崎遼(理化学研究所 情報基盤センター バイオインフォマティクス研究開発ユニット)
Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
ざっくりしたまとめこの論文は
mRNA 上のリボソームの分布( 翻訳速度)を≒ mRNA 配列のみから予測する方法を提案した周辺のコドンが予測に重要ということを明らかにした
なぜ ISMB に通ったか 翻訳をテーマにしたから予測問題を提案したから
2Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
Ribosome profilingmRNA 上でのリボソームの分布がわかる
分布の多寡から局所的な翻訳速度を推測できる
3Ingolia N T (2014) Ribosome profiling new views of translation from single codons to genome scale Nature Reviews Genetics 15(3) 205-213
先行研究との差分
先行研究 翻訳速度に影響を与える 関連する因子を提案確認eg コドン使用頻度 tRNA 分子の存在量 wobble のあるコドン mRNA の二次構造新生ポリペプチド鎖の塩基性アミノ酸プロリンリッチモチーフ
本論文 「 mRNA 配列から Ribosome profiling データを予測する」という問題設定を提示Ribosome の分布が mRNA 上の各位置のコドンだけでなく周辺のコドンの影響を受けることを明らかにした
4Ingolia N T (2014) Ribosome profiling new views of translation from single codons to genome scale Nature Reviews Genetics 15(3) 205-213
予測モデルLASSO スパースな線形回帰
説明変数 mRNA のコドン列被説明変数 Ribosome の分布正則化パラメータ (λ) cross validation で MSE 最小になるよう選んだ
5Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
説明変数(コドン)
6
Kernel smoothing 後のコドン分布
mRNA 上の位置 x ごとのコドン
Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
Symmetric kernel Asymmetric kernel (5rsquo 側 3rsquo 側に尾を引く形 ) をそれぞれ試した
被説明変数( Ribosome の分布)の準備
7
Ribosome の A-site の確率分布
Ribosome 分布のウェーブレット分解
ウェーブレット分解した各部分空間に射影された確率分布を被説明変数とする
Ribosome profiling のタグ数の分布( mRNA 上の位置ごとのタグ数)
Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
検証方法データ
S cerevisiae の Ribosome profiling データ学習の方法
遺伝子( ~3700 )を mRNA の長さ(コドン数)で5群に分け群ごとに予測90 の遺伝子を訓練用残りを検証用とした(これを 10 回くりかえして予測結果とした)
検証方法mRNA 上の ribosome 分布の予測と実測のピアソン相関係数
8
検証結果 (Table2 の一部 )
Kernel smoothing した方が相関係数が高い rarr 周辺のコドンの情報が予測に有効Asymmetric kernel の方が高い rarr Ribosome の移動に方向性があることを反映 ()
9Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
Kernel smoothingなし
Symmetric kernelAsymmetric kernel
結果 どんなコドンが変数選択されたか
CGA (arginine) CGG (arginine) の係数が大きかった rarr 先行研究の知見と一致
10Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
lt=1113093250 codons in the space V3
Ribosome の分布が高い領域に濃縮するコドンはよく変数選択されていた
ディスカッション
二次構造などを考慮していない点について二次構造も説明変数として重要実際相関係数が低かった mRNA では予測と実測の差と PARS score の間に弱い正の相関 (r=00446) があった(がほぼ相関ない気もする)二次構造やコドン使用頻度は sequence context に依存する(ちょっとよくわからなかった)
データのテクニカルなバイアスについてライブラリ作成にバイアスがある(と述べているが特に考慮していない)
11
感想手法について
データのバイアスが考慮されていない( Ribosome profiling がどれだけ生命現象を反映しているか)一次配列や二次構造が考慮されていない解釈しづらい(が予測が目的ならよい)ウェーブレット分解したうちどの予測結果を使えばいいのかわからないカーネルのバンド幅( ~ 周辺のコドンをどこまでみるか)についての議論がなかったモデルの評価について
Kernel smoothing を使わないときより使った方が使えるパラメタが多いので相関係数が高くなるのは当たり前な気もするディスカッションについて
適当感ある
12
なぜ ISMB に採択されたか翻訳をテーマにした
本論文のカテゴリは GENE PROTEIN SEQUENCE ANALYSIS転写に比べて翻訳はアプローチしづらかった(タイムリーな) Ribosome profiling のデータを用いた周辺のコドンの重要性を示した
単にコドン使用頻度だけを考慮するだけでは足りない予測問題を提案した rarr 様々な応用につながる
分子生物学 異なる条件(栄養阻害剤など)のデータでの予測とのずれから翻訳に関連する未知の因子を探索生物工学合成生物学 翻訳速度を高めた遺伝子配列を設計
13
- Prediction of ribosome footprint profile shapes from transcrip
- ざっくりしたまとめ
- Ribosome profiling
- 先行研究との差分
- 予測モデル
- 説明変数(コドン)
- 被説明変数(Ribosomeの分布)の準備
- 検証方法
- 検証結果 (Table2の一部)
- 結果 どんなコドンが変数選択されたか
- ディスカッション
- 感想
- なぜISMBに採択されたか
-
ざっくりしたまとめこの論文は
mRNA 上のリボソームの分布( 翻訳速度)を≒ mRNA 配列のみから予測する方法を提案した周辺のコドンが予測に重要ということを明らかにした
なぜ ISMB に通ったか 翻訳をテーマにしたから予測問題を提案したから
2Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
Ribosome profilingmRNA 上でのリボソームの分布がわかる
分布の多寡から局所的な翻訳速度を推測できる
3Ingolia N T (2014) Ribosome profiling new views of translation from single codons to genome scale Nature Reviews Genetics 15(3) 205-213
先行研究との差分
先行研究 翻訳速度に影響を与える 関連する因子を提案確認eg コドン使用頻度 tRNA 分子の存在量 wobble のあるコドン mRNA の二次構造新生ポリペプチド鎖の塩基性アミノ酸プロリンリッチモチーフ
本論文 「 mRNA 配列から Ribosome profiling データを予測する」という問題設定を提示Ribosome の分布が mRNA 上の各位置のコドンだけでなく周辺のコドンの影響を受けることを明らかにした
4Ingolia N T (2014) Ribosome profiling new views of translation from single codons to genome scale Nature Reviews Genetics 15(3) 205-213
予測モデルLASSO スパースな線形回帰
説明変数 mRNA のコドン列被説明変数 Ribosome の分布正則化パラメータ (λ) cross validation で MSE 最小になるよう選んだ
5Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
説明変数(コドン)
6
Kernel smoothing 後のコドン分布
mRNA 上の位置 x ごとのコドン
Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
Symmetric kernel Asymmetric kernel (5rsquo 側 3rsquo 側に尾を引く形 ) をそれぞれ試した
被説明変数( Ribosome の分布)の準備
7
Ribosome の A-site の確率分布
Ribosome 分布のウェーブレット分解
ウェーブレット分解した各部分空間に射影された確率分布を被説明変数とする
Ribosome profiling のタグ数の分布( mRNA 上の位置ごとのタグ数)
Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
検証方法データ
S cerevisiae の Ribosome profiling データ学習の方法
遺伝子( ~3700 )を mRNA の長さ(コドン数)で5群に分け群ごとに予測90 の遺伝子を訓練用残りを検証用とした(これを 10 回くりかえして予測結果とした)
検証方法mRNA 上の ribosome 分布の予測と実測のピアソン相関係数
8
検証結果 (Table2 の一部 )
Kernel smoothing した方が相関係数が高い rarr 周辺のコドンの情報が予測に有効Asymmetric kernel の方が高い rarr Ribosome の移動に方向性があることを反映 ()
9Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
Kernel smoothingなし
Symmetric kernelAsymmetric kernel
結果 どんなコドンが変数選択されたか
CGA (arginine) CGG (arginine) の係数が大きかった rarr 先行研究の知見と一致
10Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
lt=1113093250 codons in the space V3
Ribosome の分布が高い領域に濃縮するコドンはよく変数選択されていた
ディスカッション
二次構造などを考慮していない点について二次構造も説明変数として重要実際相関係数が低かった mRNA では予測と実測の差と PARS score の間に弱い正の相関 (r=00446) があった(がほぼ相関ない気もする)二次構造やコドン使用頻度は sequence context に依存する(ちょっとよくわからなかった)
データのテクニカルなバイアスについてライブラリ作成にバイアスがある(と述べているが特に考慮していない)
11
感想手法について
データのバイアスが考慮されていない( Ribosome profiling がどれだけ生命現象を反映しているか)一次配列や二次構造が考慮されていない解釈しづらい(が予測が目的ならよい)ウェーブレット分解したうちどの予測結果を使えばいいのかわからないカーネルのバンド幅( ~ 周辺のコドンをどこまでみるか)についての議論がなかったモデルの評価について
Kernel smoothing を使わないときより使った方が使えるパラメタが多いので相関係数が高くなるのは当たり前な気もするディスカッションについて
適当感ある
12
なぜ ISMB に採択されたか翻訳をテーマにした
本論文のカテゴリは GENE PROTEIN SEQUENCE ANALYSIS転写に比べて翻訳はアプローチしづらかった(タイムリーな) Ribosome profiling のデータを用いた周辺のコドンの重要性を示した
単にコドン使用頻度だけを考慮するだけでは足りない予測問題を提案した rarr 様々な応用につながる
分子生物学 異なる条件(栄養阻害剤など)のデータでの予測とのずれから翻訳に関連する未知の因子を探索生物工学合成生物学 翻訳速度を高めた遺伝子配列を設計
13
- Prediction of ribosome footprint profile shapes from transcrip
- ざっくりしたまとめ
- Ribosome profiling
- 先行研究との差分
- 予測モデル
- 説明変数(コドン)
- 被説明変数(Ribosomeの分布)の準備
- 検証方法
- 検証結果 (Table2の一部)
- 結果 どんなコドンが変数選択されたか
- ディスカッション
- 感想
- なぜISMBに採択されたか
-
Ribosome profilingmRNA 上でのリボソームの分布がわかる
分布の多寡から局所的な翻訳速度を推測できる
3Ingolia N T (2014) Ribosome profiling new views of translation from single codons to genome scale Nature Reviews Genetics 15(3) 205-213
先行研究との差分
先行研究 翻訳速度に影響を与える 関連する因子を提案確認eg コドン使用頻度 tRNA 分子の存在量 wobble のあるコドン mRNA の二次構造新生ポリペプチド鎖の塩基性アミノ酸プロリンリッチモチーフ
本論文 「 mRNA 配列から Ribosome profiling データを予測する」という問題設定を提示Ribosome の分布が mRNA 上の各位置のコドンだけでなく周辺のコドンの影響を受けることを明らかにした
4Ingolia N T (2014) Ribosome profiling new views of translation from single codons to genome scale Nature Reviews Genetics 15(3) 205-213
予測モデルLASSO スパースな線形回帰
説明変数 mRNA のコドン列被説明変数 Ribosome の分布正則化パラメータ (λ) cross validation で MSE 最小になるよう選んだ
5Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
説明変数(コドン)
6
Kernel smoothing 後のコドン分布
mRNA 上の位置 x ごとのコドン
Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
Symmetric kernel Asymmetric kernel (5rsquo 側 3rsquo 側に尾を引く形 ) をそれぞれ試した
被説明変数( Ribosome の分布)の準備
7
Ribosome の A-site の確率分布
Ribosome 分布のウェーブレット分解
ウェーブレット分解した各部分空間に射影された確率分布を被説明変数とする
Ribosome profiling のタグ数の分布( mRNA 上の位置ごとのタグ数)
Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
検証方法データ
S cerevisiae の Ribosome profiling データ学習の方法
遺伝子( ~3700 )を mRNA の長さ(コドン数)で5群に分け群ごとに予測90 の遺伝子を訓練用残りを検証用とした(これを 10 回くりかえして予測結果とした)
検証方法mRNA 上の ribosome 分布の予測と実測のピアソン相関係数
8
検証結果 (Table2 の一部 )
Kernel smoothing した方が相関係数が高い rarr 周辺のコドンの情報が予測に有効Asymmetric kernel の方が高い rarr Ribosome の移動に方向性があることを反映 ()
9Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
Kernel smoothingなし
Symmetric kernelAsymmetric kernel
結果 どんなコドンが変数選択されたか
CGA (arginine) CGG (arginine) の係数が大きかった rarr 先行研究の知見と一致
10Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
lt=1113093250 codons in the space V3
Ribosome の分布が高い領域に濃縮するコドンはよく変数選択されていた
ディスカッション
二次構造などを考慮していない点について二次構造も説明変数として重要実際相関係数が低かった mRNA では予測と実測の差と PARS score の間に弱い正の相関 (r=00446) があった(がほぼ相関ない気もする)二次構造やコドン使用頻度は sequence context に依存する(ちょっとよくわからなかった)
データのテクニカルなバイアスについてライブラリ作成にバイアスがある(と述べているが特に考慮していない)
11
感想手法について
データのバイアスが考慮されていない( Ribosome profiling がどれだけ生命現象を反映しているか)一次配列や二次構造が考慮されていない解釈しづらい(が予測が目的ならよい)ウェーブレット分解したうちどの予測結果を使えばいいのかわからないカーネルのバンド幅( ~ 周辺のコドンをどこまでみるか)についての議論がなかったモデルの評価について
Kernel smoothing を使わないときより使った方が使えるパラメタが多いので相関係数が高くなるのは当たり前な気もするディスカッションについて
適当感ある
12
なぜ ISMB に採択されたか翻訳をテーマにした
本論文のカテゴリは GENE PROTEIN SEQUENCE ANALYSIS転写に比べて翻訳はアプローチしづらかった(タイムリーな) Ribosome profiling のデータを用いた周辺のコドンの重要性を示した
単にコドン使用頻度だけを考慮するだけでは足りない予測問題を提案した rarr 様々な応用につながる
分子生物学 異なる条件(栄養阻害剤など)のデータでの予測とのずれから翻訳に関連する未知の因子を探索生物工学合成生物学 翻訳速度を高めた遺伝子配列を設計
13
- Prediction of ribosome footprint profile shapes from transcrip
- ざっくりしたまとめ
- Ribosome profiling
- 先行研究との差分
- 予測モデル
- 説明変数(コドン)
- 被説明変数(Ribosomeの分布)の準備
- 検証方法
- 検証結果 (Table2の一部)
- 結果 どんなコドンが変数選択されたか
- ディスカッション
- 感想
- なぜISMBに採択されたか
-
先行研究との差分
先行研究 翻訳速度に影響を与える 関連する因子を提案確認eg コドン使用頻度 tRNA 分子の存在量 wobble のあるコドン mRNA の二次構造新生ポリペプチド鎖の塩基性アミノ酸プロリンリッチモチーフ
本論文 「 mRNA 配列から Ribosome profiling データを予測する」という問題設定を提示Ribosome の分布が mRNA 上の各位置のコドンだけでなく周辺のコドンの影響を受けることを明らかにした
4Ingolia N T (2014) Ribosome profiling new views of translation from single codons to genome scale Nature Reviews Genetics 15(3) 205-213
予測モデルLASSO スパースな線形回帰
説明変数 mRNA のコドン列被説明変数 Ribosome の分布正則化パラメータ (λ) cross validation で MSE 最小になるよう選んだ
5Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
説明変数(コドン)
6
Kernel smoothing 後のコドン分布
mRNA 上の位置 x ごとのコドン
Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
Symmetric kernel Asymmetric kernel (5rsquo 側 3rsquo 側に尾を引く形 ) をそれぞれ試した
被説明変数( Ribosome の分布)の準備
7
Ribosome の A-site の確率分布
Ribosome 分布のウェーブレット分解
ウェーブレット分解した各部分空間に射影された確率分布を被説明変数とする
Ribosome profiling のタグ数の分布( mRNA 上の位置ごとのタグ数)
Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
検証方法データ
S cerevisiae の Ribosome profiling データ学習の方法
遺伝子( ~3700 )を mRNA の長さ(コドン数)で5群に分け群ごとに予測90 の遺伝子を訓練用残りを検証用とした(これを 10 回くりかえして予測結果とした)
検証方法mRNA 上の ribosome 分布の予測と実測のピアソン相関係数
8
検証結果 (Table2 の一部 )
Kernel smoothing した方が相関係数が高い rarr 周辺のコドンの情報が予測に有効Asymmetric kernel の方が高い rarr Ribosome の移動に方向性があることを反映 ()
9Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
Kernel smoothingなし
Symmetric kernelAsymmetric kernel
結果 どんなコドンが変数選択されたか
CGA (arginine) CGG (arginine) の係数が大きかった rarr 先行研究の知見と一致
10Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
lt=1113093250 codons in the space V3
Ribosome の分布が高い領域に濃縮するコドンはよく変数選択されていた
ディスカッション
二次構造などを考慮していない点について二次構造も説明変数として重要実際相関係数が低かった mRNA では予測と実測の差と PARS score の間に弱い正の相関 (r=00446) があった(がほぼ相関ない気もする)二次構造やコドン使用頻度は sequence context に依存する(ちょっとよくわからなかった)
データのテクニカルなバイアスについてライブラリ作成にバイアスがある(と述べているが特に考慮していない)
11
感想手法について
データのバイアスが考慮されていない( Ribosome profiling がどれだけ生命現象を反映しているか)一次配列や二次構造が考慮されていない解釈しづらい(が予測が目的ならよい)ウェーブレット分解したうちどの予測結果を使えばいいのかわからないカーネルのバンド幅( ~ 周辺のコドンをどこまでみるか)についての議論がなかったモデルの評価について
Kernel smoothing を使わないときより使った方が使えるパラメタが多いので相関係数が高くなるのは当たり前な気もするディスカッションについて
適当感ある
12
なぜ ISMB に採択されたか翻訳をテーマにした
本論文のカテゴリは GENE PROTEIN SEQUENCE ANALYSIS転写に比べて翻訳はアプローチしづらかった(タイムリーな) Ribosome profiling のデータを用いた周辺のコドンの重要性を示した
単にコドン使用頻度だけを考慮するだけでは足りない予測問題を提案した rarr 様々な応用につながる
分子生物学 異なる条件(栄養阻害剤など)のデータでの予測とのずれから翻訳に関連する未知の因子を探索生物工学合成生物学 翻訳速度を高めた遺伝子配列を設計
13
- Prediction of ribosome footprint profile shapes from transcrip
- ざっくりしたまとめ
- Ribosome profiling
- 先行研究との差分
- 予測モデル
- 説明変数(コドン)
- 被説明変数(Ribosomeの分布)の準備
- 検証方法
- 検証結果 (Table2の一部)
- 結果 どんなコドンが変数選択されたか
- ディスカッション
- 感想
- なぜISMBに採択されたか
-
予測モデルLASSO スパースな線形回帰
説明変数 mRNA のコドン列被説明変数 Ribosome の分布正則化パラメータ (λ) cross validation で MSE 最小になるよう選んだ
5Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
説明変数(コドン)
6
Kernel smoothing 後のコドン分布
mRNA 上の位置 x ごとのコドン
Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
Symmetric kernel Asymmetric kernel (5rsquo 側 3rsquo 側に尾を引く形 ) をそれぞれ試した
被説明変数( Ribosome の分布)の準備
7
Ribosome の A-site の確率分布
Ribosome 分布のウェーブレット分解
ウェーブレット分解した各部分空間に射影された確率分布を被説明変数とする
Ribosome profiling のタグ数の分布( mRNA 上の位置ごとのタグ数)
Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
検証方法データ
S cerevisiae の Ribosome profiling データ学習の方法
遺伝子( ~3700 )を mRNA の長さ(コドン数)で5群に分け群ごとに予測90 の遺伝子を訓練用残りを検証用とした(これを 10 回くりかえして予測結果とした)
検証方法mRNA 上の ribosome 分布の予測と実測のピアソン相関係数
8
検証結果 (Table2 の一部 )
Kernel smoothing した方が相関係数が高い rarr 周辺のコドンの情報が予測に有効Asymmetric kernel の方が高い rarr Ribosome の移動に方向性があることを反映 ()
9Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
Kernel smoothingなし
Symmetric kernelAsymmetric kernel
結果 どんなコドンが変数選択されたか
CGA (arginine) CGG (arginine) の係数が大きかった rarr 先行研究の知見と一致
10Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
lt=1113093250 codons in the space V3
Ribosome の分布が高い領域に濃縮するコドンはよく変数選択されていた
ディスカッション
二次構造などを考慮していない点について二次構造も説明変数として重要実際相関係数が低かった mRNA では予測と実測の差と PARS score の間に弱い正の相関 (r=00446) があった(がほぼ相関ない気もする)二次構造やコドン使用頻度は sequence context に依存する(ちょっとよくわからなかった)
データのテクニカルなバイアスについてライブラリ作成にバイアスがある(と述べているが特に考慮していない)
11
感想手法について
データのバイアスが考慮されていない( Ribosome profiling がどれだけ生命現象を反映しているか)一次配列や二次構造が考慮されていない解釈しづらい(が予測が目的ならよい)ウェーブレット分解したうちどの予測結果を使えばいいのかわからないカーネルのバンド幅( ~ 周辺のコドンをどこまでみるか)についての議論がなかったモデルの評価について
Kernel smoothing を使わないときより使った方が使えるパラメタが多いので相関係数が高くなるのは当たり前な気もするディスカッションについて
適当感ある
12
なぜ ISMB に採択されたか翻訳をテーマにした
本論文のカテゴリは GENE PROTEIN SEQUENCE ANALYSIS転写に比べて翻訳はアプローチしづらかった(タイムリーな) Ribosome profiling のデータを用いた周辺のコドンの重要性を示した
単にコドン使用頻度だけを考慮するだけでは足りない予測問題を提案した rarr 様々な応用につながる
分子生物学 異なる条件(栄養阻害剤など)のデータでの予測とのずれから翻訳に関連する未知の因子を探索生物工学合成生物学 翻訳速度を高めた遺伝子配列を設計
13
- Prediction of ribosome footprint profile shapes from transcrip
- ざっくりしたまとめ
- Ribosome profiling
- 先行研究との差分
- 予測モデル
- 説明変数(コドン)
- 被説明変数(Ribosomeの分布)の準備
- 検証方法
- 検証結果 (Table2の一部)
- 結果 どんなコドンが変数選択されたか
- ディスカッション
- 感想
- なぜISMBに採択されたか
-
説明変数(コドン)
6
Kernel smoothing 後のコドン分布
mRNA 上の位置 x ごとのコドン
Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
Symmetric kernel Asymmetric kernel (5rsquo 側 3rsquo 側に尾を引く形 ) をそれぞれ試した
被説明変数( Ribosome の分布)の準備
7
Ribosome の A-site の確率分布
Ribosome 分布のウェーブレット分解
ウェーブレット分解した各部分空間に射影された確率分布を被説明変数とする
Ribosome profiling のタグ数の分布( mRNA 上の位置ごとのタグ数)
Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
検証方法データ
S cerevisiae の Ribosome profiling データ学習の方法
遺伝子( ~3700 )を mRNA の長さ(コドン数)で5群に分け群ごとに予測90 の遺伝子を訓練用残りを検証用とした(これを 10 回くりかえして予測結果とした)
検証方法mRNA 上の ribosome 分布の予測と実測のピアソン相関係数
8
検証結果 (Table2 の一部 )
Kernel smoothing した方が相関係数が高い rarr 周辺のコドンの情報が予測に有効Asymmetric kernel の方が高い rarr Ribosome の移動に方向性があることを反映 ()
9Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
Kernel smoothingなし
Symmetric kernelAsymmetric kernel
結果 どんなコドンが変数選択されたか
CGA (arginine) CGG (arginine) の係数が大きかった rarr 先行研究の知見と一致
10Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
lt=1113093250 codons in the space V3
Ribosome の分布が高い領域に濃縮するコドンはよく変数選択されていた
ディスカッション
二次構造などを考慮していない点について二次構造も説明変数として重要実際相関係数が低かった mRNA では予測と実測の差と PARS score の間に弱い正の相関 (r=00446) があった(がほぼ相関ない気もする)二次構造やコドン使用頻度は sequence context に依存する(ちょっとよくわからなかった)
データのテクニカルなバイアスについてライブラリ作成にバイアスがある(と述べているが特に考慮していない)
11
感想手法について
データのバイアスが考慮されていない( Ribosome profiling がどれだけ生命現象を反映しているか)一次配列や二次構造が考慮されていない解釈しづらい(が予測が目的ならよい)ウェーブレット分解したうちどの予測結果を使えばいいのかわからないカーネルのバンド幅( ~ 周辺のコドンをどこまでみるか)についての議論がなかったモデルの評価について
Kernel smoothing を使わないときより使った方が使えるパラメタが多いので相関係数が高くなるのは当たり前な気もするディスカッションについて
適当感ある
12
なぜ ISMB に採択されたか翻訳をテーマにした
本論文のカテゴリは GENE PROTEIN SEQUENCE ANALYSIS転写に比べて翻訳はアプローチしづらかった(タイムリーな) Ribosome profiling のデータを用いた周辺のコドンの重要性を示した
単にコドン使用頻度だけを考慮するだけでは足りない予測問題を提案した rarr 様々な応用につながる
分子生物学 異なる条件(栄養阻害剤など)のデータでの予測とのずれから翻訳に関連する未知の因子を探索生物工学合成生物学 翻訳速度を高めた遺伝子配列を設計
13
- Prediction of ribosome footprint profile shapes from transcrip
- ざっくりしたまとめ
- Ribosome profiling
- 先行研究との差分
- 予測モデル
- 説明変数(コドン)
- 被説明変数(Ribosomeの分布)の準備
- 検証方法
- 検証結果 (Table2の一部)
- 結果 どんなコドンが変数選択されたか
- ディスカッション
- 感想
- なぜISMBに採択されたか
-
被説明変数( Ribosome の分布)の準備
7
Ribosome の A-site の確率分布
Ribosome 分布のウェーブレット分解
ウェーブレット分解した各部分空間に射影された確率分布を被説明変数とする
Ribosome profiling のタグ数の分布( mRNA 上の位置ごとのタグ数)
Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
検証方法データ
S cerevisiae の Ribosome profiling データ学習の方法
遺伝子( ~3700 )を mRNA の長さ(コドン数)で5群に分け群ごとに予測90 の遺伝子を訓練用残りを検証用とした(これを 10 回くりかえして予測結果とした)
検証方法mRNA 上の ribosome 分布の予測と実測のピアソン相関係数
8
検証結果 (Table2 の一部 )
Kernel smoothing した方が相関係数が高い rarr 周辺のコドンの情報が予測に有効Asymmetric kernel の方が高い rarr Ribosome の移動に方向性があることを反映 ()
9Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
Kernel smoothingなし
Symmetric kernelAsymmetric kernel
結果 どんなコドンが変数選択されたか
CGA (arginine) CGG (arginine) の係数が大きかった rarr 先行研究の知見と一致
10Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
lt=1113093250 codons in the space V3
Ribosome の分布が高い領域に濃縮するコドンはよく変数選択されていた
ディスカッション
二次構造などを考慮していない点について二次構造も説明変数として重要実際相関係数が低かった mRNA では予測と実測の差と PARS score の間に弱い正の相関 (r=00446) があった(がほぼ相関ない気もする)二次構造やコドン使用頻度は sequence context に依存する(ちょっとよくわからなかった)
データのテクニカルなバイアスについてライブラリ作成にバイアスがある(と述べているが特に考慮していない)
11
感想手法について
データのバイアスが考慮されていない( Ribosome profiling がどれだけ生命現象を反映しているか)一次配列や二次構造が考慮されていない解釈しづらい(が予測が目的ならよい)ウェーブレット分解したうちどの予測結果を使えばいいのかわからないカーネルのバンド幅( ~ 周辺のコドンをどこまでみるか)についての議論がなかったモデルの評価について
Kernel smoothing を使わないときより使った方が使えるパラメタが多いので相関係数が高くなるのは当たり前な気もするディスカッションについて
適当感ある
12
なぜ ISMB に採択されたか翻訳をテーマにした
本論文のカテゴリは GENE PROTEIN SEQUENCE ANALYSIS転写に比べて翻訳はアプローチしづらかった(タイムリーな) Ribosome profiling のデータを用いた周辺のコドンの重要性を示した
単にコドン使用頻度だけを考慮するだけでは足りない予測問題を提案した rarr 様々な応用につながる
分子生物学 異なる条件(栄養阻害剤など)のデータでの予測とのずれから翻訳に関連する未知の因子を探索生物工学合成生物学 翻訳速度を高めた遺伝子配列を設計
13
- Prediction of ribosome footprint profile shapes from transcrip
- ざっくりしたまとめ
- Ribosome profiling
- 先行研究との差分
- 予測モデル
- 説明変数(コドン)
- 被説明変数(Ribosomeの分布)の準備
- 検証方法
- 検証結果 (Table2の一部)
- 結果 どんなコドンが変数選択されたか
- ディスカッション
- 感想
- なぜISMBに採択されたか
-
検証方法データ
S cerevisiae の Ribosome profiling データ学習の方法
遺伝子( ~3700 )を mRNA の長さ(コドン数)で5群に分け群ごとに予測90 の遺伝子を訓練用残りを検証用とした(これを 10 回くりかえして予測結果とした)
検証方法mRNA 上の ribosome 分布の予測と実測のピアソン相関係数
8
検証結果 (Table2 の一部 )
Kernel smoothing した方が相関係数が高い rarr 周辺のコドンの情報が予測に有効Asymmetric kernel の方が高い rarr Ribosome の移動に方向性があることを反映 ()
9Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
Kernel smoothingなし
Symmetric kernelAsymmetric kernel
結果 どんなコドンが変数選択されたか
CGA (arginine) CGG (arginine) の係数が大きかった rarr 先行研究の知見と一致
10Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
lt=1113093250 codons in the space V3
Ribosome の分布が高い領域に濃縮するコドンはよく変数選択されていた
ディスカッション
二次構造などを考慮していない点について二次構造も説明変数として重要実際相関係数が低かった mRNA では予測と実測の差と PARS score の間に弱い正の相関 (r=00446) があった(がほぼ相関ない気もする)二次構造やコドン使用頻度は sequence context に依存する(ちょっとよくわからなかった)
データのテクニカルなバイアスについてライブラリ作成にバイアスがある(と述べているが特に考慮していない)
11
感想手法について
データのバイアスが考慮されていない( Ribosome profiling がどれだけ生命現象を反映しているか)一次配列や二次構造が考慮されていない解釈しづらい(が予測が目的ならよい)ウェーブレット分解したうちどの予測結果を使えばいいのかわからないカーネルのバンド幅( ~ 周辺のコドンをどこまでみるか)についての議論がなかったモデルの評価について
Kernel smoothing を使わないときより使った方が使えるパラメタが多いので相関係数が高くなるのは当たり前な気もするディスカッションについて
適当感ある
12
なぜ ISMB に採択されたか翻訳をテーマにした
本論文のカテゴリは GENE PROTEIN SEQUENCE ANALYSIS転写に比べて翻訳はアプローチしづらかった(タイムリーな) Ribosome profiling のデータを用いた周辺のコドンの重要性を示した
単にコドン使用頻度だけを考慮するだけでは足りない予測問題を提案した rarr 様々な応用につながる
分子生物学 異なる条件(栄養阻害剤など)のデータでの予測とのずれから翻訳に関連する未知の因子を探索生物工学合成生物学 翻訳速度を高めた遺伝子配列を設計
13
- Prediction of ribosome footprint profile shapes from transcrip
- ざっくりしたまとめ
- Ribosome profiling
- 先行研究との差分
- 予測モデル
- 説明変数(コドン)
- 被説明変数(Ribosomeの分布)の準備
- 検証方法
- 検証結果 (Table2の一部)
- 結果 どんなコドンが変数選択されたか
- ディスカッション
- 感想
- なぜISMBに採択されたか
-
検証結果 (Table2 の一部 )
Kernel smoothing した方が相関係数が高い rarr 周辺のコドンの情報が予測に有効Asymmetric kernel の方が高い rarr Ribosome の移動に方向性があることを反映 ()
9Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
Kernel smoothingなし
Symmetric kernelAsymmetric kernel
結果 どんなコドンが変数選択されたか
CGA (arginine) CGG (arginine) の係数が大きかった rarr 先行研究の知見と一致
10Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
lt=1113093250 codons in the space V3
Ribosome の分布が高い領域に濃縮するコドンはよく変数選択されていた
ディスカッション
二次構造などを考慮していない点について二次構造も説明変数として重要実際相関係数が低かった mRNA では予測と実測の差と PARS score の間に弱い正の相関 (r=00446) があった(がほぼ相関ない気もする)二次構造やコドン使用頻度は sequence context に依存する(ちょっとよくわからなかった)
データのテクニカルなバイアスについてライブラリ作成にバイアスがある(と述べているが特に考慮していない)
11
感想手法について
データのバイアスが考慮されていない( Ribosome profiling がどれだけ生命現象を反映しているか)一次配列や二次構造が考慮されていない解釈しづらい(が予測が目的ならよい)ウェーブレット分解したうちどの予測結果を使えばいいのかわからないカーネルのバンド幅( ~ 周辺のコドンをどこまでみるか)についての議論がなかったモデルの評価について
Kernel smoothing を使わないときより使った方が使えるパラメタが多いので相関係数が高くなるのは当たり前な気もするディスカッションについて
適当感ある
12
なぜ ISMB に採択されたか翻訳をテーマにした
本論文のカテゴリは GENE PROTEIN SEQUENCE ANALYSIS転写に比べて翻訳はアプローチしづらかった(タイムリーな) Ribosome profiling のデータを用いた周辺のコドンの重要性を示した
単にコドン使用頻度だけを考慮するだけでは足りない予測問題を提案した rarr 様々な応用につながる
分子生物学 異なる条件(栄養阻害剤など)のデータでの予測とのずれから翻訳に関連する未知の因子を探索生物工学合成生物学 翻訳速度を高めた遺伝子配列を設計
13
- Prediction of ribosome footprint profile shapes from transcrip
- ざっくりしたまとめ
- Ribosome profiling
- 先行研究との差分
- 予測モデル
- 説明変数(コドン)
- 被説明変数(Ribosomeの分布)の準備
- 検証方法
- 検証結果 (Table2の一部)
- 結果 どんなコドンが変数選択されたか
- ディスカッション
- 感想
- なぜISMBに採択されたか
-
結果 どんなコドンが変数選択されたか
CGA (arginine) CGG (arginine) の係数が大きかった rarr 先行研究の知見と一致
10Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191
lt=1113093250 codons in the space V3
Ribosome の分布が高い領域に濃縮するコドンはよく変数選択されていた
ディスカッション
二次構造などを考慮していない点について二次構造も説明変数として重要実際相関係数が低かった mRNA では予測と実測の差と PARS score の間に弱い正の相関 (r=00446) があった(がほぼ相関ない気もする)二次構造やコドン使用頻度は sequence context に依存する(ちょっとよくわからなかった)
データのテクニカルなバイアスについてライブラリ作成にバイアスがある(と述べているが特に考慮していない)
11
感想手法について
データのバイアスが考慮されていない( Ribosome profiling がどれだけ生命現象を反映しているか)一次配列や二次構造が考慮されていない解釈しづらい(が予測が目的ならよい)ウェーブレット分解したうちどの予測結果を使えばいいのかわからないカーネルのバンド幅( ~ 周辺のコドンをどこまでみるか)についての議論がなかったモデルの評価について
Kernel smoothing を使わないときより使った方が使えるパラメタが多いので相関係数が高くなるのは当たり前な気もするディスカッションについて
適当感ある
12
なぜ ISMB に採択されたか翻訳をテーマにした
本論文のカテゴリは GENE PROTEIN SEQUENCE ANALYSIS転写に比べて翻訳はアプローチしづらかった(タイムリーな) Ribosome profiling のデータを用いた周辺のコドンの重要性を示した
単にコドン使用頻度だけを考慮するだけでは足りない予測問題を提案した rarr 様々な応用につながる
分子生物学 異なる条件(栄養阻害剤など)のデータでの予測とのずれから翻訳に関連する未知の因子を探索生物工学合成生物学 翻訳速度を高めた遺伝子配列を設計
13
- Prediction of ribosome footprint profile shapes from transcrip
- ざっくりしたまとめ
- Ribosome profiling
- 先行研究との差分
- 予測モデル
- 説明変数(コドン)
- 被説明変数(Ribosomeの分布)の準備
- 検証方法
- 検証結果 (Table2の一部)
- 結果 どんなコドンが変数選択されたか
- ディスカッション
- 感想
- なぜISMBに採択されたか
-
ディスカッション
二次構造などを考慮していない点について二次構造も説明変数として重要実際相関係数が低かった mRNA では予測と実測の差と PARS score の間に弱い正の相関 (r=00446) があった(がほぼ相関ない気もする)二次構造やコドン使用頻度は sequence context に依存する(ちょっとよくわからなかった)
データのテクニカルなバイアスについてライブラリ作成にバイアスがある(と述べているが特に考慮していない)
11
感想手法について
データのバイアスが考慮されていない( Ribosome profiling がどれだけ生命現象を反映しているか)一次配列や二次構造が考慮されていない解釈しづらい(が予測が目的ならよい)ウェーブレット分解したうちどの予測結果を使えばいいのかわからないカーネルのバンド幅( ~ 周辺のコドンをどこまでみるか)についての議論がなかったモデルの評価について
Kernel smoothing を使わないときより使った方が使えるパラメタが多いので相関係数が高くなるのは当たり前な気もするディスカッションについて
適当感ある
12
なぜ ISMB に採択されたか翻訳をテーマにした
本論文のカテゴリは GENE PROTEIN SEQUENCE ANALYSIS転写に比べて翻訳はアプローチしづらかった(タイムリーな) Ribosome profiling のデータを用いた周辺のコドンの重要性を示した
単にコドン使用頻度だけを考慮するだけでは足りない予測問題を提案した rarr 様々な応用につながる
分子生物学 異なる条件(栄養阻害剤など)のデータでの予測とのずれから翻訳に関連する未知の因子を探索生物工学合成生物学 翻訳速度を高めた遺伝子配列を設計
13
- Prediction of ribosome footprint profile shapes from transcrip
- ざっくりしたまとめ
- Ribosome profiling
- 先行研究との差分
- 予測モデル
- 説明変数(コドン)
- 被説明変数(Ribosomeの分布)の準備
- 検証方法
- 検証結果 (Table2の一部)
- 結果 どんなコドンが変数選択されたか
- ディスカッション
- 感想
- なぜISMBに採択されたか
-
感想手法について
データのバイアスが考慮されていない( Ribosome profiling がどれだけ生命現象を反映しているか)一次配列や二次構造が考慮されていない解釈しづらい(が予測が目的ならよい)ウェーブレット分解したうちどの予測結果を使えばいいのかわからないカーネルのバンド幅( ~ 周辺のコドンをどこまでみるか)についての議論がなかったモデルの評価について
Kernel smoothing を使わないときより使った方が使えるパラメタが多いので相関係数が高くなるのは当たり前な気もするディスカッションについて
適当感ある
12
なぜ ISMB に採択されたか翻訳をテーマにした
本論文のカテゴリは GENE PROTEIN SEQUENCE ANALYSIS転写に比べて翻訳はアプローチしづらかった(タイムリーな) Ribosome profiling のデータを用いた周辺のコドンの重要性を示した
単にコドン使用頻度だけを考慮するだけでは足りない予測問題を提案した rarr 様々な応用につながる
分子生物学 異なる条件(栄養阻害剤など)のデータでの予測とのずれから翻訳に関連する未知の因子を探索生物工学合成生物学 翻訳速度を高めた遺伝子配列を設計
13
- Prediction of ribosome footprint profile shapes from transcrip
- ざっくりしたまとめ
- Ribosome profiling
- 先行研究との差分
- 予測モデル
- 説明変数(コドン)
- 被説明変数(Ribosomeの分布)の準備
- 検証方法
- 検証結果 (Table2の一部)
- 結果 どんなコドンが変数選択されたか
- ディスカッション
- 感想
- なぜISMBに採択されたか
-
なぜ ISMB に採択されたか翻訳をテーマにした
本論文のカテゴリは GENE PROTEIN SEQUENCE ANALYSIS転写に比べて翻訳はアプローチしづらかった(タイムリーな) Ribosome profiling のデータを用いた周辺のコドンの重要性を示した
単にコドン使用頻度だけを考慮するだけでは足りない予測問題を提案した rarr 様々な応用につながる
分子生物学 異なる条件(栄養阻害剤など)のデータでの予測とのずれから翻訳に関連する未知の因子を探索生物工学合成生物学 翻訳速度を高めた遺伝子配列を設計
13
- Prediction of ribosome footprint profile shapes from transcrip
- ざっくりしたまとめ
- Ribosome profiling
- 先行研究との差分
- 予測モデル
- 説明変数(コドン)
- 被説明変数(Ribosomeの分布)の準備
- 検証方法
- 検証結果 (Table2の一部)
- 結果 どんなコドンが変数選択されたか
- ディスカッション
- 感想
- なぜISMBに採択されたか
-