160817 ismb2016読み会

13
Prediction of ribosome footprint profile shapes from transcript sequences 2016/08/16 ISMB2016 読読読 読読読 読読読読読読 読読読読読読読読 読読読読読読読読読読読読読読読読読読読読 Liu, T. Y., & Song, Y. S. (2016). Prediction of ribosome footprint profile shapes from transcript sequences. Bioinformatics, 32(12), i183-i191.

Upload: haruka-ozaki

Post on 21-Apr-2017

314 views

Category:

Science


2 download

TRANSCRIPT

Page 1: 160817 ISMB2016読み会

Prediction of ribosome footprint profile shapesfrom transcript sequences

20160816 ISMB2016 読み会

尾崎遼(理化学研究所 情報基盤センター バイオインフォマティクス研究開発ユニット)

Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

ざっくりしたまとめこの論文は

mRNA 上のリボソームの分布( 翻訳速度)を≒ mRNA 配列のみから予測する方法を提案した周辺のコドンが予測に重要ということを明らかにした

なぜ ISMB に通ったか 翻訳をテーマにしたから予測問題を提案したから

2Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

Ribosome profilingmRNA 上でのリボソームの分布がわかる

分布の多寡から局所的な翻訳速度を推測できる

3Ingolia N T (2014) Ribosome profiling new views of translation from single codons to genome scale Nature Reviews Genetics 15(3) 205-213

先行研究との差分

先行研究 翻訳速度に影響を与える 関連する因子を提案確認eg コドン使用頻度 tRNA 分子の存在量 wobble のあるコドン mRNA の二次構造新生ポリペプチド鎖の塩基性アミノ酸プロリンリッチモチーフ

本論文 「 mRNA 配列から Ribosome profiling データを予測する」という問題設定を提示Ribosome の分布が mRNA 上の各位置のコドンだけでなく周辺のコドンの影響を受けることを明らかにした

4Ingolia N T (2014) Ribosome profiling new views of translation from single codons to genome scale Nature Reviews Genetics 15(3) 205-213

予測モデルLASSO スパースな線形回帰

説明変数 mRNA のコドン列被説明変数 Ribosome の分布正則化パラメータ (λ) cross validation で MSE 最小になるよう選んだ

5Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

説明変数(コドン)

6

Kernel smoothing 後のコドン分布

mRNA 上の位置 x ごとのコドン

Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

Symmetric kernel Asymmetric kernel (5rsquo 側 3rsquo 側に尾を引く形 ) をそれぞれ試した

被説明変数( Ribosome の分布)の準備

7

Ribosome の A-site の確率分布

Ribosome 分布のウェーブレット分解

ウェーブレット分解した各部分空間に射影された確率分布を被説明変数とする

Ribosome profiling のタグ数の分布( mRNA 上の位置ごとのタグ数)

Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

検証方法データ

S cerevisiae の Ribosome profiling データ学習の方法

遺伝子( ~3700 )を mRNA の長さ(コドン数)で5群に分け群ごとに予測90 の遺伝子を訓練用残りを検証用とした(これを 10 回くりかえして予測結果とした)

検証方法mRNA 上の ribosome 分布の予測と実測のピアソン相関係数

8

検証結果 (Table2 の一部 )

Kernel smoothing した方が相関係数が高い rarr 周辺のコドンの情報が予測に有効Asymmetric kernel の方が高い rarr Ribosome の移動に方向性があることを反映 ()

9Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

Kernel smoothingなし

Symmetric kernelAsymmetric kernel

結果 どんなコドンが変数選択されたか

CGA (arginine) CGG (arginine) の係数が大きかった rarr 先行研究の知見と一致

10Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

lt=1113093250 codons in the space V3

Ribosome の分布が高い領域に濃縮するコドンはよく変数選択されていた

ディスカッション

二次構造などを考慮していない点について二次構造も説明変数として重要実際相関係数が低かった mRNA では予測と実測の差と PARS score の間に弱い正の相関 (r=00446) があった(がほぼ相関ない気もする)二次構造やコドン使用頻度は sequence context に依存する(ちょっとよくわからなかった)

データのテクニカルなバイアスについてライブラリ作成にバイアスがある(と述べているが特に考慮していない)

11

感想手法について

データのバイアスが考慮されていない( Ribosome profiling がどれだけ生命現象を反映しているか)一次配列や二次構造が考慮されていない解釈しづらい(が予測が目的ならよい)ウェーブレット分解したうちどの予測結果を使えばいいのかわからないカーネルのバンド幅( ~ 周辺のコドンをどこまでみるか)についての議論がなかったモデルの評価について

Kernel smoothing を使わないときより使った方が使えるパラメタが多いので相関係数が高くなるのは当たり前な気もするディスカッションについて

適当感ある

12

なぜ ISMB に採択されたか翻訳をテーマにした

本論文のカテゴリは GENE PROTEIN SEQUENCE ANALYSIS転写に比べて翻訳はアプローチしづらかった(タイムリーな) Ribosome profiling のデータを用いた周辺のコドンの重要性を示した

単にコドン使用頻度だけを考慮するだけでは足りない予測問題を提案した rarr 様々な応用につながる

分子生物学 異なる条件(栄養阻害剤など)のデータでの予測とのずれから翻訳に関連する未知の因子を探索生物工学合成生物学 翻訳速度を高めた遺伝子配列を設計

13

  • Prediction of ribosome footprint profile shapes from transcrip
  • ざっくりしたまとめ
  • Ribosome profiling
  • 先行研究との差分
  • 予測モデル
  • 説明変数(コドン)
  • 被説明変数(Ribosomeの分布)の準備
  • 検証方法
  • 検証結果 (Table2の一部)
  • 結果 どんなコドンが変数選択されたか
  • ディスカッション
  • 感想
  • なぜISMBに採択されたか
Page 2: 160817 ISMB2016読み会

ざっくりしたまとめこの論文は

mRNA 上のリボソームの分布( 翻訳速度)を≒ mRNA 配列のみから予測する方法を提案した周辺のコドンが予測に重要ということを明らかにした

なぜ ISMB に通ったか 翻訳をテーマにしたから予測問題を提案したから

2Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

Ribosome profilingmRNA 上でのリボソームの分布がわかる

分布の多寡から局所的な翻訳速度を推測できる

3Ingolia N T (2014) Ribosome profiling new views of translation from single codons to genome scale Nature Reviews Genetics 15(3) 205-213

先行研究との差分

先行研究 翻訳速度に影響を与える 関連する因子を提案確認eg コドン使用頻度 tRNA 分子の存在量 wobble のあるコドン mRNA の二次構造新生ポリペプチド鎖の塩基性アミノ酸プロリンリッチモチーフ

本論文 「 mRNA 配列から Ribosome profiling データを予測する」という問題設定を提示Ribosome の分布が mRNA 上の各位置のコドンだけでなく周辺のコドンの影響を受けることを明らかにした

4Ingolia N T (2014) Ribosome profiling new views of translation from single codons to genome scale Nature Reviews Genetics 15(3) 205-213

予測モデルLASSO スパースな線形回帰

説明変数 mRNA のコドン列被説明変数 Ribosome の分布正則化パラメータ (λ) cross validation で MSE 最小になるよう選んだ

5Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

説明変数(コドン)

6

Kernel smoothing 後のコドン分布

mRNA 上の位置 x ごとのコドン

Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

Symmetric kernel Asymmetric kernel (5rsquo 側 3rsquo 側に尾を引く形 ) をそれぞれ試した

被説明変数( Ribosome の分布)の準備

7

Ribosome の A-site の確率分布

Ribosome 分布のウェーブレット分解

ウェーブレット分解した各部分空間に射影された確率分布を被説明変数とする

Ribosome profiling のタグ数の分布( mRNA 上の位置ごとのタグ数)

Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

検証方法データ

S cerevisiae の Ribosome profiling データ学習の方法

遺伝子( ~3700 )を mRNA の長さ(コドン数)で5群に分け群ごとに予測90 の遺伝子を訓練用残りを検証用とした(これを 10 回くりかえして予測結果とした)

検証方法mRNA 上の ribosome 分布の予測と実測のピアソン相関係数

8

検証結果 (Table2 の一部 )

Kernel smoothing した方が相関係数が高い rarr 周辺のコドンの情報が予測に有効Asymmetric kernel の方が高い rarr Ribosome の移動に方向性があることを反映 ()

9Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

Kernel smoothingなし

Symmetric kernelAsymmetric kernel

結果 どんなコドンが変数選択されたか

CGA (arginine) CGG (arginine) の係数が大きかった rarr 先行研究の知見と一致

10Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

lt=1113093250 codons in the space V3

Ribosome の分布が高い領域に濃縮するコドンはよく変数選択されていた

ディスカッション

二次構造などを考慮していない点について二次構造も説明変数として重要実際相関係数が低かった mRNA では予測と実測の差と PARS score の間に弱い正の相関 (r=00446) があった(がほぼ相関ない気もする)二次構造やコドン使用頻度は sequence context に依存する(ちょっとよくわからなかった)

データのテクニカルなバイアスについてライブラリ作成にバイアスがある(と述べているが特に考慮していない)

11

感想手法について

データのバイアスが考慮されていない( Ribosome profiling がどれだけ生命現象を反映しているか)一次配列や二次構造が考慮されていない解釈しづらい(が予測が目的ならよい)ウェーブレット分解したうちどの予測結果を使えばいいのかわからないカーネルのバンド幅( ~ 周辺のコドンをどこまでみるか)についての議論がなかったモデルの評価について

Kernel smoothing を使わないときより使った方が使えるパラメタが多いので相関係数が高くなるのは当たり前な気もするディスカッションについて

適当感ある

12

なぜ ISMB に採択されたか翻訳をテーマにした

本論文のカテゴリは GENE PROTEIN SEQUENCE ANALYSIS転写に比べて翻訳はアプローチしづらかった(タイムリーな) Ribosome profiling のデータを用いた周辺のコドンの重要性を示した

単にコドン使用頻度だけを考慮するだけでは足りない予測問題を提案した rarr 様々な応用につながる

分子生物学 異なる条件(栄養阻害剤など)のデータでの予測とのずれから翻訳に関連する未知の因子を探索生物工学合成生物学 翻訳速度を高めた遺伝子配列を設計

13

  • Prediction of ribosome footprint profile shapes from transcrip
  • ざっくりしたまとめ
  • Ribosome profiling
  • 先行研究との差分
  • 予測モデル
  • 説明変数(コドン)
  • 被説明変数(Ribosomeの分布)の準備
  • 検証方法
  • 検証結果 (Table2の一部)
  • 結果 どんなコドンが変数選択されたか
  • ディスカッション
  • 感想
  • なぜISMBに採択されたか
Page 3: 160817 ISMB2016読み会

Ribosome profilingmRNA 上でのリボソームの分布がわかる

分布の多寡から局所的な翻訳速度を推測できる

3Ingolia N T (2014) Ribosome profiling new views of translation from single codons to genome scale Nature Reviews Genetics 15(3) 205-213

先行研究との差分

先行研究 翻訳速度に影響を与える 関連する因子を提案確認eg コドン使用頻度 tRNA 分子の存在量 wobble のあるコドン mRNA の二次構造新生ポリペプチド鎖の塩基性アミノ酸プロリンリッチモチーフ

本論文 「 mRNA 配列から Ribosome profiling データを予測する」という問題設定を提示Ribosome の分布が mRNA 上の各位置のコドンだけでなく周辺のコドンの影響を受けることを明らかにした

4Ingolia N T (2014) Ribosome profiling new views of translation from single codons to genome scale Nature Reviews Genetics 15(3) 205-213

予測モデルLASSO スパースな線形回帰

説明変数 mRNA のコドン列被説明変数 Ribosome の分布正則化パラメータ (λ) cross validation で MSE 最小になるよう選んだ

5Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

説明変数(コドン)

6

Kernel smoothing 後のコドン分布

mRNA 上の位置 x ごとのコドン

Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

Symmetric kernel Asymmetric kernel (5rsquo 側 3rsquo 側に尾を引く形 ) をそれぞれ試した

被説明変数( Ribosome の分布)の準備

7

Ribosome の A-site の確率分布

Ribosome 分布のウェーブレット分解

ウェーブレット分解した各部分空間に射影された確率分布を被説明変数とする

Ribosome profiling のタグ数の分布( mRNA 上の位置ごとのタグ数)

Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

検証方法データ

S cerevisiae の Ribosome profiling データ学習の方法

遺伝子( ~3700 )を mRNA の長さ(コドン数)で5群に分け群ごとに予測90 の遺伝子を訓練用残りを検証用とした(これを 10 回くりかえして予測結果とした)

検証方法mRNA 上の ribosome 分布の予測と実測のピアソン相関係数

8

検証結果 (Table2 の一部 )

Kernel smoothing した方が相関係数が高い rarr 周辺のコドンの情報が予測に有効Asymmetric kernel の方が高い rarr Ribosome の移動に方向性があることを反映 ()

9Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

Kernel smoothingなし

Symmetric kernelAsymmetric kernel

結果 どんなコドンが変数選択されたか

CGA (arginine) CGG (arginine) の係数が大きかった rarr 先行研究の知見と一致

10Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

lt=1113093250 codons in the space V3

Ribosome の分布が高い領域に濃縮するコドンはよく変数選択されていた

ディスカッション

二次構造などを考慮していない点について二次構造も説明変数として重要実際相関係数が低かった mRNA では予測と実測の差と PARS score の間に弱い正の相関 (r=00446) があった(がほぼ相関ない気もする)二次構造やコドン使用頻度は sequence context に依存する(ちょっとよくわからなかった)

データのテクニカルなバイアスについてライブラリ作成にバイアスがある(と述べているが特に考慮していない)

11

感想手法について

データのバイアスが考慮されていない( Ribosome profiling がどれだけ生命現象を反映しているか)一次配列や二次構造が考慮されていない解釈しづらい(が予測が目的ならよい)ウェーブレット分解したうちどの予測結果を使えばいいのかわからないカーネルのバンド幅( ~ 周辺のコドンをどこまでみるか)についての議論がなかったモデルの評価について

Kernel smoothing を使わないときより使った方が使えるパラメタが多いので相関係数が高くなるのは当たり前な気もするディスカッションについて

適当感ある

12

なぜ ISMB に採択されたか翻訳をテーマにした

本論文のカテゴリは GENE PROTEIN SEQUENCE ANALYSIS転写に比べて翻訳はアプローチしづらかった(タイムリーな) Ribosome profiling のデータを用いた周辺のコドンの重要性を示した

単にコドン使用頻度だけを考慮するだけでは足りない予測問題を提案した rarr 様々な応用につながる

分子生物学 異なる条件(栄養阻害剤など)のデータでの予測とのずれから翻訳に関連する未知の因子を探索生物工学合成生物学 翻訳速度を高めた遺伝子配列を設計

13

  • Prediction of ribosome footprint profile shapes from transcrip
  • ざっくりしたまとめ
  • Ribosome profiling
  • 先行研究との差分
  • 予測モデル
  • 説明変数(コドン)
  • 被説明変数(Ribosomeの分布)の準備
  • 検証方法
  • 検証結果 (Table2の一部)
  • 結果 どんなコドンが変数選択されたか
  • ディスカッション
  • 感想
  • なぜISMBに採択されたか
Page 4: 160817 ISMB2016読み会

先行研究との差分

先行研究 翻訳速度に影響を与える 関連する因子を提案確認eg コドン使用頻度 tRNA 分子の存在量 wobble のあるコドン mRNA の二次構造新生ポリペプチド鎖の塩基性アミノ酸プロリンリッチモチーフ

本論文 「 mRNA 配列から Ribosome profiling データを予測する」という問題設定を提示Ribosome の分布が mRNA 上の各位置のコドンだけでなく周辺のコドンの影響を受けることを明らかにした

4Ingolia N T (2014) Ribosome profiling new views of translation from single codons to genome scale Nature Reviews Genetics 15(3) 205-213

予測モデルLASSO スパースな線形回帰

説明変数 mRNA のコドン列被説明変数 Ribosome の分布正則化パラメータ (λ) cross validation で MSE 最小になるよう選んだ

5Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

説明変数(コドン)

6

Kernel smoothing 後のコドン分布

mRNA 上の位置 x ごとのコドン

Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

Symmetric kernel Asymmetric kernel (5rsquo 側 3rsquo 側に尾を引く形 ) をそれぞれ試した

被説明変数( Ribosome の分布)の準備

7

Ribosome の A-site の確率分布

Ribosome 分布のウェーブレット分解

ウェーブレット分解した各部分空間に射影された確率分布を被説明変数とする

Ribosome profiling のタグ数の分布( mRNA 上の位置ごとのタグ数)

Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

検証方法データ

S cerevisiae の Ribosome profiling データ学習の方法

遺伝子( ~3700 )を mRNA の長さ(コドン数)で5群に分け群ごとに予測90 の遺伝子を訓練用残りを検証用とした(これを 10 回くりかえして予測結果とした)

検証方法mRNA 上の ribosome 分布の予測と実測のピアソン相関係数

8

検証結果 (Table2 の一部 )

Kernel smoothing した方が相関係数が高い rarr 周辺のコドンの情報が予測に有効Asymmetric kernel の方が高い rarr Ribosome の移動に方向性があることを反映 ()

9Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

Kernel smoothingなし

Symmetric kernelAsymmetric kernel

結果 どんなコドンが変数選択されたか

CGA (arginine) CGG (arginine) の係数が大きかった rarr 先行研究の知見と一致

10Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

lt=1113093250 codons in the space V3

Ribosome の分布が高い領域に濃縮するコドンはよく変数選択されていた

ディスカッション

二次構造などを考慮していない点について二次構造も説明変数として重要実際相関係数が低かった mRNA では予測と実測の差と PARS score の間に弱い正の相関 (r=00446) があった(がほぼ相関ない気もする)二次構造やコドン使用頻度は sequence context に依存する(ちょっとよくわからなかった)

データのテクニカルなバイアスについてライブラリ作成にバイアスがある(と述べているが特に考慮していない)

11

感想手法について

データのバイアスが考慮されていない( Ribosome profiling がどれだけ生命現象を反映しているか)一次配列や二次構造が考慮されていない解釈しづらい(が予測が目的ならよい)ウェーブレット分解したうちどの予測結果を使えばいいのかわからないカーネルのバンド幅( ~ 周辺のコドンをどこまでみるか)についての議論がなかったモデルの評価について

Kernel smoothing を使わないときより使った方が使えるパラメタが多いので相関係数が高くなるのは当たり前な気もするディスカッションについて

適当感ある

12

なぜ ISMB に採択されたか翻訳をテーマにした

本論文のカテゴリは GENE PROTEIN SEQUENCE ANALYSIS転写に比べて翻訳はアプローチしづらかった(タイムリーな) Ribosome profiling のデータを用いた周辺のコドンの重要性を示した

単にコドン使用頻度だけを考慮するだけでは足りない予測問題を提案した rarr 様々な応用につながる

分子生物学 異なる条件(栄養阻害剤など)のデータでの予測とのずれから翻訳に関連する未知の因子を探索生物工学合成生物学 翻訳速度を高めた遺伝子配列を設計

13

  • Prediction of ribosome footprint profile shapes from transcrip
  • ざっくりしたまとめ
  • Ribosome profiling
  • 先行研究との差分
  • 予測モデル
  • 説明変数(コドン)
  • 被説明変数(Ribosomeの分布)の準備
  • 検証方法
  • 検証結果 (Table2の一部)
  • 結果 どんなコドンが変数選択されたか
  • ディスカッション
  • 感想
  • なぜISMBに採択されたか
Page 5: 160817 ISMB2016読み会

予測モデルLASSO スパースな線形回帰

説明変数 mRNA のコドン列被説明変数 Ribosome の分布正則化パラメータ (λ) cross validation で MSE 最小になるよう選んだ

5Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

説明変数(コドン)

6

Kernel smoothing 後のコドン分布

mRNA 上の位置 x ごとのコドン

Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

Symmetric kernel Asymmetric kernel (5rsquo 側 3rsquo 側に尾を引く形 ) をそれぞれ試した

被説明変数( Ribosome の分布)の準備

7

Ribosome の A-site の確率分布

Ribosome 分布のウェーブレット分解

ウェーブレット分解した各部分空間に射影された確率分布を被説明変数とする

Ribosome profiling のタグ数の分布( mRNA 上の位置ごとのタグ数)

Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

検証方法データ

S cerevisiae の Ribosome profiling データ学習の方法

遺伝子( ~3700 )を mRNA の長さ(コドン数)で5群に分け群ごとに予測90 の遺伝子を訓練用残りを検証用とした(これを 10 回くりかえして予測結果とした)

検証方法mRNA 上の ribosome 分布の予測と実測のピアソン相関係数

8

検証結果 (Table2 の一部 )

Kernel smoothing した方が相関係数が高い rarr 周辺のコドンの情報が予測に有効Asymmetric kernel の方が高い rarr Ribosome の移動に方向性があることを反映 ()

9Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

Kernel smoothingなし

Symmetric kernelAsymmetric kernel

結果 どんなコドンが変数選択されたか

CGA (arginine) CGG (arginine) の係数が大きかった rarr 先行研究の知見と一致

10Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

lt=1113093250 codons in the space V3

Ribosome の分布が高い領域に濃縮するコドンはよく変数選択されていた

ディスカッション

二次構造などを考慮していない点について二次構造も説明変数として重要実際相関係数が低かった mRNA では予測と実測の差と PARS score の間に弱い正の相関 (r=00446) があった(がほぼ相関ない気もする)二次構造やコドン使用頻度は sequence context に依存する(ちょっとよくわからなかった)

データのテクニカルなバイアスについてライブラリ作成にバイアスがある(と述べているが特に考慮していない)

11

感想手法について

データのバイアスが考慮されていない( Ribosome profiling がどれだけ生命現象を反映しているか)一次配列や二次構造が考慮されていない解釈しづらい(が予測が目的ならよい)ウェーブレット分解したうちどの予測結果を使えばいいのかわからないカーネルのバンド幅( ~ 周辺のコドンをどこまでみるか)についての議論がなかったモデルの評価について

Kernel smoothing を使わないときより使った方が使えるパラメタが多いので相関係数が高くなるのは当たり前な気もするディスカッションについて

適当感ある

12

なぜ ISMB に採択されたか翻訳をテーマにした

本論文のカテゴリは GENE PROTEIN SEQUENCE ANALYSIS転写に比べて翻訳はアプローチしづらかった(タイムリーな) Ribosome profiling のデータを用いた周辺のコドンの重要性を示した

単にコドン使用頻度だけを考慮するだけでは足りない予測問題を提案した rarr 様々な応用につながる

分子生物学 異なる条件(栄養阻害剤など)のデータでの予測とのずれから翻訳に関連する未知の因子を探索生物工学合成生物学 翻訳速度を高めた遺伝子配列を設計

13

  • Prediction of ribosome footprint profile shapes from transcrip
  • ざっくりしたまとめ
  • Ribosome profiling
  • 先行研究との差分
  • 予測モデル
  • 説明変数(コドン)
  • 被説明変数(Ribosomeの分布)の準備
  • 検証方法
  • 検証結果 (Table2の一部)
  • 結果 どんなコドンが変数選択されたか
  • ディスカッション
  • 感想
  • なぜISMBに採択されたか
Page 6: 160817 ISMB2016読み会

説明変数(コドン)

6

Kernel smoothing 後のコドン分布

mRNA 上の位置 x ごとのコドン

Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

Symmetric kernel Asymmetric kernel (5rsquo 側 3rsquo 側に尾を引く形 ) をそれぞれ試した

被説明変数( Ribosome の分布)の準備

7

Ribosome の A-site の確率分布

Ribosome 分布のウェーブレット分解

ウェーブレット分解した各部分空間に射影された確率分布を被説明変数とする

Ribosome profiling のタグ数の分布( mRNA 上の位置ごとのタグ数)

Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

検証方法データ

S cerevisiae の Ribosome profiling データ学習の方法

遺伝子( ~3700 )を mRNA の長さ(コドン数)で5群に分け群ごとに予測90 の遺伝子を訓練用残りを検証用とした(これを 10 回くりかえして予測結果とした)

検証方法mRNA 上の ribosome 分布の予測と実測のピアソン相関係数

8

検証結果 (Table2 の一部 )

Kernel smoothing した方が相関係数が高い rarr 周辺のコドンの情報が予測に有効Asymmetric kernel の方が高い rarr Ribosome の移動に方向性があることを反映 ()

9Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

Kernel smoothingなし

Symmetric kernelAsymmetric kernel

結果 どんなコドンが変数選択されたか

CGA (arginine) CGG (arginine) の係数が大きかった rarr 先行研究の知見と一致

10Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

lt=1113093250 codons in the space V3

Ribosome の分布が高い領域に濃縮するコドンはよく変数選択されていた

ディスカッション

二次構造などを考慮していない点について二次構造も説明変数として重要実際相関係数が低かった mRNA では予測と実測の差と PARS score の間に弱い正の相関 (r=00446) があった(がほぼ相関ない気もする)二次構造やコドン使用頻度は sequence context に依存する(ちょっとよくわからなかった)

データのテクニカルなバイアスについてライブラリ作成にバイアスがある(と述べているが特に考慮していない)

11

感想手法について

データのバイアスが考慮されていない( Ribosome profiling がどれだけ生命現象を反映しているか)一次配列や二次構造が考慮されていない解釈しづらい(が予測が目的ならよい)ウェーブレット分解したうちどの予測結果を使えばいいのかわからないカーネルのバンド幅( ~ 周辺のコドンをどこまでみるか)についての議論がなかったモデルの評価について

Kernel smoothing を使わないときより使った方が使えるパラメタが多いので相関係数が高くなるのは当たり前な気もするディスカッションについて

適当感ある

12

なぜ ISMB に採択されたか翻訳をテーマにした

本論文のカテゴリは GENE PROTEIN SEQUENCE ANALYSIS転写に比べて翻訳はアプローチしづらかった(タイムリーな) Ribosome profiling のデータを用いた周辺のコドンの重要性を示した

単にコドン使用頻度だけを考慮するだけでは足りない予測問題を提案した rarr 様々な応用につながる

分子生物学 異なる条件(栄養阻害剤など)のデータでの予測とのずれから翻訳に関連する未知の因子を探索生物工学合成生物学 翻訳速度を高めた遺伝子配列を設計

13

  • Prediction of ribosome footprint profile shapes from transcrip
  • ざっくりしたまとめ
  • Ribosome profiling
  • 先行研究との差分
  • 予測モデル
  • 説明変数(コドン)
  • 被説明変数(Ribosomeの分布)の準備
  • 検証方法
  • 検証結果 (Table2の一部)
  • 結果 どんなコドンが変数選択されたか
  • ディスカッション
  • 感想
  • なぜISMBに採択されたか
Page 7: 160817 ISMB2016読み会

被説明変数( Ribosome の分布)の準備

7

Ribosome の A-site の確率分布

Ribosome 分布のウェーブレット分解

ウェーブレット分解した各部分空間に射影された確率分布を被説明変数とする

Ribosome profiling のタグ数の分布( mRNA 上の位置ごとのタグ数)

Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

検証方法データ

S cerevisiae の Ribosome profiling データ学習の方法

遺伝子( ~3700 )を mRNA の長さ(コドン数)で5群に分け群ごとに予測90 の遺伝子を訓練用残りを検証用とした(これを 10 回くりかえして予測結果とした)

検証方法mRNA 上の ribosome 分布の予測と実測のピアソン相関係数

8

検証結果 (Table2 の一部 )

Kernel smoothing した方が相関係数が高い rarr 周辺のコドンの情報が予測に有効Asymmetric kernel の方が高い rarr Ribosome の移動に方向性があることを反映 ()

9Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

Kernel smoothingなし

Symmetric kernelAsymmetric kernel

結果 どんなコドンが変数選択されたか

CGA (arginine) CGG (arginine) の係数が大きかった rarr 先行研究の知見と一致

10Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

lt=1113093250 codons in the space V3

Ribosome の分布が高い領域に濃縮するコドンはよく変数選択されていた

ディスカッション

二次構造などを考慮していない点について二次構造も説明変数として重要実際相関係数が低かった mRNA では予測と実測の差と PARS score の間に弱い正の相関 (r=00446) があった(がほぼ相関ない気もする)二次構造やコドン使用頻度は sequence context に依存する(ちょっとよくわからなかった)

データのテクニカルなバイアスについてライブラリ作成にバイアスがある(と述べているが特に考慮していない)

11

感想手法について

データのバイアスが考慮されていない( Ribosome profiling がどれだけ生命現象を反映しているか)一次配列や二次構造が考慮されていない解釈しづらい(が予測が目的ならよい)ウェーブレット分解したうちどの予測結果を使えばいいのかわからないカーネルのバンド幅( ~ 周辺のコドンをどこまでみるか)についての議論がなかったモデルの評価について

Kernel smoothing を使わないときより使った方が使えるパラメタが多いので相関係数が高くなるのは当たり前な気もするディスカッションについて

適当感ある

12

なぜ ISMB に採択されたか翻訳をテーマにした

本論文のカテゴリは GENE PROTEIN SEQUENCE ANALYSIS転写に比べて翻訳はアプローチしづらかった(タイムリーな) Ribosome profiling のデータを用いた周辺のコドンの重要性を示した

単にコドン使用頻度だけを考慮するだけでは足りない予測問題を提案した rarr 様々な応用につながる

分子生物学 異なる条件(栄養阻害剤など)のデータでの予測とのずれから翻訳に関連する未知の因子を探索生物工学合成生物学 翻訳速度を高めた遺伝子配列を設計

13

  • Prediction of ribosome footprint profile shapes from transcrip
  • ざっくりしたまとめ
  • Ribosome profiling
  • 先行研究との差分
  • 予測モデル
  • 説明変数(コドン)
  • 被説明変数(Ribosomeの分布)の準備
  • 検証方法
  • 検証結果 (Table2の一部)
  • 結果 どんなコドンが変数選択されたか
  • ディスカッション
  • 感想
  • なぜISMBに採択されたか
Page 8: 160817 ISMB2016読み会

検証方法データ

S cerevisiae の Ribosome profiling データ学習の方法

遺伝子( ~3700 )を mRNA の長さ(コドン数)で5群に分け群ごとに予測90 の遺伝子を訓練用残りを検証用とした(これを 10 回くりかえして予測結果とした)

検証方法mRNA 上の ribosome 分布の予測と実測のピアソン相関係数

8

検証結果 (Table2 の一部 )

Kernel smoothing した方が相関係数が高い rarr 周辺のコドンの情報が予測に有効Asymmetric kernel の方が高い rarr Ribosome の移動に方向性があることを反映 ()

9Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

Kernel smoothingなし

Symmetric kernelAsymmetric kernel

結果 どんなコドンが変数選択されたか

CGA (arginine) CGG (arginine) の係数が大きかった rarr 先行研究の知見と一致

10Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

lt=1113093250 codons in the space V3

Ribosome の分布が高い領域に濃縮するコドンはよく変数選択されていた

ディスカッション

二次構造などを考慮していない点について二次構造も説明変数として重要実際相関係数が低かった mRNA では予測と実測の差と PARS score の間に弱い正の相関 (r=00446) があった(がほぼ相関ない気もする)二次構造やコドン使用頻度は sequence context に依存する(ちょっとよくわからなかった)

データのテクニカルなバイアスについてライブラリ作成にバイアスがある(と述べているが特に考慮していない)

11

感想手法について

データのバイアスが考慮されていない( Ribosome profiling がどれだけ生命現象を反映しているか)一次配列や二次構造が考慮されていない解釈しづらい(が予測が目的ならよい)ウェーブレット分解したうちどの予測結果を使えばいいのかわからないカーネルのバンド幅( ~ 周辺のコドンをどこまでみるか)についての議論がなかったモデルの評価について

Kernel smoothing を使わないときより使った方が使えるパラメタが多いので相関係数が高くなるのは当たり前な気もするディスカッションについて

適当感ある

12

なぜ ISMB に採択されたか翻訳をテーマにした

本論文のカテゴリは GENE PROTEIN SEQUENCE ANALYSIS転写に比べて翻訳はアプローチしづらかった(タイムリーな) Ribosome profiling のデータを用いた周辺のコドンの重要性を示した

単にコドン使用頻度だけを考慮するだけでは足りない予測問題を提案した rarr 様々な応用につながる

分子生物学 異なる条件(栄養阻害剤など)のデータでの予測とのずれから翻訳に関連する未知の因子を探索生物工学合成生物学 翻訳速度を高めた遺伝子配列を設計

13

  • Prediction of ribosome footprint profile shapes from transcrip
  • ざっくりしたまとめ
  • Ribosome profiling
  • 先行研究との差分
  • 予測モデル
  • 説明変数(コドン)
  • 被説明変数(Ribosomeの分布)の準備
  • 検証方法
  • 検証結果 (Table2の一部)
  • 結果 どんなコドンが変数選択されたか
  • ディスカッション
  • 感想
  • なぜISMBに採択されたか
Page 9: 160817 ISMB2016読み会

検証結果 (Table2 の一部 )

Kernel smoothing した方が相関係数が高い rarr 周辺のコドンの情報が予測に有効Asymmetric kernel の方が高い rarr Ribosome の移動に方向性があることを反映 ()

9Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

Kernel smoothingなし

Symmetric kernelAsymmetric kernel

結果 どんなコドンが変数選択されたか

CGA (arginine) CGG (arginine) の係数が大きかった rarr 先行研究の知見と一致

10Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

lt=1113093250 codons in the space V3

Ribosome の分布が高い領域に濃縮するコドンはよく変数選択されていた

ディスカッション

二次構造などを考慮していない点について二次構造も説明変数として重要実際相関係数が低かった mRNA では予測と実測の差と PARS score の間に弱い正の相関 (r=00446) があった(がほぼ相関ない気もする)二次構造やコドン使用頻度は sequence context に依存する(ちょっとよくわからなかった)

データのテクニカルなバイアスについてライブラリ作成にバイアスがある(と述べているが特に考慮していない)

11

感想手法について

データのバイアスが考慮されていない( Ribosome profiling がどれだけ生命現象を反映しているか)一次配列や二次構造が考慮されていない解釈しづらい(が予測が目的ならよい)ウェーブレット分解したうちどの予測結果を使えばいいのかわからないカーネルのバンド幅( ~ 周辺のコドンをどこまでみるか)についての議論がなかったモデルの評価について

Kernel smoothing を使わないときより使った方が使えるパラメタが多いので相関係数が高くなるのは当たり前な気もするディスカッションについて

適当感ある

12

なぜ ISMB に採択されたか翻訳をテーマにした

本論文のカテゴリは GENE PROTEIN SEQUENCE ANALYSIS転写に比べて翻訳はアプローチしづらかった(タイムリーな) Ribosome profiling のデータを用いた周辺のコドンの重要性を示した

単にコドン使用頻度だけを考慮するだけでは足りない予測問題を提案した rarr 様々な応用につながる

分子生物学 異なる条件(栄養阻害剤など)のデータでの予測とのずれから翻訳に関連する未知の因子を探索生物工学合成生物学 翻訳速度を高めた遺伝子配列を設計

13

  • Prediction of ribosome footprint profile shapes from transcrip
  • ざっくりしたまとめ
  • Ribosome profiling
  • 先行研究との差分
  • 予測モデル
  • 説明変数(コドン)
  • 被説明変数(Ribosomeの分布)の準備
  • 検証方法
  • 検証結果 (Table2の一部)
  • 結果 どんなコドンが変数選択されたか
  • ディスカッション
  • 感想
  • なぜISMBに採択されたか
Page 10: 160817 ISMB2016読み会

結果 どんなコドンが変数選択されたか

CGA (arginine) CGG (arginine) の係数が大きかった rarr 先行研究の知見と一致

10Liu T Y amp Song Y S (2016) Prediction of ribosome footprint profile shapes from transcript sequences Bioinformatics 32(12) i183-i191

lt=1113093250 codons in the space V3

Ribosome の分布が高い領域に濃縮するコドンはよく変数選択されていた

ディスカッション

二次構造などを考慮していない点について二次構造も説明変数として重要実際相関係数が低かった mRNA では予測と実測の差と PARS score の間に弱い正の相関 (r=00446) があった(がほぼ相関ない気もする)二次構造やコドン使用頻度は sequence context に依存する(ちょっとよくわからなかった)

データのテクニカルなバイアスについてライブラリ作成にバイアスがある(と述べているが特に考慮していない)

11

感想手法について

データのバイアスが考慮されていない( Ribosome profiling がどれだけ生命現象を反映しているか)一次配列や二次構造が考慮されていない解釈しづらい(が予測が目的ならよい)ウェーブレット分解したうちどの予測結果を使えばいいのかわからないカーネルのバンド幅( ~ 周辺のコドンをどこまでみるか)についての議論がなかったモデルの評価について

Kernel smoothing を使わないときより使った方が使えるパラメタが多いので相関係数が高くなるのは当たり前な気もするディスカッションについて

適当感ある

12

なぜ ISMB に採択されたか翻訳をテーマにした

本論文のカテゴリは GENE PROTEIN SEQUENCE ANALYSIS転写に比べて翻訳はアプローチしづらかった(タイムリーな) Ribosome profiling のデータを用いた周辺のコドンの重要性を示した

単にコドン使用頻度だけを考慮するだけでは足りない予測問題を提案した rarr 様々な応用につながる

分子生物学 異なる条件(栄養阻害剤など)のデータでの予測とのずれから翻訳に関連する未知の因子を探索生物工学合成生物学 翻訳速度を高めた遺伝子配列を設計

13

  • Prediction of ribosome footprint profile shapes from transcrip
  • ざっくりしたまとめ
  • Ribosome profiling
  • 先行研究との差分
  • 予測モデル
  • 説明変数(コドン)
  • 被説明変数(Ribosomeの分布)の準備
  • 検証方法
  • 検証結果 (Table2の一部)
  • 結果 どんなコドンが変数選択されたか
  • ディスカッション
  • 感想
  • なぜISMBに採択されたか
Page 11: 160817 ISMB2016読み会

ディスカッション

二次構造などを考慮していない点について二次構造も説明変数として重要実際相関係数が低かった mRNA では予測と実測の差と PARS score の間に弱い正の相関 (r=00446) があった(がほぼ相関ない気もする)二次構造やコドン使用頻度は sequence context に依存する(ちょっとよくわからなかった)

データのテクニカルなバイアスについてライブラリ作成にバイアスがある(と述べているが特に考慮していない)

11

感想手法について

データのバイアスが考慮されていない( Ribosome profiling がどれだけ生命現象を反映しているか)一次配列や二次構造が考慮されていない解釈しづらい(が予測が目的ならよい)ウェーブレット分解したうちどの予測結果を使えばいいのかわからないカーネルのバンド幅( ~ 周辺のコドンをどこまでみるか)についての議論がなかったモデルの評価について

Kernel smoothing を使わないときより使った方が使えるパラメタが多いので相関係数が高くなるのは当たり前な気もするディスカッションについて

適当感ある

12

なぜ ISMB に採択されたか翻訳をテーマにした

本論文のカテゴリは GENE PROTEIN SEQUENCE ANALYSIS転写に比べて翻訳はアプローチしづらかった(タイムリーな) Ribosome profiling のデータを用いた周辺のコドンの重要性を示した

単にコドン使用頻度だけを考慮するだけでは足りない予測問題を提案した rarr 様々な応用につながる

分子生物学 異なる条件(栄養阻害剤など)のデータでの予測とのずれから翻訳に関連する未知の因子を探索生物工学合成生物学 翻訳速度を高めた遺伝子配列を設計

13

  • Prediction of ribosome footprint profile shapes from transcrip
  • ざっくりしたまとめ
  • Ribosome profiling
  • 先行研究との差分
  • 予測モデル
  • 説明変数(コドン)
  • 被説明変数(Ribosomeの分布)の準備
  • 検証方法
  • 検証結果 (Table2の一部)
  • 結果 どんなコドンが変数選択されたか
  • ディスカッション
  • 感想
  • なぜISMBに採択されたか
Page 12: 160817 ISMB2016読み会

感想手法について

データのバイアスが考慮されていない( Ribosome profiling がどれだけ生命現象を反映しているか)一次配列や二次構造が考慮されていない解釈しづらい(が予測が目的ならよい)ウェーブレット分解したうちどの予測結果を使えばいいのかわからないカーネルのバンド幅( ~ 周辺のコドンをどこまでみるか)についての議論がなかったモデルの評価について

Kernel smoothing を使わないときより使った方が使えるパラメタが多いので相関係数が高くなるのは当たり前な気もするディスカッションについて

適当感ある

12

なぜ ISMB に採択されたか翻訳をテーマにした

本論文のカテゴリは GENE PROTEIN SEQUENCE ANALYSIS転写に比べて翻訳はアプローチしづらかった(タイムリーな) Ribosome profiling のデータを用いた周辺のコドンの重要性を示した

単にコドン使用頻度だけを考慮するだけでは足りない予測問題を提案した rarr 様々な応用につながる

分子生物学 異なる条件(栄養阻害剤など)のデータでの予測とのずれから翻訳に関連する未知の因子を探索生物工学合成生物学 翻訳速度を高めた遺伝子配列を設計

13

  • Prediction of ribosome footprint profile shapes from transcrip
  • ざっくりしたまとめ
  • Ribosome profiling
  • 先行研究との差分
  • 予測モデル
  • 説明変数(コドン)
  • 被説明変数(Ribosomeの分布)の準備
  • 検証方法
  • 検証結果 (Table2の一部)
  • 結果 どんなコドンが変数選択されたか
  • ディスカッション
  • 感想
  • なぜISMBに採択されたか
Page 13: 160817 ISMB2016読み会

なぜ ISMB に採択されたか翻訳をテーマにした

本論文のカテゴリは GENE PROTEIN SEQUENCE ANALYSIS転写に比べて翻訳はアプローチしづらかった(タイムリーな) Ribosome profiling のデータを用いた周辺のコドンの重要性を示した

単にコドン使用頻度だけを考慮するだけでは足りない予測問題を提案した rarr 様々な応用につながる

分子生物学 異なる条件(栄養阻害剤など)のデータでの予測とのずれから翻訳に関連する未知の因子を探索生物工学合成生物学 翻訳速度を高めた遺伝子配列を設計

13

  • Prediction of ribosome footprint profile shapes from transcrip
  • ざっくりしたまとめ
  • Ribosome profiling
  • 先行研究との差分
  • 予測モデル
  • 説明変数(コドン)
  • 被説明変数(Ribosomeの分布)の準備
  • 検証方法
  • 検証結果 (Table2の一部)
  • 結果 どんなコドンが変数選択されたか
  • ディスカッション
  • 感想
  • なぜISMBに採択されたか