kita m
TRANSCRIPT
DNAリレーショナルデータベースの開発とデータ操作に関する研究 Development of DNA Relational Database and Data Manipulation Experiments
複雑系工学講座 調和系工学研究室
修士2年 北 豊
背景
個人の遺伝情報の取り扱いが問題になる
information tag
ゲノム:生物のもつ遺伝情報 遺伝子発現プロファイル解析 SNPsプロファイル解析
DNA分子の状態のまま,データベースとして利用する Biomolecular Database System [Reif et al 2002]
ATGCGACCCCGAATCGAAT…
ゲノムデータベース
convert electronic data ATGCTTGAT…
synthesis DNA
… …
…
…
…
…
… …
性別 年齢 遺伝子 001 002 003
666 …
名前 性別 年齢 遺伝子
002 003
集合的に操作できるDNAリレーショナルモデルが有効
DNAリレーショナルデータベースの必要要件
1. データの表現方法 2. 関係代数の実現 3. データに対する問い合わせ 4. 化学実験によるエラー 5. 実験操作の実行時間 6. 表現可能データサイズ
1. モデルの提案 2. 実験操作の対応付け 3. 関係代数の組み合わせ動作 4. SQLを利用した理論的考察 5. SQLを利用した理論的考察
6. DNA配列数に基づく考察
先行研究 化学実験による検討 [Arita el al 1997]
理論的モデルによる検討 [Katsányi 2003]
目的:必要要件を満たしたDNAリレーショナルデータベースの開発
提案データモデルと関係演算の実装方法
1. データの表現方法 2. 関係代数の実現 3. データに対する問い合わせ 4. 化学実験によるエラー 5. 実験操作の実行時間 6. 表現可能データサイズ
1. モデルの提案 2. 実験操作の対応付け 3. 関係代数の組み合わせ動作 4. SQLを利用した理論的考察 5. SQLを利用した理論的考察
6. DNA配列数に基づく考察
提案データモデルと関係演算の実装方法
属性 Ai
タプル tj
試験管 U リレーション R
一本鎖DNA分子
1つのデータを1つのDNA分子で表現する
関係代数 化学実験での実装方法
和(Union) mix solutions
差(Difference) affinity separation
射影(Projection)
選択(Selection)
PCR
直積(Cartesian Product) ST-PCR [Hashimoto et al 2003]
3’ 2A )3(
2v 3ID5’
AACCTCCCCACACAAC
A: 属性 v: 属性値 t: タプル ID: タプルの情報
化学実験による独立な各関係代数の化学実験
での実装
提案データモデル
関係演算の実装
1A 2A 3A4A
1t
2t
3t
4t
1A 2A 3A4A
1t
2t
3t
4t
問い合わせの実行例
SQLによる問い合わせ
SELECT 列 1, 列 3
FROM 表 1
WHERE 条件1 or 条件2
1A 2A 3A4A
1t
2t
3t
4t
1A 2A 3A4A
1t
2t
3t
4t
問い合わせの実行例
目的の行の分子を抽出する 選択の演算
SELECT 列 1, 列 3
FROM 表 1
WHERE 条件1 or 条件2
条件に合致したタプルを選択する
SELECT 列 1, 列 3
FROM 表 1
WHERE 条件1 or 条件2
1A 2A 3A4A
2t
4t
1A 2A 3A4A
2t
4t
問い合わせの実行例
目的の列の分子を抽出する 射影の演算
SQLの実験操作への変換
1. データの表現方法 2. 関係代数の実現 3. データに対する問い合わせ 4. 化学実験によるエラー 5. 実験操作の実行時間 6. 表現可能データサイズ
1. モデルの提案 2. 実験操作の対応付け 3. 関係代数の組み合わせ動作 4. SQLを利用した理論的考察 5. SQLを利用した理論的考察
6. DNA配列数に基づく考察
SQL
SELECT 列名 1, 列名 2, … , 列名 n
FROM 表 1, 表 2, … , 表 m
WHERE [探索条件]
),...,(
),(
)(
),,(
)...,,(
1
1
k
k
UUMerge
SUGet
UCollectID
REFWUAmplify
UUUDivide
DNA computational model(DCM)
…溶液を希釈,分注
…増幅反応を行う
…ID情報を取得する
…配列を抽出する
…溶液を混合する 変換コスト O(N2)
converter
実験操作列からの考察
PCR
total
pcr
chip
unique
Chip
affinity
unique
affinitytotalC
LT
C
LT
C
LTT )()1(
属性数,タプル数に依存しない
実行時間
k-DNF
k回連続PCR
リテラル数に対して線形増加
配列長 配列数
実験に使用した配列 16 64
正規直交配列 23 300
使用するDNA分子の長さや配列設計を工夫することでサイズアップは可能
キャパシティ
化学実験のエラー
エラーの伝播が起こりにくい
… …
… …
… Ttotal
SQL ⇒ 実験操作列
連続PCRのエラー解析 過去のエラーを排除可能
混合操作でのエラー解析 目的,非目的DNAの割合は変化しない
化学実験による実証実験
1. データの表現方法 2. 関係代数の実現 3. データに対する問い合わせ 4. 化学実験によるエラー 5. 実験操作の実行時間 6. 表現可能データサイズ
1. モデルの提案 2. 実験操作の対応付け 3. 関係代数の組み合わせ動作 4. SQLを利用した理論的考察 5. SQLを利用した理論的考察
6. DNA配列数に基づく考察
実験の目的 • 提案手法が適切に動作することの実証 • 関係代数の各演算が実行可能であることの実証 • 各関係演算で組み合わされる問い合わせの実証
name gender diagnosis
A male positive
B female negative
C male negative
1t
2t
3t
1A 2A 3AR
SELECT *
FROM patient
WHERE gender = ‘male’
AND diagnosis = ‘negative’
SQL
name gender diagnosis
C male negative
導出表
)(:'
),,(:
),,(:
),(
)(:),(:
),(:),,(:
),,(
4
234
133
3
2211
2211
21
SSeparateU
FFWSAmplifyS
FFWUAmplifyS
UUDivide
SCollectIDFSCollectIDF
sUGetSsUGetS
UUUDivide
negativemale
DCM
導出結果
3t
初期溶液:1分子の長さ48塩基
1t
2t
3t
化学実験による検証実験
Converter
40
60 80
100 20bp
48
1A 2A3A
1t 2t 3t 1t 2t 3t 1t 2t 3t
データベースへの具体的な問い合わせに成功
name gender diagnosis
C male negative 導出表
3t
導出結果 C male negative
10% PAGE 200V 35min
導出結果の確認
1t
2t
3t