struktur optical recognition software untuk recover informasi kimia

Upload: iranurarbaatuljannah

Post on 10-Oct-2015

12 views

Category:

Documents


0 download

DESCRIPTION

OSRA

TRANSCRIPT

Struktur Optical Recognition Software Untuk Recover Informasi Kimia: OSRA, AnSumber Solusi TerbukaSampai baru-baru ini dokumen paling ilmiah dan paten yang berhubungan dengan kimia telah dijelaskan struktur molekul baik dengan nama sistematis atau dengan gambar grafis dari struktur Kekule'. Metode terakhir menimbulkan melekat masalah dalam pengolahan otomatis yang diperlukan bila jumlah dokumen berkisar di ratusan dari ribuan atau bahkan jutaan karena representasi grafis tidak dapat langsung diinterpretasikan oleh komputer. Untuk memulihkan informasi struktural ini, yang kalau tidak semua tapi kalah, kami telah membangun struktur optik aplikasi pengenalan berdasarkan kemajuan modern dalam pengolahan citra diterapkan dalam alat open source, OSRA. OSRA dapat membaca dokumen dalam lebih dari 90 format grafis termasuk GIF, JPEG, PNG, TIFF, PDF, dan PS, secara otomatis mengenali dan ekstrak informasi grafis yang mewakili struktur kimia dalam dokumen tersebut, dan menghasilkan TERSENYUM atau SD representasi dari ditemui struktur molekul gambar. PENDAHULUAN Proliferasi teknologi komputer telah membawa ke depan perlunya format data baru untuk bertukar informasi dengan cara yang dapat dibaca mesin dalam konteks ilmiah publikasi. Format baru tersebut cocok untuk mewakili informasi struktural kimia baru-baru ini muncul, untuk Misalnya InChI, CML, etc.1,2 Namun, sebagian besar kimia literatur yang ada sebelum perkembangan tersebut tidak mempekerjakan seperti yang didefinisikan dengan baik dan komputer-parsable format untuk penyajian informasi molekuler. Beberapa cara yang paling umum untuk menggambarkan struktur kimia kimia nomenklatur (IUPAC nama) dan deskripsi grafis, gambar struktur Kekule' dicetak dalam ilmiah atau paten dokumen. Tugas nanti otomatis ekstraksi informasi struktural seperti telah terbukti cukup menantang bahwa meskipun beberapa software paket telah dikembangkan, tidak ada telah mencapai Universal acceptance.3-9 Pendekatan kami untuk pemulihan kimia informasi dari materi yang dipublikasikan adalah untuk menggunakan kembali sepenuhnya sejauh mungkin perangkat lunak yang ada diciptakan oleh terbuka komunitas sumber dan mengundang pengembangan lebih lanjut dan partisipasi dengan melepaskan pekerjaan kita sebagai bebas dan open source. Untuk pengetahuan kita, OSRA adalah program open source pertama untuk struktur pengakuan optik. OSRA telah dirancang dengan berbagai penerapan dalam pikiran: tidak bergantung pada citra dokumen yang setiap resolusi tertentu, kedalaman warna, atau memiliki font tertentu yang digunakan. Untuk memanipulasi gambar, OSRA mempekerjakan library10 ImageMagick yang memungkinkan parsing lebih dari 90 format gambar yang berbeda, termasuk TIFF populer, JPEG, GIF, PNG, serta Postscript dan PDF (melalui perpustakaan Ghostscript), 11 format. OSRA diimplementasikan sebagai utilitas baris perintah, pengguna yang Selamat datang untuk men-download dari server.12 web kelompok Untuk menunjukkan kemampuan (dan keterbatasan) dari OSRA, kami juga telah menyediakan Partisipasi web interface.13 di pengembangan lebih lanjut dari proyek kode sumber terbuka ini sangat dianjurkan. Untuk tujuan ini, kami telah membuat Proyek SourceForge dengan repository.14 SVN ALGORITMA Aliran kerja dasar mirip dengan yang digunakan oleh sebelumnya implementasi: 1 grayscale dan binarization 2 segmentasi 3 anisotropic smoothing dan penipisan 4. vektorisasi dan obligasi / node deteksi 5. atom label dan biaya pengakuan 6 lingkaran obligasi (untuk gaya lama cincin aromatik) pengakuan 7 dua dan tiga deteksi obligasi 8 khusus deteksi obligasi: wedge dan dash obligasi Deteksi obligasi 9. jembatan 10 kompilasi tabel koneksi Estimasi 11. keyakinan Grayscale dan Binarization. Sebuah gambar warna pertama dikonversi ke grayscale melalui mekanisme sebagai berikut: untuk setiap pixel vektor warna (R, G, B) berubah menjadi gray-level vektor (Gr, Gr, Gr), di mana Gr) min (R, G, B). Hal ini berbeda dengan konversi grayscale lebih umum metode mana Gr) (R + G + B) / 3 dalam yang memungkinkan untuk binarization kemudian lebih untuk bagian-bagian berwarna terang gambar (Seperti simbol kuning untuk sulfur misalnya). Sebuah dunia threshold digunakan untuk binarization. Lokal (adaptif) thresholding telah diuji tapi sejauh ini ditemukan tidak memuaskan karena dari penampilan artefak di ambang nilai-perubahan daerah. Gambar secara default (kecuali itu adalah PDF atau Postscript document) diproses pada tiga skala yang berbeda (resolusi): 72, 150, dan 300 dpi. Skala mempengaruhi batasan pada * Towhomcorrespondenceshouldbeaddressed.E-mail: [email protected]. SAIC-Frederick, Inc NCI-Frederick. 740 ukuran karakter maksimum dan keseluruhan ukuran gambar molekul, serta pilihan untuk menipis dan smoothing anisotropik. Dalam kasus PDF atau dokumen Postscript, hanya resolusi 150 dpi digunakan. Segmentasi. Daerah persegi panjang yang berisi gambar struktur kimia dipilih berdasarkan kriteria sebagai berikut: i. rasio piksel hitam untuk total luas persegi panjang adalah antara 0,0 dan 0,2 ii. Aspek (tinggi rasio lebar) adalah antara 0,2 dan 5,0 iii. persegi panjang tidak bersinggungan dengan structurecontaining ada persegi panjang iv. lebar dan tinggi di atas nilai minimum (Saat ini 50 piksel) jika resolusi di atas 150 dpi v. lebar dan tinggi skala untuk resolusi 300 dpi adalah di bawah nilai maksimal 1000 piksel (jika resolusi di atas 150 dpi) Anisotropic Smoothing dan Menipis. Setelah seleksi daerah persegi panjang di gambar asli yang berisi struktur kimia, kita menghitung "noise factor" untuk masing-masing daerah tersebut. Faktor kebisingan didefinisikan di sini sebagai rasio dari jumlah segmen linear pixel (vertikal atau horizontal) dengan panjang 2 piksel dengan jumlah segmen garis dengan panjang 3 piksel. Jika gambar terlalu berisik, yaitu kebisingan Faktor adalah antara 0,5 dan 1,0, sebuah smoothing anisotropik Prosedur dilakukan. Penghapusan Kebisingan dan anisotropic skala dicapai dengan menggunakan anisotropic GREYCstoration smoothing perpustakaan, 15 yang mengimplementasikan metode untuk dihapus variasi kecil dalam intensitas pixel sambil menjaga dunia gambar fitur berdasarkan nonlinear difusi multivalued persamaan diferensial parsial. Langkah selanjutnya adalah aplikasi dari fungsi menipis untuk menormalkan semua lini menjadi 1 pixel lebar. Gambar penipisan dilakukan dengan cepat oleh subroutine dari artikel "Efisien Binary Gambar Penipisan menggunakan Sekitar Maps "oleh Joseph M. Cychosz.16 Saat anisotropic smoothing dan menipis hanya dilakukan untuk gambar pada resolusi 300 dpi. Vektorisasi dan Obligasi / Node Detection. Vektorisasi di (Bitmap konversi vector graphics) dilakukan menggunakan perpustakaan Potrace oleh Peter Selinger.17 Kami kemudian mencoba untuk menemukan posisi atom dan obligasi menggunakan Vectorized yang bentuk gambar. Kami memeriksa setiap interval antara titik kontrol kurva Bezier (kurva parametrik, dalam hal ini Kasus kubik, yang biasa digunakan dalam komputer grafis untuk model kurva halus; himpunan titik kontrol adalah output utama perpustakaan Potrace). Titik kontrol ditandai sebagai atom jika salah satu kondisi berikut terpenuhi: i. Titik kontrol ini diklasifikasikan sebagai sudut oleh Potrace algoritma. ii. Vektor dari titik kontrol ini ke depan merupakan perubahan arah dengan komponen normal setidaknya 2 pixel dibandingkan dengan vektor dari atom terakhir untuk titik kontrol ini. iii Jarak dari atom terakhir ke titik kontrol berikutnya kurang dari jarak dari atom terakhir untuk saat ini titik kontrol. Obligasi tersebut kemudian ditetapkan sebagai vektor connecting ditemukan atom. Perhatikan penggunaan langkah-langkah komponen normal bukan dari sudut antara dua vektor (seperti kebiasaan di sebelumnya implementasi). Sulit untuk datang dengan umum ambang batas untuk sudut antara dua ikatan yang akan tetap berlaku untuk berbagai macam gaya menggambar gambar. Selain itu sudut yang sulit diukur untuk vektor yang lebih kecil dalam lingkungan mabuk, yaitu ketika ukuran dot dan ketebalan garis terbatas dan nol. Mengukur komponen normal, bukan memungkinkan untuk jauh lebih kuat deteksi obligasi dan node. Keandalan yang lebih meningkat dengan menggunakan fakta bahwa perpustakaan Potrace menghasilkan kontrol poin untuk kedua sisi ikatan yang sama, dan skeletization yang Prosedur mencoba untuk menghasilkan rekreasi terbaik dari obligasi struktur dengan runtuh dari dua sisi ikatan yang sama bersama-sama. Label atom dan Charge Pengakuan. Semua terhubung set kurva Bezier lebih kecil daripada maksimum tinggi karakter / lebar, atau dua karakter sejajar horizontal atau vertikal, diuji menggunakan GOCR18 dan OCRAD19 (terbuka alat sumber OCR) untuk menjadi bagian dari label hetero atau singkatan. Semua karakter yang diakui disimpan, dan kurva Bezier yang sesuai dihapus dari daftar Obligasi terdeteksi. Tinggi maksimum dan lebar karakter diakui disimpan dan digunakan pada tahap berikutnya untuk menentukan karakter yang terhubung ke seluruh gambar, misalnya jika sebuah ikatan tumpang tindih dengan label atom. Obligasi yang berdiri sendiri kecil baik dihapus atau diakui sebagai huruf huruf kecil "l", "i", "r", dll, seperti dalam atom label untuk klorin "Cl", jika mereka ditemukan di sebelah huruf besar karakter. Demikian pula biaya formal, karakter "-" Dan "+", diidentifikasi dan ditugaskan ke terdekat label atom. Lingkaran Obligasi Pengakuan. Jika lingkaran yang cukup besar diameter ditemukan di dalam cincin, cincin ditandai sebagai aromatik. Kondisi lain termasuk atom cincin yang cukup dekat dengan lingkaran (tidak lebih dari setengah dari rata-rata panjang ikatan away), dan sudut antara obligasi cincin dan vektor ke pusat lingkaran yang kurang dari 90. Pelaksanaan saat gagal ketika lingkaran dalam menyentuh obligasi cincin. Rata-rata Lama Bond dan Double / Obligasi Tiga Deteksi. Panjang ikatan rata-rata diperkirakan dalam cara sebagai berikut: daftar diurutkan dari semua panjang ikatan dibuat, dan "rata-rata" panjang ikatan yang dianggap nilai pada persentil ke-75 oleh pangkat dalam daftar ini. Memilih ke-75 persentil bukan 50 lebih umum (median) memungkinkan program untuk menghindari bias terhadap obligasi lebih kecil panjang, yang sangat umum selama tahap awal dari pengolahan, sementara juga membuang lebih lama dari obligasi biasa yang mungkin muncul dalam beberapa penggambaran struktur. Rata-rata panjang ikatan yang dievaluasi kembali beberapa kali selama pengolahan citra sebagai elemen struktural sedang diidentifikasi. Mekanisme yang sama digunakan untuk mengukur jarak dalam pasangan ikatan yang terdiri dari ikatan ganda dan Rata-rata ketebalan obligasi. Obligasi dua dan tiga kemudian diidentifikasi sebagai pasangan bond (tiga kali lipat) yang (a) sejajar dengan satu sama lain, (b) berada dalam jarak ikatan pasangan ganda satu sama lain, dan (c) berada dalam "bayangan" masing-masing, yang adalah, ikatan pasangan obligasi tidak dipisahkan terlalu jauh bersama sejajar garis mereka. Dashed dan Obligasi Wedge. Obligasi putus-putus diidentifikasi tiga atau lebih "gumpalan" (bentuk apapun selama mereka cukup kecil) diposisikan dalam panjang ikatan rata-rata dari awal sampai akhir di mana garis lurus dapat ditarik melalui pusat geometris dari "gumpalan". Obligasi Wedge adalah diakui dengan membangun regresi linier ketebalan dibandingkan posisi dalam obligasi (kuadrat-terkecil memperkirakan) dan pengujian untuk peningkatan ketebalan signifikan atau menurun seiring ikatan. Bridge Obligasi. Obligasi Bridge yang disatukan berdasarkan aturan sederhana berikut: Jika atom dihubungkan ke empat ikatan tunggal collinear berpasangan (tidak ada yang adalah terminal bond) dan ini penghapusan simpul atom tidak menghasilkan (a) perbedaan dalam jumlah fragmen, (b) perbedaan dalam jumlah obligasi yang dapat diputar, atau (c) penurunan jumlah 5- dan 6-anggota cincin dengan 2, maka atom tersebut dihapus, dan persimpangan dianggap menjadi jembatan persimpangan obligasi. Aturan sederhana ini, sementara tidak 100% aman, memastikan bahwa disambiguasi tersebut tidak menghasilkan membelah molekul menjadi dua atau lebih fragmen, ujung molekul terbang terpisah, atau node menjadi sambungan atom antara dua cincin (sistem cincin spiro). Penyusunan Connection Table. OSRA saat ini mampu menggunakan dua backends molekul yang berbeda: OpenBabel dan RDKit. Backend molekul yang dipilih adalah dipilih pada saat kompilasi. Sebuah objek molekul ini sudah dibangun berdasarkan informasi konektivitas bersama dengan bendera stereo- dan aromatisitas. Fragmen berdasarkan superatoms ditambahkan pada tahap ini juga. Berikut label superatom diakui: Meo, MES, MEN, CF, CF3, F3CN, CN, NBU, ETO, OiBu, IPR, tBu, COOH, Ac, Aco, NO2, NO, SO3 H, BZO, N (OH) CH3, THPO. SMILES atau SD Format Output yang dihasilkan berdasarkan pada objek molekul yang dihasilkan. Keyakinan Perkiraan. Secara default, OSRA mencoba pengolahan pada tiga resolusi yang berbeda (skala); oleh karena itu mungkin memiliki hingga tiga output perspektif yang berbeda. Untuk secara otomatis memutuskan varian terbaik kami mempekerjakan berikut "Fungsi keyakinan": kepercayaan) 0.316030-0.016315Nc + + 0.034336NN 0.066810NO + + 0.035674NF 0.065504NS + 0.198795NCl-0.212739Nrings + + 0.071300Naromatic 0.329922Nrings5 + 0.342865Nrings6-0.037796Nfragments Fungsi dihasilkan dengan melakukan regresi linier analisis kesamaan Tanimoto antara yang nyata struktur dan pendekatan yang dihasilkan oleh OSRA di berbagai tingkat resolusi menggunakan berbagai sederhana molekul sifat: jumlah elemen (Nc, jumlah atom karbon; NN, jumlah atom nitrogen; dan sebagainya), jumlah cincin (Nrings, jumlah dering; Naromatic, jumlah cincin aromatik; Nrings5, jumlah dering 5-anggota; Nrings6, jumlah Cincin 6-anggota), dan jumlah fragmen (Nfragments) sebagai regressors. Sebuah korelasi 0,89 dicapai dengan sekitar 40 struktur yang digunakan dan lebih dari 100 pendekatan yang sesuai. Sementara tidak ada artinya untuk membandingkan nilai ini Fungsi kepercayaan untuk struktur yang berbeda, itu terbukti menjadi cara sederhana dan efektif untuk memilih yang paling sesuai versi antara beberapa varian dari struktur yang sama. The alasan untuk itu adalah mudah untuk melihat: skala yang paling heteroatom diakui lebih mungkin untuk menjadi yang benar dari tiga, yang sama berlaku untuk jumlah dari 5 dan 6-anggota cincin, dan sebaliknya adalah benar untuk jumlah fragmen dan node (yang diambil menjadi atom karbon). PEMBAHASAN Kami hadir pertama open source struktur optik pengakuan aplikasi. Kode sumber dapat didownload dari situs web kelompok, versi dikompilasi untuk Microsoft Windows juga tersedia. Antarmuka berbasis web memungkinkan untuk pengujian interaktif dan visualisasi, serta lebih lanjut lookup struktur diakui dalam Struktur Kimia Lookup Service, 20 dan konversi ke berbagai molekul lain format struktur seperti MOL, PDB, dll Salah satu pertanyaan yang paling sering ditanyakan tentang optik masalah pengenalan struktur pada umumnya dan OSRA di khusus adalah seberapa baik tingkat pengakuan. Untuk mengatasi pertanyaan ini, kita harus menentukan ukuran akurasi pengakuan. Ada beberapa definisi tersebut diusulkan di masa lalu. Sebagai contoh, struktur dianggap diakui jika dibutuhkan kurang dari 30 s untuk ahli manusia untuk IT5 benar atau struktur yang diakui memiliki lebih dari satu error, 8 dll Yang pertama tampaknya subjektif dengan standar saat ini, tapi bahkan yang terakhir meninggalkan banyak ruang terbuka untuk interpretasi, seperti, jika ikatan rangkap hilang, apakah ini dihitung sebagai satu kesalahan atau dua? Dan bagaimana jika ikatan rangkap dikategorikan mis- sebagai ikatan tunggal? Dan ini tidak bahkan mulai untuk mengatasi pertanyaan domain penerapan: kita hanya mempertimbangkan kualitas tinggi gambar hitam-putih, atau kita mencoba untuk mengurai gambar berisik atau warna pada resolusi yang lebih rendah juga? Oleh karena itu kami mengusulkan metode yang berbeda untuk mengukur akurasi mesin pengakuan, salah satu yang kami anggap lebih obyektif dan dapat digunakan dalam aplikasi praktis. Salah satu Aplikasi alami pengakuan struktur kimia mesin akan, misalnya, mencoba untuk mencari struktur yang diakui dari sebuah dokumen dalam database bahan kimia yang tersedia. Oleh karena itu ukuran akurasi alami akan menjadi indeks kesamaan antara output dari Program dan struktur yang sebenarnya. Di situs web, kami output kami indeks kesamaan Tanimoto berdasarkan CACTVS21 sidik jari antara struktur yang dikoreksi oleh pengguna (mungkin menghasilkan struktur yang benar) dan struktur yang OSRA telah menghasilkan. Sementara sidik jari tidak terkenal terbukti menjadi pilihan ideal untuk proyek ini karena semua dari mereka cenderung untuk menghukum kesalahan mudah diperbaiki parah dan menetapkan struktur dengan perbedaan besar saling kesamaan baik indeks, itu adalah ukuran kuantitatif yang mudah diimplementasikan dan dipahami. Sebuah sidik jari lebih cocok akan menjadi salah satu yang menghasilkan hasil yang lebih intuitif, yaitu, lebih dekat untuk pengukuran akurasi yang diusulkan di masa lalu tetapi lebih otomatis dan ketat, yang namun melampaui lingkup studi ini. Untuk membandingkan tingkat pengakuan dengan hanya lainnya tersedia secara komersial Program pengenalan struktur optik hari ini, CLiDE, kami menggunakan apa yang disebut "tes kecil set" ramah disediakan oleh Simbiosys Inc (Tabel 1). Kami memilih 11 file dari set ini. Dari sisa tiga, satu file tidak mengandung gambar struktur, satu buruk tersegmentasi oleh kedua OSRA dan CLiDE, dan file yang terakhir berisi molekul yang lebih besar, yang tidak OSRA maupun penulis siap untuk menangani di saat. Dari output yang dihasilkan menetapkan satu struktur dianggap menjadi positif palsu dan telah dihapus dari kedua OSRA dan output CLiDE. Tabel 1 Pengakuan Tingkat Perbandingan antara OSRA dan CLiDE, 42 Struktur Jumlah Sempurna oleh InChI Rata Tanimoto T> 85% T> 90% T> 95% uuuuu OSRA 26 95 39 37 33 28 CLiDE 11 87 26 20 17 12 742 J. Chem. Inf. Model., Vol. 49, No 3, 2009 Filippov DAN Nicklaus Di sini, "sempurna" berarti jumlah struktur identik ke versi manusia curated menurut InChI; rata-rata Tanimoto kesamaan antara set-manusia curated dan set-diproses komputer; "T> 85%" menunjukkan angka pasangan struktur dengan Tanimoto kesamaan di atas 85% dll Kolom terakhir adalah jumlah struktur yang memiliki identik "uuuuu" identifier, identifier dikembangkan di NCI CADD kelompok, yang acuh tak acuh terhadap stereokimia tersebut, tautomerisme, biaya, dan isotop informasi dan mengambil hanya memperhitungkan fragment.20 terbesar Perbedaan dengan yang results22 dilaporkan sebelumnya adalah karena terbaru versi OSRA sekarang mendukung output format SD dan perbandingan sekarang dapat dibuat dibuat dengan menggunakan file SD untuk kedua CLiDE dan OSRA. Kami menggunakan OSRA versi 1.1.0 dengan OpenBabel backend, SD format file output. Untuk memverifikasi hasil yang lebih besar dan lebih beragam set kami melakukan analisis yang sama di set tes internal kami (Tabel 2). Set ini terdiri dari 66 gambar dari berbagai resolusi dan kedalaman warna (hitam-putih, skala abu-abu, dan warna) dan berisi berbagai macam gambar gaya. Dengan set ini, OSRA memiliki tujuh positif palsu dan melewatkan tiga struktur karena segmentasi sempurna. Jumlah total valid diakui struktur dalam 66 foto dan dokumen adalah 215. Hasil muncul untuk konsisten dan sangat kompetitif. Sementara fraksi struktur diakui sempurna tidak namun sangat tinggi, kita harus ingat bahwa struktur molekul gambar berisi informasi lebih dari misalnya karakter tunggal dalam teks sasaran prosedur OCR dan ruang bahan kimia yang dikenal (puluhan juta) jauh lebih besar dari ruang karakter dalam alfabet apapun, sehingga perbandingan langsung ke OCR biasa tidak berlaku dalam kasus ini. Namun, fakta bahwa sebagian besar struktur telah diakui pada tingkat kesamaan Tanimoto dari 85% atau di atas memberikan harapan bahwa pengakuan otomatis mungkin berguna misalnya untuk mencari struktur dalam database yang besar yang diketahui bahan kimia. Sumber utama kesalahan berasal dari segmentasi sempurna, kesalahan OCR, dan kebisingan di gambar yang dipindai. Dengan melepaskan OSRA sebagai open source Program, kami berharap untuk menarik pihak yang tertarik untuk berpartisipasi dalam pengembangan lebih lanjut dari apa yang kita harapkan akan menjadi berguna Selain set tersedia untuk umum chemoinformatics alat. PENGAKUAN Proyek ini telah didanai seluruhnya atau sebagian dengan dana federal dari National Cancer Institute, National Institutes of Health, di bawah kontrak N01-CO-12400. The isi publikasi ini tidak selalu mencerminkan pandangan atau kebijakan Departemen Kesehatan dan Manusia Layanan juga tidak menyebutkan nama dagang, komersial produk, atau organisasi menyiratkan pengesahan oleh AS Pemerintah. Penelitian ini didukung sebagian oleh , National Cancer Intramural Penelitian Program NIH Institute, Center for Cancer Research.