Bioinformatika: Big Data Versus Big C


. Sel 155 , 948–962; 2013). Wawasannya - bahwa aneuploidy bukan hanya fitur tumor yang aneh, tetapi mesin pertumbuhan mereka - berasal dari penambangan data seluler dalam jumlah yang banyak. Dan, kata Elledge, itu menunjukkan bagaimana kemampuan komputer untuk menyaring informasi yang terus bertambah dapat membantu kita memperdalam pemahaman kita tentang kanker dan membuka pintu bagi penemuan.

. Sel 155, 948–962; 2013). Wawasannya - bahwa aneuploidy bukan hanya fitur tumor yang aneh, tetapi mesin pertumbuhan mereka - berasal dari penambangan data seluler dalam jumlah yang banyak. Dan, kata Elledge, itu menunjukkan bagaimana kemampuan komputer untuk menyaring informasi yang terus bertambah dapat membantu kita memperdalam pemahaman kita tentang kanker dan membuka pintu bagi penemuan.

Perawatan kanker modern memiliki potensi untuk menghasilkan sejumlah besar data. Ketika seorang pasien didiagnosis, genom tumor mungkin disekuensing untuk melihat apakah itu mungkin menanggapi obat tertentu. Urutan mungkin diulangi saat pengobatan berlanjut untuk mendeteksi perubahan. Pasien mungkin memiliki jaringan normal yang diurutkan juga, sebuah praktik yang kemungkinan akan meningkat ketika biaya turun. Dokter akan mencatat hasil tes pasien dan riwayat medis, termasuk kebiasaan diet dan merokok, dalam catatan kesehatan elektronik. Pasien mungkin juga telah melakukan computed tomography (CT) dan magnetic resonance imaging (MRI) untuk menentukan stadium penyakit. Lipat gandakan semua itu dengan hampir 1, 7 juta orang yang didiagnosis menderita kanker pada tahun 2013 di Amerika Serikat saja dan menjadi jelas bahwa onkologi akan menghasilkan lebih banyak data daripada sekarang. Komputer dapat menambang data untuk pola yang dapat memajukan pemahaman biologi kanker dan menyarankan target untuk terapi.

Penemuan Elledge adalah hasil dari metode komputasi yang ia dan rekan-rekannya kembangkan disebut Tumor Suppressor dan Oncogene Explorer. Mereka menggunakannya untuk menambang set data besar, termasuk Atlas Genom Kanker, yang dikelola oleh US National Cancer Institute, yang berbasis di Bethesda, Maryland, dan Katalog Mutasi Somatik dalam Kanker, yang dijalankan oleh Wellcome Trust Sanger Institute di Hinxton, Inggris. Basis data berisi sekitar 1, 2 juta mutasi dari 8.207 sampel jaringan lebih dari 20 jenis tumor.

Para peneliti memilih serangkaian parameter yang membantu mengidentifikasi gen yang mereka cari, seperti tingkat mutasi atau rasio mutasi jinak terhadap gen yang menyebabkan gen berhenti berfungsi. Mereka kemudian menerapkan metode klasifikasi statistik untuk membedakan antara gen penekan dan onkogen. Sekitar 70 gen penekan dan 50 onkogen sudah dikenal untuk jenis tumor ini, tetapi Elledge dan rekan-rekannya masing-masing meningkat menjadi sekitar 320 dan 200 (walaupun jumlah itu bisa turun, karena beberapa gen bisa berubah menjadi positif palsu). Mereka juga mengidentifikasi jalur dalam proses pertumbuhan yang mungkin menjadi target obat yang baik.

Membuat temuan semacam ini membutuhkan set data yang besar. "Setiap sel kanker yang berantakan, tetapi jika Anda melihat tumor yang cukup, Anda mendapatkan polanya, " kata Elledge. "Satu-satunya cara Anda mengetahui hal ini adalah jika Anda melihatnya secara global."

Mudah digunakan
Menganalisis genom dari 8.200 tumor hanyalah awal. Para peneliti "mencoba untuk mencari tahu bagaimana kita dapat menyatukan dan menganalisis, selama beberapa tahun ke depan, satu juta genom", kata Robert Grossman, yang mengarahkan Inisiatif dalam Ilmu Intensif Data di University of Chicago di Illinois. Ini adalah usaha yang sangat besar; genom kanker gabungan dan genom normal dari satu pasien merupakan sekitar 1 terabyte (1012 byte) data, sehingga satu juta genom akan menghasilkan exabyte (1018 byte). Menyimpan dan menganalisis data sebanyak ini dapat menelan biaya US $ 100 juta per tahun, kata Grossman.

Untuk memudahkan mengakses subset data apa pun yang dibutuhkan peneliti, Grossman dan rekan-rekannya telah mengembangkan Bionimbus, platform open-source berbasis cloud untuk berbagi dan menganalisis data genomik dari Cancer Genome Atlas.

Hasilnya bisa sangat kuat. Megan McNerney, ahli patologi di University of Chicago, menggunakan Bionimbus untuk melacak gen yang terlibat dalam leukemia myeloid akut (AML). Para ilmuwan sudah tahu bahwa beberapa pasien dengan penyakit ini telah kehilangan bagian dari kromosom 7, tetapi dapat mempersempit gen yang hanya melibatkan 15-20 kandidat. McNerney memilih 23 pasien dari database dan menggunakan komputer untuk membandingkan urutan RNA mereka untuk melihat apakah ada sesuatu yang hilang. Dia menemukan bahwa satu salinan gen CUX1, yang biasanya mengkode protein penekan tumor, telah dihapus pada pasien ini (ME McNerney et al . Darah 121, 975-983; 2012). Pengujian pada lalat buah dan tikus menunjukkan bahwa pengangkatan satu salinan gen menyebabkan pertumbuhan berlebih sel-sel darah tertentu dan, akhirnya, menjadi leukemia. Penemuannya mungkin tidak menghasilkan obat untuk AML, tetapi telah meningkatkan pemahaman tentang penyakit yang waktu kelangsungan hidup rata-rata tertahan kurang dari satu tahun selama empat dekade, dan itu mungkin juga mengarah pada prognosis yang lebih akurat.

McNerney mengatakan bahwa bahkan proyek berskala kecilnya telah menunjukkan manfaat dari data penambangan. "Ini mengubah biologi kanker secara luar biasa, " katanya. "Data besar telah membuat lompatan yang kita tidak bisa membuat sebaliknya."

Genomik - dan data dari -omik lain, seperti proteomik dan epigenomik - bukan satu-satunya sumber data yang disaring. American Society of Clinical Oncology (ASCO) di Alexandria, Virginia, sedang mengembangkan platform yang disebut CancerLinQ, yang menjaring melalui catatan kesehatan elektronik pasien. Catatan-catatan ini semakin mencakup data genomik, serta diagnosis dan catatan tentang pengobatan, dan langkah-langkah seberapa baik pasien merespons terapi. Sistem ini telah mengumpulkan catatan dari 177.000 orang dengan kanker payudara untuk proyek percontohan. Pengembang berharap bahwa sistem akan beroperasi penuh pada musim panas 2015, dengan tumor padat lainnya untuk mengikuti.

Clifford Hudis, seorang spesialis kanker payudara di Memorial Sloan Kettering Cancer Center di New York dan presiden ASCO, mengatakan bahwa CancerLinQ dapat membuat penemuan yang terlewatkan oleh uji klinis. Karena obat yang disetujui digunakan secara lebih luas, sistem dapat mengumpulkan data tentang efek samping, interaksi obat dan hasil pada populasi pasien yang berbeda. Misalnya, dokter mungkin menyimpang dari pedoman Food and Drug Administration AS untuk dosis obat, berdasarkan penilaian mereka tentang bagaimana dosis mempengaruhi pasien mereka. "Jika ada 100 kasus dalam barisan dokter yang mengabaikan pedoman secara independen, ada baiknya mengajarkan komputer bahwa pedoman itu salah, " kata Hudis. Komputer mungkin menemukan, misalnya, bahwa dokter mendapatkan hasil yang lebih baik ketika mereka menyesuaikan dosis sesuai dengan usia pasien.

Penemuan juga dapat dibuat dari menggabungkan genomik dan catatan pencitraan medis standar. "Komputasi berperforma tinggi dan data besar memungkinkan kami untuk melihat berbagai modalitas, " kata David Foran, seorang ahli patologi dan kepala informatika di Institut Kanker Rutgers di New Jersey di New Brunswick. Pusat ini menghasilkan gambar digital resolusi tinggi dari sampel jaringan dan membandingkannya di antara pasien, mencari pola yang mungkin membantu prognosis. Diharapkan untuk menghasilkan 40.000-100.000 gambar.

Para peneliti mungkin melihat petunjuk genetik yang menunjukkan bahwa beberapa pasien akan merespon terapi obat tertentu, misalnya, dan kemudian melihat CT scan dan MRI mereka untuk melihat apakah perubahan pada kanker sesuai dengan prediksi genetik. Atau mereka mungkin menemukan korelasi antara mutasi, pilihan terapi dan riwayat merokok. "Program komputer secara bersamaan dapat melihat pola-pola di dalamnya, " kata Foran.

Membandingkan banyak data sangat memperluas keahlian dokter, Foran menambahkan. “Ketika Anda pergi ke dokter, terutama ahli onkologi, Anda mengandalkan pengalaman masa lalunya. Apa yang kami lakukan sekarang adalah melatih komputer untuk melihat kelompok besar yang terdiri dari ribuan dan ratusan ribu. ”Seolah-olah dokter membuat keputusan perawatan berdasarkan pengalaman pribadi ratusan ribu pasien.

Urutan gen dan catatan kesehatan elektronik adalah sumber data baru, tetapi ada banyak informasi historis juga tersedia. Rumah Sakit Johns Hopkins di Baltimore, Maryland, misalnya, memiliki laporan patologi berbasis kertas sejak tanggal dibuka pada tahun 1889. Sebelum beralih ke catatan komputer pada tahun 1984, rumah sakit menghasilkan lebih dari setengah juta catatan. Setiap negara bagian AS memiliki catatan sejarah kanker selama bertahun-tahun atau puluhan tahun, seperti halnya negara lain. Denmark, misalnya, memiliki catatan kanker kembali ke tahun 1943. Dan Kesehatan Masyarakat Inggris tahun lalu meluncurkan database semua kanker yang saat ini didiagnosis di seluruh negeri, termasuk 11 juta catatan yang kembali 30 tahun. Menambahkan semua riwayat itu ke dalam campuran memperluas bidang kemungkinan petunjuk yang dapat dicari oleh komputer.

Sulit dianalisis
Tapi itu adalah teknologi baru yang menciptakan ledakan informasi. “Kami dapat mengumpulkan data lebih cepat daripada secara fisik kami dapat melakukan apa pun dengan mereka, ” kata Manish Parashar, seorang ilmuwan komputer dan kepala Rutgers Discovery Informatics Institute di Piscataway, New Jersey, yang bekerja sama dengan Foran untuk menemukan cara menangani informasi. "Ada beberapa tantangan mendasar yang disebabkan oleh kemampuan kita untuk menangkap begitu banyak data, " katanya.

Masalah utama dengan kumpulan data pada tingkat terabyte dan seterusnya adalah mencari tahu bagaimana memanipulasi semua data. Satu gambar medis resolusi tinggi dapat memakan waktu puluhan gigabyte, dan seorang peneliti mungkin ingin komputer untuk membandingkan puluhan ribu gambar seperti itu. Memecah hanya satu gambar dalam proyek Rutgers ke dalam kumpulan piksel yang dapat diidentifikasi oleh komputer membutuhkan waktu sekitar 15 menit, dan memindahkan banyak informasi dari tempat disimpan ke tempat pemrosesan dapat sulit. "Sudah ada orang yang berkeliling dengan disk drive karena Anda tidak dapat menggunakan jaringan secara efektif, " kata Parashar.

Peneliti informatika sedang mengembangkan algoritma untuk membagi data menjadi paket yang lebih kecil untuk pemrosesan paralel pada prosesor yang terpisah, dan untuk mengompres file tanpa menghilangkan informasi yang relevan. Dan mereka mengandalkan kemajuan dalam ilmu komputer untuk mempercepat pemrosesan dan komunikasi secara umum.

Foran menekankan bahwa pemahaman dan pengobatan kanker telah mengalami perubahan dramatis karena onkologi telah beralih dari satu serangan untuk tumor ke pengobatan pribadi. Tetapi kanker adalah penyakit kompleks yang dikendalikan oleh banyak gen dan faktor lainnya. "Ini bukan seolah-olah Anda akan menyelesaikan kanker, " katanya. Tetapi data besar dapat menyediakan cara-cara baru dan bertarget lebih baik dengan penyakit ini. "Anda akan menemukan mungkin cetak biru yang sama sekali baru untuk cara merawat pasien."

Artikel ini direproduksi dengan izin dan pertama kali diterbitkan pada 28 Mei 2014.

Artikel ini awalnya diterbitkan dengan judul "Bioinformatika: Big Data vs. Big C" in311, 1, 120-121 (Juli 2014)

TENTANG PENULIS)

Neil Savage adalah penulis sains dan teknologi lepas yang berbasis di Lowell, Massachusetts .

Di dalam toko

Volume 311, Edisi 1

$ 5, 99

Kanker: Pawai tentang Keganasan

  1. 1Cancer: The March on Malignancy
  2. 2 Tingkat Kematian Penari Tergantung pada Geografi
  3. 3Terapi: Kali Ini Pribadi
  4. 4Clinical Trials: Lebih Banyak Trials, Lebih Sedikit Kesengsaraan