Model AI baru ini tidak hanya membaca daftar gen, tetapi juga mencoba memahami pola yang tersembunyi di balik kemunculannya. Pendekatan seperti ini membuat analisis penyakit berpotensi bergerak lebih cepat karena hubungan antargen bisa dipetakan tanpa harus menunggu seluruh proses laboratorium selesai.
Di Icahn School of Medicine at Mount Sinai, peneliti mengembangkan gene set foundation model atau GSFM untuk mempelajari kelompok gen dari jutaan data biologis. Cara kerjanya mirip model bahasa besar yang memahami kata dari konteks, hanya saja objek yang dibaca adalah gen dan gene set, bukan kalimat.
Meniru cara model bahasa memaknai konteks
GSFM dibangun dengan inspirasi dari large language models seperti ChatGPT. Bila model bahasa mencari arti kata dari kata-kata di sekitarnya, GSFM mencari makna biologis gen dari pola kemunculannya di berbagai dataset.
Menurut Avi Ma’ayan, Profesor Ilmu Farmakologi sekaligus Direktur Mount Sinai Center for Bioinformatics, satu gen dapat menjalankan peran yang berbeda tergantung kondisi. Ia menggambarkan perilaku gen itu seperti kata yang bisa memiliki arti lain saat berada di kalimat yang berbeda.
Cara pandang ini penting karena gen jarang bekerja sendirian. Gen membentuk jaringan, jalur, dan kelompok molekuler yang berubah sesuai jenis sel, penyakit, atau lingkungan.
Dilatih dari lebih dari satu juta gene set
Untuk membangun model ini, tim memakai lebih dari satu juta gene set yang diambil dari studi terbitan dan dataset transkriptomik. Sumber utamanya berasal dari Rummagene dan RummaGEO, dua sumber yang mengekstrak data dari publikasi ilmiah dan studi RNA sequencing di Gene Expression Omnibus.
Setelah penyaringan, kumpulan datanya mencakup lebih dari 626.000 gene set dan hampir 97.000 gen. Data tersebut juga mencakup ribuan penyakit, jaringan tubuh, dan kondisi eksperimen, sehingga model mendapat gambaran biologis yang sangat luas.
Pelatihan dilakukan seperti permainan teka-teki. Model diberi gene set yang tidak lengkap, lalu diminta menebak bagian yang hilang sampai mengenali pola biologis yang tersembunyi.
Model yang sederhana justru paling efisien
Dalam pengujian arsitektur, peneliti membandingkan beberapa pendekatan AI. Hasilnya, denoising autoencoder yang relatif sederhana justru mengungguli sistem yang lebih rumit seperti variational autoencoder dan pendekatan berbasis transformer.
Model akhir memakai hidden layer berukuran 256 dimensi dan mencapai performa puncak setelah sekitar 50 siklus pelatihan. Tim menilai efisiensi ini membuat GSFM lebih mudah diakses dibanding model besar lain yang memerlukan klaster komputasi mahal.
Meski dilatih dengan data biologis yang sangat besar, kebutuhan penyimpanannya hanya sekitar 1 gigabyte. Proses pelatihannya juga disebut memakan waktu sekitar 30 menit pada perangkat keras standar.
Mampu mengungguli alat biologis lain
Untuk menilai akurasi prediksi, GSFM dibandingkan dengan berbagai alat AI biologi dan basis data gen. Pengujian dilakukan pada jalur biologis dan proses penyakit yang sudah dikenal, dengan memanfaatkan KEGG pathways, Gene Ontology Biological Processes, GWAS Catalog, dan data faktor transkripsi ChEA.
Para peneliti memisahkan gene set yang sudah diketahui menjadi dua bagian. Satu bagian ditampilkan ke AI, sementara bagian lain disembunyikan agar model menebaknya berdasarkan pola yang dipelajari.
Hasilnya, GSFM konsisten mengungguli metode pesaing di banyak tolok ukur. Model ini juga melampaui Geneformer dan scGPT, dua model populer yang dilatih pada puluhan juta dataset single-cell.
Berguna untuk pencarian target penyakit
Kemampuan GSFM tidak berhenti pada menebak gen yang hilang. Model ini juga dapat mengidentifikasi gen yang masih kurang dipahami, menyarankan jalur terkait penyakit, dan membantu menemukan kandidat target obat.
Salah satu penggunaan pentingnya ada pada gene set enrichment analysis, yaitu metode yang membantu ilmuwan menafsirkan daftar gen dari eksperimen. Dalam tugas ini, GSFM meningkatkan kinerja dan membantu menemukan pola biologis dengan lebih akurat.
Tim juga mengujinya pada prediksi interaksi protein-protein dan studi asosiasi gen-penyakit. Pada demonstrasi lain, model dipakai untuk ferroptosis, yakni jenis kematian sel yang terkait kerusakan akibat zat besi dan lipid.
Dengan gene set ferroptosis yang sudah diketahui, GSFM memprediksi gen tambahan yang mungkin berperan. Beberapa prediksi teratas kemudian cocok dengan temuan yang telah dilaporkan dalam literatur ilmiah, termasuk PLIN2 yang dikaitkan dengan ferroptosis pada oligodendrosit.
Dibuka untuk komunitas riset
Mount Sinai membuat model ini tersedia secara publik agar peneliti lain bisa memanfaatkannya. Pengguna dapat melihat prediksi, menganalisis gene set, dan mengunduh data benchmarking yang disediakan.
Kode sumber dan bobot model terlatih juga tersedia melalui GitHub dan HuggingFace. Keterbukaan ini diharapkan mempercepat pemakaian GSFM dalam penelitian biologis, diagnostik, dan penemuan obat.
Ke depan, tim Mount Sinai ingin menggabungkan GSFM dengan sistem AI lain. Salah satu tujuan mereka adalah menghubungkannya dengan model berbasis bahasa yang bisa menjelaskan fungsi gen dalam bahasa sederhana.