Bioinformatika dimulai dari kemampuan menyusun langkah yang jelas. Pada pertemuan ini, mahasiswa mempelajari algoritma melalui SOP laboratorium, representasi sekuen sebagai string, dan format FASTA.
Algoritma adalah urutan langkah yang eksplisit, terbatas, dan tidak ambigu untuk menyelesaikan masalah. Dalam biomedis, cara berpikir ini sudah dikenal melalui SOP laboratorium.
Eksplisit, setiap langkah ditulis, tidak ada yang "diasumsikan tahu sendiri".
Terbatas, pasti berakhir setelah jumlah langkah tertentu (tidak loop selamanya).
Tidak ambigu, dua orang yang menjalankannya akan menghasilkan output yang sama.
SOP pewarnaan Gram, pemeriksaan PCR, dan pengambilan sampel darah dapat dipahami sebagai algoritma. Setiap prosedur memiliki urutan, kriteria, dan output yang diharapkan.
Jika SOP hanya menulis "warnai dengan kristal violet secukupnya", hasilnya akan bergantung pada interpretasi tiap teknisi. Instruksi seperti "60 detik" atau "tetesi sampai menutup permukaan slide" membuat prosedur lebih terukur. SOP yang baik bekerja seperti algoritma yang baik.
Instruksi seperti "tambahkan garam secukupnya" belum cukup eksplisit. Sebaliknya, prosedur profesional biasanya memberi takaran, durasi, dan kondisi yang dapat diulang. Perbedaan ini penting karena komputer hanya dapat menjalankan instruksi yang jelas.
Langkah pewarnaan Gram berikut dibuat acak. Susun kembali urutannya untuk melihat bagaimana prosedur laboratorium dapat dibaca sebagai algoritma.
Saat menyusun SOP, mahasiswa sedang berlatih menentukan urutan operasi yang menghasilkan output yang benar. Pada bioinformatika, prinsip yang sama digunakan untuk memproses sekuen biologis.
Kerangka dasarnya sederhana: pecah masalah menjadi langkah, susun urutan, lalu pastikan instruksinya tidak ambigu.
Komputer tidak membaca molekul sebagaimana ahli biologi melihat struktur DNA, RNA, atau protein. Komputer memprosesnya sebagai string, yaitu urutan karakter.
Representasi ini bekerja karena molekul biologis memiliki alfabet yang jelas:
DNA, alfabet 4 huruf: A, T, G, C
RNA, alfabet 4 huruf: A, U, G, C (T diganti U)
Protein, alfabet 20 huruf: A, R, N, D, C,
E, Q, G, H, I,
L, K, M, F, P,
S, T, W, Y, V (kode satu-huruf asam amino)
Sekuen sependek tujuh nukleotida seperti GATTACA sebenarnya adalah string biasa
yang panjangnya 7 karakter. Operasi yang biasa kita lakukan pada teks, menghitung panjang,
mencari sub-string, membandingkan, bisa langsung diterapkan pada DNA.
Persentase G+C dalam suatu sekuen (GC content) bukan sekadar angka. Sekuen dengan GC tinggi membentuk ikatan hidrogen lebih banyak (G-C punya 3 ikatan, A-T hanya 2), sehingga lebih stabil pada suhu tinggi. Ini menjelaskan kenapa bakteri thermofilik cenderung punya GC content tinggi, dan kenapa primer PCR untuk wilayah GC-rich butuh suhu annealing yang lebih tinggi.
Hanya dari menghitung huruf di string, kita sudah dapat insight biologis. Itulah kekuatan bioinformatika, banyak kesimpulan biologis bisa diturunkan dari operasi string sederhana.
FASTA adalah format sederhana yang banyak digunakan untuk menyimpan dan membagikan sekuen. Format ini akan muncul berulang dalam BLAST, alignment, filogenetik, dan anotasi gen.
1. Baris pertama setiap record dimulai dengan tanda > (greater-than).
2. Setelah >, langsung diikuti identifier unik
(tanpa spasi), lalu deskripsi opsional dipisah spasi.
3. Baris-baris berikutnya adalah sekuennya, bisa terpotong jadi
beberapa baris.
4. Record berikutnya dimulai dengan > baru.
Identifier seperti NM_007294.4 adalah RefSeq accession number dari NCBI.
Format ini membuat setiap sekuen bisa di-track secara unik di seluruh dunia.
Saat copy-paste dari sumber lain, sering kali ada karakter tersembunyi seperti spasi di awal, line break Windows (CRLF), atau bahkan karakter Unicode. Tools profesional biasanya toleran, tapi parser sederhana bisa rusak. Selalu periksa hasil parsing , apakah jumlah record dan panjang sekuen sesuai ekspektasi?
Setelah menyelesaikan modul ini, Anda harus bisa:
โ Mendefinisikan algoritma dengan tiga syarat: eksplisit, terbatas, tidak ambigu.
โ Memberi contoh algoritma dari dunia klinis (SOP lab).
โ Menjelaskan kenapa DNA/RNA/protein bisa diperlakukan sebagai string.
โ Menyebutkan alfabet DNA (4), RNA (4), dan protein (20).
โ Membaca dan menulis format FASTA dengan benar.
โ Mengidentifikasi identifier dan deskripsi pada header FASTA.
Pada Pertemuan 2, fokus berpindah ke pertanyaan pertama dalam analisis sekuen:
"Bagaimana cara mencari motif ATG dalam sekuen?"
Kita akan menghitung berapa langkah yang dibutuhkan, dan dari situ mengembangkan intuisi
tentang efisiensi algoritma, fondasi sebelum kita masuk ke Needleman-Wunsch di Pertemuan 3.