Dari identifikasi patogen hingga analisis mutasi, data biologis modern banyak dimulai dari satu bentuk sederhana: urutan huruf. Pertemuan ini memperkenalkan logika dasar yang membuat sekuen biologis dapat dibaca, dihitung, dan dianalisis oleh komputer.
Bayangkan laboratorium menerima sekuen pendek dari sampel pasien. Pertanyaan awalnya bukan lagi hanya “positif atau negatif”, tetapi juga: sekuen ini mirip dengan apa, berasal dari gen apa, dan apakah ada perubahan yang bermakna?
Untuk menjawabnya, komputer harus menjalankan instruksi yang jelas. Di sinilah algoritma masuk. Kita mulai dari hal yang paling dekat dengan dunia biomedis: SOP laboratorium.
Algoritma adalah urutan langkah yang eksplisit, terbatas, dan tidak ambigu untuk menyelesaikan masalah. Dalam biomedis, cara berpikir ini sudah dikenal melalui SOP laboratorium, protokol pemeriksaan, dan alur kerja diagnostik.
Eksplisit, setiap langkah ditulis dengan jelas.
Terbatas, proses berakhir setelah jumlah langkah tertentu.
Tidak ambigu, dua orang yang menjalankannya akan menghasilkan output yang sama.
SOP pewarnaan Gram, pemeriksaan PCR, dan pengambilan sampel darah dapat dipahami sebagai algoritma. Setiap prosedur memiliki urutan, kriteria, dan output yang diharapkan.
Jika SOP hanya menulis "warnai dengan kristal violet secukupnya", hasilnya akan bergantung pada interpretasi tiap teknisi. Instruksi seperti "60 detik" atau "tetesi sampai menutup permukaan slide" membuat prosedur lebih terukur. SOP yang baik bekerja seperti algoritma yang baik.
Sekuen biologis adalah data yang besar, berulang, dan harus dibaca secara konsisten. Komputer tidak dapat menebak maksud peneliti. Ia membutuhkan instruksi yang jelas untuk membaca format data, menghitung panjang sekuen, mencari motif, atau membandingkan dua urutan DNA.
Langkah pewarnaan Gram berikut dibuat acak. Susun kembali urutannya untuk melihat bagaimana prosedur laboratorium dapat dibaca sebagai algoritma.
Saat menyusun SOP, mahasiswa sedang berlatih menentukan urutan operasi yang menghasilkan output yang benar. Pada bioinformatika, prinsip yang sama digunakan untuk memproses sekuen biologis.
Kerangka dasarnya sederhana: pecah masalah menjadi langkah, susun urutan, lalu pastikan instruksinya tidak ambigu.
Komputer tidak membaca molekul sebagaimana ahli biologi melihat struktur DNA, RNA, atau protein. Komputer memprosesnya sebagai string, yaitu urutan karakter.
Representasi ini bekerja karena molekul biologis memiliki alfabet yang jelas:
DNA , alfabet 4 huruf: A, T, G, C
RNA , alfabet 4 huruf: A, U, G, C (T diganti U)
Protein , alfabet 20 huruf: A, R, N, D, C,
E, Q, G, H, I,
L, K, M, F, P,
S, T, W, Y, V (kode satu-huruf asam amino)
Sekuen sependek tujuh nukleotida seperti GATTACA sebenarnya adalah string biasa
yang panjangnya 7 karakter. Operasi yang biasa kita lakukan pada teks , menghitung panjang,
mencari sub-string, membandingkan , bisa langsung diterapkan pada DNA.
Persentase G+C dalam suatu sekuen (GC content) bukan sekadar angka. Sekuen dengan GC tinggi membentuk ikatan hidrogen lebih banyak (G-C punya 3 ikatan, A-T hanya 2), sehingga lebih stabil pada suhu tinggi. Ini menjelaskan kenapa bakteri thermofilik cenderung punya GC content tinggi, dan kenapa primer PCR untuk wilayah GC-rich butuh suhu annealing yang lebih tinggi.
Hanya dari menghitung huruf di string, kita sudah memperoleh informasi biologis. Di sinilah bioinformatika mulai bekerja: operasi sederhana pada teks dapat menjadi pintu masuk untuk memahami molekul.
FASTA adalah format sederhana yang banyak digunakan untuk menyimpan dan membagikan sekuen. Format ini akan muncul berulang dalam BLAST, alignment, filogenetik, dan anotasi gen.
1. Baris pertama setiap record dimulai dengan tanda > (greater-than).
2. Setelah >, langsung diikuti identifier unik
(tanpa spasi), lalu deskripsi opsional dipisah spasi.
3. Baris-baris berikutnya adalah sekuennya, bisa terpotong jadi
beberapa baris.
4. Record berikutnya dimulai dengan > baru.
Identifier seperti NM_007294.4 adalah RefSeq accession number dari NCBI.
Format ini membuat setiap sekuen bisa di-track secara unik di seluruh dunia.
Saat copy-paste dari sumber lain, sering kali ada karakter tersembunyi seperti spasi di awal, line break Windows (CRLF), atau bahkan karakter Unicode. Tools profesional biasanya toleran, tapi parser sederhana bisa rusak. Selalu periksa hasil parsing , apakah jumlah record dan panjang sekuen sesuai ekspektasi?
Setelah menyelesaikan modul ini, Anda harus bisa:
✓ Mendefinisikan algoritma dengan tiga syarat: eksplisit, terbatas, tidak ambigu.
✓ Memberi contoh algoritma dari dunia klinis (SOP lab).
✓ Menjelaskan kenapa DNA/RNA/protein bisa diperlakukan sebagai string.
✓ Menyebutkan alfabet DNA (4), RNA (4), dan protein (20).
✓ Membaca dan menulis format FASTA dengan benar.
✓ Mengidentifikasi identifier dan deskripsi pada header FASTA.
Pada Pertemuan 2, fokus berpindah ke pertanyaan pertama dalam analisis sekuen:
"Bagaimana cara mencari motif ATG dalam sekuen?"
Kita akan menghitung berapa langkah yang dibutuhkan, dan dari situ mengembangkan intuisi tentang efisiensi algoritma, sebagai fondasi sebelum masuk ke Needleman-Wunsch di Pertemuan 3.