PERTEMUAN 1

Bagaimana komputer membaca DNA?

Dari identifikasi patogen hingga analisis mutasi, data biologis modern banyak dimulai dari satu bentuk sederhana: urutan huruf. Pertemuan ini memperkenalkan logika dasar yang membuat sekuen biologis dapat dibaca, dihitung, dan dianalisis oleh komputer.

Opening Case

Bayangkan laboratorium menerima sekuen pendek dari sampel pasien. Pertanyaan awalnya bukan lagi hanya “positif atau negatif”, tetapi juga: sekuen ini mirip dengan apa, berasal dari gen apa, dan apakah ada perubahan yang bermakna?

Untuk menjawabnya, komputer harus menjalankan instruksi yang jelas. Di sinilah algoritma masuk. Kita mulai dari hal yang paling dekat dengan dunia biomedis: SOP laboratorium.

Diagnostik molekulermembaca target genetik dan hasil sekuen.
Surveilans wabahmembandingkan sekuen patogen antar sampel.
Analisis mutasimelihat perubahan huruf pada DNA atau RNA.
Bagian 1, Mengapa algoritma penting dalam biomedis?

Dari SOP laboratorium ke logika komputasi

Algoritma adalah urutan langkah yang eksplisit, terbatas, dan tidak ambigu untuk menyelesaikan masalah. Dalam biomedis, cara berpikir ini sudah dikenal melalui SOP laboratorium, protokol pemeriksaan, dan alur kerja diagnostik.

Ciri utama algoritma

Eksplisit, setiap langkah ditulis dengan jelas.
Terbatas, proses berakhir setelah jumlah langkah tertentu.
Tidak ambigu, dua orang yang menjalankannya akan menghasilkan output yang sama.

Contoh biomedis: SOP laboratorium klinik

SOP pewarnaan Gram, pemeriksaan PCR, dan pengambilan sampel darah dapat dipahami sebagai algoritma. Setiap prosedur memiliki urutan, kriteria, dan output yang diharapkan.

Jika SOP hanya menulis "warnai dengan kristal violet secukupnya", hasilnya akan bergantung pada interpretasi tiap teknisi. Instruksi seperti "60 detik" atau "tetesi sampai menutup permukaan slide" membuat prosedur lebih terukur. SOP yang baik bekerja seperti algoritma yang baik.

Mengapa ini relevan dengan bioinformatika?

Sekuen biologis adalah data yang besar, berulang, dan harus dibaca secara konsisten. Komputer tidak dapat menebak maksud peneliti. Ia membutuhkan instruksi yang jelas untuk membaca format data, menghitung panjang sekuen, mencari motif, atau membandingkan dua urutan DNA.

Bagian 2, Aktivitas interaktif

Menyusun urutan SOP pewarnaan Gram

Langkah pewarnaan Gram berikut dibuat acak. Susun kembali urutannya untuk melihat bagaimana prosedur laboratorium dapat dibaca sebagai algoritma.

🧪 Susun SOP Pewarnaan Gram
Geser item ke atas atau bawah dengan menahan dan menarik. Setelah selesai, klik "Cek Urutan".
Catatan pembelajaran

Saat menyusun SOP, mahasiswa sedang berlatih menentukan urutan operasi yang menghasilkan output yang benar. Pada bioinformatika, prinsip yang sama digunakan untuk memproses sekuen biologis.

Kerangka dasarnya sederhana: pecah masalah menjadi langkah, susun urutan, lalu pastikan instruksinya tidak ambigu.

Bagian 3, DNA, RNA, dan protein sebagai string

Lompatan penting dalam bioinformatika

Komputer tidak membaca molekul sebagaimana ahli biologi melihat struktur DNA, RNA, atau protein. Komputer memprosesnya sebagai string, yaitu urutan karakter.

Representasi ini bekerja karena molekul biologis memiliki alfabet yang jelas:

Alfabet Bioinformatika

DNA , alfabet 4 huruf: A, T, G, C
RNA , alfabet 4 huruf: A, U, G, C (T diganti U)
Protein , alfabet 20 huruf: A, R, N, D, C, E, Q, G, H, I, L, K, M, F, P, S, T, W, Y, V (kode satu-huruf asam amino)

Sekuen sependek tujuh nukleotida seperti GATTACA sebenarnya adalah string biasa yang panjangnya 7 karakter. Operasi yang biasa kita lakukan pada teks , menghitung panjang, mencari sub-string, membandingkan , bisa langsung diterapkan pada DNA.

🧬 String Explorer
Ketik sekuen DNA apa pun (hanya huruf A, T, G, C). Lihat apa yang bisa kita hitung otomatis.
⚠️ Karakter yang tidak valid akan diabaikan. DNA hanya boleh A, T, G, C.
Mengapa GC Content Penting?

Persentase G+C dalam suatu sekuen (GC content) bukan sekadar angka. Sekuen dengan GC tinggi membentuk ikatan hidrogen lebih banyak (G-C punya 3 ikatan, A-T hanya 2), sehingga lebih stabil pada suhu tinggi. Ini menjelaskan kenapa bakteri thermofilik cenderung punya GC content tinggi, dan kenapa primer PCR untuk wilayah GC-rich butuh suhu annealing yang lebih tinggi.

Hanya dari menghitung huruf di string, kita sudah memperoleh informasi biologis. Di sinilah bioinformatika mulai bekerja: operasi sederhana pada teks dapat menjadi pintu masuk untuk memahami molekul.

Bagian 4, Format FASTA

Standar dasar untuk membaca data sekuen

FASTA adalah format sederhana yang banyak digunakan untuk menyimpan dan membagikan sekuen. Format ini akan muncul berulang dalam BLAST, alignment, filogenetik, dan anotasi gen.

Aturan Format FASTA

1. Baris pertama setiap record dimulai dengan tanda > (greater-than).
2. Setelah >, langsung diikuti identifier unik (tanpa spasi), lalu deskripsi opsional dipisah spasi.
3. Baris-baris berikutnya adalah sekuennya, bisa terpotong jadi beberapa baris.
4. Record berikutnya dimulai dengan > baru.

Contoh dari NCBI:

>NM_007294.4 Homo sapiens BRCA1, mRNA
GCTGAGACTTCCTGGACGGGGGACAGGCTGTGGGGTTTCTCAGATAACTGGGCCCCTGCG
CTCAGGAGGCCTTCACCCTCTGCTCTGGGTAAAG
>NM_000059.4 Homo sapiens BRCA2, mRNA
GTGGCGCGAGCTTCTGAAACTAGGCGGCAGAGGCGGAGCCGCTGTGGCACTGCTGCGCCT
CTGCTGCGCCTCGGGTGTCTTTTGCGGCGGTGGGT

Identifier seperti NM_007294.4 adalah RefSeq accession number dari NCBI. Format ini membuat setiap sekuen bisa di-track secara unik di seluruh dunia.

📄 FASTA Parser
Tempelkan satu atau beberapa record FASTA di kotak di bawah, lalu klik "Parse". Anda bisa coba dengan contoh di atas, atau ambil dari NCBI.
Kesalahan Umum

Saat copy-paste dari sumber lain, sering kali ada karakter tersembunyi seperti spasi di awal, line break Windows (CRLF), atau bahkan karakter Unicode. Tools profesional biasanya toleran, tapi parser sederhana bisa rusak. Selalu periksa hasil parsing , apakah jumlah record dan panjang sekuen sesuai ekspektasi?

Bagian 5, Cek pemahaman

Pertanyaan singkat untuk menguji konsep dasar

Bagian 6, Persiapan pertemuan berikutnya

Persiapan untuk modul pencarian pola

Checklist Pemahaman

Setelah menyelesaikan modul ini, Anda harus bisa:

✓ Mendefinisikan algoritma dengan tiga syarat: eksplisit, terbatas, tidak ambigu.
✓ Memberi contoh algoritma dari dunia klinis (SOP lab).
✓ Menjelaskan kenapa DNA/RNA/protein bisa diperlakukan sebagai string.
✓ Menyebutkan alfabet DNA (4), RNA (4), dan protein (20).
✓ Membaca dan menulis format FASTA dengan benar.
✓ Mengidentifikasi identifier dan deskripsi pada header FASTA.

Pada Pertemuan 2, fokus berpindah ke pertanyaan pertama dalam analisis sekuen: "Bagaimana cara mencari motif ATG dalam sekuen?" Kita akan menghitung berapa langkah yang dibutuhkan, dan dari situ mengembangkan intuisi tentang efisiensi algoritma, sebagai fondasi sebelum masuk ke Needleman-Wunsch di Pertemuan 3.