Sebuah makalah baru tentang model sel dengan parameter 27 miliar bukan hanya tentang biologi. Ini adalah rekayasa data dan cetak biru untuk masa depan AI terapan. Tim tersebut membangun model parameter 27B yang membuat penemuan ilmiah.Sebuah makalah baru tentang model sel dengan parameter 27 miliar bukan hanya tentang biologi. Ini adalah rekayasa data dan cetak biru untuk masa depan AI terapan. Tim tersebut membangun model parameter 27B yang membuat penemuan ilmiah.

Google & Yale Mengubah Biologi Menjadi Bahasa Inilah Mengapa Ini Adalah Game-Changer untuk Developer

2025/11/22 23:00

Makalah baru tentang model sel 27-miliar-parameter bukan hanya tentang biologi. Ini adalah rekayasa data dan cetak biru untuk masa depan AI terapan.

\ Jika Anda seorang insinyur AI, Anda perlu berhenti dari apa yang sedang Anda lakukan dan membaca preprint C2S-Scale baru dari kolaborasi antara Yale dan Google.

\ Di permukaan, tampaknya seperti makalah bioinformatika yang spesifik. Pada kenyataannya, ini adalah salah satu manifesto arsitektur terpenting untuk AI terapan yang saya lihat dalam beberapa tahun terakhir. Tim tersebut membangun model parameter 27B yang tidak hanya menganalisis data biologis—tetapi membuat penemuan ilmiah baru yang divalidasi laboratorium tentang terapi kanker potensial.

\ Sebagai pembangun, saya kurang tertarik pada obat spesifik yang mereka temukan dan lebih terobsesi dengan bagaimana mereka menemukannya. Metodologi mereka adalah playbook yang perlu dipahami oleh setiap arsitek dan insinyur AI.

Masalah Inti: Model AI Membenci Spreadsheet

Tantangan utama dalam menerapkan LLM pada data ilmiah atau perusahaan adalah bahwa model-model ini dilatih pada bahasa, tetapi data kita berada dalam spreadsheet, database, dan array berdimensi tinggi yang masif. Mencoba membuat LLM memahami matriks ekspresi gen scRNA-seq mentah adalah mimpi buruk.

\ Selama bertahun-tahun, pendekatan standar telah menjadi membangun arsitektur khusus untuk sains - AI yang mencoba menambahkan beberapa kemampuan bahasa alami ke model yang dirancang untuk data numerik. Ini lambat, mahal, dan Anda kehilangan hukum penskalaan masif dan inovasi cepat dari ekosistem LLM mainstream.

\ Wawasan brilian tim C2S-Scale adalah membalikkan masalah tersebut.

Langkah Arsitektur yang Brilian: Cell2Sentence

Kejeniusan kerangka Cell2Sentence (C2S) adalah kesederhanaan yang hampir absurd. Mereka mengambil profil ekspresi gen numerik yang kompleks dari satu sel dan mengubahnya menjadi string teks sederhana.

\ Bagaimana? Mereka mengurutkan setiap gen dalam sel berdasarkan tingkat ekspresinya dan kemudian hanya menuliskan nama-nama gen top-K secara berurutan.

\ Keadaan biologis sel yang kompleks, seperti: \n {'GeneA': 0.1, 'GeneB': 0.9, 'GeneC': 0.4, …}

\ Menjadi kalimat sel yang sederhana dan dapat dibaca manusia: \n GeneB GeneC GeneA …

\ Ini adalah tindakan rekayasa data yang mendalam. Dengan satu langkah ini, mereka:

  1. Menghilangkan Kebutuhan untuk Arsitektur Khusus: Mereka sekarang dapat memasukkan bahasa biologis ini langsung ke dalam arsitektur Transformer standar seperti Gemma atau Llama. Mereka bisa memanfaatkan gelombang seluruh komunitas penelitian LLM secara gratis.
  2. Membuka Multimodalitas: Korpus pelatihan mereka bukan hanya kalimat sel. Mereka sekarang bisa mencampurkan abstrak sebenarnya dari makalah ilmiah dari mana data tersebut bersumber. Model tersebut belajar menghubungkan bahasa sel dengan bahasa ilmuwan dalam satu pelatihan terpadu.
  3. Mengaktifkan Pengkodean Vibe Sejati untuk Biologi: Model akhir tidak hanya mengklasifikasikan hal-hal. Ini dapat mengambil prompt seperti, Hasilkan sel T CD8+ pankreas, dan akan menghasilkan kalimat sel sintetis baru yang mewakili ekspresi gen dari sel yang belum pernah ada.

Hasilnya: Industrialisasi Penemuan Ilmiah

Arsitektur brilian inilah yang memungkinkan aplikasi pembunuh dari makalah tersebut. Tim menjalankan skrining virtual untuk menemukan obat yang dapat meningkatkan visibilitas sel kanker terhadap sistem kekebalan tubuh.

\ Ini bukan sekadar kueri database sederhana. Ini adalah eksperimen in-silico. Model tersebut memprediksi bahwa obat tertentu, silmitasertib, akan memiliki efek ini, tetapi hanya dalam konteks spesifik pensinyalan interferon.

\ Mereka membawa hipotesis baru yang dihasilkan AI ini ke laboratorium basah nyata, menjalankan eksperimen fisik, dan membuktikan bahwa itu benar.

\ Ini adalah paradigma baru. AI tidak hanya menemukan jawaban dalam data pelatihannya. Ia mensintesis pemahamannya tentang bahasa biologis dan bahasa manusia untuk menghasilkan pengetahuan baru, tidak jelas, dan pada akhirnya benar. Ini adalah sistem untuk mengindustrialisasi serendipitas.

Apa Artinya Ini bagi Para Pembangun

Makalah C2S-Scale adalah panduan lapangan tentang cara membangun sistem AI berdampak tinggi di domain non-tekstual yang kompleks, dari keuangan hingga logistik hingga manufaktur.

  1. Berhenti Membengkokkan Model. Mulai Menerjemahkan Data Anda. Pekerjaan terpenting bukan lagi merancang jaringan saraf khusus. Ini adalah pekerjaan kreatif, strategis untuk menemukan representasi Data-ke-Kalimat untuk domain spesifik Anda. Apa bahasa rantai pasokan Anda? Apa tata bahasa data keuangan Anda?
  2. Multimodalitas adalah Kebutuhan, Bukan Fitur. Kekuatan sebenarnya terbuka ketika mereka menggabungkan kalimat sel dengan abstrak makalah. Sistem AI Anda harus dilatih tidak hanya pada data terstruktur Anda, tetapi pada pengetahuan manusia tidak terstruktur yang mengelilinginya—log pemeliharaan, tiket dukungan, memo strategi.
  3. Tujuannya adalah Generator Hipotesis, Bukan Mesin Jawaban. Sistem AI paling berharga di masa depan bukanlah yang dapat menjawab apa yang sudah diketahui. Mereka akan menjadi yang dapat, seperti C2S-Scale, menghasilkan hipotesis baru yang dapat diuji yang mendorong batas-batas apa yang mungkin.

Mari Membangunnya: Contoh Data-ke-Kalimat

Semua ini terdengar abstrak, jadi mari kita konkretkan. Berikut adalah contoh Python super-sederhana dari konsep "Data-ke-Kalimat", diterapkan ke domain yang berbeda: analisis log server.

\ Bayangkan Anda memiliki data log terstruktur. Alih-alih memasukkannya ke AI sebagai JSON mentah, kita dapat menerjemahkannya menjadi "kalimat log."

import json def server_log_to_sentence(log_entry: dict) -> str: """ Translates a structured server log dictionary into a human-readable "log sentence". The "grammar" of our sentence is a fixed order of importance: status -> method -> path -> latency -> user_agent """ # Define the order of importance for our "grammar" grammar_order = ['status', 'method', 'path', 'latency_ms', 'user_agent'] sentence_parts = [] for key in grammar_order: value = log_entry.get(key) if value is not None: # We don't just append the value; we give it a semantic prefix # This helps the LLM understand the meaning of each part. sentence_parts.append(f"{key.upper()}_{value}") return " ".join(sentence_parts) def create_multimodal_prompt(log_sentence: str, human_context: str) -> str: """ Combines the machine-generated "log sentence" with human-provided context to create a rich, multimodal prompt for an LLM. """ prompt = f""" Analyze the following server request. **Human Context:** "{human_context}" **Log Sentence:** "{log_sentence}" Based on both the human context and the log sentence, what is the likely user intent and should we be concerned? """ return prompt # --- Main Execution --- if __name__ == "__main__": # 1. Our raw, structured data (e.g., from a database or log file) raw_log = { "timestamp": "2025-10-26T10:00:05Z", "method": "GET", "path": "/api/v1/user/settings", "status": 403, "latency_ms": 150, "user_agent": "Python-requests/2.25.1" } # 2. Translate the data into the new "language" log_sentence = server_log_to_sentence(raw_log) print("--- Original Structured Data ---") print(json.dumps(raw_log, indent=2)) print("\n--- Translated 'Log Sentence' ---") print(log_sentence) # 3. Combine with human context for a multimodal prompt human_context = "We've been seeing a series of failed API calls from a script, not a browser." final_prompt = create_multimodal_prompt(log_sentence, human_context) print("\n--- Final Multimodal Prompt for LLM ---") print(final_prompt) # Now, this final_prompt can be sent to any standard LLM for deep analysis. # The LLM can now reason about both the structured log data (as a sentence) # and the unstructured human observation, simultaneously.

Skrip sederhana ini mendemonstrasikan pola arsitektur inti. Transformasi Data-ke-Kalimat adalah kuncinya. Ini memungkinkan kita untuk mengambil semua data terstruktur dan merepresentasikannya dalam bahasa asli model AI yang paling kuat, membuka dunia baru penalaran multimodal.

Penafian: Artikel yang diterbitkan ulang di situs web ini bersumber dari platform publik dan disediakan hanya sebagai informasi. Artikel tersebut belum tentu mencerminkan pandangan MEXC. Seluruh hak cipta tetap dimiliki oleh penulis aslinya. Jika Anda meyakini bahwa ada konten yang melanggar hak pihak ketiga, silakan hubungi service@support.mexc.com agar konten tersebut dihapus. MEXC tidak menjamin keakuratan, kelengkapan, atau keaktualan konten dan tidak bertanggung jawab atas tindakan apa pun yang dilakukan berdasarkan informasi yang diberikan. Konten tersebut bukan merupakan saran keuangan, hukum, atau profesional lainnya, juga tidak boleh dianggap sebagai rekomendasi atau dukungan oleh MEXC.