\ Jika Anda seorang insinyur AI, Anda perlu berhenti dari apa yang sedang Anda lakukan dan membaca preprint C2S-Scale baru dari kolaborasi antara Yale dan Google.
\ Di permukaan, tampaknya seperti makalah bioinformatika yang spesifik. Pada kenyataannya, ini adalah salah satu manifesto arsitektur terpenting untuk AI terapan yang saya lihat dalam beberapa tahun terakhir. Tim tersebut membangun model parameter 27B yang tidak hanya menganalisis data biologis—tetapi membuat penemuan ilmiah baru yang divalidasi laboratorium tentang terapi kanker potensial.
\ Sebagai pembangun, saya kurang tertarik pada obat spesifik yang mereka temukan dan lebih terobsesi dengan bagaimana mereka menemukannya. Metodologi mereka adalah playbook yang perlu dipahami oleh setiap arsitek dan insinyur AI.
Tantangan utama dalam menerapkan LLM pada data ilmiah atau perusahaan adalah bahwa model-model ini dilatih pada bahasa, tetapi data kita berada dalam spreadsheet, database, dan array berdimensi tinggi yang masif. Mencoba membuat LLM memahami matriks ekspresi gen scRNA-seq mentah adalah mimpi buruk.
\ Selama bertahun-tahun, pendekatan standar telah menjadi membangun arsitektur khusus untuk sains - AI yang mencoba menambahkan beberapa kemampuan bahasa alami ke model yang dirancang untuk data numerik. Ini lambat, mahal, dan Anda kehilangan hukum penskalaan masif dan inovasi cepat dari ekosistem LLM mainstream.
\ Wawasan brilian tim C2S-Scale adalah membalikkan masalah tersebut.
Kejeniusan kerangka Cell2Sentence (C2S) adalah kesederhanaan yang hampir absurd. Mereka mengambil profil ekspresi gen numerik yang kompleks dari satu sel dan mengubahnya menjadi string teks sederhana.
\ Bagaimana? Mereka mengurutkan setiap gen dalam sel berdasarkan tingkat ekspresinya dan kemudian hanya menuliskan nama-nama gen top-K secara berurutan.
\ Keadaan biologis sel yang kompleks, seperti: \n {'GeneA': 0.1, 'GeneB': 0.9, 'GeneC': 0.4, …}
\ Menjadi kalimat sel yang sederhana dan dapat dibaca manusia: \n GeneB GeneC GeneA …
\ Ini adalah tindakan rekayasa data yang mendalam. Dengan satu langkah ini, mereka:
Arsitektur brilian inilah yang memungkinkan aplikasi pembunuh dari makalah tersebut. Tim menjalankan skrining virtual untuk menemukan obat yang dapat meningkatkan visibilitas sel kanker terhadap sistem kekebalan tubuh.
\ Ini bukan sekadar kueri database sederhana. Ini adalah eksperimen in-silico. Model tersebut memprediksi bahwa obat tertentu, silmitasertib, akan memiliki efek ini, tetapi hanya dalam konteks spesifik pensinyalan interferon.
\ Mereka membawa hipotesis baru yang dihasilkan AI ini ke laboratorium basah nyata, menjalankan eksperimen fisik, dan membuktikan bahwa itu benar.
\ Ini adalah paradigma baru. AI tidak hanya menemukan jawaban dalam data pelatihannya. Ia mensintesis pemahamannya tentang bahasa biologis dan bahasa manusia untuk menghasilkan pengetahuan baru, tidak jelas, dan pada akhirnya benar. Ini adalah sistem untuk mengindustrialisasi serendipitas.
Makalah C2S-Scale adalah panduan lapangan tentang cara membangun sistem AI berdampak tinggi di domain non-tekstual yang kompleks, dari keuangan hingga logistik hingga manufaktur.
Semua ini terdengar abstrak, jadi mari kita konkretkan. Berikut adalah contoh Python super-sederhana dari konsep "Data-ke-Kalimat", diterapkan ke domain yang berbeda: analisis log server.
\ Bayangkan Anda memiliki data log terstruktur. Alih-alih memasukkannya ke AI sebagai JSON mentah, kita dapat menerjemahkannya menjadi "kalimat log."
import json def server_log_to_sentence(log_entry: dict) -> str: """ Translates a structured server log dictionary into a human-readable "log sentence". The "grammar" of our sentence is a fixed order of importance: status -> method -> path -> latency -> user_agent """ # Define the order of importance for our "grammar" grammar_order = ['status', 'method', 'path', 'latency_ms', 'user_agent'] sentence_parts = [] for key in grammar_order: value = log_entry.get(key) if value is not None: # We don't just append the value; we give it a semantic prefix # This helps the LLM understand the meaning of each part. sentence_parts.append(f"{key.upper()}_{value}") return " ".join(sentence_parts) def create_multimodal_prompt(log_sentence: str, human_context: str) -> str: """ Combines the machine-generated "log sentence" with human-provided context to create a rich, multimodal prompt for an LLM. """ prompt = f""" Analyze the following server request. **Human Context:** "{human_context}" **Log Sentence:** "{log_sentence}" Based on both the human context and the log sentence, what is the likely user intent and should we be concerned? """ return prompt # --- Main Execution --- if __name__ == "__main__": # 1. Our raw, structured data (e.g., from a database or log file) raw_log = { "timestamp": "2025-10-26T10:00:05Z", "method": "GET", "path": "/api/v1/user/settings", "status": 403, "latency_ms": 150, "user_agent": "Python-requests/2.25.1" } # 2. Translate the data into the new "language" log_sentence = server_log_to_sentence(raw_log) print("--- Original Structured Data ---") print(json.dumps(raw_log, indent=2)) print("\n--- Translated 'Log Sentence' ---") print(log_sentence) # 3. Combine with human context for a multimodal prompt human_context = "We've been seeing a series of failed API calls from a script, not a browser." final_prompt = create_multimodal_prompt(log_sentence, human_context) print("\n--- Final Multimodal Prompt for LLM ---") print(final_prompt) # Now, this final_prompt can be sent to any standard LLM for deep analysis. # The LLM can now reason about both the structured log data (as a sentence) # and the unstructured human observation, simultaneously.
Skrip sederhana ini mendemonstrasikan pola arsitektur inti. Transformasi Data-ke-Kalimat adalah kuncinya. Ini memungkinkan kita untuk mengambil semua data terstruktur dan merepresentasikannya dalam bahasa asli model AI yang paling kuat, membuka dunia baru penalaran multimodal.

Salin tautanX (Twitter)LinkedInFacebookEmail
Penambang Hobi Mengalahkan "1 dalam 180 Juta
