\ 如果你是一名人工智能工程師,你需要停下手中的工作,閱讀耶魯大學和Google合作的新C2S-Scale預印本。
\ 表面上看,它像是一篇小眾的生物信息學論文。但實際上,它是我多年來見過的應用人工智能最重要的架構宣言之一。該團隊建立了一個270億參數的模型,它不僅分析生物數據—還做出了一個新穎的、經過實驗室驗證的科學發現,關於潛在的癌症療法。
\ 作為一名建構者,我對他們發現的特定藥物不太感興趣,而更著迷於他們如何找到它。他們的方法論是每位人工智能架構師和工程師都需要理解的指南。
將大型語言模型應用於科學或企業數據的中心挑戰在於,這些模型是在語言上訓練的,但我們的數據存在於電子表格、數據庫和大型高維數組中。試圖讓大型語言模型理解原始的scRNA-seq基因表達矩陣是一場噩夢。
\ 多年來,標準方法一直是為科學構建定制的、專門的架構—試圖將一些自然語言能力添加到為數值數據設計的模型中的人工智能。這既緩慢又昂貴,而且你會失去主流大型語言模型生態系統的大規模擴展法則和快速創新。
\ C2S-Scale團隊的卓越洞見是將問題顛倒過來。
Cell2Sentence (C2S)框架的天才之處在於其近乎荒謬的簡單性。他們將單個細胞複雜的數值基因表達譜轉化為簡單的文本字符串。
\ 如何做到?他們按表達水平對細胞中的每個基因進行排名,然後按順序寫出前K個基因的名稱。
\ 一個細胞的複雜生物狀態,如:\n {'GeneA': 0.1, 'GeneB': 0.9, 'GeneC': 0.4, …}
\ 變成一個簡單的、人類可讀的細胞句子:\n GeneB GeneC GeneA …
\ 這是數據工程的深刻行為。通過這一舉措,他們:
這種卓越的架構使論文中的殺手級應用成為可能。該團隊進行了虛擬篩選,尋找可以提高癌細胞對免疫系統可見性的藥物。
\ 這不是一個簡單的數據庫查詢。這是一個體外實驗。該模型預測一種特定的藥物,silmitasertib,會產生這種效果,但只有在干擾素信號傳導的特定背景下。
\ 他們將這個新穎的、由人工智能生成的假設帶到真實的實驗室,進行了物理實驗,並證明它是正確的。
\ 這是新的範式。人工智能不僅在其訓練數據中找到答案。它綜合了對生物語言和人類語言的理解,生成了一個新的、非顯而易見的,最終是真實的知識片段。這是一個工業化偶然發現的系統。
C2S-Scale論文是一個指南,說明如何在任何複雜的、非文本領域中構建高影響力的人工智能系統,從金融到物流再到製造業。
這一切聽起來很抽象,所以讓我們具體化。這裡有一個超級簡化的Python例子,展示了"數據到句子"概念,應用於不同的領域:伺服器日誌分析。
\ 想像你有結構化的日誌數據。我們可以將其翻譯成"日誌句子",而不是將其作為原始JSON提供給人工智能。
import json def server_log_to_sentence(log_entry: dict) -> str: """ Translates a structured server log dictionary into a human-readable "log sentence". The "grammar" of our sentence is a fixed order of importance: status -> method -> path -> latency -> user_agent """ # Define the order of importance for our "grammar" grammar_order = ['status', 'method', 'path', 'latency_ms', 'user_agent'] sentence_parts = [] for key in grammar_order: value = log_entry.get(key) if value is not None: # We don't just append the value; we give it a semantic prefix # This helps the LLM understand the meaning of each part. sentence_parts.append(f"{key.upper()}_{value}") return " ".join(sentence_parts) def create_multimodal_prompt(log_sentence: str, human_context: str) -> str: """ Combines the machine-generated "log sentence" with human-provided context to create a rich, multimodal prompt for an LLM. """ prompt = f""" Analyze the following server request. **Human Context:** "{human_context}" **Log Sentence:** "{log_sentence}" Based on both the human context and the log sentence, what is the likely user intent and should we be concerned? """ return prompt # --- Main Execution --- if __name__ == "__main__": # 1. Our raw, structured data (e.g., from a database or log file) raw_log = { "timestamp": "2025-10-26T10:00:05Z", "method": "GET", "path": "/api/v1/user/settings", "status": 403, "latency_ms": 150, "user_agent": "Python-requests/2.25.1" } # 2. Translate the data into the new "language" log_sentence = server_log_to_sentence(raw_log) print("--- Original Structured Data ---") print(json.dumps(raw_log, indent=2)) print("\n--- Translated 'Log Sentence' ---") print(log_sentence) # 3. Combine with human context for a multimodal prompt human_context = "We've been seeing a series of failed API calls from a script, not a browser." final_prompt = create_multimodal_prompt(log_sentence, human_context) print("\n--- Final Multimodal Prompt for LLM ---") print(final_prompt) # Now, this final_prompt can be sent to any standard LLM for deep analysis. # The LLM can now reason about both the structured log data (as a sentence) # and the unstructured human observation, simultaneously.
這個簡單的腳本展示了核心架構模式。數據到句子的轉換是關鍵。它允許我們採用任何結構化數據,並在最強大的人工智能模型的原生語言中表示它,解鎖多模態推理的新世界。


