一篇關於270億參數細胞模型的新論文不僅僅是關於生物學。它是數據工程和應用人工智能未來的藍圖。該團隊建立了一個270億參數的模型,並做出了科學發現。一篇關於270億參數細胞模型的新論文不僅僅是關於生物學。它是數據工程和應用人工智能未來的藍圖。該團隊建立了一個270億參數的模型,並做出了科學發現。

Google 與 Yale 將生物學轉化為語言 這就是為什麼這對開發者來說是一個遊戲規則改變者

2025/11/22 23:00

一篇關於270億參數細胞模型的新論文不僅僅是關於生物學。它是數據工程和應用人工智能未來的藍圖。

\ 如果你是一名人工智能工程師,你需要停下手中的工作,閱讀耶魯大學和Google合作的新C2S-Scale預印本。

\ 表面上看,它像是一篇小眾的生物信息學論文。但實際上,它是我多年來見過的應用人工智能最重要的架構宣言之一。該團隊建立了一個270億參數的模型,它不僅分析生物數據—還做出了一個新穎的、經過實驗室驗證的科學發現,關於潛在的癌症療法。

\ 作為一名建構者,我對他們發現的特定藥物不太感興趣,而更著迷於他們如何找到它。他們的方法論是每位人工智能架構師和工程師都需要理解的指南。

核心問題:人工智能模型討厭電子表格

將大型語言模型應用於科學或企業數據的中心挑戰在於,這些模型是在語言上訓練的,但我們的數據存在於電子表格、數據庫和大型高維數組中。試圖讓大型語言模型理解原始的scRNA-seq基因表達矩陣是一場噩夢。

\ 多年來,標準方法一直是為科學構建定制的、專門的架構—試圖將一些自然語言能力添加到為數值數據設計的模型中的人工智能。這既緩慢又昂貴,而且你會失去主流大型語言模型生態系統的大規模擴展法則和快速創新。

\ C2S-Scale團隊的卓越洞見是將問題顛倒過來。

架構上的傑作:Cell2Sentence

Cell2Sentence (C2S)框架的天才之處在於其近乎荒謬的簡單性。他們將單個細胞複雜的數值基因表達譜轉化為簡單的文本字符串。

\ 如何做到?他們按表達水平對細胞中的每個基因進行排名,然後按順序寫出前K個基因的名稱。

\ 一個細胞的複雜生物狀態,如:\n {'GeneA': 0.1, 'GeneB': 0.9, 'GeneC': 0.4, …}

\ 變成一個簡單的、人類可讀的細胞句子:\n GeneB GeneC GeneA …

\ 這是數據工程的深刻行為。通過這一舉措,他們:

  1. 消除了對定制架構的需求:他們現在可以將這種生物語言直接輸入到標準的、現成的Transformer架構中,如Gemma或Llama。他們可以免費搭乘整個大型語言模型研究社區的浪潮。
  2. 解鎖了多模態性:他們的訓練語料庫不僅僅是細胞句子。他們現在可以混入數據來源的科學論文的實際摘要。該模型在單一、統一的訓練運行中學會了將細胞的語言與科學家的語言相關聯。
  3. 為生物學啟用了真正的氛圍編碼:最終的模型不僅僅是分類事物。它可以接受一個提示,如生成一個胰腺CD8+ T細胞,它將生成一個新的、合成的細胞句子,代表一個從未存在過的細胞的基因表達。

回報:工業化科學發現

這種卓越的架構使論文中的殺手級應用成為可能。該團隊進行了虛擬篩選,尋找可以提高癌細胞對免疫系統可見性的藥物。

\ 這不是一個簡單的數據庫查詢。這是一個體外實驗。該模型預測一種特定的藥物,silmitasertib,會產生這種效果,但只有在干擾素信號傳導的特定背景下。

\ 他們將這個新穎的、由人工智能生成的假設帶到真實的實驗室,進行了物理實驗,並證明它是正確的。

\ 這是新的範式。人工智能不僅在其訓練數據中找到答案。它綜合了對生物語言和人類語言的理解,生成了一個新的、非顯而易見的,最終是真實的知識片段。這是一個工業化偶然發現的系統。

這對建構者意味著什麼

C2S-Scale論文是一個指南,說明如何在任何複雜的、非文本領域中構建高影響力的人工智能系統,從金融到物流再到製造業。

  1. 停止彎曲模型。開始翻譯你的數據。最重要的工作不再是設計定制神經網絡。而是在創造性、戰略性地尋找特定領域的數據到句子表示。你的供應鏈的語言是什麼?你的金融數據的語法是什麼?
  2. 多模態是一個要求,而不是一個特性。當他們將細胞句子與論文摘要結合時,真正的力量被釋放出來。你的人工智能系統應該不僅在你的結構化數據上訓練,還應該在圍繞它的非結構化人類知識上訓練—維護日誌、支持票據、策略備忘錄。
  3. 目標是假設生成器,而不是答案機器。未來最有價值的人工智能系統不會是那些能夠回答已知事物的系統。它們將是那些能夠像C2S-Scale一樣,生成新穎的、可測試的假設,推動可能性邊界的系統。

讓我們來構建它:一個數據到句子的例子

這一切聽起來很抽象,所以讓我們具體化。這裡有一個超級簡化的Python例子,展示了"數據到句子"概念,應用於不同的領域:伺服器日誌分析。

\ 想像你有結構化的日誌數據。我們可以將其翻譯成"日誌句子",而不是將其作為原始JSON提供給人工智能。

import json def server_log_to_sentence(log_entry: dict) -> str: """ Translates a structured server log dictionary into a human-readable "log sentence". The "grammar" of our sentence is a fixed order of importance: status -> method -> path -> latency -> user_agent """ # Define the order of importance for our "grammar" grammar_order = ['status', 'method', 'path', 'latency_ms', 'user_agent'] sentence_parts = [] for key in grammar_order: value = log_entry.get(key) if value is not None: # We don't just append the value; we give it a semantic prefix # This helps the LLM understand the meaning of each part. sentence_parts.append(f"{key.upper()}_{value}") return " ".join(sentence_parts) def create_multimodal_prompt(log_sentence: str, human_context: str) -> str: """ Combines the machine-generated "log sentence" with human-provided context to create a rich, multimodal prompt for an LLM. """ prompt = f""" Analyze the following server request. **Human Context:** "{human_context}" **Log Sentence:** "{log_sentence}" Based on both the human context and the log sentence, what is the likely user intent and should we be concerned? """ return prompt # --- Main Execution --- if __name__ == "__main__": # 1. Our raw, structured data (e.g., from a database or log file) raw_log = { "timestamp": "2025-10-26T10:00:05Z", "method": "GET", "path": "/api/v1/user/settings", "status": 403, "latency_ms": 150, "user_agent": "Python-requests/2.25.1" } # 2. Translate the data into the new "language" log_sentence = server_log_to_sentence(raw_log) print("--- Original Structured Data ---") print(json.dumps(raw_log, indent=2)) print("\n--- Translated 'Log Sentence' ---") print(log_sentence) # 3. Combine with human context for a multimodal prompt human_context = "We've been seeing a series of failed API calls from a script, not a browser." final_prompt = create_multimodal_prompt(log_sentence, human_context) print("\n--- Final Multimodal Prompt for LLM ---") print(final_prompt) # Now, this final_prompt can be sent to any standard LLM for deep analysis. # The LLM can now reason about both the structured log data (as a sentence) # and the unstructured human observation, simultaneously.

這個簡單的腳本展示了核心架構模式。數據到句子的轉換是關鍵。它允許我們採用任何結構化數據,並在最強大的人工智能模型的原生語言中表示它,解鎖多模態推理的新世界。

免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 service@support.mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。