\ 如果你是一名人工智能工程师,你需要停下手头的工作,阅读耶鲁大学和谷歌合作的新C2S-Scale预印本。
\ 表面上看,它像是一篇小众的生物信息学论文。实际上,它是我多年来见过的应用人工智能最重要的架构宣言之一。该团队构建了一个270亿参数的模型,它不仅分析生物数据,还对潜在的癌症疗法做出了新颖的、经湿实验室验证的科学发现。
\ 作为一名构建者,我对他们发现的特定药物不太感兴趣,而更痴迷于他们如何找到它。他们的方法是每个人工智能架构师和工程师都需要理解的指南。
将大语言模型应用于科学或企业数据的中心挑战在于,这些模型是在语言上训练的,但我们的数据存在于电子表格、数据库和大型高维数组中。试图让大语言模型理解原始的scRNA-seq基因表达矩阵是一场噩梦。
\ 多年来,标准方法一直是为科学构建定制的、专门的架构 - 试图将一些自然语言能力添加到为数值数据设计的模型中的人工智能。这既缓慢又昂贵,而且你会错失主流大语言模型生态系统的大规模扩展法则和快速创新。
\ C2S-Scale团队的卓越洞见是将问题颠倒过来。
Cell2Sentence (C2S)框架的天才之处在于其几乎荒谬的简单性。他们将单个细胞复杂的数值基因表达谱转化为简单的文本字符串。
\ 如何做到?他们根据表达水平对细胞中的每个基因进行排名,然后按顺序写出前K个基因的名称。
\ 一个细胞的复杂生物状态,如:\n {'GeneA': 0.1, 'GeneB': 0.9, 'GeneC': 0.4, …}
\ 变成一个简单的、人类可读的细胞句子:\n GeneB GeneC GeneA …
\ 这是数据工程的深刻行为。通过这一举措,他们:
这种出色的架构使论文中的杀手级应用成为可能。该团队进行了虚拟筛选,寻找可以提高癌细胞对免疫系统可见性的药物。
\ 这不是一个简单的数据库查询。这是一个体外实验。该模型预测特定药物silmitasertib会产生这种效果,但仅在干扰素信号传导的特定背景下。
\ 他们将这个由人工智能生成的新假设带到真实的湿实验室,进行了物理实验,并证明它是正确的。
\ 这是新范式。人工智能不仅在其训练数据中找到答案。它综合了对生物语言和人类语言的理解,生成了一个新的、非显而易见的,最终真实的知识片段。这是一个工业化偶然发现的系统。
C2S-Scale论文是如何在任何复杂的、非文本领域构建高影响力人工智能系统的现场指南,从金融到物流再到制造业。
这一切听起来很抽象,所以让我们具体化。这里有一个"数据到句子"概念的超级简化Python示例,应用于不同的领域:服务器日志分析。
\ 想象你有结构化的日志数据。与其将其作为原始JSON提供给人工智能,我们可以将其翻译成"日志句子"。
import json def server_log_to_sentence(log_entry: dict) -> str: """ 将结构化服务器日志字典翻译成人类可读的"日志句子"。 我们句子的"语法"是固定的重要性顺序: status -> method -> path -> latency -> user_agent """ # 为我们的"语法"定义重要性顺序 grammar_order = ['status', 'method', 'path', 'latency_ms', 'user_agent'] sentence_parts = [] for key in grammar_order: value = log_entry.get(key) if value is not None: # 我们不只是附加值;我们给它一个语义前缀 # 这有助于大语言模型理解每个部分的含义。 sentence_parts.append(f"{key.upper()}_{value}") return " ".join(sentence_parts) def create_multimodal_prompt(log_sentence: str, human_context: str) -> str: """ 将机器生成的"日志句子"与人类提供的上下文结合 为大语言模型创建丰富的多模态提示。 """ prompt = f""" 分析以下服务器请求。 **人类上下文:** "{human_context}" **日志句子:** "{log_sentence}" 基于人类上下文和日志句子,可能的用户意图是什么,我们应该担心吗? """ return prompt # --- 主执行 --- if __name__ == "__main__": # 1. 我们的原始结构化数据(例如,来自数据库或日志文件) raw_log = { "timestamp": "2025-10-26T10:00:05Z", "method": "GET", "path": "/api/v1/user/settings", "status": 403, "latency_ms": 150, "user_agent": "Python-requests/2.25.1" } # 2. 将数据翻译成新的"语言" log_sentence = server_log_to_sentence(raw_log) print("--- 原始结构化数据 ---") print(json.dumps(raw_log, indent=2)) print("\n--- 翻译后的'日志句子' ---") print(log_sentence) # 3. 与人类上下文结合,形成多模态提示 human_context = "我们一直看到一系列来自脚本而非浏览器的失败API调用。" final_prompt = create_multimodal_prompt(log_sentence, human_context) print("\n--- 给大语言模型的最终多模态提示 ---") print(final_prompt) # 现在,这个final_prompt可以发送给任何标准大语言模型进行深入分析。 # 大语言模型现在可以同时推理结构化日志数据(作为句子) # 和非结构化人类观察。
这个简单的脚本展示了核心架构模式。数据到句子的转换是关键。它允许我们采用任何结构化数据,并在最强大的人工智能模型的原生语言中表示它,解锁多模态推理的新世界。

复制链接X (Twitter)领英脸书电子邮件
业余矿工击败"1/1.8亿
