一篇关于270亿参数细胞模型的新论文不仅仅是关于生物学。它是数据工程和应用人工智能未来的蓝图。该团队构建了一个270亿参数模型,并通过它实现了科学发现。一篇关于270亿参数细胞模型的新论文不仅仅是关于生物学。它是数据工程和应用人工智能未来的蓝图。该团队构建了一个270亿参数模型,并通过它实现了科学发现。

Google 和耶鲁大学将生物学转化为语言 这就是为什么这对开发者来说是一个游戏规则改变者

2025/11/22 23:00

一篇关于270亿参数细胞模型的新论文不仅仅是关于生物学。它是数据工程和应用人工智能未来的蓝图。

\ 如果你是一名人工智能工程师,你需要停下手头的工作,阅读耶鲁大学和谷歌合作的新C2S-Scale预印本。

\ 表面上看,它像是一篇小众的生物信息学论文。实际上,它是我多年来见过的应用人工智能最重要的架构宣言之一。该团队构建了一个270亿参数的模型,它不仅分析生物数据,还对潜在的癌症疗法做出了新颖的、经湿实验室验证的科学发现

\ 作为一名构建者,我对他们发现的特定药物不太感兴趣,而更痴迷于他们如何找到它。他们的方法是每个人工智能架构师和工程师都需要理解的指南。

核心问题:人工智能模型讨厌电子表格

将大语言模型应用于科学或企业数据的中心挑战在于,这些模型是在语言上训练的,但我们的数据存在于电子表格、数据库和大型高维数组中。试图让大语言模型理解原始的scRNA-seq基因表达矩阵是一场噩梦。

\ 多年来,标准方法一直是为科学构建定制的、专门的架构 - 试图将一些自然语言能力添加到为数值数据设计的模型中的人工智能。这既缓慢又昂贵,而且你会错失主流大语言模型生态系统的大规模扩展法则和快速创新。

\ C2S-Scale团队的卓越洞见是将问题颠倒过来。

架构上的杰作:Cell2Sentence

Cell2Sentence (C2S)框架的天才之处在于其几乎荒谬的简单性。他们将单个细胞复杂的数值基因表达谱转化为简单的文本字符串。

\ 如何做到?他们根据表达水平对细胞中的每个基因进行排名,然后按顺序写出前K个基因的名称。

\ 一个细胞的复杂生物状态,如:\n {'GeneA': 0.1, 'GeneB': 0.9, 'GeneC': 0.4, …}

\ 变成一个简单的、人类可读的细胞句子:\n GeneB GeneC GeneA …

\ 这是数据工程的深刻行为。通过这一举措,他们:

  1. 消除了对定制架构的需求:他们现在可以将这种生物语言直接输入到标准的、现成的Transformer架构中,如Gemma或Llama。他们可以免费搭乘整个大语言模型研究社区的浪潮。
  2. 解锁了多模态性:他们的训练语料库不仅仅是细胞句子。他们现在可以混入数据来源的科学论文的实际摘要。该模型在单一、统一的训练运行中学会了将细胞的语言与科学家的语言相关联。
  3. 为生物学启用了真正的氛围编码:最终的模型不仅仅是分类事物。它可以接受像生成一个胰腺CD8+ T细胞这样的提示,并将生成一个新的、合成的细胞句子,代表一个从未存在过的细胞的基因表达。

回报:工业化科学发现

这种出色的架构使论文中的杀手级应用成为可能。该团队进行了虚拟筛选,寻找可以提高癌细胞对免疫系统可见性的药物。

\ 这不是一个简单的数据库查询。这是一个体外实验。该模型预测特定药物silmitasertib会产生这种效果,但在干扰素信号传导的特定背景下。

\ 他们将这个由人工智能生成的新假设带到真实的湿实验室,进行了物理实验,并证明它是正确的。

\ 这是新范式。人工智能不仅在其训练数据中找到答案。它综合了对生物语言和人类语言的理解,生成了一个新的、非显而易见的,最终真实的知识片段。这是一个工业化偶然发现的系统。

这对构建者意味着什么

C2S-Scale论文是如何在任何复杂的、非文本领域构建高影响力人工智能系统的现场指南,从金融到物流再到制造业。

  1. 停止弯曲模型。开始翻译你的数据。最重要的工作不再是设计定制神经网络。而是在创造性、战略性地为你的特定领域寻找数据到句子表示的工作。你的供应链的语言是什么?你的财务数据的语法是什么?
  2. 多模态是一种需求,而不是一种特性。当他们将细胞句子与论文摘要结合时,真正的力量被释放出来。你的人工智能系统应该不仅在你的结构化数据上训练,还应该在围绕它的非结构化人类知识上训练——维护日志、支持票据、战略备忘录。
  3. 目标是假设生成器,而不是答案机器。未来最有价值的人工智能系统不会是那些能够回答已知内容的系统。它们将是那些能够像C2S-Scale一样,生成新颖的、可测试的假设,推动可能性边界的系统。

让我们构建它:数据到句子的例子

这一切听起来很抽象,所以让我们具体化。这里有一个"数据到句子"概念的超级简化Python示例,应用于不同的领域:服务器日志分析。

\ 想象你有结构化的日志数据。与其将其作为原始JSON提供给人工智能,我们可以将其翻译成"日志句子"。

import json def server_log_to_sentence(log_entry: dict) -> str: """ 将结构化服务器日志字典翻译成人类可读的"日志句子"。 我们句子的"语法"是固定的重要性顺序: status -> method -> path -> latency -> user_agent """ # 为我们的"语法"定义重要性顺序 grammar_order = ['status', 'method', 'path', 'latency_ms', 'user_agent'] sentence_parts = [] for key in grammar_order: value = log_entry.get(key) if value is not None: # 我们不只是附加值;我们给它一个语义前缀 # 这有助于大语言模型理解每个部分的含义。 sentence_parts.append(f"{key.upper()}_{value}") return " ".join(sentence_parts) def create_multimodal_prompt(log_sentence: str, human_context: str) -> str: """ 将机器生成的"日志句子"与人类提供的上下文结合 为大语言模型创建丰富的多模态提示。 """ prompt = f""" 分析以下服务器请求。 **人类上下文:** "{human_context}" **日志句子:** "{log_sentence}" 基于人类上下文和日志句子,可能的用户意图是什么,我们应该担心吗? """ return prompt # --- 主执行 --- if __name__ == "__main__": # 1. 我们的原始结构化数据(例如,来自数据库或日志文件) raw_log = { "timestamp": "2025-10-26T10:00:05Z", "method": "GET", "path": "/api/v1/user/settings", "status": 403, "latency_ms": 150, "user_agent": "Python-requests/2.25.1" } # 2. 将数据翻译成新的"语言" log_sentence = server_log_to_sentence(raw_log) print("--- 原始结构化数据 ---") print(json.dumps(raw_log, indent=2)) print("\n--- 翻译后的'日志句子' ---") print(log_sentence) # 3. 与人类上下文结合,形成多模态提示 human_context = "我们一直看到一系列来自脚本而非浏览器的失败API调用。" final_prompt = create_multimodal_prompt(log_sentence, human_context) print("\n--- 给大语言模型的最终多模态提示 ---") print(final_prompt) # 现在,这个final_prompt可以发送给任何标准大语言模型进行深入分析。 # 大语言模型现在可以同时推理结构化日志数据(作为句子) # 和非结构化人类观察。

这个简单的脚本展示了核心架构模式。数据到句子的转换是关键。它允许我们采用任何结构化数据,并在最强大的人工智能模型的原生语言中表示它,解锁多模态推理的新世界。

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 service@support.mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。