ورقة بحثية جديدة حول نموذج خلية بمعلمات تبلغ 27 مليار ليست مجرد دراسة في علم الأحياء. إنها هندسة بيانات ومخطط لمستقبل الذكاء الاصطناعي التطبيقي. قام الفريق ببناء نموذج بمعلمات تبلغ 27 مليار أدى إلى اكتشاف علمي.ورقة بحثية جديدة حول نموذج خلية بمعلمات تبلغ 27 مليار ليست مجرد دراسة في علم الأحياء. إنها هندسة بيانات ومخطط لمستقبل الذكاء الاصطناعي التطبيقي. قام الفريق ببناء نموذج بمعلمات تبلغ 27 مليار أدى إلى اكتشاف علمي.

جوجل وييل حولا علم الأحياء إلى لغة وهنا سبب كون ذلك نقلة نوعية للمطورين

2025/11/22 23:00

ورقة بحثية جديدة حول نموذج خلوي بـ 27 مليار معلمة ليست مجرد علم أحياء. إنها هندسة بيانات ومخطط لمستقبل الذكاء الاصطناعي التطبيقي.

\ إذا كنت مهندس ذكاء اصطناعي، فعليك التوقف عما تفعله وقراءة المسودة الجديدة لـ C2S-Scale من تعاون بين جامعة ييل وجوجل.

\ على السطح، تبدو كورقة بحثية متخصصة في المعلوماتية الحيوية. لكنها في الواقع واحدة من أهم البيانات المعمارية للذكاء الاصطناعي التطبيقي التي رأيتها منذ سنوات. بنى الفريق نموذجًا بـ 27 مليار معلمة لم يقم فقط بتحليل البيانات البيولوجية - بل قام بـاكتشاف علمي جديد تم التحقق منه في المختبر حول علاج محتمل للسرطان.

\ كمطور، أنا أقل اهتمامًا بالدواء المحدد الذي وجدوه وأكثر هوسًا بـكيفية اكتشافهم له. منهجيتهم هي دليل عمل يحتاج كل مهندس ومصمم ذكاء اصطناعي إلى فهمه.

المشكلة الأساسية: نماذج الذكاء الاصطناعي تكره جداول البيانات

التحدي المركزي في تطبيق نماذج اللغة الكبيرة على البيانات العلمية أو المؤسسية هو أن هذه النماذج مدربة على اللغة، لكن بياناتنا موجودة في جداول البيانات وقواعد البيانات ومصفوفات هائلة متعددة الأبعاد. محاولة جعل نموذج اللغة الكبير يفهم مصفوفة التعبير الجيني scRNA-seq الخام هو كابوس.

\ لسنوات، كان النهج القياسي هو بناء هياكل مخصصة للعلوم - أنظمة ذكاء اصطناعي تحاول إضافة بعض قدرات اللغة الطبيعية إلى نموذج مصمم للبيانات الرقمية. هذا بطيء ومكلف، وتخسر قوانين التوسع الهائلة والابتكارات السريعة في النظام البيئي الرئيسي لنماذج اللغة الكبيرة.

\ كانت رؤية فريق C2S-Scale الرائعة هي قلب المشكلة رأسًا على عقب.

الضربة المعمارية الرئيسية: Cell2Sentence

عبقرية إطار Cell2Sentence (C2S) تكمن في بساطته التي تكاد تكون سخيفة. يأخذون ملف التعبير الجيني الرقمي المعقد لخلية واحدة ويحولونه إلى سلسلة نصية بسيطة.

\ كيف؟ يقومون بترتيب كل جين في الخلية حسب مستوى تعبيره ثم يكتبون أسماء أعلى K جينات بالترتيب.

\ الحالة البيولوجية المعقدة للخلية، مثل: \n {'GeneA': 0.1, 'GeneB': 0.9, 'GeneC': 0.4, …}

\ تصبح جملة خلوية بسيطة مقروءة للإنسان: \n GeneB GeneC GeneA …

\ هذا عمل عميق في هندسة البيانات. بهذه الخطوة الواحدة، قاموا بـ:

  1. إلغاء الحاجة للهياكل المخصصة: يمكنهم الآن تغذية هذه اللغة البيولوجية مباشرة في هيكل Transformer قياسي جاهز مثل Gemma أو Llama. يمكنهم الاستفادة من موجة مجتمع أبحاث نماذج اللغة الكبيرة بأكمله مجانًا.
  2. فتح تعدد الوسائط: لم تكن مجموعة التدريب الخاصة بهم مجرد جمل خلوية. يمكنهم الآن دمج الملخصات الفعلية للأوراق العلمية التي استُمدت منها البيانات. تعلم النموذج ربط لغة الخلية بلغة العالم في تشغيل تدريبي موحد واحد.
  3. تمكين الترميز الحقيقي للأحياء: النموذج النهائي لا يصنف الأشياء فقط. يمكنه أخذ مطالبة مثل إنشاء خلية T CD8+ بنكرياسية، وسينتج جملة خلوية اصطناعية جديدة تمثل التعبير الجيني لخلية لم توجد من قبل.

العائد: تصنيع الاكتشاف العلمي

هذه الهندسة الرائعة هي ما مكّن التطبيق القاتل للورقة. أجرى الفريق فحصًا افتراضيًا للعثور على دواء يمكنه تعزيز رؤية خلية السرطان للجهاز المناعي.

\ لم يكن هذا مجرد استعلام قاعدة بيانات بسيط. كانت تجربة محاكاة حاسوبية. تنبأ النموذج بأن دواءً معينًا، سيلميتاسيرتيب، سيكون له هذا التأثير، ولكن فقط في سياق محدد من إشارات الإنترفيرون.

\ أخذوا هذه الفرضية الجديدة التي أنشأها الذكاء الاصطناعي إلى مختبر حقيقي، وأجروا التجارب الفيزيائية، وأثبتوا أنها صحيحة.

\ هذا هو النموذج الجديد. لم يجد الذكاء الاصطناعي مجرد إجابة في بيانات تدريبه. لقد جمع فهمه للغة البيولوجية واللغة البشرية لتوليد قطعة جديدة، غير واضحة، وفي النهاية حقيقية من المعرفة. إنه نظام لتصنيع الصدف السعيدة.

ماذا يعني هذا للمطورين

ورقة C2S-Scale هي دليل ميداني لكيفية بناء أنظمة ذكاء اصطناعي عالية التأثير في أي مجال معقد غير نصي، من التمويل إلى الخدمات اللوجستية إلى التصنيع.

  1. توقف عن ثني النموذج. ابدأ بترجمة بياناتك. العمل الأكثر أهمية لم يعد في تصميم شبكة عصبية مخصصة. إنه في العمل الإبداعي والاستراتيجي لإيجاد تمثيل البيانات إلى الجملة لمجالك المحدد. ما هي لغة سلسلة التوريد الخاصة بك؟ ما هي قواعد بياناتك المالية؟
  2. تعدد الوسائط هو متطلب، وليس ميزة. تم إطلاق القوة الحقيقية عندما جمعوا بين جمل الخلايا وملخصات الأوراق. يجب تدريب أنظمة الذكاء الاصطناعي الخاصة بك ليس فقط على بياناتك المنظمة، ولكن على المعرفة البشرية غير المنظمة المحيطة بها - سجلات الصيانة، وتذاكر الدعم، ومذكرات الاستراتيجية.
  3. الهدف هو مولد الفرضيات، وليس آلة الإجابة. أنظمة الذكاء الاصطناعي الأكثر قيمة في المستقبل لن تكون تلك التي يمكنها الإجابة على ما هو معروف بالفعل. ستكون تلك التي يمكنها، مثل C2S-Scale، توليد فرضيات جديدة قابلة للاختبار تدفع حدود ما هو ممكن.

لنبنيها: مثال على تحويل البيانات إلى جملة

كل هذا يبدو مجردًا، لذا دعنا نجعله ملموسًا. إليك مثالًا مبسطًا للغاية بلغة Python لمفهوم "البيانات إلى الجملة"، مطبقًا على مجال مختلف: تحليل سجلات الخادم.

\ تخيل أن لديك بيانات سجل منظمة. بدلاً من تغذيتها للذكاء الاصطناعي كـ JSON خام، يمكننا ترجمتها إلى "جملة سجل".

import json def server_log_to_sentence(log_entry: dict) -> str: """ Translates a structured server log dictionary into a human-readable "log sentence". The "grammar" of our sentence is a fixed order of importance: status -> method -> path -> latency -> user_agent """ # Define the order of importance for our "grammar" grammar_order = ['status', 'method', 'path', 'latency_ms', 'user_agent'] sentence_parts = [] for key in grammar_order: value = log_entry.get(key) if value is not None: # We don't just append the value; we give it a semantic prefix # This helps the LLM understand the meaning of each part. sentence_parts.append(f"{key.upper()}_{value}") return " ".join(sentence_parts) def create_multimodal_prompt(log_sentence: str, human_context: str) -> str: """ Combines the machine-generated "log sentence" with human-provided context to create a rich, multimodal prompt for an LLM. """ prompt = f""" Analyze the following server request. **Human Context:** "{human_context}" **Log Sentence:** "{log_sentence}" Based on both the human context and the log sentence, what is the likely user intent and should we be concerned? """ return prompt # --- Main Execution --- if __name__ == "__main__": # 1. Our raw, structured data (e.g., from a database or log file) raw_log = { "timestamp": "2025-10-26T10:00:05Z", "method": "GET", "path": "/api/v1/user/settings", "status": 403, "latency_ms": 150, "user_agent": "Python-requests/2.25.1" } # 2. Translate the data into the new "language" log_sentence = server_log_to_sentence(raw_log) print("--- Original Structured Data ---") print(json.dumps(raw_log, indent=2)) print("\n--- Translated 'Log Sentence' ---") print(log_sentence) # 3. Combine with human context for a multimodal prompt human_context = "We've been seeing a series of failed API calls from a script, not a browser." final_prompt = create_multimodal_prompt(log_sentence, human_context) print("\n--- Final Multimodal Prompt for LLM ---") print(final_prompt) # Now, this final_prompt can be sent to any standard LLM for deep analysis. # The LLM can now reason about both the structured log data (as a sentence) # and the unstructured human observation, simultaneously.

هذا النص البرمجي البسيط يوضح النمط المعماري الأساسي. تحويل البيانات إلى الجملة هو المفتاح. يسمح لنا بأخذ أي بيانات منظمة وتمثيلها في اللغة الأصل

إخلاء مسؤولية: المقالات المُعاد نشرها على هذا الموقع مستقاة من منصات عامة، وهي مُقدمة لأغراض إعلامية فقط. لا تُظهِر بالضرورة آراء MEXC. جميع الحقوق محفوظة لمؤلفيها الأصليين. إذا كنت تعتقد أن أي محتوى ينتهك حقوق جهات خارجية، يُرجى التواصل عبر البريد الإلكتروني service@support.mexc.com لإزالته. لا تقدم MEXC أي ضمانات بشأن دقة المحتوى أو اكتماله أو حداثته، وليست مسؤولة عن أي إجراءات تُتخذ بناءً على المعلومات المُقدمة. لا يُمثل المحتوى نصيحة مالية أو قانونية أو مهنية أخرى، ولا يُعتبر توصية أو تأييدًا من MEXC.

قد يعجبك أيضاً