\ إذا كنت مهندس ذكاء اصطناعي، فعليك التوقف عما تفعله وقراءة المسودة الجديدة لـ C2S-Scale من تعاون بين جامعة ييل وجوجل.
\ على السطح، تبدو كورقة بحثية متخصصة في المعلوماتية الحيوية. لكنها في الواقع واحدة من أهم البيانات المعمارية للذكاء الاصطناعي التطبيقي التي رأيتها منذ سنوات. بنى الفريق نموذجًا بـ 27 مليار معلمة لم يقم فقط بتحليل البيانات البيولوجية - بل قام بـاكتشاف علمي جديد تم التحقق منه في المختبر حول علاج محتمل للسرطان.
\ كمطور، أنا أقل اهتمامًا بالدواء المحدد الذي وجدوه وأكثر هوسًا بـكيفية اكتشافهم له. منهجيتهم هي دليل عمل يحتاج كل مهندس ومصمم ذكاء اصطناعي إلى فهمه.
التحدي المركزي في تطبيق نماذج اللغة الكبيرة على البيانات العلمية أو المؤسسية هو أن هذه النماذج مدربة على اللغة، لكن بياناتنا موجودة في جداول البيانات وقواعد البيانات ومصفوفات هائلة متعددة الأبعاد. محاولة جعل نموذج اللغة الكبير يفهم مصفوفة التعبير الجيني scRNA-seq الخام هو كابوس.
\ لسنوات، كان النهج القياسي هو بناء هياكل مخصصة للعلوم - أنظمة ذكاء اصطناعي تحاول إضافة بعض قدرات اللغة الطبيعية إلى نموذج مصمم للبيانات الرقمية. هذا بطيء ومكلف، وتخسر قوانين التوسع الهائلة والابتكارات السريعة في النظام البيئي الرئيسي لنماذج اللغة الكبيرة.
\ كانت رؤية فريق C2S-Scale الرائعة هي قلب المشكلة رأسًا على عقب.
عبقرية إطار Cell2Sentence (C2S) تكمن في بساطته التي تكاد تكون سخيفة. يأخذون ملف التعبير الجيني الرقمي المعقد لخلية واحدة ويحولونه إلى سلسلة نصية بسيطة.
\ كيف؟ يقومون بترتيب كل جين في الخلية حسب مستوى تعبيره ثم يكتبون أسماء أعلى K جينات بالترتيب.
\ الحالة البيولوجية المعقدة للخلية، مثل: \n {'GeneA': 0.1, 'GeneB': 0.9, 'GeneC': 0.4, …}
\ تصبح جملة خلوية بسيطة مقروءة للإنسان: \n GeneB GeneC GeneA …
\ هذا عمل عميق في هندسة البيانات. بهذه الخطوة الواحدة، قاموا بـ:
هذه الهندسة الرائعة هي ما مكّن التطبيق القاتل للورقة. أجرى الفريق فحصًا افتراضيًا للعثور على دواء يمكنه تعزيز رؤية خلية السرطان للجهاز المناعي.
\ لم يكن هذا مجرد استعلام قاعدة بيانات بسيط. كانت تجربة محاكاة حاسوبية. تنبأ النموذج بأن دواءً معينًا، سيلميتاسيرتيب، سيكون له هذا التأثير، ولكن فقط في سياق محدد من إشارات الإنترفيرون.
\ أخذوا هذه الفرضية الجديدة التي أنشأها الذكاء الاصطناعي إلى مختبر حقيقي، وأجروا التجارب الفيزيائية، وأثبتوا أنها صحيحة.
\ هذا هو النموذج الجديد. لم يجد الذكاء الاصطناعي مجرد إجابة في بيانات تدريبه. لقد جمع فهمه للغة البيولوجية واللغة البشرية لتوليد قطعة جديدة، غير واضحة، وفي النهاية حقيقية من المعرفة. إنه نظام لتصنيع الصدف السعيدة.
ورقة C2S-Scale هي دليل ميداني لكيفية بناء أنظمة ذكاء اصطناعي عالية التأثير في أي مجال معقد غير نصي، من التمويل إلى الخدمات اللوجستية إلى التصنيع.
كل هذا يبدو مجردًا، لذا دعنا نجعله ملموسًا. إليك مثالًا مبسطًا للغاية بلغة Python لمفهوم "البيانات إلى الجملة"، مطبقًا على مجال مختلف: تحليل سجلات الخادم.
\ تخيل أن لديك بيانات سجل منظمة. بدلاً من تغذيتها للذكاء الاصطناعي كـ JSON خام، يمكننا ترجمتها إلى "جملة سجل".
import json def server_log_to_sentence(log_entry: dict) -> str: """ Translates a structured server log dictionary into a human-readable "log sentence". The "grammar" of our sentence is a fixed order of importance: status -> method -> path -> latency -> user_agent """ # Define the order of importance for our "grammar" grammar_order = ['status', 'method', 'path', 'latency_ms', 'user_agent'] sentence_parts = [] for key in grammar_order: value = log_entry.get(key) if value is not None: # We don't just append the value; we give it a semantic prefix # This helps the LLM understand the meaning of each part. sentence_parts.append(f"{key.upper()}_{value}") return " ".join(sentence_parts) def create_multimodal_prompt(log_sentence: str, human_context: str) -> str: """ Combines the machine-generated "log sentence" with human-provided context to create a rich, multimodal prompt for an LLM. """ prompt = f""" Analyze the following server request. **Human Context:** "{human_context}" **Log Sentence:** "{log_sentence}" Based on both the human context and the log sentence, what is the likely user intent and should we be concerned? """ return prompt # --- Main Execution --- if __name__ == "__main__": # 1. Our raw, structured data (e.g., from a database or log file) raw_log = { "timestamp": "2025-10-26T10:00:05Z", "method": "GET", "path": "/api/v1/user/settings", "status": 403, "latency_ms": 150, "user_agent": "Python-requests/2.25.1" } # 2. Translate the data into the new "language" log_sentence = server_log_to_sentence(raw_log) print("--- Original Structured Data ---") print(json.dumps(raw_log, indent=2)) print("\n--- Translated 'Log Sentence' ---") print(log_sentence) # 3. Combine with human context for a multimodal prompt human_context = "We've been seeing a series of failed API calls from a script, not a browser." final_prompt = create_multimodal_prompt(log_sentence, human_context) print("\n--- Final Multimodal Prompt for LLM ---") print(final_prompt) # Now, this final_prompt can be sent to any standard LLM for deep analysis. # The LLM can now reason about both the structured log data (as a sentence) # and the unstructured human observation, simultaneously.
هذا النص البرمجي البسيط يوضح النمط المعماري الأساسي. تحويل البيانات إلى الجملة هو المفتاح. يسمح لنا بأخذ أي بيانات منظمة وتمثيلها في اللغة الأصل


