يتم بناء O3D-SIM عن طريق إسقاط الأقنعة ثنائية الأبعاد والتضمينات إلى ثلاثية الأبعاد، باستخدام DBSCAN للتنقيح الأولي.يتم بناء O3D-SIM عن طريق إسقاط الأقنعة ثنائية الأبعاد والتضمينات إلى ثلاثية الأبعاد، باستخدام DBSCAN للتنقيح الأولي.

بناء تمثيل ثلاثي الأبعاد مفتوح المجموعة: دمج الميزات والجمع بين الهندسة والدلالة

2025/12/15 01:00

نبذة مختصرة و1 مقدمة

  1. الأعمال ذات الصلة

    2.1. التنقل بالرؤية واللغة

    2.2. فهم المشهد الدلالي وتجزئة الكائنات

    2.3. إعادة بناء المشهد ثلاثي الأبعاد

  2. المنهجية

    3.1. جمع البيانات

    3.2. المعلومات الدلالية مفتوحة المجموعة من الصور

    3.3. إنشاء التمثيل ثلاثي الأبعاد مفتوح المجموعة

    3.4. التنقل الموجه باللغة

  3. التجارب

    4.1. التقييم الكمي

    4.2. النتائج النوعية

  4. الخاتمة والعمل المستقبلي، وبيان الإفصاح، والمراجع

3.3. إنشاء التمثيل ثلاثي الأبعاد مفتوح المجموعة

لإكمال بناء O3D-SIM، نقوم الآن بالبناء على تضمينات الميزات المستخرجة لكل كائن من خلال إسقاط معلومات الكائن إلى الفضاء ثلاثي الأبعاد، والتجميع، وربط الكائنات عبر صور متعددة لإنشاء تمثيل شامل للمشهد ثلاثي الأبعاد. تم توضيح عملية إسقاط المعلومات الدلالية في الفضاء ثلاثي الأبعاد وتحسين الخريطة في الشكل 3.

\ 3.3.1. تهيئة O3D-SIM

\ يتم إنشاء الخريطة ثلاثية الأبعاد في البداية باستخدام صورة محددة، والتي تعمل كإطار مرجعي لتهيئة تمثيل المشهد لدينا. تؤسس هذه الخطوة البنية الأساسية لمشهدنا ثلاثي الأبعاد، والتي يتم بعد ذلك تعزيزها تدريجياً بالبيانات من الصور اللاحقة لإثراء تعقيد المشهد وتفاصيله.

\ يتم تنظيم بيانات الكائنات داخل مشهد ثلاثي الأبعاد كعقد داخل قاموس، والذي يبدأ في البداية فارغاً. ثم يتم تحديد الكائنات من الصورة الأولية مع البيانات ذات الصلة التي تشمل ميزات التضمين ومعلومات حول أقنعتها. لكل كائن يتم تمييزه في الصورة، يتم إنشاء سحابة نقاط ثلاثية الأبعاد باستخدام معلومات العمق المتاحة وقناع الكائن. تتضمن عملية تكوين سحابة النقاط هذه تحويل وحدات البكسل ثنائية الأبعاد إلى فضاء ثلاثي الأبعاد، بمساعدة المعلمات الجوهرية للكاميرا وقيم العمق. بعد ذلك، يتم استخدام وضعية الكاميرا لمحاذاة سحابة النقاط بدقة داخل نظام الإحداثيات العالمي. لتحسين تمثيل المشهد لدينا، تقوم تصفية الخلفية بإزالة العناصر المحددة كخلفية، مثل الجدران أو الأرضيات. يتم استبعاد هذه العناصر من المعالجة الإضافية، خاصة في مرحلة التجميع، لأنها لا تشكل التركيز الرئيسي لتمثيل المشهد لدينا.

\ تتم معالجة مجموعة سحب نقاط الكائنات بشكل أكبر باستخدام تجميع DBSCAN[34] لتحسين التمثيل. يتم تقليل عينات سحابة النقاط عبر تصفية شبكة فوكسل لتقليل عدد النقاط والتعقيد الحسابي مع الحفاظ على البنية المكانية للبيانات قابلة للإدارة. يقوم DBSCAN بتجميع النقاط المتقاربة معًا مع تصنيف النقاط التي تقع وحدها في مناطق منخفضة الكثافة كضوضاء. في خطوة ما بعد التجميع، يتم تحديد أكبر مجموعة والتي تتوافق عادةً مع الكائن الرئيسي محل الاهتمام داخل سحابة النقاط. يساعد هذا في تصفية الضوضاء والنقاط غير ذات الصلة، مما ينتج تمثيلاً أنظف للكائن محل الاهتمام.

\ يتم تحديد وضعية الكائن في الفضاء ثلاثي الأبعاد من خلال حساب اتجاه المربع المحيط، والذي يوفر تمثيلاً مكانياً موجزاً لموقع الكائن وحجمه في الفضاء ثلاثي الأبعاد. بعد ذلك، تتم تهيئة مخرجات الخريطة ثلاثية الأبعاد بمجموعة أولية من العقد، التي تغلف تضمينات الميزات، وبيانات سحابة النقاط، والمربعات المحيطة، وعدد النقاط في سحابة النقاط المرتبطة بكل عقدة. تتضمن كل عقدة أيضًا معلومات المصدر لتسهيل تتبع أصول البيانات والربط بين العقد ونظائرها في الصور ثنائية الأبعاد.

\ 3.3.2. التحديث التدريجي لـ O3D-SIM

\ بعد تهيئة المشهد، نقوم بتحديث التمثيل ببيانات من صور جديدة. تضمن هذه العملية بقاء مشهدنا ثلاثي الأبعاد حديثًا ودقيقًا مع توفر معلومات إضافية. تتكرر العملية على كل صورة في تسلسل الصور؛ لكل صورة جديدة، يتم استخراج بيانات متعددة الكائنات، ويتم تحديث المشهد.

\ يتم اكتشاف الكائنات لكل صورة جديدة، ويتم إنشاء عقد جديدة مثل الصورة الأولية. تحتوي هذه العقد المؤقتة على البيانات ثلاثية الأبعاد للكائنات المكتشفة حديثًا والتي يجب إما دمجها في المشهد الحالي أو إضافتها كعقد جديدة. يتم تحديد التشابه بين العقد المكتشفة حديثًا وعقد المشهد الحالية من خلال الجمع بين التشابه البصري، المستمد من تضمينات الميزات، والتشابه المكاني (الهندسي)، الذي تم الحصول عليه من تداخل سحابة النقاط، لصياغة مقياس تشابه إجمالي. إذا تجاوز هذا المقياس عتبة محددة مسبقًا، يُعتبر الاكتشاف الجديد متوافقًا مع كائن موجود في المشهد. في الواقع، يتم إما دمج العقدة المكتشفة حديثًا مع عقدة مشهد موجودة أو إضافتها كعقدة جديدة.

\ يتضمن الدمج تكامل سحب النقاط وحساب متوسط تضمينات الميزات. يتم حساب متوسط مرجح لتضمينات CLIP وDINO، مع مراعاة المساهمة من معلومات المفتاح المصدر، مع تفضيل العقد ذات المعرفات المصدرية الأكثر. إذا كانت هناك حاجة لإضافة عقدة جديدة، يتم دمجها في قاموس المشهد.

\ يحدث تحسين المشهد بمجرد إضافة كائنات من جميع الصور في تسلسل الإدخال. توحد هذه العملية العقد التي تمثل نفس الكائنات المادية ولكن تم تحديدها في البداية بشكل منفصل بسبب الحجب، أو تغييرات وجهة النظر، أو عوامل مماثلة. تستخدم مصفوفة تداخل لتحديد العقد التي تشترك في الإشغال المكاني وتدمجها منطقيًا في عقدة واحدة. يتم الانتهاء من المشهد من خلال التخلص من العقد التي لا تلبي الحد الأدنى من عدد النقاط أو معايير الكشف. ينتج عن ذلك تمثيل نهائي محسن ومُحسَّن للمشهد - خرائط الكائنات الدلالية ثلاثية الأبعاد مفتوحة المجموعة، المعروفة أيضًا باسم O3D-SIM.

\

:::info المؤلفون:

(1) لاكش نانواني، المعهد الدولي لتكنولوجيا المعلومات، حيدر أباد، الهند؛ ساهم هذا المؤلف بشكل متساوٍ في هذا العمل؛

(2) كوماراديتيا جوبتا، المعهد الدولي لتكنولوجيا المعلومات، حيدر أباد، الهند؛

(3) أديتيا ماثور، المعهد الدولي لتكنولوجيا المعلومات، حيدر أباد، الهند؛ ساهم هذا المؤلف بشكل متساوٍ في هذا العمل؛

(4) سوايام أغراوال، المعهد الدولي لتكنولوجيا المعلومات، حيدر أباد، الهند؛

(5) أ.هـ. عبد الحافظ، جامعة حسن كاليونجو، شاهينبي، غازي عنتاب، تركيا؛

(6) ك. مادهافا كريشنا، المعهد الدولي لتكنولوجيا المعلومات، حيدر أباد، الهند.

:::


:::info هذه الورقة متاحة على arxiv تحت رخصة CC by-SA 4.0 Deed (الإسناد-المشاركة بالمثل 4.0 الدولية).

:::

\

إخلاء مسؤولية: المقالات المُعاد نشرها على هذا الموقع مستقاة من منصات عامة، وهي مُقدمة لأغراض إعلامية فقط. لا تُظهِر بالضرورة آراء MEXC. جميع الحقوق محفوظة لمؤلفيها الأصليين. إذا كنت تعتقد أن أي محتوى ينتهك حقوق جهات خارجية، يُرجى التواصل عبر البريد الإلكتروني service@support.mexc.com لإزالته. لا تقدم MEXC أي ضمانات بشأن دقة المحتوى أو اكتماله أو حداثته، وليست مسؤولة عن أي إجراءات تُتخذ بناءً على المعلومات المُقدمة. لا يُمثل المحتوى نصيحة مالية أو قانونية أو مهنية أخرى، ولا يُعتبر توصية أو تأييدًا من MEXC.