تتناول هذه المقالة إطار عمل OW‑VISCap، الذي يقوم بشكل مشترك باكتشاف وتقسيم ووصف الأشياء المرئية وغير المرئية داخل الفيديو.تتناول هذه المقالة إطار عمل OW‑VISCap، الذي يقوم بشكل مشترك باكتشاف وتقسيم ووصف الأشياء المرئية وغير المرئية داخل الفيديو.

تعليم الذكاء الاصطناعي الرؤية والتحدث: نظرة داخل نهج OW‑VISCap

2025/11/04 17:46

نبذة مختصرة و 1. المقدمة

  1. الأعمال ذات الصلة

    2.1 تجزئة مثيل الفيديو في العالم المفتوح

    2.2 التعليق التوضيحي الكثيف لكائنات الفيديو و 2.3 خسارة التباين لاستعلامات الكائنات

    2.4 فهم الفيديو المعمم و 2.5 تجزئة مثيل الفيديو في العالم المغلق

  2. النهج

    3.1 نظرة عامة

    3.2 استعلامات الكائنات في العالم المفتوح

    3.3 رأس التعليق التوضيحي

    3.4 خسارة التباين بين الاستعلامات و 3.5 التدريب

  3. التجارب و 4.1 مجموعات البيانات ومقاييس التقييم

    4.2 النتائج الرئيسية

    4.3 دراسات الاستئصال و 4.4 النتائج النوعية

  4. الخاتمة، شكر وتقدير، والمراجع

\ المواد التكميلية

أ. تحليل إضافي

ب. تفاصيل التنفيذ

ج. القيود

3 النهج

بالنظر إلى مقطع فيديو، هدفنا هو الكشف عن مثيلات الكائنات الموجودة في الفيديو وتجزئتها والتعليق عليها بشكل مشترك. من المهم ملاحظة أن فئات مثيلات الكائنات قد لا تكون جزءًا من مجموعة التدريب (مثل المظلات الموضحة في الشكل 3 (الصف العلوي))، مما يضع هدفنا في إعداد عالم مفتوح. لتحقيق هذا الهدف، يتم أولاً تقسيم الفيديو المعطى إلى مقاطع قصيرة، يتكون كل منها من T إطارات. تتم معالجة كل مقطع باستخدام نهجنا OW-VISCap. نناقش دمج نتائج كل مقطع في القسم 4.

\ نقدم نظرة عامة على OW-VISCap لمعالجة كل مقطع في القسم 3.1. ثم نناقش مساهماتنا: (أ) مقدمة استعلامات الكائنات في العالم المفتوح في القسم 3.2، (ب) استخدام الانتباه المقنع للتعليق التوضيحي المتمركز حول الكائن في القسم 3.3، و(ج) استخدام خسارة التباين بين الاستعلامات لضمان أن استعلامات الكائنات مختلفة عن بعضها البعض في القسم 3.4. في القسم 3.5، نناقش هدف التدريب النهائي.

3.1 نظرة عامة

\ تتم معالجة استعلامات الكائنات في العالم المفتوح والمغلق بواسطة رأس التعليق التوضيحي المصمم خصيصًا لدينا والذي ينتج تعليقًا توضيحيًا متمركزًا حول الكائن، ورأس تصنيف ينتج تسمية فئة، ورأس كشف ينتج إما قناع تجزئة أو مربع محيط.

\

\ نقدم خسارة تباين بين الاستعلامات لضمان تشجيع استعلامات الكائنات على الاختلاف عن بعضها البعض. نقدم التفاصيل في القسم 3.4. بالنسبة لكائنات العالم المغلق، تساعد هذه الخسارة في إزالة النتائج الإيجابية الكاذبة المتداخلة بشكل كبير. بالنسبة لكائنات العالم المفتوح، فإنها تساعد في اكتشاف كائنات جديدة.

\ أخيرًا، نقدم هدف التدريب الكامل في القسم 3.5.

\

3.2 استعلامات الكائنات في العالم المفتوح

\

\

\ نقوم أولاً بمطابقة كائنات الحقيقة الأساسية مع تنبؤات العالم المفتوح عن طريق تقليل تكلفة المطابقة باستخدام خوارزمية المجر [34]. ثم يتم استخدام المطابقة المثلى لحساب خسارة العالم المفتوح النهائية.

\

\

3.3 رأس التعليق التوضيحي

\

\

3.4 خسارة التباين بين الاستعلامات

\

\

3.5 التدريب

إجمالي خسارة التدريب لدينا هو

\ الجدول 1: دقة التتبع في العالم المفتوح (OWTA) على مجموعات التحقق والاختبار BURST لجميع فئات الكائنات الشائعة (comm.) وغير الشائعة (unc.). يشير Onl. إلى المعالجة عبر الإنترنت إطارًا بإطار. تم تمييز أفضل النتائج بخط عريض، وتم تسطير ثاني أفضل النتائج.

\ الجدول 2: نتائج التعليق التوضيحي الكثيف لكائنات الفيديو على مجموعة بيانات VidSTG [57]. يشير Off. إلى الطرق غير المتصلة ويشير onl. إلى الطرق المتصلة.

\

:::info المؤلفون:

(1) أنويسا شودهوري، جامعة إلينوي في أوربانا-شامبين (anwesac2@illinois.edu);

(2) جيريش شودهاري، جامعة إلينوي في أوربانا-شامبين (girishc@illinois.edu);

(3) ألكسندر ج. شوينج، جامعة إلينوي في أوربانا-شامبين (aschwing@illinois.edu).

:::


:::info هذه الورقة متاحة على arxiv تحت رخصة CC by 4.0 Deed (Attribution 4.0 International).

:::

\

إخلاء مسؤولية: المقالات المُعاد نشرها على هذا الموقع مستقاة من منصات عامة، وهي مُقدمة لأغراض إعلامية فقط. لا تُظهِر بالضرورة آراء MEXC. جميع الحقوق محفوظة لمؤلفيها الأصليين. إذا كنت تعتقد أن أي محتوى ينتهك حقوق جهات خارجية، يُرجى التواصل عبر البريد الإلكتروني service@support.mexc.com لإزالته. لا تقدم MEXC أي ضمانات بشأن دقة المحتوى أو اكتماله أو حداثته، وليست مسؤولة عن أي إجراءات تُتخذ بناءً على المعلومات المُقدمة. لا يُمثل المحتوى نصيحة مالية أو قانونية أو مهنية أخرى، ولا يُعتبر توصية أو تأييدًا من MEXC.
مشاركة الرؤى

قد يعجبك أيضاً