نبذة مختصرة و 1. المقدمة
الأعمال ذات الصلة
2.1 تجزئة مثيل الفيديو في العالم المفتوح
2.2 التعليق التوضيحي الكثيف لكائنات الفيديو و 2.3 خسارة التباين لاستعلامات الكائنات
2.4 فهم الفيديو المعمم و 2.5 تجزئة مثيل الفيديو في العالم المغلق
النهج
3.1 نظرة عامة
3.2 استعلامات الكائنات في العالم المفتوح
3.3 رأس التعليق التوضيحي
3.4 خسارة التباين بين الاستعلامات و 3.5 التدريب
التجارب و 4.1 مجموعات البيانات ومقاييس التقييم
4.2 النتائج الرئيسية
4.3 دراسات الاستئصال و 4.4 النتائج النوعية
الخاتمة، شكر وتقدير، والمراجع
\ المواد التكميلية
أ. تحليل إضافي
ب. تفاصيل التنفيذ
ج. القيود
بالنظر إلى مقطع فيديو، هدفنا هو الكشف عن مثيلات الكائنات الموجودة في الفيديو وتجزئتها والتعليق عليها بشكل مشترك. من المهم ملاحظة أن فئات مثيلات الكائنات قد لا تكون جزءًا من مجموعة التدريب (مثل المظلات الموضحة في الشكل 3 (الصف العلوي))، مما يضع هدفنا في إعداد عالم مفتوح. لتحقيق هذا الهدف، يتم أولاً تقسيم الفيديو المعطى إلى مقاطع قصيرة، يتكون كل منها من T إطارات. تتم معالجة كل مقطع باستخدام نهجنا OW-VISCap. نناقش دمج نتائج كل مقطع في القسم 4.
\ نقدم نظرة عامة على OW-VISCap لمعالجة كل مقطع في القسم 3.1. ثم نناقش مساهماتنا: (أ) مقدمة استعلامات الكائنات في العالم المفتوح في القسم 3.2، (ب) استخدام الانتباه المقنع للتعليق التوضيحي المتمركز حول الكائن في القسم 3.3، و(ج) استخدام خسارة التباين بين الاستعلامات لضمان أن استعلامات الكائنات مختلفة عن بعضها البعض في القسم 3.4. في القسم 3.5، نناقش هدف التدريب النهائي.
\ تتم معالجة استعلامات الكائنات في العالم المفتوح والمغلق بواسطة رأس التعليق التوضيحي المصمم خصيصًا لدينا والذي ينتج تعليقًا توضيحيًا متمركزًا حول الكائن، ورأس تصنيف ينتج تسمية فئة، ورأس كشف ينتج إما قناع تجزئة أو مربع محيط.
\ 
\ نقدم خسارة تباين بين الاستعلامات لضمان تشجيع استعلامات الكائنات على الاختلاف عن بعضها البعض. نقدم التفاصيل في القسم 3.4. بالنسبة لكائنات العالم المغلق، تساعد هذه الخسارة في إزالة النتائج الإيجابية الكاذبة المتداخلة بشكل كبير. بالنسبة لكائنات العالم المفتوح، فإنها تساعد في اكتشاف كائنات جديدة.
\ أخيرًا، نقدم هدف التدريب الكامل في القسم 3.5.
\
\ 
\ 
\ نقوم أولاً بمطابقة كائنات الحقيقة الأساسية مع تنبؤات العالم المفتوح عن طريق تقليل تكلفة المطابقة باستخدام خوارزمية المجر [34]. ثم يتم استخدام المطابقة المثلى لحساب خسارة العالم المفتوح النهائية.
\ 
\
\ 
\
\ 
\
إجمالي خسارة التدريب لدينا هو
\ 
\ ![الجدول 2: نتائج التعليق التوضيحي الكثيف لكائنات الفيديو على مجموعة بيانات VidSTG [57]. يشير Off. إلى الطرق غير المتصلة ويشير onl. إلى الطرق المتصلة.](https://cdn.hackernoon.com/images/null-0v3336a.png)
\
:::info المؤلفون:
(1) أنويسا شودهوري، جامعة إلينوي في أوربانا-شامبين (anwesac2@illinois.edu);
(2) جيريش شودهاري، جامعة إلينوي في أوربانا-شامبين (girishc@illinois.edu);
(3) ألكسندر ج. شوينج، جامعة إلينوي في أوربانا-شامبين (aschwing@illinois.edu).
:::
:::info هذه الورقة متاحة على arxiv تحت رخصة CC by 4.0 Deed (Attribution 4.0 International).
:::
\


