:::info المؤلفون:
(1) تشنغشيانغ فان، بمساهمة متساوية من جامعة تشجيانغ، الصين؛
(2) موزهي تشو، بمساهمة متساوية من جامعة تشجيانغ، الصين؛
(3) هاو تشن، جامعة تشجيانغ، الصين (haochen.cad@zju.edu.cn)؛
(4) يانغ ليو، جامعة تشجيانغ، الصين؛
(5) ويجيا وو، جامعة تشجيانغ، الصين؛
(6) هواتشي تشانغ، شركة vivo للاتصالات المتنقلة.
(7) تشونهوا شن، جامعة تشجيانغ، الصين (chunhuashen@zju.edu.cn).
:::
نبذة مختصرة و1 مقدمة
الأعمال ذات الصلة
DiverGen المقترح
3.1. تحليل توزيع البيانات
3.2. تعزيز تنوع البيانات التوليدية
3.3. خط الإنتاج التوليدي
التجارب
4.1. الإعدادات
4.2. النتائج الرئيسية
4.3. دراسات الاستئصال
الاستنتاجات، وشكر وتقدير، والمراجع
\ الملحق
أ. تفاصيل التنفيذ
ب. التصور
تتطلب تجزئة الكائنات كميات كبيرة من البيانات، ومع زيادة قدرة النموذج، تصبح حجم البيانات أمرًا حاسمًا لتحسين الدقة. تتطلب معظم مجموعات بيانات تجزئة الكائنات اليوم تعليقات توضيحية يدوية مكلفة، مما يحد من حجم بياناتها. النماذج المدربة على مثل هذه البيانات عرضة للإفراط في التخصص على مجموعة التدريب، خاصة بالنسبة للفئات النادرة. في حين تعمقت الأعمال الأخيرة في استغلال النماذج التوليدية لإنشاء مجموعات بيانات اصطناعية لتعزيز البيانات، إلا أن هذه الأساليب لا تستغل بكفاءة الإمكانات الكاملة للنماذج التوليدية.
\ لمعالجة هذه المشكلات، نقدم استراتيجية أكثر كفاءة لبناء مجموعات بيانات توليدية لتعزيز البيانات، تسمى DiverGen. أولاً، نقدم تفسيرًا لدور البيانات التوليدية من منظور تفاوت التوزيع. نبحث في تأثير البيانات المختلفة على التوزيع الذي يتعلمه النموذج. نحن نجادل بأن البيانات التوليدية يمكن أن توسع توزيع البيانات التي يمكن للنموذج تعلمها، وبالتالي تخفيف الإفراط في التخصص. بالإضافة إلى ذلك، وجدنا أن تنوع البيانات التوليدية أمر بالغ الأهمية لتحسين أداء النموذج وتعزيزه من خلال استراتيجيات مختلفة، بما في ذلك تنوع الفئات، وتنوع المطالبات، وتنوع النموذج التوليدي. باستخدام هذه الاستراتيجيات، يمكننا توسيع البيانات إلى الملايين مع الحفاظ على اتجاه تحسين أداء النموذج. على مجموعة بيانات LVIS، يتفوق DiverGen بشكل كبير على النموذج القوي X-Paste، محققًا +1.1 صندوق AP و+1.1 قناع AP عبر جميع الفئات، و+1.9 صندوق AP و+2.5 قناع AP للفئات النادرة. الشفرات الخاصة بنا متاحة على https://github.com/aim-uofa/DiverGen.
تجزئة الكائنات [2، 4، 9] هي واحدة من المهام الصعبة في مجال رؤية الكمبيوتر، حيث تتطلب التنبؤ بالأقنعة والفئات للكائنات في صورة، والتي تعمل كأساس للعديد من التطبيقات المرئية. مع تحسن قدرات التعلم للنماذج، يزداد الطلب على بيانات التدريب. ومع ذلك، تعتمد مجموعات البيانات الحالية لتجزئة الكائنات بشكل كبير على التعليق اليدوي، وهو أمر يستغرق وقتًا طويلاً ومكلفًا، ولا يمكن لحجم مجموعة البيانات تلبية احتياجات تدريب النماذج. على الرغم من الظهور الأخير لمجموعة البيانات المعلمة تلقائيًا SA-1B [12]، إلا أنها تفتقر إلى تعليقات الفئة، مما يفشل في تلبية متطلبات تجزئة الكائنات. في الوقت نفسه، أدى التطوير المستمر للنموذج التوليدي إلى تحسين قابلية التحكم وواقعية العينات المولدة بشكل كبير. على سبيل المثال، يمكن لنموذج الانتشار text2image الأخير [22، 24] إنشاء صور عالية الجودة تتوافق مع المطالبات المدخلة. لذلك، تستخدم الطرق الحالية [27، 28، 34] النماذج التوليدية لتعزيز البيانات من خلال إنشاء مجموعات بيانات لاستكمال تدريب النماذج على مجموعات البيانات الحقيقية وتحسين أداء النموذج. على الرغم من أن الطرق الحالية قد اقترحت استراتيجيات مختلفة لتمكين البيانات التوليدية من تعزيز أداء النموذج، إلا أنه لا تزال هناك بعض القيود: 1) لم تستغل الطرق الحالية بشكل كامل إمكانات النماذج التوليدية. أولاً، لا تستخدم بعض الطرق [34] البيانات التوليدية فحسب، بل تحتاج أيضًا إلى جمع الصور من الإنترنت، وهو أمر صعب للغاية للحصول على بيانات واسعة النطاق. في الوقت نفسه، محتوى البيانات التي تم جمعها من الإنترنت غير قابل للتحكم ويحتاج إلى فحص إضافي. ثانيًا، لا تستخدم الطرق الحالية بشكل كامل قابلية التحكم في النماذج التوليدية. غالبًا ما تتبنى الطرق الحالية قوالب مصممة يدويًا لبناء المطالبات، مما يحد من الإخراج المحتمل للنماذج التوليدية. 2) غالبًا ما تشرح الطرق الحالية [27، 28] دور البيانات التوليدية من منظور عدم توازن الفئة أو ندرة البيانات، دون النظر في التفاوت بين بيانات العالم الحقيقي والبيانات التوليدية. علاوة على ذلك، تُظهر هذه الطرق عادةً تحسنًا في أداء النموذج فقط في سيناريوهات ذات عدد محدود من العينات الحقيقية، ولم يتم التحقيق بشكل شامل في فعالية البيانات التوليدية على مجموعات البيانات الحقيقية واسعة النطاق الموجودة، مثل LVIS [8].
\ في هذه الورقة، نستكشف أولاً دور البيانات التوليدية من منظور تفاوت التوزيع، ونتناول سؤالين رئيسيين: 1) لماذا يعزز تعزيز البيانات التوليدية أداء النموذج؟ 2) ما أنواع البيانات التوليدية المفيدة لتحسين أداء النموذج؟ أولاً، وجدنا أن هناك تفاوتات بين توزيع النموذج المتعلم من بيانات التدريب الحقيقية المحدودة وتوزيع بيانات العالم الحقيقي. نقوم بتصور البيانات ونجد أنه مقارنة ببيانات العالم الحقيقي، يمكن للبيانات التوليدية توسيع توزيع البيانات التي يمكن للنموذج تعلمها. علاوة على ذلك، وجدنا أن دور إضافة البيانات التوليدية هو تخفيف تحيز بيانات التدريب الحقيقية، مما يخفف بشكل فعال من الإفراط في تخصيص بيانات التدريب. ثانيًا، وجدنا أن هناك أيضًا تفاوتات بين توزيع البيانات التوليدية وتوزيع بيانات العالم الحقيقي. إذا لم تتم معالجة هذه التفاوتات بشكل صحيح، فلا يمكن استخدام الإمكانات الكاملة للنموذج التوليدي. من خلال إجراء العديد من التجارب، وجدنا أن استخدام بيانات توليدية متنوعة يمكّن النماذج من التكيف بشكل أفضل مع هذه التفاوتات، مما يحسن أداء النموذج.
\ بناءً على التحليل أعلاه، نقترح استراتيجية فعالة لتعزيز تنوع البيانات، وهي تعزيز تنوع البيانات التوليدية. نصمم استراتيجيات مختلفة لتعزيز التنوع لزيادة تنوع البيانات من وجهات نظر تنوع الفئات، وتنوع المطالبات، وتنوع النموذج التوليدي. بالنسبة لتنوع الفئات، لاحظنا أن النماذج المدربة باستخدام بيانات توليدية تغطي جميع الفئات تتكيف بشكل أفضل مع تفاوت التوزيع من النماذج المدربة بفئات جزئية. لذلك، نقدم ليس فقط فئات من LVIS [8] ولكن أيضًا فئات إضافية من ImageNet-1K [23] لتعزيز تنوع الفئات في توليد البيانات، وبالتالي تعزيز قدرة النموذج على التكيف مع تفاوت التوزيع. بالنسبة لتنوع المطالبات، وجدنا أنه مع زيادة حجم مجموعة البيانات التوليدية، لا يمكن للمطالبات المصممة يدويًا أن تتوسع إلى المستوى المقابل، مما يحد من تنوع الصور الناتجة من النموذج التوليدي. لذلك، نصمم مجموعة من استراتيجيات توليد المطالبات المتنوعة لاستخدام نماذج اللغة الكبيرة، مثل ChatGPT، لتوليد المطالبات، مما يتطلب من نماذج اللغة الكبيرة إخ


