هل تعتبر إضافة ضوضاء عشوائية إلى الطبقات المخفية عملية تنظيم؟ ما الفرق بين القيام بذلك وإضافة التسرب وتطبيع الدُفعة؟


الاجابه 1:

نعم ، إن إضافة ضوضاء عشوائية إلى الطبقات المخفية هو تنظيم بالطريقة نفسها تمامًا مثل التسرب. الحدس الرئيسي هنا هو أنه إذا كانت الاستجابة العصبية في كل طبقة صاخبة ، فيجب على التدريب ضبط الأوزان لفصل الفئات مع خلوص أكبر من الضوضاء. وبالتالي في وقت الاختبار ، عندما يكون الضوضاء غائبة ، ينبغي أن يكون التصنيف أكثر استقرارًا. يشبه هذا إلى حد كبير كيفية عمل تصنيف الهامش الأقصى ، ونعرف جميعًا مدى نجاح تقنيات الحد الأقصى للهامش (على سبيل المثال ، آلات دعم المتجهات). عليك أن تكون حذرا للتأكد من أن الضوضاء لا تطغى على الإشارة ، على الرغم من.

يعتبر التسرب من الطرق المنهجية لأنه ينفذ عملية حساب المتوسط. وهذا هو ، أثناء التدريب ، يكون النموذج في وقت معين هو في الواقع توزيع الاحتمالات على فئة من نماذج الشبكات العصبية التي تكون فيها الأوزان ثابتة ولكن يمكن فقدان أي من الخلايا العصبية في النموذج. يتم تحديد الاحتمال الكلي لكل شبكة عصبية من خلال الاحتمال الفردي لخلية عصبية معينة موجودة أو غائبة. هذا هو التنظيم لأنه متوسط ​​في التحيز لكل الحالات ، مما يؤدي إلى تجانس وظيفة التكلفة.

تعمل إضافة الضوضاء العشوائية إلى الطبقة المخفية بنفس الطريقة ، ولكن مع توزيع احتمالي مختلف. بدلاً من أن يكون لديك أوزان ثابتة ، لديك طوبولوجيا ثابتة ، ويوزع توزيع الاحتمالات الأوزان عشوائياً وفقًا لتوزيع Gaussian المتمركز في الأوزان "الحقيقية" ، أي الأوزان التي تخزنها على محرك الأقراص الثابتة. مرة أخرى ، هذا هو نموذج متوسط ​​، ويجب أن يكون له تأثير منتظم ، مع التحذير من أن الضوضاء (التباين) يجب ألا تطغى على الإشارة. لذلك ، على سبيل المثال ، إذا قمت بتطبيق BatchNorm لأول مرة ، فسيكون لديك ملف تعريف إخراج عادي قياسي تقريبًا (الوحدات تتمركز عند صفر مع اختلاف واحد) ، ثم يمكنك تطبيق الضوضاء مع تباين ، على سبيل المثال ، 0.1. يمكنك أن تلعب مع الفرق لمعرفة ما يعمل.

تحرير: منذ السؤال المذكور BatchNorm ، أردت أن أشير إلى أن BatchNorm لا يستخدم حقًا للتنظيم. وهذا هو ، BatchNorm لا سلاسة التكلفة. بدلاً من ذلك ، تتم إضافة BatchNorm لتحسين أداء backpropagation. في جوهره ، فإنه يمنع التدرج الذي تم نشره في الخلف من أن يصبح كبيرًا أو صغيرًا عن طريق إعادة القياس وإعادة الدخول ؛ كتقنية ، لديه اتصالات أعمق بطرق التحسين من الدرجة الثانية التي تحاول نمذجة انحناء سطح التكلفة. كما ذكرت أعلاه ، يمكن استخدام BatchNorm أيضًا لضمان صحة القياس النسبي إذا كنت ستضيف ضوضاء عشوائية للأنشطة العصبية.


الاجابه 2:

سأعتبره خدعة تحسين أكثر من مجرد تنظيم.

يجب أن يكون التأثير مكافئًا لتأثير الاستوكاستك في SGD.

SGD ، وطرق إلهام Monte Carlo الخاصة به ، تتجنب الوقوع في الحد الأدنى المحلي الرديء من خلال اتخاذ خطوة عشوائية كل مرة من حين إلى آخر بدلاً من التقيد الصارم بالاتجاه الأكثر حدة ؛ أو القيام بشيء مكافئ في تجسيداتهم المختلفة ، مثل إضافة مكون عشوائي لكل خطوة بدلاً من اتخاذ خطوة عشوائية بشكل دوري.

إن إضافة ضوضاء عشوائية ضعيفة للأوزان ستحقق بالضبط نفس الشيء. [تلميح: يضيف أصل التدرج أيضًا شيئًا إلى الأوزان في كل تكرار!]


الاجابه 3:

تعديل:

قد تؤدي إضافة ضوضاء عشوائية موزعة غاوسيًا إلى بيانات المدخلات الخاصة بكل طبقة إلى جعل النموذج الخاص بك أكثر قوة إلى التغييرات الصغيرة في البيانات مما يتيح لشبكتك التمييز بشكل أفضل بين الضوضاء والإشارة. كما قال زيشان ضياء ، سيكون هذا بالضرورة مؤشر ستوكاستيك التدرج اللائق. ما زلت لا تنظر في هذا التنظيم. إنها طريقة أكثر لمساعدة نموذجك في تعلم الأنماط لفصل الضوضاء عن الإشارة.

يعطل Dropout عشوائيًا نسبة معينة من العقد في طبقة مخفية في كل تمريرة. هذا يحسن الشبكة لأنه يجبرها على تعلم كيفية التعرف على نفس الأنماط بطرق متعددة ، مما يؤدي إلى نموذج أفضل.

إن تطبيع الدُفعة هو المكان الذي تأخذ فيه المدخلات إلى طبقة وتأكد من أنها جميعًا طبيعية بين 0 و 1. وهذا يساعد الشبكة على التعلم بشكل أفضل لأنه يحافظ على درجة التدرج اللائق أكثر ثباتًا وسلسًا. وبهذه الطريقة ، تتجنب القفز حول الحدود الدنيا نظرًا لأن التدرج كبير جدًا.