ما الفرق بين خوارزميات Gaussian و Bernoulli و Multinomial وخوارزميات Naive Bayes العادية؟


الاجابه 1:

Bernoulli Naive Bayes: يفترض أن جميع ميزاتنا ثنائية بحيث تأخذ قيمتين فقط. يعني 0s "لا تحدث الكلمة في المستند" و 1 ثانية كـ "تحدث الكلمة في المستند".

Bayive Multiveomial Bayes: يتم استخدامه عندما يكون لدينا بيانات منفصلة (مثل تقييمات الأفلام التي تتراوح من 1 إلى 5 لأن كل تصنيف سيكون له تردد معين لتمثيله). في تعلم النص ، لدينا عدد كل كلمة للتنبؤ بالفصل أو التسمية.

غاوسيان ساذج بايز: بسبب افتراض التوزيع الطبيعي ، يتم استخدام غاوس ساذج بايز في الحالات التي تكون فيها جميع ميزاتنا مستمرة. على سبيل المثال في ميزات مجموعة بيانات Iris هي عرض sepal ، وعرض بتلة ، وطول sepal ، وطول بتلة. لذلك يمكن أن تحتوي ميزاته على قيم مختلفة في مجموعة البيانات حيث يمكن أن يختلف الطول والطول. لا يمكننا تمثيل الميزات من حيث حدوثها. هذا يعني أن البيانات مستمرة. وبالتالي نستخدم غاوس ساذج بايز هنا.


الاجابه 2:

إجابة أكشيت تقوم بعمل جيد في تغطية أساسيات الأنواع الثلاثة المختلفة. سأحاول توفير سياق أكثر قليلاً في كيفية استخدامها.

بالنسبة إلى Binomial و Multinomial ، دعنا نقول إننا نحاول إنشاء مصنف بريد إلكتروني غير مرغوب فيه.

ذو الحدين - عند الاطلاع على البيانات التي تلاحظها ، ستتضمن أنواع معينة من رسائل البريد الإلكتروني العشوائي مقبض البريد الإلكتروني الخاص بك (الجزء قبل علامة @) في مكان ما في سطر الموضوع. ثم تقوم بإنشاء ميزة تجسد هذا كـ 0 إذا لم تكن موجودة و 1 إذا كانت موجودة. ستستخدم الخوارزمية هذا المفهوم لتصنيف رسائل البريد الإلكتروني كرسائل غير مرغوب فيها / لحم الخنزير وتسمى "ذات الحدين" لأنها تفترض أن ميزاتك مستمدة من توزيع ذي حدين.

متعدد الحدود - وبالمثل كما كان الحال من قبل ، نلاحظ أنه كلما زاد عدد الدولارات ($) في البريد الإلكتروني ، زاد احتمال كون البريد الإلكتروني غير مرغوب فيه. يمكننا القيام بذلك لأنواع كثيرة من الكلمات ، على سبيل المثال (CASH أو Lottery) ، ولكن بدلاً من تصنيفها 0 أو 1 ، فإننا نحسب عدد المرات التي تظهر فيها كل كلمة في البريد الإلكتروني. يساعد هذا النموذج عن طريق إعطائه معلومات ، ليس فقط حول ما إذا كانت الكلمة موجودة ، ولكن أيضًا عدد المرات التي ظهرت فيها الكلمة لأننا نعرف أن هذه إشارة لمساعدة المصنف الخاص بنا. تفترض الخوارزمية أن الميزات مستمدة من توزيع متعدد الحدود.

بالنسبة إلى Gaussian ، دعنا نفترض أننا نحاول تصنيف ما إذا كان طالب جامعي يمكنه تفريغ كرة السلة بناءً على طولها فقط.

Gaussian - كما تتذكر من أي فئة من احصائيات التقديم ، فإن توزيع المرتفعات عند البشر مستمر ويتم توزيعه بشكل طبيعي (ويطلق على التوزيع الطبيعي أيضًا توزيع Gaussian ، ومن ثم الاسم). لذلك ستنظر الخوارزمية في ارتفاع جميع الطلاب الذين استطلعت آراؤهم وتحديد المكان الذي ينبغي أن يكون الفاصل فيه لزيادة أداء النموذج (الدقة عادة) لتصنيف dunkers مقابل غير dunkers.


الاجابه 3:

الثلاثة الأولى لديهم افتراضات حول التوزيعات أحادية المتغير للميزات i و c

P(fic)P(f_i|c)

التي تؤدي إلى صيغ مختلفة للاستدلال. أعطاك إجابة مفصلة قبل لي.

آخر واحد ليس نموذجًا في حد ذاته: لا يوجد شيء اسمه بايز السذاجة "العادية". جميع النماذج الثلاثة الأولى هي "السذاجة بايز" العادية. إذا لم تتخذ أي افتراضات أخرى حول توزيع قيم الميزات ، يمكنك فقط حساب كل توزيع تجريبي

P(fic)P(f_i|c)

واستخدمها للاستدلال في طريقة بايز الساذجة (بمعنى افتراض الاستقلال الشرطي).