تعلم الآلةمترجم

تنامي استخدام تعليم البيانات عن طريق المستخدم

كتابة: Nandhini TS   ترجمة: نضال إمام   مراجعة: فارس القنيعير

[المقال الأصلي بالانجليزي اضغط هنا]

لنفترض أن لديك مشروع ضخم جداً ويحتاج إلى تعليم (labeling) للبيانات بشكل مستمر – أثناء التنقل أو النوم أو تناول الطعام. أنا متأكد من أنك سوف تقدّر تعليم البيانات عن طريق المستخدم (user-generated labeling). لدي ٦ أمثلة ممتعة لمساعدتك على فهم هذه الطريقة، دعنا نتعمق في الموضوع!

يستخدم الفهد تقنيات التعلم المُوَجّه (supervised learning) للقبض على فريسته. قد تقول هذا أمر غريب وعشوائي. لكن، فكر في الأمر. يقوم الفهد بإتباع نهج دقيق للغاية للصيد من خلال شحذ مهاراته عن طريق الممارسة والملاحظة والخبرة والحساب.

يشبه هذا إلى حد كبير مجموعات البيانات التدريبية التي تستخدم لإنشاء نموذج مذهل للذكاء الاصطناعي. يتم تدريب وتعليم هذه النماذج باستمرار حتى تتمكن من العمل بمفردها. الفهود الجيدة تمر أيضًا بعملية مماثلة حتى تتمكن من توقع تكتيكات الهروب المختلفة للفرائس وتقوم بتعديل سرعتها من أجل المنعطفات السريعة – لا تعتمد فقط على خفة الحركة والسرعة. يتم اكتساب الإدراك من خلال التدريب الهائل، وجوهر هذه العملية هو تعليم البيانات (data labeling).

هذا شرط أساسي يساعد خوارزميات تعليم الآلة الخاصة بك على “التعلم” بناءً على المدخلات المعلّمة. هناك عدة طرق للقيام بذلك – العمل البشري المدار ذاتيًا، الاستعانة بمصادر خارجية للأفراد/الشركات، موفري خدمات التعليم (labeling) المدارة من جهات خارجية (third-party)، وغيرها.

ولكن، لنفترض أن لديك مشروع ضخم يحتاج إلى تعليم للبيانات بشكل مستمر ليتم تنفيذه – أثناء التنقل أو النوم أو تناول الطعام. هذا عندما تحتاج إلى القيام بذلك مجانًا. بالطبع، يمكن الاستعانة بمصادر خارجية، ولكن إذا نظرت إلى التكلفة وتغطية الاحتمالات والدقة التي يمكن تحقيقها فأنا متأكد من أنك سوف تقّدر تعليم البيانات عن طريق المستخدم (user-generated labeling) .

لدي ٦ أمثلة ممتعة لمساعدتك على فهم هذا، دعنا نتعمق في الأمر!

١. هل تعلم ان نيتفليكس (Netflix) تقوم بتعليم الصورة المصغرة؟

كيفية عمل محركات التوصية الخاصة بمنصة نيتفليكس مع البيانات الضمنية (implicit data) هو أحد التطبيقات البسيطة لعلوم البيانات. لنفترض أن المستخدم “أ” قد شاهد عرضًا، على سبيل المثال، “العذراء جين” (Jane the Virgin) (كل المواسم في 4 أيام)، البيانات الضمنية هي أنك أحببت العرض لأنه من الواضح أنك ضحيت كثيرًا من النوم لمشاهدته. البيانات السلوكية مجتمعة مع الآلاف من البيانات الأخرى هي الأساس الذي تعمل عليه خوارزمية تعلم الآلة في نيتفليكس.

يقول تود يلين، نائب رئيس ابتكار المنتجات في نيتفليكس، إنهم يأخذون بعين الاعتبار البيانات حول “ما نراه مثل – ما شاهدناه، وما شاهدناه بعد ذلك، وما شاهدناه من قبل، وما شاهدناه قبل عام، ما شاهدناه مؤخرًا وفي أي وقت من اليوم”.

لذلك، إذا شاهدت  العذراء جين (Jane the Virgin)، فمن المرجح أن تأخذ خوارزمية نيتفليكس لتعلم الآلة (Netflix ML) في الاعتبار ما شاهده الأشخاص الذين شاهدوا هذا العرض بعد ذلك. وايضاً تقوم الخوارزمية بتحليل الاتجاهات في تفضيلات المجتمع (the community preferences)، على سبيل المثال هل المجتمعات تفضل العروض التي تظهر المرأة القوية القائدة أو يحبون الكوميديا، أو رجال الشرطة الفاسدين، وجرائم القتل الغامضة، أو غيرها.

الآن بعد أن قامت نيتفليكس بتصنيف العروض والأفلام والتوصية بها بناءً على الاهتمامات المشتركة للمستخدمين، فإنها تتقدم خطوة الى الأمام (لتحسين معدلات النقر (click-through rates)) بمفهوم يسمى تخصيص الصور المصغرة (personalization of thumbnails). هذه في الأساس صور تم تعليمها بواسطة نيتفليكس من خلال إطارات الفيديو (video frames) في الأفلام أو العروض.

تستخدم نيتفليكس تعلم الآلة لإنشاء العديد من الأشكال المتنوعة من الصور المصغرة عالية النقر (click-thru)، والتي تقوم باختبار أ\ب باستمرار عبر قاعدة المستخدمين الخاصة بها – لكل مستخدم وفيلم – كل ذلك لزيادة احتمالية النقر عليها ومشاهدتها، مصدر الصورة: Becominghuman.ai.

إذن، أين يتم تعليم البيانات عن طريق المستخدم هنا؟ بالضبط، تجمع نيتفليكس صورًا مصغرة (thumbnail) مختلفة تسميها بناءً على التاريخ السلوكي للمستخدم، والميل إلى اتجاه معين في نوع الافلام المفضلة، والفلاتر والإضاءة، والنجوم المفضلة، والمزيد. هذه التوصية فريدة لكل مستخدم، وتستند إلى آلاف الاهتمامات المماثلة التي ساعدت في تحسين معدلات النقر (click-through rates). إنه لأمر عبقري كيف قامت نيتفليكس في جمع البيانات من المستخدمين واستخدامها بشكل فعال لتحسين التجربة.

برافو، نيتفليكس!

٢- حان الوقت للعب، هل سمعت عن Quickdraw؟

Quickdraw أحد منتجات جوجل، هي أكبر مجموعات البيانات الرسم اليدوي العبثي (doodling)، تحتوي على ٥٠ مليون مجموعة من الرسومات و٣٤٥ فئة. إنها لعبة تتيح للمستخدم الرسم ومن ثم تحاول الشبكة العصبية (neural network) تخمين ما هي الرسمة. لكن مفهوم الصورة شخصي جدًا لكل مستخدم، وهذا هو السبب في أن الشبكة العصبية قد لا تكون دائمًا على صواب.

الشيء المميز هنا هو أننا قد نستطيع جعل التنبؤات دقيقة من خلال تعليم النموذج أثناء اللعب به.

لمساعدتك على الفهم بشكل أفضل: طُلب مني رسم قمر. بقدر ما أشعر بالحرج من مهاراتي في الرسم، سأريكم ما رسمته فقط لمساعدتك على فهم المفهوم!

حسنًا، تقول الصورة بوضوح أن الشبكة العصبية لم تتعرف عليها (أنا لست بيكاسو، أليس كذلك؟) على أي حال، تصبح اللعبة مثيرة للاهتمام فقط عندما يشعر المستخدم بالنصر إذا استطاعت الشبكة العصبية التعرف على ما تم رسمه. هذا هو بالضبط ما يميز هذا المفهوم. ولكن نظرًا لملايين الاحتمالات المختلفة والتعامل مع مهارات الأشخاص مثلي، يستخدم النموذج البيانات التي ينشئها المستخدم (user-generated data).

الآن، يتم استخدام الرسم الهزيل للقمر الخاص بي كمجموعة بيانات تدريبية تسمى “القمر” للمساعدة في تحسين الدقة. إليك لقطة لما تم التعرف عليه من قبل الشبكة العصبية وكيف تعلمت التعرف عليه.

٣- برنامج Grammarly يحتاج إلى مساعدتك لإعلامك إذا كنت على حق.

جميع الكتّاب على دراية بـ Grammarly. إنها أداة تساعدك في الحفاظ على كتابتك خالية من الأخطاء، بما في ذلك النحوية والإملائية وعلامات الترقيم وغيرها. تصحيح الأخطاء النحوية ليس هو فقط ما يقوم به Grammarly، بل إنه يساعدك أيضًا على تحديد السرقات الأدبية، وتحسين اختيار الكلمات، واللهجة العامية، واكتشاف الأسلوب، وما إلى ذلك. يستخدم Grammarly الذكاء الإصطناعي مع فريق من اللغويين الحوسبيين (computation linguists) ومهندسي التعلم العميق وراء الكواليس. يتم تعليم الخوارزميات قواعد الكتابة وتقديم الاقتراحات من خلال تحليل مجموعات البحث (research corpora) التي تعد مجموعة ضخمة من النصوص المعلمة المستخدمة للبحث والتطوير.

نعلم جميعًا أن أساس أي نموذج ذكاء اصطناعي هو التعليم المستمر، تماماً مثل البشر يصبح أكثر ذكاءً من خلال الإثراء معرفي! لكن الآلات تعمل على أساس القواعد. إذا كان هناك نفي، فإنهم يبلغون عن الخطأ. وبالمثل، يصبح Grammarly أكثر ذكاءً بمساعدتك (المستخدم). اسمحوا لي أن آخذ مثالاً على السطر السابق الذي قرأته للتو. اعتقدت أنني ارتكبت خطأ “is” (انظر أدناه في الصورة).

ولكن، قد يكون من الصواب منطقيًا ونحويًا استخدام “is”. بعيدًا عن القواعد النحوية، تحتاج الكتابة إلى الاتصال، والأهم من ذلك أن الجمل تحتاج إلى القراءة جيدًا. في هذا المثال، استخدمت “is” لأن العملية مستمرة، لذلك تم استخدام المضارع المستمر. ومع ذلك، كان لدى Grammarly رأي مختلف. هكذا، كمستخدم ساعدت في تعليم البيانات الخاصة بـ Grammarly لتناسب السياق بشكل أفضل وتجاهلت الاقتراح لجعله أكثر ذكاءً.

٤- بعض المنتجات من Google Suite هي الأفضل، أليس كذلك؟

أ. كيف يساعدك Gmail من خلال التكملة التلقائية (auto-complete)

من الواضح أن الكتابة الذكية من جوجل (Google’s Smart Compose) تعمل باستخدام الذكاء الاصطناعي. والوظيفة الدقيقة للنظام تكون بإستخدام حقيبة الكلمات (bag-of-words) مع الشبكات العصبية التكرارية (recurrent neural networks). ببساطة، هو يستخدم سطر عنوان الرسالة ورسائل البريد الإلكتروني السابقة للتعلم ويتم ترميزها على شكل كلمات مضمنة (word embedding) وتحويلها إلى متجهات (vectors). إليك مثال يقوم Grammarly باكتشاف الأسلوب (tone)!

ب. أصبحت خرائط جوجل (Google map) أكثر ذكاءً

لنفترض أن المتحدث بغير اللغة الإنجليزية يستخدم خرائط جوجل (الصوت) للوصول إلى أحد المواقع، ويقوم التطبيق بإعطاء معلومات غير صحيحة. عندما تضغط سريعاً على زر الرجوع، يتعلم النموذج أنه كان هناك خطأ. قد يختلف السبب بناءاً على اللفظ واللهجات بين المناطق. هذا النوع من البيانات يساعد نموذج تعلم الآلة (ML) على تحسين أداء تطبيق تحويل الصوت إلى نص بدقة.

ج. Captcha الغير محببة لدى الكل

لقد مررنا جميعًا بمجموعة كبيرة من الصور التي تطلب جوجل منا تأكيدها وفقًا لأحد المتطلبات من أجل التفريق بين البشر والروبوتات. نظرًا لتزايد تجاوز captcha من خلال برامج الروبوت (bots)، فقد أصبحت الآن معقدة بعض الشيء. من أجل تحسين دقة تعليم الصور، أصبحت مشاركات المستخدمين تستخدم كمجموعة بيانات تدريبية لنماذج تعلم الآلة لتحسين دقتها مع مرور الوقت.

٥- يمكن لإنستغرام (Instagram) الكشف التلقائي عن التعليقات المسيئة وإزالتها

تساعد معالجة اللغات الطبيعية (NLP) الآلة على فهم اللغة بطريقة محاكية للتي يتعلم من خلالها الإنسان. بالنسبة لإنستغرام، فإن الجملة المليئة بالكلمات المحايدة فقط من الممكن ان تصنيف على أنها جملة مسيئة، بينما الجملة المليئة بالكلمات البذيئة يمكن أن تكون أغنية مشهورة. إنه لأمر معقد. ولكن ليس إنستغرام الذي يستخدم النص العميق (DeepText) لتحديد التعليقات المسيئة وإزالتها تلقائيًا.

في استطلاع أجرته Ditch the Label ، أفاد ٤٢٪ من أكثر من ١٠،٠٠٠ شاب بريطاني تتراوح أعمارهم بين ١٢ و ٢٥ عامًا أن إنستغرام كانت المنصة التي تعرضوا فيها للتنمر.

يتم تدريب النص العميق (Deeptext) من قبل البشر لتحديد ووضع علامات على ما هو مسيء وما هو غير مسيء في سياقات مختلفة لفهم اللغة المسيئة. ولكن لا يزال هناك خطر التصنيف الخاطئ للأشياء على أنها مسيئة عندما لا تكون كذلك.

يقول كيفن سيستروم (الرئيس التنفيذي لشركة إنستغرام) ، “تعلم الآلة أفضل خيار لفهم مثل هذه الفروقات الدقيقة مقارنة بأي خوارزمية في الماضي، وأكثر مما يمكن لأي إنسان بمفرده”.

“وأعتقد أن ما يتعين علينا القيام به هو معرفة كيفية الوصول إلى تلك المناطق الرمادية، والحكم على أداء هذه الخوارزمية مع مرور الوقت لمعرفة ما إذا كانت تقوم بتحسين الأشياء بالفعل. لأنه ما إذا تسببت في مشكلة ولم تنجح، فسوف نقوم بإلغائها ونبدأ بشيء جديد”.

عنصر المخاطرة هذا هو السبب في أن إنستغرام توصل مؤخرًا إلى خيار لإخطار المستخدم إذا كان متأكدًا من نشر التعليق باستخدام تقنية مدعمة بالذكاء الاصطناعي. ولكن الاختبارات شجعتهم بالفعل على التراجع.

لكي يعمل نموذج الذكاء الاصطناعي بذكاء (في تصنيف ما هو مسيء وما هو غير مسيء)، فمن المؤكد أنه يحتاج إلى تدريب مستمر بناءً على مساهمة المستخدم، ألا تعتقد ذلك؟

٦- السلة الذكية (Smartbasket) – أحد أذكى منتجات Bigbasket 

السلة الكبيرة (Bigbasket)، هو متجر بقالة عبر الإنترنت في الهند. هذا المتجر يستخدم التقنيات القائمة على الذكاء الاصطناعي لتحسين تجربة العملاء.

قال سوبراماناي، رئيس قسم التحليلات في السلة الكبيرة (Bigbasket) في مقابلة: “ركزت رحلة الذكاء الاصطناعي لدينا حتى الآن بشكل أساسي على تعلم الآلة ML. نحن الآن في مرحلة نتعمق فيها في الذكاء الاصطناعي ونستكشف التقنيات ذات الصلة مثل إنترنت الأشياء ورؤية الحاسب (computer vision) والتحليلات المتقدمة لتنمية الأعمال. “

يتم استخدام الذكاء الاصطناعي في حالات متعددة في السلة الكبيرة (Bigbasket)، أحدها على سبيل المثال هو كيفية تحليل بيانات حركة المرور الحالية وإستخدامها لتحديد وقت التسليم. لقد قام المتجر بتقديم منتج السلة الذكية (Smartbasket)  بهدف إنشاء سلة تسوق مخصصة للعملاء.

يقول رئيس تحليلات البيانات: “غالبًا ما تكون ٩٠٪ من الطلبات النهائية للعملاء جزءًا من السلة الذكية (Smartbasket). تظهر بياناتنا أن هؤلاء العملاء يقضون الآن نصف الوقت الذي يقضونه عادةً في تقديم الطلبات”.

أصبحت خوارزمية تعلم الآلة (ML) الخاصة بالسلة الكبيرة (Bigbasket) أكثر ذكاءً، حيث أن العملاء يضيفون ٤٠٪ من المنتجات الموصى بها إلى سلة التسوق الخاصة بهم.

لذلك، إذا تعمقنا في هذه الفكرة الخاصة بمحركات التوصية ومفاهيم السلة الذكية (Smartbasket)، فإن البيانات التي يتم جمعها من العملاء، مثل تحليلات السلوك والمفضلات وسجل الشراء وسلوك المجتمع تجاه نفس المنتج وآلاف المعلومات الأخرى، تستخدم كمجموعات تدريبية لمحرك التوصية. تتحسن النقرات في كل مرة عندما يصبح الوضع أكثر ذكاءً مع المزيد من التدريب الذي يعتمد على استجابة المستخدم لنوع التوصية.

هناك ثلاثة أنواع من أنظمة التوصية – الترشيح التعاوني (collaborative filtering) والتوصية القائمة على المحتوى (content-based) والتوصية المختلطة (hybrid). تستفيد شركات مثل السلة كبيرة ونتفليكس من التوصيات المختلطة، أي مراعاة سلوك المستخدم الفريد وأنماط المستخدمين المتشابهة. باختصار، مرة أخرى يلعب المستخدمون دورًا كبيرًا في جعل محركات التوصية أكثر ذكاءً!

الخاتمة

تستخدم الشركات التي تمتلك قاعدة كبيرة من المستخدمين عملائها لمساعدتهم على تعليم البيانات لدرجة أننا كمستخدمين لا ندرك ذلك. بالنسبة للنماذج مثل محركات التوصية في متاجر الإنترنت مثل السلة كبيرة (Bigbasket) وخدمات الوسائط مثل نتفليكس، فإن مساهمة المستخدم في تعليم البيانات وجعل النماذج أكثر ذكاءً ليست واضحة جدًا نظرًا لوجود الكثير من العمل التحليلي الإضافي الذي يدخل في هذه العملية.

ولكن بالنسبة إلى الرسم السريع (Quick draw)، فإن وضع تعليم البيانات بسيط جداً. فإذا فشلت الشبكة العصبية، يتم تغذية البيانات فورًا للتعليم. هذه الحالات شائعة بالنسبة للشركات الضخمة التي تتعامل مع الكثير من المعلومات فورياً (real-time). ولكن بالنسبة لمشاريع الذكاء الاصطناعي الأخرى، حيث لا يزال تعليم البيانات يعتبر مهماً، يمكنك اللجوء إلى بعض الأدوات الجيدة لتعليم البيانات المتوفرة في السوق، مثل X-tract.io و Cloudfactory وfigure eight.

 

السيرة الذاتية: Nandhini TS هي مساعد تسويق المنتجات في X-tract.io – شركة حلول البيانات. تحب الكتابة عن قوة وتأثير البيانات للعمليات التجارية الناجحة.

اظهر المزيد

نضال إمام

طالب دكتوراة بجامعة يورك بالمملكة المتحدة. مهتم بالأمن السيبراني، امن الشبكات، امن تعليم الآلة و اصتياد الرسائل الخبيثة في مواقع التواصل الإجتماعي

‫4 تعليقات

    1. شكرا اخي مهند. نعم يوجد تجمع اجتماعي و اذا اردت الانضمام الرجاء مخاطبة الاخوان في موقع نمذجيات.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى