تعلم الآلةمترجممعالجة اللغات الطبيعية

التعلم العميق لمعالجة اللغات الطبيعية (NLP): نظرة عامة على الاتجاهات الحديثة

كتابة: Elvis Saravia   ترجمة: أسيل المسعد   مراجعة: سعد الشهراني

[المقال الأصلي بالانجليزي اضغط هنا]

ورقة جديدة تناقش بعض الاتجاهات الحديثة في التعلم العميق القائم على أنظمة وتطبيقات معالجة اللغات الطبيعية (NLP). ينصب التركيز على مراجعة ومقارنة النماذج والأساليب التي حققت أحدث نتائج state-of-the-art (SOTA) في مختلف مهام (NLP) وبعض أفضل الممارسات الحالية لتطبيق التعلم العميق في معالجة اللغات الطبيعية (NLP).

 

 ورقة جديدة في الوقت المناسب، ناقش فيها يونغ وزملاؤه بعض الاتجاهات الحديثة في التعلم العميق القائم على أنظمة وتطبيقات معالجة اللغات الطبيعية. ينصب تركيز الورقة على مراجعة ومقارنة النماذج والطرق التي حققت أحدث النتائج (SOTA) في العديد من مهام (NLP) مثل إجابة الأسئلة مرئياً (Question Answering(QA)) والترجمة الآلية (machine translation). في هذه المراجعة الشاملة، سوف يحصل القارئ على فهم مفصل لماضي وحاضر ومستقبل التعلم العميق في معالجة اللغات الطبيعية. بالإضافة إلى ذلك، سيتعلم القارئ أيضًا بعضًا من أفضل الممارسات الحالية لتطبيق التعلم العميق في معالجة اللغات الطبيعية. بعض المواضيع تشمل:

  • ظهور التمثيل الموزع (على سبيل المثال، word2vec)
  • الشبكات العصبية الترشيحية والتكرارية والتعاودية
  • تطبيقات في التعلم التعزيزي
  • التطور الحديث في التعلّم الغير موجَّه لتمثيل الجمل
  • الجمع بين نماذج التعلم العميق مع استراتيجيات الذاكرة المعززة

ما هو NLP؟

معالجة اللغة الطبيعية (NLP) هو مجال يعمل على بناء خوارزميات حسابية لتحليل اللغة البشرية وتمثيلها تلقائيًا. وقد مكنت النظم القائمة على NLP مجموعة واسعة من التطبيقات مثل محرك البحث القوي من جوجل، ومؤخراً المساعد الصوتي اليكسا من أمازون. تعد NLP مفيدة أيضاً لتعليم الآلات القدرة على أداء مهام اللغة الطبيعية المعقدة ذات الصلة مثل الترجمة الآلية وتوليد الحوار (dialogue generation).

لفترة طويلة، كانت غالبية الطرق المستخدمة لدراسة مشاكل NLP تستخدم نماذج تعلم الآلة الضحلة ذات مواصفات بدائية مستهلكة للوقت. هذا يؤدي إلى مشاكل مثل مشكلة البُعدية (curse of dimensionality) حيث يتم تمثيل المعلومات اللغوية بتمثيلات متفرقة (سمات عالية الأبعاد). بينما مع الشعبية الأخيرة ونجاح تضمينات الكلمة word embeddings (منخفض الأبعاد، تمثيلات موزعة)، حققت النماذج القائمة على الشبكات العصبية نتائج متفوقة على المهام المتصلة باللغات المختلفة بالمقارنة مع نماذج تعلم الآلة التقليدية مثل SVM أو الانحدار اللوجستي (logistic regression).

التمثيل الموزع (Distributed Representations)

كما ذُكر سابقًا، تم استخدام الميزات اليدوية في المقام الأول لنمذجة مهام اللغة الطبيعية حتى ظهرت الطرق العصبية وحلت بعض المشكلات التي تواجهها نماذج تعلم الآلة التقليدية مثل مشكلة البُعدية.

تضمينات الكلمة (Word Embeddings)

متجهات التوزيع، وتسمى أيضا بتضمينات الكلمة، تستند إلى ما يسمى فرضية التوزيع (distributional hypothesis) – كلمات تظهر ضمن سياق مماثل ويمتلك معنى مشابه له. يتم تدريب مسبق لتضمينات الكلمة على مهمة ما حيث يكون الهدف هو التنبؤ بكلمة بناءًا على السياق الخاص بها، وذلك عادةً باستخدام شبكة عصبية ضحلة. يوضح الشكل أدناه نموذج اللغة العصبية الذي اقترحه بنجيو وزملاؤه.

تميل متجهات الكلمة إلى تضمين المعلومات النحوية والدلالات اللفظية وهي مسؤولة عن أفضل النتائج في مجموعة واسعة من مهام NLP مثل تحليل المشاعر (sentiment analysis) وتكوين الجملة.

تم استخدام التمثيلات الموزعة بكثافة في الماضي لدراسة العديد من مهام NLP، لكنها بدأت تكتسب شعبية فقط عندما تم تقديم نماذج حقيبة الكلمات المستمرة (CBOW) ونماذج skip-gram في هذا المجال. كانت شائعة لأنها يمكن أن تبني بشكل فعال تضمينات للكلمات عالية الجودة ولإمكانية استخدامها للتركيب الدلالي (على سبيل المثال، ’الرجل’+‘الملكي’ = ‘الملك’).

متجه الكلمة (Word2vec) : في عام 2013 تقريبًا، اقترح ميكولاف وآخرون كلاً من نموذجين CBOW و skip-gram.  CBOW عبارة عن طريقة تستخدم شبكة عصبية لبناء تضمينات الكلمة، والهدف هو حساب الاحتمال الشرطي للكلمة المستهدفة بالنظر لكلمات السياق في حجم إطار معين. من ناحية أخرى، يُعد Skip-gram منهجًا عصبيًا لإنشاء تضمينات الكلمة، حيث يكون الهدف هو التنبؤ بكلمات السياق المحيطة (أي الاحتمال الشرطي) عند إعطاء كلمة الهدف المركزية. في كلا النموذجين، يتم تحديد أبعاد تضمين الكلمة من خلال حساب دقة التنبؤ (بطريقة غير موجَّهة).

أحد التحديات التي تواجه طرق تضمين الكلمات هي عندما نريد الحصول على تمثيلات متجهيه لعبارات مثل “البطاطا الساخنة” أو “بوسطن غلوب”. لا يمكننا ببساطة الجمع بين التمثيلات المتجهة للكلمات الفردية عندما تكون هذه العبارات غير معبرة عن الناتج من مزج بين معاني الكلمات الفردية. ويزداد الأمر تعقيدًا عند النظر في العبارات والجمل الأطول.

القيد الآخر في نماذج متجه الكلمة يتمثل في أن استخدام حجم إطار أصغر ينتج عنه تضمينات متشابهة لكلمات متناقضة مثل “جيد” و “سيئ”، وهو أمر غير مرغوب فيه خاصة بالنسبة للمهام التي يكون فيها هذا التمايز مهمًا مثل تحليل المشاعر. تحذير آخر من تضمينات الكلمة هو أنها تعتمد على كيفية استخدامها. مهمة إعادة تدريب التضمينات لكل مهمة جديدة هو خيار استكشافي ولكن هذا عادةً مكلف حسابيا ويمكن أن تكون معالجتها بشكل أكثر كفاءة باستخدام العينات السلبية (negative sampling). كما تعاني نماذج متجه الكلمة من مشاكل أخرى مثل عدم الأخذ بعين الاعتبار تعدد المعاني وغيرها من التحيزات التي قد تظهر على السطح من بيانات التدريب.

تضمينات الحرف (Character Embeddings): بالنسبة لمهام مثل وضع علامات على أجزاء من الكلام (parts-of-speech (POS) tagging) والتعرف على الكيان المسمى (named-entity recognition (NER))، سيكون من المفيد النظر إلى المعلومات البنيوية في الكلمات، مثل الأحرف أو مجموعات منها. وهذا أيضاً مفيد للغات الغنية تكوينياً مثل البرتغالية والأسبانية والصينية. نظرًا لأننا نقوم بتحليل النص على مستوى الحرف، فإن هذا النوع من التضمينات يساعد في التعامل مع مشكلة الكلمات الغير المعروفة حيث إننا لم نعد نقوم بالتمثيل التسلسلي مع مفردات الكلمات الكبيرة التي يجب تقليلها لأغراض الحوسبة الفعالة.

أخيرًا، على الرغم من تطبيق كل من التضمينات على مستوى الحرف ومستوى الكلمات بنجاح في العديد من مهام معالجة اللغات الطبيعية، من المهم فهم أنه قد تم التشكيك في أثره على المدى البعيد. على سبيل المثال، توصل لوسي وغوتييه مؤخرًا إلى أن متجهات الكلمة محدودة في مدى التقاطها لمختلف جوانب المعنى المفاهيمي وراء الكلمات. بمعنى آخر، الادعاء هو أن دلالات التوزيع وحدها لا يمكن استخدامها لفهم المفاهيم الكامنة وراء الكلمات. في الآونة الأخيرة، كان هناك نقاش هام حول معنى التمثيل في سياق نظم معالجة اللغة الطبيعية.

 

الشبكات العصبية الترشيحية (Convolutional Neural Network)

تعد الشبكة العصبية الترشيحية CNN نهج عصبي يقوم بوظيفة الخواص التي يتم تطبيقها لتكوين الكلمات أو عدد الجرام لاستخلاص خواص المستوى الأعلى. ويتم استخدام الخواص المجردة الناتجة بفاعلية لتحليل المشاعر، والترجمة الآلية، والإجابة على الأسئلة، من بين مهام أخرى. كان كولوبرت ووستون من أوائل الباحثين الذين قاموا بتطبيق الأطر المستندة إلى CNN على مهام معالجة اللغات الطبيعية. كان الهدف من طريقتهم هو تحويل الكلمات إلى التمثيل المتجهي عبر جدول بحث، والذي نتج من طريقة تضمين الكلمة الأولية التي تكتشف الأوزان أثناء تدريب الشبكة (انظر الشكل أدناه).

من أجل إجراء نمذجة الجملة باستخدام شبكة CNN الأساسية، يتم أولاً تحويل الجمل إلى كلمات، والتي تتحول إلى مصفوفة تضمين الكلمة (أي طبقة مدخلات التضمين) ذات البعد d. بعد ذلك، يتم تطبيق المرشحات على طبقة مدخلات التضمين هذه والتي تَتَكون من تطبيق عامل التصفية لكافة أحجام الإطارات الممكنة لإنتاج ما يسمى بخريطة الخصائص. ثم يتبع ذلك عملية max-pooling والتي تطبق عملية الحد الأقصى على كل مصفي للحصول على ناتج ذي طول ثابت وتقليص أبعاد الناتج. وهذا الإجراء يُنتج تمثيل الجملة النهائي.

عن طريق زيادة تعقيد شبكة CNN الأساسية المذكورة أعلاه وتكييفها لتنفيذ التنبؤات القائمة على الكلمات، ودراسة مهام الـ NLP الأخرى مثل NER، واكتشاف جوانب (aspect detection)، والـ POS. يتطلب ذلك نهجًا قائمًا على إطار، حيث يتم النظر في كل كلمة ضمن إطار ذي حجم ثابت للكلمات المجاورة (جملة فرعية). ثم يتم تطبيق CNN المستقلة على الجملة الفرعية والهدف من التدريب هو التنبؤ بالكلمة في وسط الإطار، ويشار إليها أيضًا باسم تصنيف على مستوى الكلمة.

أحد أوجه القصور في شبكات CNN الأساسية هو عدم قدرتها على نمذجة long distance dependencies ، وهو أمر مهم لمختلف مهام NLP. لمعالجة هذه المشكلة، تم ربط CNNs بالشبكات العصبية المتأخرة زمنياً (time-delayed neural networks (TDNN)) والتي تتيح أكبر نطاق سياقي في آن واحد أثناء التدريب. تُعرف أنواع أخرى مفيدة من CNN والتي أظهرت نجاحًا في مهام الـNLP  المختلفة، مثل تنبؤ المشاعر وتصنيف نوع السؤال، بالشبكة العصبية الترشيحية الديناميكية (dynamic convolutional neural network (DCNN)). تستخدم DCNN استراتيجية k-max pooling الديناميكية حيث يمكن للمصفيات أن تمتد ديناميكيًا لنطاقات متغيرة أثناء تنفيذ نمذجة الجملة.

تم استخدام CNNs أيضًا للقيام بمهام أكثر تعقيدًا مع النصوص المتفاوتة في الطول، كما هو الحال في اكتشاف الجوانب وتحليل المشاعر (sentiment analysis) وتصنيف النص القصير (short text categorization) واكتشاف السخرية (sarcasm detection). ومع ذلك، ذكرت بعض هذه الدراسات أن المعرفة الخارجية كانت ضرورية عند تطبيق الأساليب المستندة إلى CNN على النصوص الدقيقة مثل نصوص Twitter. المهام الأخرى التي أثبتت CNN فائدتها هي الاستعلام عن مطابقة المستندات (query-document matching)، والتعرف على الكلام، والترجمة الآلية (إلى حد ما)، وتمثيلات الإجابة على الأسئلة وغيرها. من ناحية أخرى، تم استخدام DCNN للتعليم الهرمي لالتقاط خصائص قاموسية منخفضة المستوى وتكوينها إلى مفاهيم دلالية عالية المستوى من أجل التلخيص التلقائي للنصوص. بشكل عام، تعتبر شبكات CNN فعالة لأنها يمكنها أن تستخلص القرائن الدلالية في الاطر السياقية، لكنها تكافح للحفاظ على الترتيب المتسلسل ونمذجة المعلومات السياقية البعيدة. تعد النماذج المتكررة أكثر ملاءمة لهذا النوع من التعلم وستناقش بعد ذلك.

الشبكات العصبية التكرارية: (Recurrent Neural Network)

RNNs هي نُهُج متخصصة عصبية تكون فعالة في معالجة المعلومات التسلسلية. يطبق RNN عملية حسابية بشكل متكرر على كل حالة من سلسلة إدخال مكيفة على النتائج المحسوبة السابقة. يتم تمثيل هذه السلاسل عادة بواسطة متجه ثابت الحجم من tokens التي يتم تغذيتها بالتتابع (واحد تلو الآخر) إلى وحدة متكررة. يوضح الشكل أدناه إطار RNN بسيط.

قوة RNN الرئيسية هي قدرتها على حفظ نتائج العمليات الحسابية السابقة واستخدام تلك المعلومات في العملية الحسابية الحالية. هذا يجعل نماذج RNN مناسبة لنمذجة تبعيات السياق في المدخلات ذات الطول العشوائي وذلك لإنشاء تكوين مناسب للمدخلات. تم استخدام RNNs لدراسة العديد من مهام معالجة اللغة الطبيعية مثل الترجمة الآلية، والشرح النصي للصور، ونمذجة اللغة، وغيرها.

نظرًا لمقارنتها بنموذج CNN، يمكن أن يكون نموذج RNN فعالًا على نحو مماثل أو حتى أفضل في مهام محددة للغة الطبيعية ولكن ليس بالضرورة أفضل. وذلك لأنهم يقومون بنمذجة جوانب مختلفة تمامًا للبيانات، مما يجعلها فعالة فقط اعتمادًا على الدلالات التي تتطلبها المهمة قيد البحث.

المدخلات المتوقعة من RNN عادةً ما تكون عبارة عن ترميزات مهمة أو تضمينات للكلمة، ولكن في بعض الحالات تكون مقترنة بالتمثيلات المجردة التي يتم إنشاؤها بواسطة، على سبيل المثال، نموذج CNN. تعاني شبكات RNNs البسيطة من مشكلة التلاشي المتدرج (vanishing gradient problem) الذي يجعل من الصعب التعرف على المدخلات وضبطها في الطبقات السابقة. وهناك أشكال أخرى، مثل شبكات الذاكرة قصيرة المدى المطولة (long short-term memory (LSTM) networks)، والشبكات المتبقية (residual networks (ResNets))، والشبكات التكرارية المبوبة (gated-recurrent networks (GRU)) حيث تم تقديمها فيما بعد للتغلب على هذا القيد.

الأشكال المختلفة لـ RNN: يتكون LSTM من ثلاث بوابات (بوابات الإدخال، والنسيان، والمخرجات) وحساب الحالة المخفية من خلال مزيج من الثلاث. الـ GRUs تتشابه مع LSTMs ولكنها تتكون من بوابتين فقط وتكون أكثر كفاءة لأنها أقل تعقيدًا. أوضحت إحدى الدراسات أنه من الصعب تحديد أي من شبكات RNN المبوبة أكثر فعالية، وعادة ما يتم اختيارها بناءً على قوة الحوسبة المتاحة. تم اقتراح العديد من النماذج المستندة إلى LSTM للتسلسل لرسم الخرائط التسلسلية (عبر أطر التشفير- فك التشفير) التي هي مناسبة للترجمة الآلية، وتلخيص النص، ونمذجة المحادثات البشرية، والإجابة على الأسئلة، وتوليد اللغة القائمة على الصور وغيرها.

بشكل عام، يتم استخدام RNNs للعديد من تطبيقات NLP مثل:

  • تصنيف على مستوى الكلمة (على سبيل المثال، NER)
  • نمذجة اللغة
  • تصنيف على مستوى الجملة (مثل قطبية المشاعر)
  • المطابقة الدلالية (على سبيل المثال، تطابق المعنى مع الرد المرشح في أنظمة الحوار)
  • إنشاء لغة طبيعية (على سبيل المثال، الترجمة الآلية، الأسئلة والأجوبة المرئية، والشرح النصي للصورة)

آلية التنبيه (Attention Mechanisms)

أساساً فإن آلية التنبيه (attention mechanism) هي تقنية مستوحاة من الحاجة للسماح لوحدة فك التشفير التي تعتبر جزء من الإطار المذكور أعلاه والمستند إلى RNN، باستخدام الحالة المخفية الأخيرة مع المعلومات (أي متجه السياق) المحسوبة استنادًا على إدخال تسلسل الحالة المخفي. وهذا مفيد بشكل خاص للمهام التي تتطلب بعض المحاذاة بين نص الإدخال والإخراج. تم استخدام آليات التنبيه بنجاح في الترجمة الآلية وتلخيص النصوص والشرح النصي للصور (image captioning) وتوليد الحوار وتحليل المشاعر القائم على الموضوع (aspect-based sentiment analysis). تم اقتراح أشكال وأنواع مختلفة من آليات التنبيه ولا تزال مجالًا بحثيًا مهمًا للباحثين في NLP الذين يبحثون في تطبيقات مختلفة.

الشبكة العصبية التداخلية: (Recursive Neural Network)

وعلى غرار RNN، فإن الشبكات العصبية التداخلية هي آليات طبيعية لنمذجة البيانات التسلسلية. هذا لأن اللغة يمكن أن ينظر إليها على أنها هيكل تكراري حيث الكلمات والعبارات الفرعية تشكل عبارات أخرى ذات مستوى أعلى في تسلسل هرمي. في مثل هذه البنية، يتم تمثيل العقدة غير الطرفية بتمثيل جميع العقد التابعة لها. يوضح الشكل أدناه شبكة عصبية بسيطة متكررة.

في نموذج الشبكة العصبية التداخلية الأساسية، تقوم الدالة التركيبية (أي الشبكة) بدمج المكونات بطريقة من أسفل لأعلى لحساب تمثيل العبارات ذات المستوى الأعلى (أنظر الشكل أعلاه). بشكل مغاير MV-RNN، يتم تمثيل الكلمات بمصفوفة ومتجه، مما يعني أن المدخلات التي تعلّمتها الشبكة تمثل مصفوفات كل مكون (كلمة أو عبارة). هناك تباين آخر، شبكة tensor العصبية التداخلية recursive neural tensor network (RNTN)، تتيح مزيدًا من التفاعل بين متجهات الإدخال لتجنب المدخلات الكبيرة كما هو الحال بالنسبة إلى MV-RNN. تُظهر الشبكات العصبية التداخلية مرونةً، وقد تم اقترانها بوحدات LSTM للتعامل مع مشاكل مثل التلاشي المتدرج.

تُستخدم الشبكات العصبية التداخلية للتطبيقات المختلفة مثل:

  • التحليل
  • الاستفادة من التمثيلات على مستوى الجملة في تحليل المشاعر
  • تصنيف العلاقات الدلالية (على سبيل المثال، الموضوع-الرسالة)
  • ترابط الجمل

 التعلم التعزيزي (Reinforcement Learning)

التعلم التعزيزي يضم أساليب تعلم الآلة التي تدرب العناصر على تنفيذ إجراءات منفصلة تتبعها مكافأة. والعديد من مهام توليد اللغات الطبيعية (NLG)، مثل تلخيص النصوص، يتم تحقيقها من خلال توظيف التعلم التعزيزي.

تطبيقات التعلم التعزيزي على مشاكل NLP تحركها بعض المشاكل. عند استخدام المولدات المستندة إلى RNN، يتم استبدال tokens الفعلية والحقيقية بـ tokens التي تم إنشاؤها بواسطة النموذج الذي يزيد بسرعة من معدلات الخطأ. علاوة على ذلك، مع مثل هذه النماذج يختلف هدف التدريب على مستوى الكلمات عن اختبار القياس، مثل مقياس التداخل n-gram، و BLEU المستخدم في الترجمة الآلية وأنظمة الحوار. بسبب هذا التناقض، تميل أنظمة NLG الحالية إلى توليد معلومات غير متماسكة ومتكررة ومملة.

لمعالجة المشاكل المذكورة أعلاه، تم استخدام خوارزمية التعزيز تسمى REINFORCE لمعالجة مهام NLP مثل الشرح النصي للصور والترجمة الآلية. يتكون إطار التعلم التعزيزي هذا من أداة (النموذج التوليدي القائم على RNN) والذي يتفاعل مع البيئة الخارجية (كلمات الإدخال ومتجهات السياق التي يتم رؤيتها في كل خطوة زمنية). الأداة تختار إجراءً يستند إلى سياسة (مدخلات) تتضمن تنبؤ الكلمة التالية من التسلسل في كل خطوة زمنية. ثم تقوم الأداة بتحديث حالته الداخلية (وحدات مخفية من RNN). يستمر هذا حتى الوصول إلى نهاية التسلسل حيث يتم احتساب مكافأة في النهاية. تختلف وظائف المكافأة حسب المهمة؛ على سبيل المثال، في مهمة إنشاء جملة، يمكن أن تكون المكافأة هي تدفق المعلومات.

على الرغم من أن أساليب التعلم التعزيزي تظهر نتائج واعدة، إلا أنها تتطلب معالجة مناسبة للعمل وحالة المساحة، مما قد يحد من القدرة التمثيلية وقدرة التعلم للنماذج. ضع في الاعتبار أن النماذج المستندة إلى RNN تعمل جاهدة على قدرتها التمثيلية وقدرتها الطبيعية على نمذجة اللغة.

كما تم استخدام التدريب التخاصمي لتدريب مولدي اللغة، حيث يتمثل الهدف في خداع أحد المميزين المدربين على التمييز بين التسلسلات الناتجة عن تلك الحقيقية. خذ في عين الاعتبار بنظام الحوار، ومع أسلوب متدرج فمن الممكن تأطير المهمة تحت نموذج التعلم التعزيزي، حيث يتصرف القائم بالتمييز مثل أداة اختبار تورينج بشرية. القائم بالتمييز مُدرب بشكل أساسي على التمييز بين الحوارات البشرية والآلية.

التعلم غير الموجَّه (Unsupervised Learning)

يتضمن تعلم تمثيل الجملة الغير موجه تخطيطاً للجمل إلى متجهات ذات حجم ثابت بطريقة غير خاضعة للإشراف. التمثيلات الموزعة تلتقط الخصائص الدلالية والنحوية من اللغة ويتم تدريبها باستخدام مهمة مساعدة.

على غرار الخوارزميات المستخدمة لتعلم تضمينات الكلمة، تم اقتراح نموذج skip-thought model، حيث تتمثل المهمة في توقع الجمل المجاورة التالية بناءً على جملة مركزية. يتم تدريب هذا النموذج باستخدام إطار seq2seq حيث يقوم محلل الرموز بإنشاء تسلسلات مستهدفة وينظر إلى المشفر على أنه مستخلص خاص بالميزات العامة – حتى تضمينات الكلمة تعلمت في هذه العملية. يتعلم النموذج أساسًا تمثيلًا موزعًا لجمل الإدخال، ومماثلاً لكيفية تعلُّم تضمينات الكلمة لكل كلمة في تقنيات نمذجة اللغة السابقة.

النماذج التوليدية العميقة (Deep Generative Models)

يتم تطبيق النماذج التوليدية العميقة، مثل variational autoenconders (VAEs) وشبكات الخصومة التوليدية generative adversarial networks (GANs)، يتم تطبيقها أيضاً على (NLP) لاكتشاف البنية الثرية في اللغة الطبيعية من خلال عملية توليد جمل واقعية من مساحة الكود الكامن.

من المعروف جيدًا أن المشفر التلقائي autoencoders للجمل القياسية تفشل في إنشاء جمل واقعية بسبب المساحة الكامنة غير المقيدة. تفرض VAEs توزيعًا سابقًا على المساحة الخفية الكامنة، مما يُمكِّن النموذج من إنشاء عينات مناسبة. تتكون VAEs من شبكات التشفير والمولِّد التي تقوم بتشفير الإدخال في المساحة الكامنة latent space ثم تنشأ عينات من المساحة الكامنة. الهدف من التدريب هو زيادة الحد الأدنى للتباين في احتمالية سجل البيانات المرصودة في إطار النموذج التوليدي. يوضح الشكل أدناه الـ RNN المستندة إلى VAE لتوليد الجملة.

تعد النماذج التوليدية مفيدة للعديد من مهام NLP وهي مرنة بطبيعتها. على سبيل المثال، تم اقتراح النموذج التوليدي لـ RNN القائم على VAE لإنتاج جمل أكثر تنوعًا وأكثر اتقاناً بالتكوين مقارنةً بوحدات التشفير التلقائي القياسية. النماذج الأخرى سمحت بدمج المتغيرات المهيكلة (على سبيل المثال، الحالة والمشاعر) في الشفرة الكامنة، لتوليد جمل معقولة.

GANS تتألف من شبكتين متنافستين – المولد والمميز -، تم استخدامها لتوليد نص واقعي. على سبيل المثال، تم استخدام LSTM كمولد، وCNN كمميز للتمييز بين البيانات الحقيقية والعينات التي تم إنشاؤها. الـ CNN تمثل مصنف الجمل الثنائي في هذه الحالة. كان النموذج قادراً على توليد نص واقعي بعد التدريب التخاصمي.

إلى جانب المشكلة المتمثلة في أن التدرجات من المميِّز لا يمكنه الانتشار بشكل صحيح من خلال المتغيرات المنفصلة، كما يصعب أيضًا تقييم النماذج التوليدية العميقة. لقد تم اقتراح العديد من الحلول على مدار السنوات الأخيرة، لكن لم يتم توحيدها بعد.

شبكة الذاكرة المعززة (Memory-Augmented Network)

المتجهات الخفية التي تم الوصول إليها بواسطة آلية الانتباه خلال مرحلة توليد الرمز المميز تمثل “الذاكرة الداخلية” للنموذج. يمكن أيضًا ربط الشبكات العصبية ببعض أشكال الذاكرة لحل مهام مثل نظام الاسئلة والأجوبة البصرية، ونمذجة اللغة، ووضع علامات على أجزاء من الكلام (POS) وتحليل المشاعر. على سبيل المثال، لحل مهام QA، يتم تقديم الحقائق الداعمة أو المعرفة بالمنطق السليم إلى النموذج كشكل من أشكال الذاكرة. شبكات الذاكرة الديناميكية هي تحسين عن النماذج السابقة المستندة إلى الذاكرة، وتستخدم نماذج الشبكات العصبية لتمثيل المدخلات، والاهتمام، وآليات الرد.

الخلاصة

حتى الآن عرفنا قدرة وفعالية النماذج المستندة إلى الشبكات العصبية مثل CNN و RNNs . نحن ندرك أيضًا إمكانيات تطبيق التعلم التعزيزي، والطرق الغير موجَّهة، والنماذج التوليدية العميقة لمهام NLP المعقدة مثل QA البصرية والترجمة الآلية. آليات الاهتمام وشبكات الذاكرة المعززة ذات قوة في زيادة سعة نماذج NLP المستندة إلى الشبكات العصبية. الجمع بين كل هذه التقنيات القوية توفر أساليب مقنعة لفهم تعقيد اللغة. تَعِد الموجة التالية من خوارزميات التعلم المعتمدة على اللغة بقدرات أكبر مثل المنطق السليم ونمذجة السلوكيات البشرية المعقدة.

 

المرجع: “الاتجاهات الحديثة في التعلم العميق القائم على معالجة اللغات الطبيعية ” – Tom Young، Devamanyu Hazarika، Soujanya Poria، و Erik Cambria. مجلة الذكاء الحسابي IEEE، 2018.

 

اظهر المزيد

Aseel Almesad

مهندسة كمبيوتر مع ماجستير في دراسات المعلومات، مهتمة بعلم البيانات وأعمل على التعريف بالبيانات الضخمة والتوعية حول أهميتها لذا سعيت لتأسيس مجتمع المرأة للبيانات بالكويت (تحت الاشهار حاليا)

تعليق واحد

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى