تعلم الآلةمعالجة اللغات الطبيعية

التعابير المركبة في معالجة اللغات الطبيعية

تعد التعابير المركبة ظاهرة عامة في جميع اللغات الطبيعية. وهي من الظواهر اللغوية المهمة التي تطرح نفسها في ميدان معالجة المحتوى الدلالي للنصوص. إن تطوير نظام يهدف إلى التعرف على المصطلحات المركبة يعد مهماً حتى يتسنى لنا إدارة المعرفة المتوفرة باللغة الطبيعية. فقد أُشير مؤخراً لتلك المشكلة بكونها مفتاح أساسي في تطوير العديد من تطبيقات معالجة اللغات الطبيعية. فمثلاً في تطبيق التعرف على أسماء الأعلام Named Entity Recognition، من الضروري بداية التعرف على الأسماء المركبة، كــ “المدينة المنورة”، ومن ثم يمكن التعرف على أن هذا التعبير المركب اسم علم. فلو لم يتم التعرف على التعبير المركب لما أمكن التعرف على أن هذين الكلمتين هما اسم لعلم. وفي سياق تطبيق الترجمة الآلية، عندما تود ترجمة أحد التعابير المركبة كـ “فقر دم” فإنه يتم أولاً تصنيفه كتعبير مركب ومن ثم تتم ترجمته إلى “Anemia”، ولو لم يتم تصنيفه كتعبير مركب، لتم اللجوء لترجمة كل كلمة بمفردها وبالتالي لن تعكس الترجمة المعنى الصحيح للتعبير المركب.

ما المقصود بـ “تعبير مركب”؟

يمكن تعريف التعبير المركب على أنه تعبير يتكون من كلمتين أو أكثر بحيث يشير هذا التعبير إلى مفهوم واحد. وغالبا ما تظهر الكلمات المكونة للتعابير المركبة متلازمة في النصوص بشكل أكثر من المعتاد. ويمكن تصنيف التعابير المركبة إلى فئات مختلفةٍ بحسب بنيتها التركيبية، مثلاً:

(اسم اسم): فقر دم

(اسم صفة): إسعافات أولية

(صفة اسم): واسع الفهم

(اسم حرف اسم): تزلج على الجليد

الاصطلاحية Non-Compositionality واللا اصطلاحية Compositionality

يُعرف التعبير الاصطلاحي بأنه “تعبير لا يُفهم معناه الكلي بمجرد فهم معاني مفرداته وضمّ هذه المعاني بعضها إلى بعض، فهو مجموعة كلمات تكوّن بمجموعها دلالة غير الدلالة المعجمية لها في الأصل مفردةً ومركبةً” [1]، مثال: فرس النبي. أما التعبير اللا اصطلاحي فهو التعبير الذي يمكن استنتاج معناه الكلي بمجرد معرفة معاني كلماته ثم ضمّها، مثال: فرشاة أسنان.

تنشأ الصعوبة أثناء التعرف على التعابير المركبة من منبع أن ما قد نعتبره تعبيراً اصطلاحياً قد يظهر أحياناً في النص بالمعنى اللا اصطلاحي له، كمثل قول: “أغمض عينه” عن الأمر، بمعنى: تجاهل الأمر. ولكن في سياق آخر قد يعني هذا التعبير أن الفاعل قد قام بإغماض عينيه بالفعل.

التعرف على التعابير المركبة

مقاييس الارتباط Association Measures

مقاييس الارتباط هي عبارة عن مقاييس رياضية تحدد قوة الارتباط بين كلمتين أو أكثر وفقاً لمدى تلازمهم في النص. بمعنى أن قوة الارتباط بين كلمتين هي مؤشر لاحتمالية تكوينهما تعبيراً مركباً. ويمكن تطبيق مقاييس الارتباط في عملية التعرف على التعابير المركبة.

عنت الأبحاث بتطوير العديد من تقنيات التعرف على التعابير المركبة باستخدام مقاييس الارتباط. وفي هذا الجزء نسلط الضوء على طريقتين:

١- مسرد المعلومات المشتركة Pointwise Mutual Information

يعرف مقياس Pointwise Mutual Information، ولنرمز له بالرمز I، بأنه قياس نسبة احتمال حدوث حدثين x و y مجتمعين إلى احتمال حدوث x على حدة و y على حدة.

المعادلة:

I(x,y)=\log_{2}\frac{P(x,y)}{P(x)P(y)}

يمكن اعتبار (I(x,y على أنه أهمية المعلومة التي تصلنا من حدوث الكلمتين x وy مع بعضهما بالنسبة لحدوثهما بشكل عام. ومن هنا نفترض أنه عند زيادة قيمة I تزيد احتمالية تكوين الكلمتين تعبيراً مركباً، وعند نقصان القيمة يكون هذا مؤشراً لاحتمالية أقل. ويمكن للباحث أن يضع حداً مسموحاً Threshold بطريقة تجريبية بحيث يعمل على تصنيف التعابير التي يزيد هذا المقياس لها عن هذا الحد إلى تعابير مركبة وتلك التي ينقص مقياسها عن هذا الحد إلى تعابير غير مركبة.

٢- اختبار مربع كاي Chi-Square Test

يُعرف Chi-Square Test بأنه اختبار إحصائي يتم تطبيقه لدراسة العلاقة بين متغيرات عشوائية لمعرفة ما إذا كان هنالك علاقة بين هذه المتغيرات أم لا. بمعنى آخر يمكن إجراء اختبار مربع كاي لمعرفة مدى استقلالية المتغيرات عن بعضها البعض (لفهم استقلالية المتغيرات العشوائية بشكل مفصل، يرجى الرجوع لـهذا المقال). وفي مثالنا هنا نود دراسة العلاقة بين كلمتين وبالتالي نعتبر المتغيرين بأنهما وجود الكلمتين المراد قياس ارتباطهما من عدمه.

عند إجراء اختبار مربع كاي سوف يتم تحديد فرضيتين:

  • فرضية العدم (Null Hypothesis): وهي تفترض الاستقلالية بين المتغيرين، فمثلًا احتمالية ظهور الكلمة الأولى ولنرمز لها بـ w1 لا تتأثر بكون الكلمة الثانية w2 قد ظهرت سابقاً أم لا.
  • الفرضية البديلة (Alternative Hypothesis): وهي تفترض عدم الاستقلالية بين المتغيرين.

ببساطة فإنه بدايةً يتم افتراض صحة فرضية العدم ومن ثم حساب إحصائية مربع كاي (والتي سنعرفها في الأسفل) على هذا الأساس والنظر فيما إذا كانت هذه الإحصائية تدعم هذه الفرضية أم لا. فإذا كانت الإحصائية لا تدعمها فعندئذ يتم تبني الفرضية البديلة. بالعودة لاستخدام هذا الاختبار للتعرف على التعابير المركبة لكلمتين مثلاً، فإننا بدايةً نفترض دائماً استقلال الكلمتين عن بعضهما البعض وعدم وجود ارتباط وأن حدوثهما متتاليتان في الذخيرة اللغوية يعتبر حدثاً عرضياً. ثم بعد ذلك نقوم بحساب قيمة مربع كاي والتي بدورها إما أن تدعم هذه الفرضية وبالتالي يتم تبنيها أو تدعم رفض هذه الفرضية وبالتالي يمكن تبني النظرية البديلة وهي أن حدوث الكلمتين ليس على سبيل الصدفة. وفي حالة رفض فرضية العدم وتبني الفرضية البديلة، فإننا يمكن أن نعتبر أن هاتين الكلمتين تكونان تعبيراً مركباً (ملاحظة: قد لا يعني ارتباط الكلمتين تكوينهما تعبيراً مركباً. فقد تكون الكلمتان مستخدمتان بشكل متتالي بكثرة في الذخيرة اللغوية. ولكن سنفترض هذا الافتراض هنا لتبسيط المشكلة). ولكن ما هي قيمة مربع كاي التي يمكن من خلالها تبنى فرضية العدم أو رفضها؟

قيمة P-Value) P)

يمكن تعريف قيمة P على أنها احتمال الحصول على عينة تحتوي على أحداث تتعارض مع فرضية العدم بعدد أكثر من أو يساوي عدد تلك الأحداث التي تتعارض مع فرضية العدم في بيانات الاختبار الحالية. فعلى سبيل المثال، وفي حالتنا هذه، فإننا عند اختبار استقلال وارتباط كلمتين، فإن قيمة P هي احتمال وجود هاتين الكلمتين متتاليتين (حدث يتعارض مع فرضية العدم) في أي عينة عشوائية أخرى بعدد على الأقل يساوي العدد الموجود في عينة الاختبار في ظل صحة فرضية العدم (أن الكلمتان مستقلتان). فإذا كانت قيمة هذا الاحتمال صغيرة جداً فيمكن رفض فرضية العدم وتبني الفرضية البديلة (لأن احتمال الحصول على ظواهر تدعمها احتمال ضعيف). ولوضع حد لهذا الاحتمال، أو ما يسمى بمستوى الأهمية (significance level) أو قيمة ألفا ، فإن الإحصائيين يستخدمون عادة القيم \alpha=0.05 أو \alpha=0.01 . فإذا كانت قيمة P أصغر من هذا الحد يتم رفض فرضية العدم.

وبالعودة لمربع كاي وكيفية استخدامه في التعرف على التعابير المركبة، فإننا عند اختبار استقلال أو ارتباط كلمتين w1 وw2، نقوم بتمثيل البيانات من الذخيرة اللغوية باستخدام جدول التوافق Contingency Table وهو جدول يحكي شكل المصفوفة محتوياً على تكرار الكلمات على هذا النحو[2]:

حيث الرمز ~ يدل على عدم وجود الكلمة (مثلاً w1~w2 تعني عدد المرات التي ظهرت فيها الكلمة w1 من دون الكلمة w2).

لنرمز إلى التكرار في الذخيرة اللغوية بـ O والتكرار المتوقع بـ E_{i,j} تمثلان وجود الكلمة من عدمه (مثلًا O_{1,0} يمثل وجود الكلمة الأولى بمفردها وعدم وجود الكلمة الثانية، O_{1,1} تعني وجود الكلمتين، وهكذا). يتم حساب القيمة المتوقعة E لكل حدث عن طريق المعادلة التالية:

E_{i,j}=\frac{R_i\times C_j}{N}

  • R: صف جدول التوافق، وهو عدد مرات ظهور الكلمة الأولى في أي تعبير مكون من كلمتين.
  • C: عمود جدول التوافق، وهو عدد مرات ظهور الكلمة الثانية في أي تعبير مكون من كلمتين.
  • N: العدد الكلي للتعابير المكونة من كلمتين.

ومن الجدول أعلاه يمكن حساب إحصائية مربع كاي كالتالي:

\chi^2=\sum_{i,j}\frac{(O_{i,j}-E_{i,j})^2}{E_{i,j}}

يمكن بعد ذلك مقارنة القيمة الناتجة من المعادلة أعلاه مع القيمة المسندة لمستوى الأهمية في جدول التوزيع الاحتمالي لمربع كاي (في حالتنا هذه ولأننا ضربنا مثالاً على كلمتين فإن التوزيع الاحتمالي له درجة حرية Degree of freedom واحدة وبالتالي ينظر إلى الصف الأول في الجدول):

https://www.medcalc.org/manual/chi-square-table.php

فلو كنا قد حددنا مستوى أهمية \alpha=0.05 فإن أي قيمة أعلى من 3.831 تدعم رفض فرضية العدم وتبني الفرضية البديلة وهي أن الكلمتان تكونان تعبيراً مركباً. وأي قيمة أصغر من هذه القيمة تدعم تبنّي فرضية العدم وهي أنهما مستقلتان ولا يكونان تعبيراً مركباً.

مقاييس تقييم الأداء

عملية التقييم من منظور التعرف على المصطلحات المركبة هي العملية التي تهدف إلى إعطاء قياس عددي يعبر عن مدى قدرة النظام على التعرف على التعابير المركبة بفعالية. وتعتبر المقاييس الثلاثة التالية هي المقاييس المتعارف عليها في تقييم فعالية النظام:

١- الدقة Precision

يعبر هذا المقياس عن دقة النظام، وهو عبارة عن نسبة التعابير المركبة التي تم التعرف عليها بشكل صحيح إلى المجموع الكلي للتعابير المركبة التي تم التعرف عليها، حيث ينشأ خلاله هذا التساؤل: عند ترشيح سلسلة من الكلمات بأنها تعبير مركب، ما هي احتمالية صحة التوقع؟

المعادلة:

Precision=\frac{tp}{tp+fp}

(TP (True Positive: الترشيح الصحيح.

(FP (False Positive: الترشيح الخاطئ.

٢- الاستذكار Recall

وهو عبارة عن نسبة التعابير المركبة التي تم التعرف عليها بشكل صحيح إلى المجموع الكلي للتعابير المركبة في النص، وينشأ خلاله هذا التساؤل: عندما تكون مجموعة من الكلمات ممثلةً لتعبير مركب، ما هي احتمالية ترشيح النظام لها؟

المعادلة:

Recall=\frac{tp}{tp+fn}

(FN (False Negative: عدم الترشيح كان خياراً خاطئاً.

٣– معدل القياسين السابقين F Score

يعرف أيضاً بأنه “المعدل الهرموني لمقياسي الدقة والاستذكار” ويمثل الوسط الحسابي الموزون لكل من مقياسي الدقة والاستذكار.

المعادلة:

F=2\times\frac{precision+recall}{precision \times recall}

الخلاصة

تعد مشكلة التعرف على التعابير المركبة عامل أساسي في تطوير وسائل معالجة اللغة الطبيعية، كالترجمة الآلية واسترجاع المعلومات، وقد تناولنا في هذه المقالة نبذة مختصرة عن المشكلة وبعض الوسائل الممكن استخدامها لمعالجتها وطرق تقييم المتعارف عليها للنظام والتي تهدف لاستكشاف قدرة النظام والعمل على تطويرها.

 

أشرف على هذا المقال د. وليد الصانع.

المراجع

[1] م. خ. الفجر، “معاجم التعابير الاصطلاحية،” 22 3 2012. [متصل]. Available: http://www.alukah.net/literature_language/0/39548/#_ftn1. [تاريخ الوصول 1 7 2018].
[2] M. Minia, “Literature Survey on Multi-Lingual Multiword Expressions,” 2012.
اظهر المزيد

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى