المشاركات

التلخيص الآلي للنصوص

تتمثل مهمة تلخيص النص في إنتاج نص قصير، من حيث عدد الكلمات، من نص ما مع الحفاظ على المعلومات والرسالة الأساسية والمعنى العام للنص الأصلي. ونظرًا لكثرة البيانات النصية المتاحة عبر الإنترنت، فقد أصبحت هناك حاجة إلى طرق آلية لتلخيص النصوص. وتكمن أهمية التلخيص في سرعة الحصول على المعلومات المطلوبة، والتي قد يتطلب الحصول عليها من النصوص الأصلية وقتاً أطول.

لذا فقد عمل باحثون في مجال معالجة اللغات الطبيعية على تطوير تقنيات متعددة لتلخيص النصوص آلياً. وفي هذه المقالة نسلط الضوء على البعض من هذه الطرق.

مشكلة التلخيص الآلي للنص

هناك مدخلان رئيسيان لتلخيص المستندات النصية، وهما:

  • التلخيص الاستخراجي (Extractive Summarization)
  • التلخيص التوضيحي (Abstractive Summarization)

يتضمن التلخيص الاستخراجي للنص اختيار عبارات وجمل من المستند الأساسي لتكوين الملخص الجديد من دون إعادة صياغة هذه العبارات والجمل. التقنيات المعتمدة على هذا النوع تتضمن تقييم أهمية الجمل والعبارات ومن ثم اختيار تلك التي لها القيم الأعلى على افتراض أنها هي الجمل والعبارات التي تحوي المعنى الذي أراد الكاتب إيصاله.

أما التلخيص التوضيحي للنص فيتضمن تلخيص النص بعبارات وجمل جديدة كلياً. حيث يتم توليد جمل جديدة تحوي الرسالة الأساسية للمستند الأصلي. ويعتبر هذا الأسلوب أكثر تحدياً من الأسلوب السابق، ولكنه أكثر محاكاة للأسلوب البشري.

وفي هذه المقالة سنكتفي بعرض بعض من التقنيات المستخدمة في التلخيص الاستخراجي.

بعض تقنيات التلخيص الاستخراجي للنص

١- طرق نمذجة النص إلى شبكة (Graph-based methods)

تعتمد التقنيات المستخدمة لهذه الطريقة تحويل النص إلى رسم شبكي رياضي ليسهل فيما بعد إجراء بعض المقاييس التي تساعد على استخراج الجمل الأكثر أهمية. وقد تم تطوير العديد من التقنيات التي تعتمد هذه الطريقة. وفيما يلي شرح لأحد تلك التقنيات.

TextRank

خوارزمية تستند على تحويل النص إلى شبكات موزونة (Weighted Graphs)، أي أن الروابط بين الرؤوس في الرسم لها أوزان توضع وفق معايير معينة. وهي مبنية على الخوارزمية المشهورة المستخدمة من قبل Google لتصنيف مواقع الويب في نتائج محرك البحث الخاص بهم.

يعمل TextRank [1] على النحو التالي:

  • خطوة ما قبل معالجة النص (Pre-process step): وتتضمن بعض العمليات التي تجهز النص للعمليات اللاحقة، مثل إزالة الكلمات الغير مرغوب بها (Stop words)، وهي الكلمات التي تتكرر في النصوص ولا تحمل معنى معتبر من تلقاء نفسها مثل (في، من، إلى…)، والتشذيب (Stemming)، وهي عملية إعادة الكلمات إلى جذورها، مثلاً الكلمتان “يذهب” و”تذهب” يمكن إعادتهما إلى “ذهب”.
  • نمذجة النص إلى رسم بحيث تكون الرؤوس (Vertices) هي جمل النص ويكون الرابط بين رأسين ممثلاً لوجود تشابه بين الجملتين التي يمثلها الرأسان. يمكن قياس التشابه بين جملتين بعدد الكلمات التي تحتويانها. ويمكن اختيار وزن الرابط على هذا الأساس.
  • استخدام خوارزمية PageRank على الشبكة، والتي تحدد الجمل الأكثر أهمية.
  • اختيار الرؤوس (الجُمل) ذات القيم الأعلى حسب PageRank.

٢- التحليل الدلالي الكامن (Latent Semantic Analysis LSA)

يعتبر التحليل الدلالي الكامن أحد الطرق الإحصائية الجبرية المستخدمة بكثرة في معالجة اللغات الطبيعية. ويتم فيها تحليل العلاقات بين مجموعة من المستندات ومجموعة من الكلمات التي تحتويها هذه المستندات، بحيث يتم ربط الكلمات التي ترتبط بنفس المفاهيم مع بعضها البعض. ولأننا نتعامل مع مستند واحد في مهمة التلخيص، فإننا سنستبدل المستندات بالجمل.

بداية يتم تمثيل الجمل والكلمات على شكل مصفوفة حيث تمثل صفوف المصفوفة الكلمات الموجودة في النص، وتمثل الأعمدة الجمل، أو العكس. فلو كان في النص n من الكلمات وm من الجمل، فإن المصفوفة تكون على النحو التالي:

وتمثل القيم في خلايا المصفوفة تكرار كل كلمة في الجملة. فمثلاً، تعني القيمة 3 في الخلية (2،1) (الصف الثاني والعمود الأول) أن الكلمة التي يمثلها الصف الثاني تكررت 3 مرات في الجملة التي يمثلها العمود الأول. ثانياً، يتم استخدام عملية رياضية تعرف بـ (Singular Value Decomposition (SVD لتحليل المصفوفة الأصلية إلى حاصل ضرب ثلاثة مصفوفات كالتالي:

M_{n\times m}=U_{n\times r} S_{r\times r}V^{T}_{r\times m}

حيث أن:

M هي المصفوفة الأساسية بـ n من الكلمات وm من الجمل.

U هي مصفوفة بـ n من الكلمات وr من المفاهيم.

S هي مصفوفة قطرية تستخدم من أجل إعطاء مزيد من التركيز على أهم المفاهيم.

VT تمثل مصفوفة بـ r من المفاهيم وm من الجمل.

وتكمن أهمية هذه العملية الرياضية في تحويل المصفوفة الأصلية من فضاء الكلمات والجمل إلى فضاء الجمل والمفاهيم في المصفوفة الثالثة V، وفضاء الكلمات والمفاهيم في المصفوفة الأولى U. حيث من المفترض أن تكون متجهات الجمل التي تحتوي نفس المفاهيم في المصفوفة V قريبة من بعضها، وتكون متجهات الكلمات التي ترتبط بنفس المفاهيم في المصفوفة U قريبة من بعضها. فمثلاً، لو ظهرت الكلمتان “أحمر” و “أزرق” في جمل متعددة في النص، ولأن هاتين الكلمتين مرتبطتان بمفهوم واحد وهو “اللون”، فإنه عادة تستخدم هاتان الكلمتان في سياقات متشابهة، وبالتالي فمن المتوقع أن يكونا قريبين في فضاء الكلمات والمفاهيم لارتباطهما بمفهوم واحد. بعد عملية التحليل هذه تكون الصفوف، والتي تمثل المفاهيم، في المصفوفة V مرتبة تنازليًا حسب أهمية تلك المفاهيم في النص. حيث تكمن أهمية المفاهيم في عدد الجمل والكلمات المرتبطة بهم. وتمثل قيم المصفوفة مقاييس تدل على ارتباط الجملة بالمفهوم، فكلما زادت القيمة زاد ارتباط الجملة بالمفهوم. يمكن بعد ذلك استخراج الملخص من المصفوفة V. وهناك طرق عدة لاستخراج الملخص من هذه المصفوفة، أحد أبسط تلك الطرق (ربما لا تكون الأفضل)، هو أن يتم اختيار الجمل ذات الارتباط الأقوى بأهم المفاهيم. فمثلاً، لو أردنا أن يحتوي الملخص على عشرة جمل، فإنا نختار الجمل (الأعمدة) العشر ذات القيم الأعلى في أول عشرة صفوف في المصفوفة V [٢].

٣- البنية البلاغية للنص (Rhetorical Structure Theory-based methods)

تعتمد هذه الطريقة على نظرية البنية البلاغية (RST) للنصوص، وتقوم برصد العلاقات البلاغية (Rhetorical Relations) بين الوحدات المرتبطة بكلمات تدل على هذه العلاقات، مثلاً العطف وتدل عليه بعض الحروف كالواو مثلاً، التفصيل وتدل عليه بعض العبارات كـ “أي أن”، والتفضيل والاستدراك وغيرها [3].

يتم أولاً تقسيم النص حسب علامات التوقف أو بعض الكلمات الدالة على العلاقات، كما أشرنا سابقاً، إلى وحدات رئيسية لكل علاقة بلاغية. ثانياً، يتم تصنيف الوحدات المشتركة في علاقة بلاغية ما إلى أحد الصنفين: نواة (Nucleus) وهي تمثل الجزء الرئيسي في العلاقة، وفرع (Satellite) وتمثل الجزء الاختياري. تصنف العلاقات البلاغية إلى صنفين، الأولى هي تلك التي تربط بين نواة وفرع وهي ما تسمى بـ ”Hypotactic Relation”، مثلا: التفصيل يربط بين نواة وهي الجملة التي تحمل المعلومة، وجملة فرعية تفصل وتشرح المعلومة الموجودة في النواة. الصنف الثاني هي تلك التي تربط بين وحدتين أو أكثر كل واحدة منها تمثل نواة، وتسمى هذه العلاقة بـ  “Paratactic Relation”، مثلاً: العطف الذي يربط بين جملتين تحملان معلومتين لهما غالبا نفس الأهمية.

ثم بعد ذلك يتم بناء شجرة تعرف بـشجرة التركيب البلاغي (RS-Tree) والتي ترسم وتشكل البنية الهيكلية والهرمية للنص الأساسي بناء على العلاقات البلاغية الموجودة فيه وبهذا فهي تصف التركيب البلاغي للنص.

وقد ينتج لدينا العديد من الأشجار، حيث أن هناك غموض أحياناً في ربط بعض الوحدات. على سبيل المثال [4]:

“بعض الناس عندهم القابلية للقلق|١| أي الخوف المفرط|٢| إذا تعرضوا للضغوط|٣|.”

نرى أن الوحدة الثانية ترتبط بالوحدة الأولى بعلاقة (تفسير) من خلال الكلمة “أي”، بينما الوحدة الثالثة تحتوي على علاقة (شرط) بما أنها تحتوي على الكلمة “إذا”. ولكن لا يمكننا تحديد الوحدة التي سترتبط بها علاقة الشرط بما أن الوحدة الثانية ترتبط بالوحدة الأولى وهي فرع في هذه العلاقة. فالوحدة الثالثة سترتبط بعلاقة (شرط) مع الوحدة الأولى أيضاً. فتنتج لدينا شجرتين لتمثيل النص السابق:

لذا فإنه علينا استخدام بعض المعايير لاختيار رسم شجري واحد من هذه الأشجار. يمكن بعد ذلك استخدام الشجرة المختارة لاستخراج الملخص وذلك باختيار الوحدات الأكثر أهمية والتي تظهر في المستويات الأعلى من الشجرة. والعمق الذي نذهب إليه في الشجرة لاستخراج الملخص يعتمد على طول الملخص المطلوب. ففي المثال السابق، إذا كنا نريد أن نكتفي بالمستوى الأول فقط من الشجرة لاستخلاص الملخص، سيكون الملخص الناتج من الشجرة (a):

بعض الناس عندهم القابلية للقلق إذا تعرضوا للضغوط.

والملخص الناتج من الشجرة (b):

بعض الناس عندهم القابلية للقلق أي الخوف المفرط.

مقاييس تقييم الأداء

لنشير بالملخص الناتج من استخدام الملخص الآلي بملخص النظام (System Summary). والملخص الذي تتم المقارنة معه بالملخص المرجعي (Reference Summary)، والذي يمكن اعتباره على أنه ملخص مثالي، كملخص كتب من قبل أحد الأشخاص.

١- الاستذكار (Recall)

هو عدد الكلمات المشتركة في كل من ملخص النظام والملخص المرجعي مقسوماً على عدد الكلمات الكلية للملخص المرجعي.

\frac{number\ of\ overlapping\ words}{total\ words\ in\ reference\ summary}

٢- الدقة (Precision)

هي عدد الكلمات التي ظهرت في كل من ملخص النظام والملخص المرجعي مقسوماً على عدد الكلمات الكلي لملخص النظام.

\frac{number\ of\ overlapping\ words}{total\ words\ in\ system\ summary}

٣- F-Score

هو مقياس يجمع بين الدقة والاستذكار. الطريقة الأساسية لحسابه هي احتساب المتوسط الهرموني (Harmonic Average) لهما:

F=\frac{2\cdot P\cdot R}{P+R}

حيث P تمثل Precision.

وR تمثل Recall.

٤- (ROUGE(Recall-Oriented Understudy for Gisting Evaluation

هو مقياس لتقييم أداء التلخيص الآلي (Automatic Summarization) وبرامج الترجمة الآلية (Machine Translation MT) في معالجة اللغات الطبيعية بناءً على عدد الكلمات المشتركة بين المخرج الآلي والمرجع الذي تتم المقارنة معه. تم تطوير أكثر من نسخة من هذا المقياس بناء على طريقة المقارنة، هل هي بكلمة واحدة؟ أو بتعابير مكونة من أكثر من كلمة؟ والذي يعرف في أدبيات معالجة اللغة الطبيعية بــ n-gram. لذا فإن هذا المقياس يمكن الإشارة إليه بــ ROUGE-N حيث يشير الرمز N إلى عدد الكلمات في التعبير المراد استخدامه في المقارنة. ROUGE-1 مثلا يشير إلى أننا نريد مقارنة عدد الكلمات المشتركة بين ملخص النظام والملخص المرجعي. ROUGE-2 يشير إلى أننا نريد مقارنة عدد التعابير المكونة من كلمتين بين ملخص النظام والملخص المرجعي، وهكذا.

يتم حساب هذا المقياس وفقاً للمعادلة التالية [5]:

\frac{\sum_S\in\{ReferenceSummaries\}\sum_{{gram}_{n}\in S}Count_{match}(gram_{n})}{\sum_S\in\{ReferenceSummaries\}\sum_{{gram}_{n}\in S}Count(gram_{n})}

حيث أن:

Countmatch هو الحد الأقصى لعدد n-gram المتداخلة في كل من ملخص النظام والملخصات المرجعية.

ReferenceSummaries هو إجمالي عدد n-gram في الملخصات المرجعية.

غالباً ما يستخدم ROUGE-1 وROUGE-2 في تقييم الملخصات الآلية.

٥- (BLEU (Bilingual Evaluation Understudy

هو شكل معدل من الدقة (Precision)، يستخدم على نطاق واسع في تقييم الترجمة الآلية. ويستخدم في تقييم الملخصات الآلية من خلال مقارنتها بملخص مرجعي. يمكن حسابه على النحو التالي [6]:

\frac{\sum_C\in\{Candidates\}\sum_{{gram}_{n}\in C}Count_{clip}(gram_{n})}{\sum_{C'}\in\{Candidates\}\sum_{{{gram}_{n}'}\in {C'}}Count({gram_{n}'})}

حيث أن:

(Countclip(n-gram هو الحد الأقصى لعدد n-grams التي تحدث في ملخص النظام والملخص المرجعي.

(Count(n-gram هو إجمالي عدد n-gram في ملخص النظام.

Candidate تعني ملخص النظام.

ROUGE في الغالب تعتمد على قياس الاستذكار (Recall) أما BLEU فهي تعتمد على قياس الدقة (Precision).

٦- التقييم اليدوي (Manual Evaluation)

يمكن تقييم الملخصات أيضاً من قبل حكّام بشر (Human Judges) وذلك بإعطاء نظام التلخيص الآلي عدداً معتبراً من النصوص ليقوم بتلخيصها ومن ثم إعطاء مجموعة من البشر النصوص الأصلية والملخصات التي أخرجها النظام، ويطلب منهم تقييم تلك الملخصات.

الخلاصة

تعتبر مشكلة التلخيص الآلي أحد أكثر المشاكل تحدياً في مجال معالجة اللغات الطبيعية. ونظراً لكمية البيانات الهائلة المتاحة على الإنترنت، فقد أصبح من الضروري تطوير تقنيات تلخص هذا العدد الكبير من المستندات لاستخلاص المعلومات بسرعة وبكفاءة. تطرقنا في هذه المقالة إلى بعض تقنيات التلخيص الاستخراجي للنصوص، ثم ذكرنا أهم المقاييس التي يمكن استخدامها لتقييم مدى فعالية النظام.

 

أشرف على هذا المقال د. وليد الصانع.

المراجع

[1] Tarau, P., & Mihalcea, R. (2004). Text-rank: Bringing order into texts. In: Proceedings of the .Conference on Empirical Methods in Natural Language Processing,404-411
[2] Steinberger, J., & Jezek, K. (2004). Using Latent Semantic Analysis in text summarization and summary evaluation. In: Proceedings of ISIM,93-100.
[3] Marcu, D. (2000). The theory and practice of discourse parsing and summarization. Cambridge, MA: MIT Press.
[4] Alsanie, W., & Touir, A., & Mathkour, H., p. Towards a suitable rhetorical representation for Arabic text summarization.
[5] Lin, C. (2004). Rouge: A package for automatic evaluation of summaries. In: Marie-Francine Moens SS (ed) Text Summarization Branches Out: Proceedings of the ACL-04 Workshop.,74-81.
[6] Papineni, K., Roukos, S., Ward, T., & Zhu, W. (2002). BLEU: A Method for Automatic Evaluation of Machine Translation. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL).,311-318.
الوسوم
اظهر المزيد

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

إغلاق