ذكاء صنعي

26/05/2012 11:00:38

لمحة عن نظم استرجاع المعلومات الضبابية Fuzzy Information Retrieval

تعد نظم استرجاع المعلومات من اهم النظم التي نستعملها في حياتنا اليومية دون ان نشعر ففي غوغل على سبيل المثال يتم اظهار نتائج البحث بفضل هذه النظم تعرف معنا اكثر على عملها .

 

ما هو استرجاع المعلومات Information Retrieval ؟

تعريفG. salton 1968  :هي المجال الذي يهتم ببنية وتحليل وتنظيم وتخزين والبحث واسترجاع المعلومات.

تعريف G. Klir et al. 1995 : يمكن تعريفه بشكل عام على انها مشكلة اختيار وثائق المعلومات من وسائط تخزين بناء على اسئلة البحث.

(IR (Information Retrieval: هي دراسة تمثيل , تخزين , تنظيم , الوصول الى عناصر المعلومات (كتب , مقالات , صفحات ويب , افلام , صور ...الخ ) للناس المهتمين بتلك المعلومات.

 

 

انظمة استرجاع المعلومات :

تعريف ( G. Bordogna et al. 1995) :انظمة استرجاع المعلومات information retrieval systems تعالج استفسارات queries المستخدم للمعلومات من خلال تحليل مبني على المحتوى لعناصر المعلومات (على سبيل المثال مستندات ) مخزنة في الارشيف . ان محتويات المستند يجب ان يتم تمثيلها بصيغة معينة بحيث يمكن معالجتها آلياً .

ان نظام استرجاع المعلومات : يجب ان يكون مصمم ليدعم حاجة المعلومات كما يجب ان يهدف لإيصال قائمة من المستندات التي تجيب على حاجة المستخدم للمعلومة المطلوبة بحيث يتم التعبير عنها بشكل استفسار صوري formal query .

ان نظام استرجاع المعلومات الجيد يستطيع قبول استفسارات المستخدم , كما يجب عليه ان يفهم طلب المستخدم من خلال الاستفسار المقدم , كما يجب ان يستطيع البحث في قاعدة البيانات على وثائق ذات صلة , وبالنهاية يجب أن يقيِّم المستندات بناء على صلتها بالاستفسار المقدم .

 

 بعض الامثلة لنظم استرجاع المعلومات :

 

مكونات نظم الاسترجاع " بالنسبة لاسترجاع المستندات النصية ":

- واجهة مستخدم لاظهار النتائج وادخال الاستفسار query بحيث تسمح للمستخدم بادخال استفسارات مختلفة واظهار النتائج تبعاً للقيم ranks.

- مفسر الطلب او الاستفسار: يعالج المفسر طلب المستخدم واستفساره بطريقة مشابهة للمستندات

- وحدة الفهرسة تنشئ فهارس لتسمح بالبحث بشكل اسرع

- آلية مطابقة : تحدد فيما اذا كان المستند ذات صلة ام لا

- تمثيل المستند والمستندات الجزء الاهم من المعلومات ومنظورها المنطقي. 

آلية معالجة نظام استرجاع المعلومات

 


مفاهيم وكلمات مفتاحية :

يجب التعرف على بعض المصطلحات المستخدمة في نظم استرجاع المعلومات وهي كالتالي :

المصطلح term :
وهو رمز وحيد او كلمة او عبارة في المستند النصي .

Index Term مصطلح الفهرس 

وهو مجموعة من معرفات المحتوى content identifiers ( بحيث تكون اما مصطلح او جملة ) مستخرجة من المستند

تكرار المصطلح term refquency :

بشكل مطلق : هو عدد المرات التي ظهر فيها المصطلحt في مستند

بشكل نسبي : هو تكرار المصطلح بشكل مطلق للمصطلح t في مستند d مقسوما على اعلى قيمة تكرار مطلق للمصطلحات

تكرار المستند العكسي  Inverse Document Frequency

يقيس مدى اهمية الكلمة في مستند  وهو مساو للقيمة التالية :

يوفر قيمة عالية للمصطلحات النادرة وقيمة منخفضة للمصطلحات المتعارف عليها والاكثر شيوعاً . كما يتم استنظامه normalized بحيث لاتعطى المستندات الاكبر وزن اعلى.   

الدقة precision :

نسبة المستندات المستردة ذات الصلة من بين جميع المستندات   

 

 

Recall استعادة :

وهي نسبة المستندات المستردة من بين جميع المستندات المتوفرة

 

 

التقييم ranking :

وهو ترتيب المستندات المستردة بحيث يكون الترتيب متناسب مع صلة المستند بطلب المستخدم واستفساره . 

الاستفسار query :

وهي تمثيل صوري للمعلومة التي نحتاجها بحيث يقوم المستخدم بإدخالها للنظام لكي يبحث عن الوثائق المرتبطة بهذا الاستفسار

نماذج الاستعادة :

من اجل جميع انظمة استعادة المعلومات الناجحة من الضروري تمثيل المستندات بشكل او باخر , ومن هنا برزت الحاجة لتوصيف نماذج الاستعادة بحيث توصف التمثيل المستخدم للمستندات وحاجة المعلومات وكيف يتم مقارنتها فيما بعضها البعض كما تعرف هذه النماذج مفهوم ذات الصلة بشكل واضح او صريح بحيث يجب ان نعرف متى يكون عدة مستندات مرتبطة ببعضها البعض .

التوصيف الصوري لنماذج استعادة المعلومات :

يوصف نموذج استعادة المعلومات بالرباعية التالية :

<D,Q,F,R>

D : هي مجموعة التمثيلات للمستندات في المجموعة

Q : هي مجموعة التمثيلات لحاجة المستخدمين من المعلومات او الاستفسار queries  

F : هي منصة العمل لنمذجة وتمثيل المستندات , الاستفسارات , والعلاقات الخاصة بهم

 

 

R :

تابع التقييم والذي يعطي قيمة رقمية حقيقة مع الاستفسار  وتمثيل المستندات   

 

نماذج استعادة المعلومات الاساسية :

1- المجموعة النظرية Set-theoretic :

- نموذج البولياني القياسي

- نموذج يعتمد على المنطق الضبابي

2- النموذج الجبري Algebraic

نموذج فضاء الشعاع Vector Space model

3- النموذج الاحتمالي :

مبني على النظريات الاحتمالية

وتوجد نماذج اخرى كنموذج تحليل الاقتباس Citation analysis model  المتبع في غوغل

الفهرسة وتمثيل المستندات :

ان المستندات غالبا ما يتم كتابتها بلغة طبيعية "نقصد باللغة الطبيعية المحكية من قبل البشر " بحيث لايمكن مقارنتها مباشرة مع استفسار معين لتقدير مدى صلتها مع هذا الاستفسار وبالتالي نحنا بحاجة لتمثيل مناسب لهذه المستندات بحيث يمكن التلاعب بها من قبل الحاسب .

تقوم مهمة الفهرسة indexing : على ايجاد المصطلحات التي توصف المستند بشكل جيد وفي عملية الفهرسة يتم تحليل المستندات لتزويدنا بتمثيل صوري بمحتويات المستند .

تهدف الفهرسة الى تحديد اهم المفاهيم الموصفة لمستند معين كما تقيس اهمية كل مفهوم في المستند.

والمفهوم قد يكون معنى دلالي semantic او مفردة او جملة نصية ...الخ . كما أن التعرف على المفاهيم هو امر صعب بالمعنى الدلالي ولايوجد نموذج دلالي للتعرف على المفاهيم الموجودة بالعالم الحقيقي وانما يقتصر هذا الامر على الكلمات بافضل الاحوال .

ولفهرسة نص بشكل كامل full text indexing : يتم تمثيل المستندات بمجموعة رياضية من جميع المصطلحات الموجودة في المستند ماعدا المصطلحات التي لا توصف المستند. حيث نقدم مجموعة واسعة من مصطلحات الفهرسة بهدف خدمة صيغة الاستفسار query formulation .

نموذج استعادة المعلومات التقليدي : النموذج البولياني :

تعتمد العديد من انظمة استعادة المعلومات التجارية على هذا النموذج وغالبا ما يتم استعمالها في محركات البحث على الانترنت لسرعته . بالنسبة للاوزان البوليانية  فإن القيمة (1) تعبر عن ان المصطلح term موجود في المستند أما القيمة (0) فتعبر عن عدم وجوده في المستند . اجرائية الفهرسة تؤدي اتخاذ قرار بسيط, إما نعم أو لا, وبالتالي تفسير مبسط للمستند, حيث يتم اعتماد القرار الثنائي binary decision لتحديد فيما اذا كانت المستند مترابط او لا مع الاستفسار ولا يوجد لدينا تقييم ranking , كما أن وجود مصطلح هو امر ضروري لعملية المطابقة , وتعتمد هذه الطريقة على استعمال العمليات البوليانية في الاستفسار.

ويتم جمع المصطلحات جميعها باستخدام : and ,or,not .

بحيث  F : هو التابع الذي يحدد الارتباط مابين المستندات والمصطلحات

D: المستندات , T المصطلحات

 

 

قصور نموذج الاستعادة البولياني

يعاني هذا النموذج من عدم وجود معنى صوري لتأهيل دور ودرجة المصطلح في محتوى المستند , كما إن آلية المطابقة تعتمد فقط على وجود مصطلح البحث في تمثيل المستند , كما لا توجد طريقة لانشاء درجة انتفاعية لكل مستند على حدى . بالإضافة للمشاكل مع المعاملات البوليانية حيث تعاني الاستفسارات من النوع  ((or Disjunctive لطوفان كبير في المعلومات الناتجة في قائمة النتائج كما تعاني الاستفسارات من النو عConjunctive ( AND) الى معلومات منقوصة او تقارِب الصفر . ان لغة الاستفسار query language  تعطي المستخدم طريقة كريسب crisp لتحديد حاجة المعلومة .

المجموعات الضبابية ونظم استعادة المعلومات :

  جاء هذا النموذج ليوسع النموذج الضبابي آنف الذكر بتطبيق نظرية المجموعات الضبابية للباحث الإيراني لطفي زاده, وذلك عام 1965.

أهمية هذا النموذج: 

  1- عدم الدقة Imprecision والذاتية subjectivity تلعب دوراً كبيراً في مراحل عمل نظم استعادة المعلومات في صياغة متطلبات المعلومة , وفي تقدير مدى قرب عناصر المعلومة من طلب المستخدم و في تحديد أي من عناصر المعلومة يجب ان يتم استعادته بناء على طلب معين .

2- نظرية المجموعات الضبابية هي مناسبة لنمذجة عدم الدقة في نظم استعادة المعلومات, حيث أن ادواتها الصورية تم تصميمها للتعامل مع الغموض وعدم الدقة , كما انها تيسر تعريف بنية  النموذج البولياني فلا يوجد هناك حاجة لاعادة تصميم هذه النظم كما ذكرنا فهذه النظم منتشرة بكثرة في التطبيقات التجارية وبالتالي يمكن تطويرها دون عوائق تصميمية. بالإضافة للعديد من الاسباب الاخرى .

 التمثيل التقليدي للمستندات بشكل ضبابي : 

لنعرف التابع F كما يلي :

 

 

هنا تكون قيم الانتماء مستمرة في المجال من 0 الى 1 [0,1]

فهرسة اوزان المصطلحات :

ان درجة التقريبية aboutness لمستند بالنسبة لمصطلح يعبر عنها بقيمة F(d,t)  

كيف يجب ان يبدو هذا التابع كي يكون مفيدا ؟

يجب أن يأخذ بالاعتبار تكرار المصطلح في مستند واحد وتكرار المصطلح في كامل الارشيف , يجب ان يحتوي التابع معدل دقة عالية precision و recall .

تتزايد قيمة التابع F(d,t) مع تزايد قيمة عدد ظهور المصطلح ضمن المستند , مع ندرة المصطلح في كامل المجموعة

 

الاستفسارات والاوزان :

الاستفسار query :

الاستفسار هو صيغة صورية لحاجة معلومة خاصة بالمستخدم وتضمن مجموعة من معايير الاختيار المترابطة من خلال المعاملات

إن معيار الاختيار هو وحدة ابتدائية للمعلومات المطلوبة , فالاوزان يمكن تطبيقها على مجموعة من معايير الاختيار بهدف تحديد اهمية مصطلح البحث في المستند المرغوب .

اوزان الاستفسار الرقمية Numeric Query Weight :

تعبر عن أهمية وجود مصطلح البحث بالنسبية للمعنى الدلالي , بحيث يسمح للمستخدم بالتعبير عن اهمية المصطلح وماهي القيمة التي يجب ان تاخذها للمستندات ليتم اختيارها , وتحدد هذه الاوزان قيود بسيطة ليتم اشباعها بالتمثيل الضبابي للمستندات , وتمكن هذه الاوزان عملية التقييم لبيان اهمية ومدى قرب المصطلح من المستند .

Retrieval Status Value RSV قيمة حالة الاستعادة :

تعبر عن درجة مطابقة مستند d مع استفسار q بحيث يتالف من وزن مصطلح واحد .

خاصية الانفصال : ان تقييم عنصر استفسار واحد يجب ان يملأ تقييم العناصر الاخرى ويحفز استخدام تابع المطابقة لكل عنصر من طلب الاستفسار .

تابع المطابقة لاوزان الاستفسارات الرقمية :

ليكن لدينا تابع المطابقة g(F(d,t),w):

يقوم بالمطابقة بين معيار مختار <t,w>  بحيث t هي المصطلح و w هي الوزن من استفسار q في مستند d

ويتم تعريف هذا التابع بالشكل التالي :

ان قيمة g(F(d,t),w) تعبر عن درجة اشباع المعايير <t,w> في مستند d , من خلال اشباع خاصية الفصل فمن أجل الاستفسار ككل يمكن تقيمه من الاسفل الى اعلى عن طريق تقييم وزن كل مصطلح استفسار في المستند d ومن بعدها جمع النتائج لارشفة ال RSV من المستند d .

 

قصور اوزان الاستفسارات الرقمية :

ان المعاملات في مجموعها مقصورة على المعاملين and,or , كما تعاني من قصور في النمذجة بسبب عدم الدقة والغموض في طلب المستخدم من المعلومات . كما ان المستخدم مجبر لقياس نوعية مفاهيم الاهمية على شكل قيم رقمية , ان متطلبات الاختيار يمكن ان يعبر عنها بصيغة لغوية على سبيل المثال باعطاء المصطلح t قيمة fairly important” في المستند المرغوب عوضاً عن القيمة الرقمية .

الامتداد اللغوي للغات الاستفسار البولياني  Linguistic Extension of Boolean Query Language :

ان الامتداد اللغوي للغات الاستفسار البولياني   يقدم الضبابية في الاستفسارات على مستويين متمايزين : لضبضبة متطلبات الاختيار , ولتعريف معاملات تجميع اضافية " بالاضافة الى and,or "

الهدف : تبسيط صيغة الاستفسار , وتحسين التعبيرية في تلك الاستفسارات .

تلعب الموصفات الضبابية دورا في الاوزان الضبابية المسندة في مصطلحات الاستفسار .

قام بوردوغما و باسي بتعريف نموذج الاستعادة الضبابي بحيث تكون الموصفات الضبابية مصاغة ضمن منصة العمل الخاصة بنظرية المجموعة الضبابية من خلال المتغيرات اللغوية linguistic variables . ان اختيار المتطلبات اللغوية يمكن تعريفه بانه استبدال اوزان القيم الرقمية بواصفات لغوية بحيث تقابل القيم الرقمية . يتبنى هذا النموذج التمثيل الضبابي التقليدي .

المتغيرات اللغوية او المصطلحات اللغوية : تستعمل هذه المتغيرات في المنطق الضبابي للتعبير عن كمية كالارتفاع بحيث يمكن ان ياخذ قيم لغوية كطويل او قصير .

الهيدج Hedges : وهو مجموعة عامة من المعاملات مطبقة على المتغيرات اللغوية , ويمكن التعبير عنه بانه مكمي qualifier مطبق على متحول لغوي . يقوم الهيدج بتعديل تابع الانتماء ليعكس الاختلاف في المعاني . على سبيل المثال very, quite, mostly, few…,

الزوج <t,l> يعرفان معيار اختيار كيفي بحيث تعبر t عن المصطلح و I القيمة التي تنتمي الى مجموعة المصطلحات الخاصة بالمتحولات اللغوية على سبيل المثال كلمة Importance ضمن المجال [0,1].

يمكن استخدام لغة الاستفسار هذه من قبل نظم استعادة المعلومات مع تمثيل موزن للمستند . لكي نحسب درجة اشباع الزوج  <t,l> لمستند d فإنه يتم تقييم توافق وزن مصطلح الفهرسة  F(d,t) وفق القيود المفروضة على الاستفسارات اللغوية .

ان مجموعة المصطلحات للمتحولات اللغوية يمكن تكوينها صوريا وفق القواعد خارجة السياق context-free grammar.

مثال عن مجموعة مصطلحات :

 

معنى المتحول اللغوي linguistic variable :

يمكن تعريف التابع الذي يخفف من توافقية تمثيل المستند على سبيل المثال F(d,t)s, مع المتحول الضبابي I

التابع g يعتمد على تبني المعاني الدلالية لاوزان الاستفسار . وتعرف I,j مجال القيم الرقمية لاشباع قيمة المتحول اللغوي I.

ان معنى المتحول اللغوي I في مجموعة مصطلحات t مضمنة بتعريف تابع التوافيقة المترابط مع الشرط الاساسي وتعديل بالنسبة الهيدج الدلالية .

مميزات الشكل التقليدي لتمثيل المستندات ضبابيا:

ان المستندات المعادة يمكن ان يتم تقييمها بالترتيب التنازلي بالنسبة لاستفسار المستخدم . كما ان آلية المطابقة تخفف لنوع محدد من المطابقة درجة الصلة لكل مستند مع استفسار المستخدم بالاعتماد على قيم تابع الانتماء لمصطلح الاستفسار في تمثيل المستند.

السيئات :

ان الامتداد الضبابي محدود بتمثيل المستند , كما ان تقييم التابع F لا يعتمد على مكان المصطلح ضمن المستند.

تمثيل المستندات ومحتوى المعلومات :

كيف يمكن تمثيل المستندات فيما يخص المعلومات المحتواة ضمنه ؟ العديد من نماذج الاسترجاع المعلوماتي تاخذ المستندات بعين الاعتبار ك homogenously  distributed information.

وغالبا ما تحوي المستندات اجزاء فرعية وتكون مهيكلة الى وحدات دلالية تدعى صفوف . مثال على هيكلة مستند ورقة بحث : اسم المؤلف , الكلمات المفتاحية , التجريد , المقدمة , جسم الموضوع , الخاتمة , المراجع,العنوان .

ان آلية تقييم الاستفسار يجب ان تكون قادرة على استعمال دور المعلومات والتي تقوم هي بدورها بالتفريق بين المصطلحات اعتمادا على الصف التي تنتمي اليه .

مميزات استعمال المنطق الضبابي في نظم استعادة المعلومات :

1- التوسيعة على عكس النماذج الاخرى .

2- تضيف ليونة الى نظم استعادة المعلومة .

3- يمكن ان تتعامل مع معطيات غير دقيقية .

4- يمكنه ان تنمذج توابع غير خطية كما تسمح بعملية المطابقة الجزئية وبالتالي استعادة الجزء المناسب من المستند والذي يقابل الاستفسار .

5- يمكن ان تكون نتيجة الاستعادة مقيمة ومرتبة .

6- يدعم لغات الاستفسار الطبيعية من خلال استعمال مصطلحات لغوية

السيئات :

1-  اقل شعبية  من نماذج فضاء الشعاع vector space او النموذج الاحتمالي ولكن هذا الامر قد يتغير فيما بعد.

2- تزايد التعقيد بشكل كبير عندما تكبر متغيرات الدخل.

3-تتطلب كلفة حسابية من المعالج لحساب توابع الانتماء و التوابع التجميعية .

4- نقص في النموذج الدلالي لفهم المعاني المضمنة للمصطلحات.

5-نموذج ستاتيكي ولا يمكنه اتباع منهجيات تعلم ويمكن تطويره باضافة امكانيات تعليم مثل الشبكات العصبونية.


مشاركة/حفظ

الكاتب: م. وسيم أبوزينة

مصدر الخبر: خاص الرقميات

عودة عودة إلى ذكاء صنعي عودة عودة إلى الصفحة الرئيسية طباعة طباعة إرسال إلى صديق إرسال إلى صديق

التعليقات

  • من قبل د. م أ ق في 03/11/2012 02:47:48
    منيحة
    منيحة منيحة

أضف تعليق


تصنيفات الموقع