نظرية اللعبة والقرارات الإحصائية.

الصفحة الرئيسية / تخون زوجها

يسمى اختيار اللاعب للعمل نقل... هناك تحركات شخصي(يتخذ اللاعب هذا القرار أو ذاك عن عمد) و عشوائي(نتيجة اللعبة لا تعتمد على إرادة اللاعب). يتم استدعاء مجموعة القواعد التي تحدد الحركة التي يحتاجها اللاعب إستراتيجية... الاستراتيجيات هي ينظف(قرارات غير عشوائية للاعبين) و مختلط(يمكن اعتبار الاستراتيجية متغيرًا عشوائيًا).

نقطة سرج

الخامس نظرية اللعبةشارع. ( عنصر السرج) هو أكبر عنصر في العمود مصفوفات اللعبة، وهو أصغر عنصر في الصف المقابل (في لعبة محصلتها صفر شخصين). في هذه المرحلة ، إذن ، الحد الأقصى للاعب واحد يساوي الحد الأدنى للاعب الآخر ؛ S. ر هناك نقطة حالة توازن.

نظرية مينيماكس

يتم استدعاء الإستراتيجية المتوافقة مع minimax استراتيجية minimax.

يسمى المبدأ الذي يملي على اللاعبين اختيار استراتيجيات maximin و minimax الأكثر "حذرًا" مبدأ minimax... ينبع هذا المبدأ من الافتراض المعقول بأن كل لاعب يسعى إلى تحقيق هدف مخالف لهدف الخصم.

يختار اللاعب أفعاله ، على افتراض أن الخصم سيتصرف بطريقة غير مواتية ، أي سيحاول "إيذاء".

فقدان وظيفة

فقدان وظيفة- وظيفة تميز ، في نظرية القرارات الإحصائية ، الخسارة في حالة اتخاذ قرار غير صحيح بناءً على البيانات المرصودة. إذا تم حل مشكلة تقدير معلمة الإشارة على خلفية الضوضاء ، فإن وظيفة الخسارة هي مقياس التناقض بين المعنى الحقيقيمن المعلمة التي يتم تقديرها وتقدير المعلمة

استراتيجية اللاعب المختلط الأمثلعبارة عن مجموعة كاملة من التطبيقات لاستراتيجياتها البحتة مع التكرارات المتعددة للعبة في نفس الظروف مع احتمالات معينة.

الإستراتيجية المختلطة للاعب هي مجموعة كاملة من تطبيق إستراتيجياته البحتة مع التكرارات المتعددة للعبة في نفس الظروف مع احتمالات معينة.

1. إذا لم تكن جميع عناصر الصف أكبر من العناصر المقابلة لصف آخر ، فيمكن حذف الصف الأصلي من مصفوفة المكافأة. وبالمثل بالنسبة للأعمدة.

2. تكلفة اللعبة فريدة من نوعها.

المستند:لنفترض أن هناك سعرين للعبة الخامسو ، والتي يتم الوصول إليها على زوج ، ثم على التوالي

3. إذا تمت إضافة نفس الرقم إلى جميع عناصر مصفوفة المكافآت ، فلن تتغير الاستراتيجيات المختلطة المثلى ، وسيرتفع سعر اللعبة بهذا الرقم.

المستند:
، أين

4. إذا تم ضرب جميع عناصر مصفوفة المكافآت بنفس الرقم غير الصفري ، فسيتم ضرب سعر اللعبة بهذا الرقم ، ولن تتغير الإستراتيجيات المثلى.

الإستراتيجية المختلطة SA للاعب A هي تطبيق الإستراتيجيات الخالصة A1، A2، ...، Am مع الاحتمالات p1، p2، ​​...، pi، ...، pm ومجموع الاحتمالات يساوي 1: تتم كتابة الاستراتيجيات المختلطة للاعب A في شكل مصفوفة أو سلسلة SA = (p1 ، p2 ، ... ، pi ، ... ، pm) وبالمثل ، يتم الإشارة إلى الاستراتيجيات المختلطة للاعب B بواسطة: ، أو ، SB = (q1 ، q2 ، ... ، qi ، ... ، qn) ، حيث يكون مجموع احتمالات ظهور الاستراتيجيات يساوي 1: استراتيجيات نظيفةيمكن اعتباره حالة خاصة للمختلط ومعطى بسلسلة ، حيث 1 يتوافق مع استراتيجية بحتة. على أساس مبدأ minimax ، يتم تحديد الحل الأمثل (أو الحل) للعبة: هذا زوج من الاستراتيجيات المثلى S * A ، S * B ، في الحالة العامة ، مختلطة ، لها الخاصية التالية: إذا كان أحد من اللاعبين يلتزمون بإستراتيجيته المثلى ، فلا يمكن أن يكون من المربح للآخر أن ينحرف عن استراتيجيته. المردود المقابل للحل الأمثل يسمى تكلفة اللعبة v. سعر اللعبة يرضي عدم المساواة:؟ ؟ الخامس؟ ؟ (3.5) أين؟ و؟ - أسعار اللعبة الأدنى والأعلى. النظرية الرئيسية التالية لنظرية اللعبة صحيحة - نظرية نيومان. كل لعبة نهاية لها على الاكثرحل واحد أمثل ، ربما بين استراتيجيات مختلطة... دع S * A = (p * 1، p * 2، ...، p * i، ...، p * m) و S * B = (q * 1، q * 2، ...، q * i، ...، q * n) زوج من الاستراتيجيات المثلى. إذا تم تضمين إستراتيجية خالصة في الإستراتيجية المختلطة المثلى مع احتمال غير صفري ، فسيتم تسميتها نشطة. النظرية الخاصة بالاستراتيجيات النشطة صحيحة: إذا التزم أحد اللاعبين بإستراتيجيته المختلطة المثلى ، فإن المكافأة تظل دون تغيير وتساوي سعر اللعبة v ، إذا لم يتجاوز اللاعب الثاني حدود استراتيجياته النشطة. هذه النظرية ذات أهمية عملية كبيرة - فهي توفر نماذج محددة لإيجاد الاستراتيجيات المثلى في غياب نقطة السرج. فكر في لعبة 2 × 2 ، وهي أبسط حالة للعبة محدودة. إذا كانت هذه اللعبة تحتوي على نقطة سرج ، فإن الحل الأمثل هو زوج من الاستراتيجيات الخالصة المقابلة لهذه النقطة. لعبة بدون نقطة سرج ، وفقًا للنظرية الرئيسية لنظرية اللعبة ، يوجد حل مثالي ويتم تحديده من خلال زوج من الاستراتيجيات المختلطة S * A = (p * 1 ، p * 2) و S * B = (q * 1 ، ف * 2) ... من أجل العثور عليها ، سوف نستخدم النظرية في الاستراتيجيات النشطة. إذا التزم اللاعب A بإستراتيجيته المثلى S "A ، فإن متوسط ​​مكافأته سيكون مساويًا لسعر اللعبة v ، بغض النظر عن الإستراتيجية النشطة التي يستخدمها اللاعب B. بالنسبة للعبة 2 × 2 ، فإن أي إستراتيجية خالصة للخصم هي نشط إذا لم يكن هناك نقطة سرج.عائد اللاعب A (خسارة اللاعب B) هو متغير عشوائي ، القيمة المتوقعة(المتوسط) وهو سعر اللعبة. لذلك ، فإن متوسط ​​مردود اللاعب A (الإستراتيجية المثلى) سيكون مساويًا لـ v لكل من الإستراتيجيتين الأولى والثانية للخصم. دع اللعبة تُعطى من خلال مصفوفة المكافآت. متوسط ​​العائد للاعب A إذا كان يستخدم الإستراتيجية المختلطة المثلى ، ويستخدم اللاعب B الإستراتيجية الخالصة B1 (وهذا يتوافق مع العمود الأول من مصفوفة المكافآت P) ، يساوي سعر اللعبة v: a11 p * 1 + a21 p * 2 = v. يحصل اللاعب "أ" على نفس متوسط ​​العائد إذا طبق اللاعب الثاني الإستراتيجية B2 ، أي أ 12 ص * 1 + أ 22 ص * 2 = ت. مع الأخذ في الاعتبار أن p * 1 + p * 2 = 1 ، نحصل على نظام معادلات لتحديد الإستراتيجية المثلى S "A وسعر اللعبة v: (3.6) لحل هذا النظام ، نحصل على الإستراتيجية المثلى (3.7) ) وسعر اللعبة (3.8). الإستراتيجيات النشطة عند إيجاد SB * - الإستراتيجية المثلى للاعب B ، نجد أنه بالنسبة لأي إستراتيجية خالصة للاعب A (A1 أو A2) ، فإن متوسط ​​خسارة اللاعب B يساوي سعر اللعبة v ، أي (3.9) ثم يتم تحديد الإستراتيجية المثلى بالصيغ: (3.10)

الأساليب والنماذج الرياضية في الاقتصاد

ألعاب ماتريكس

مقدمة

في الممارسة الاقتصادية ، غالبًا ما تنشأ المواقف التي تسعى فيها الأطراف المختلفة إلى تحقيق أهداف مختلفة. على سبيل المثال ، العلاقة بين البائع والمشتري ، والمورد والمستهلك ، والبنك والمودع ، إلخ. تنشأ حالات الصراع هذه ليس فقط في الاقتصاد ، ولكن في الأنشطة الأخرى. على سبيل المثال ، عند لعب الشطرنج ، لعبة الداما ، الدومينو ، اللوتو ، إلخ.

اللعبة- هذا هو نموذج رياضيحالة النزاع التي تنطوي على شخصين على الأقل باستخدام عدة طرق مختلفةلتحقيق أهدافك. اللعبة تسمى غرفة البخار، إذا شارك فيها لاعبان. اللعبة تسمى عدائي إذا كان ربح أحد اللاعبين يساوي خسارة الآخر. لذلك ، لتحديد اللعبة ، يكفي تعيين قيم مكافآت لاعب واحد في مواقف مختلفة.

يتم استدعاء أي طريقة لعمل اللاعب ، اعتمادًا على الموقف الحالي إستراتيجية. كل لاعب لديه مجموعة محددة من الاستراتيجيات. إذا كان عدد الاستراتيجيات محدودًا ، فسيتم استدعاء اللعبة ذروة، خلاف ذلك - بلا نهاية . يتم استدعاء الاستراتيجيات ينظف، إذا اختار كل لاعب إستراتيجية واحدة فقط بطريقة معينة وليست عشوائية.

حل اللعبةهو اختيار استراتيجية مرضية حالة الأمثل. هذا الشرط هو أن يحصل لاعب واحد أقصى فوز, إذا التزم الثاني باستراتيجيته. على العكس من ذلك ، يتلقى اللاعب الثاني الحد الأدنى من الخسارة, إذا تمسك اللاعب الأول باستراتيجيته. تسمى هذه الاستراتيجيات أفضل . هكذا، الهدف من اللعبة هو تحديد الإستراتيجية المثلى لكل لاعب.

لعبة استراتيجية خالصة

فكر في لعبة مع لاعبين أو الخامس.افترض لاعب ألديها مالاستراتيجيات А 1، А 2، ...، А مواللاعب الخامسلديها نالاستراتيجيات ب 1 ، ب 2 ، ... ، ب ن.سنفترض أن اختيار اللاعب أإستراتيجية أنا ،واللاعب الخامسإستراتيجية ب ييحدد بشكل فريد نتيجة اللعبة ، أي ربح ijلاعب أوالفوز ب ijلاعب الخامس.هنا أنا = 1،2 ، ... ، م ، ي = 1،2 ، ... ، ن.

أبسط لعبة للاعبين هي لعبة عدائية , أولئك. لعبة تتعارض فيها مصالح اللاعبين بشكل مباشر. في هذه الحالة ، ترتبط مكافآت اللاعبين بالمساواة

ب ij = -a ij

هذه المساواة تعني أن ربح أحد اللاعبين يساوي خسارة الآخر. في هذه الحالة ، يكفي النظر فقط في مكافآت أحد اللاعبين ، على سبيل المثال ، اللاعب أ.

كل زوج من الاستراتيجيات او ب يتطابق الفوز ijلاعب أ.من المريح كتابة كل هذه المكاسب في شكل ما يسمى مصفوفة الدفع

تتوافق صفوف هذه المصفوفة مع استراتيجيات اللاعب أ،والأعمدة لاستراتيجيات اللاعب الخامس.بشكل عام ، تسمى هذه اللعبة (م × ن) -لعبة.


مثال 1.لاعبان أو الخامسرمي قطعة نقود. إذا تزامنت جوانب العملة ، فستفوز أ، بمعنى آخر. لاعب الخامسيدفع للاعب أبعض المبلغ يساوي 1 ، وإذا لم يتطابقوا ، يفوز اللاعب B ، أي على العكس من ذلك ، اللاعب أيدفع للاعب الخامسنفس المبلغ , مساو 1. تشكيل مصفوفة الدفع.

حل.حسب حالة المشكلة

استراتيجية بحتةيختار اللاعب الأول أحد صفوف n من مصفوفة المكافآت A ، والاستراتيجية الخالصة للاعب II هي اختيار أحد أعمدة المصفوفة نفسها.

تختلف الاستراتيجيات النقية المثلى للاعبين عن الاستراتيجيات المختلطة من خلال وجود الوحدة الإلزامية p i = 1 ، q i = 1. على سبيل المثال: P (1،0)، Q (1،0). هنا ص 1 = 1 ، ف 1 = 1.

المشكلة 1
باستخدام مصفوفة الدفع ، ابحث عن الاستراتيجيات النظيفة المثلى باستخدام مبدأ الهيمنة الصارمة. كإجابة ، اكتب المتجهات P * ، Q *.



R1

R2

R3

R4

S1

3

1

2

5

S2

2

0

0

3

S3

-3

-5

-5

-2

4 س

0

-2

-2

1

حل:

نقوم بحل جميع المشاكل باستخدام حاسبة لعبة Matrix.

نفترض أن اللاعب الذي اختار استراتيجيته ليحصل على أقصى قدر من المكاسب ، ويختار اللاعب II استراتيجيته لتقليل أرباح اللاعب الأول.

لاعبينب 1ب 2ب 3ب 4أ = دقيقة (أ ط)
أ 13 1 2 5 1
أ 22 0 0 3 0
أ 3-3 -5 -5 -2 -5
أ 40 -2 -2 1 -2
ب = ماكس (ب ط)3 1 2 5
نجد المكاسب المضمونة التي يحددها السعر الأدنى للعبة a = max (a i) = 1 ، مما يشير إلى الحد الأقصى للاستراتيجية الصافية A 1.
أعلى سعر للعبة هو b = min (b j) = 1.
تشير نقطة السرج (1 ، 2) إلى حل لزوج من البدائل (A1 ، B2). سعر اللعبة 1.
2. تحقق من مصفوفة الدفع للصفوف السائدة والأعمدة السائدة.
في بعض الأحيان ، بناءً على اعتبار بسيط لمصفوفة اللعبة ، يمكننا القول أن بعض الاستراتيجيات البحتة يمكن أن تدخل الإستراتيجية المختلطة المثلى فقط مع احتمال صفر.
ويقولون ان طاستراتيجية اللاعب الأول تهيمن عليه ك الاستراتيجية إذا كان ij ≥ a kj للجميع ي ه نوواحد على الأقل ي a ij> a kj. في هذه الحالة ، يقال أيضًا أن طاستراتيجية (أو خط) - مهيمن ، ك ال- سيطر.
ويقولون ان ي-التهيمن عليه استراتيجية اللاعب الثاني ل-الاستراتيجية للجميع ي ه م a ij ≤ a il ولمدة واحدة على الأقل i a ij< a il . В этом случае ي-الالإستراتيجية (العمود) تسمى المهيمنة ، ل-ال- سيطر.
تهيمن الإستراتيجية A 1 على الإستراتيجية A 2 (جميع عناصر الصف 1 أكبر من أو تساوي قيم الصف الثاني) ، لذلك نستبعد الصف الثاني من المصفوفة. الاحتمال ص 2 = 0.
تهيمن الإستراتيجية A 1 على الإستراتيجية A 3 (جميع عناصر الصف 1 أكبر من أو تساوي قيم الصف الثالث) ، لذلك نستبعد الصف الثالث من المصفوفة. الاحتمال ص 3 = 0.
3 1 2 5
0 -2 -2 1

من موقع خسائر اللاعب B ، تهيمن الإستراتيجية B 1 على الإستراتيجية B 2 (جميع عناصر العمود 1 المزيد من العناصرالعمود 2) ، لذلك نستبعد العمود الأول من المصفوفة. الاحتمال q 1 = 0.
من موقع خسائر اللاعب B ، تهيمن الإستراتيجية B 4 على الإستراتيجية B 1 (جميع عناصر العمود 4 أكبر من عناصر العمود 1) ، لذلك نستبعد العمود الرابع من المصفوفة. الاحتمال q 4 = 0.
1 2
-2 -2

لقد اختزلنا لعبة 4 × 4 إلى لعبة 2 × 2.



حل اللعبة ( 2 × ن


ص 1 = 1
ص 2 = 0
سعر اللعبة ، ص = 1
الآن يمكننا إيجاد استراتيجية minimax للاعب B بكتابة نظام المعادلات المقابل
ف 1 = 1
س 1 + س 2 = 1
لحل هذا النظام نجد:
ف 1 = 1.
إجابة:
سعر اللعبة: y = 1 ، ناقلات استراتيجية اللاعبين:
ق (1 ، 0) ، ف (1 ، 0)

∑a ij q j ≤ v
∑a ij p i ≥ v
م (ف 1 ؛ س) = (1 1) + (2 0) = 1 = ت
م (ف 2 ؛ س) = (-2 1) + (-2 0) = -2 ≤ الخامس
م (ف ؛ س 1) = (1 1) + (-2 0) = 1 = ت
م (ف ؛ س 2) = (2 1) + (-2 0) = 2 ≥ الخامس

نظرًا لأنه تمت إزالة الصفوف والأعمدة من المصفوفة الأصلية ، يمكن كتابة متجهات الاحتمالية الموجودة على النحو التالي:
ف (1،0،0،0)
س (0،1،0،0)

المهمة 2
ابحث عن الأسعار الدنيا والعليا للعبة باستخدام مصفوفة الدفع. في وجود نقطة سرج ، اكتب نواقل الاستراتيجيات البحتة المثلى P * ، Q *.



R1

R2

R3

S1

-6

-5

0

S2

-8

-3

-2

S3

-3

-2

3

حل:
1. تحقق مما إذا كانت مصفوفة المكافأة بها نقطة سرج. إذا كانت الإجابة بنعم ، فإننا نكتب حل اللعبة في استراتيجيات خالصة.
لاعبينب 1ب 2ب 3أ = دقيقة (أ ط)
أ 1-6 -5 0 -6
أ 2-8 -3 -2 -8
أ 3-3 -2 3 -3
ب = ماكس (ب ط)-3 -2 3

نجد العائد المضمون الذي يحدده السعر الأدنى للعبة a = max (a i) = -3 ، مما يشير إلى الحد الأقصى للاستراتيجية الصرفة A 3.
أعلى سعر للعبة هو b = min (b j) = -3.
تشير نقطة السرج (3 ، 1) إلى حل لزوج من البدائل (A3 ، B1). سعر اللعبة -3.
الجواب: P (0،0،1) Q (1،0،0)

مشكلة 3
ابحث عن متجهات للاستراتيجيات المثلى P * و Q * وسعر اللعبة باستخدام مصفوفة الدفع. من هو اللاعب الفائز؟



R1

R2

R3

R4

S1

-6

-6

2

4

S2

2

-2

7

-1

حل:
1. تحقق مما إذا كانت مصفوفة المكافأة بها نقطة سرج. إذا كانت الإجابة بنعم ، فإننا نكتب حل اللعبة في استراتيجيات خالصة.
نفترض أن اللاعب الذي اختار استراتيجيته ليحصل على أقصى قدر من المكاسب ، ويختار اللاعب II استراتيجيته لتقليل أرباح اللاعب الأول.
لاعبينب 1ب 2ب 3ب 4أ = دقيقة (أ ط)
أ 1-6 -6 2 4 -6
أ 22 -2 7 -1 -2
ب = ماكس (ب ط)2 -2 7 4

نجد العائد المضمون الذي يحدده السعر الأدنى للعبة a = max (a i) = -2 ، مما يشير إلى الحد الأقصى للاستراتيجية الصافية A 2.
أعلى سعر للعبة هو b = min (b j) = -2.
تشير نقطة السرج (2 ، 2) إلى حل لزوج من البدائل (A2 ، B2). سعر اللعبة -2.
3. إيجاد الحل للعبة في استراتيجيات مختلطة.
لنحل المشكلة بالطريقة الهندسية والتي تتضمن الخطوات التالية:
1. في نظام الإحداثيات الديكارتية ، يتم رسم مقطع على طول محور الإحداثي ، ويبلغ طوله 1. الطرف الأيسر من المقطع (النقطة x = 0) يتوافق مع الإستراتيجية A 1 ، الجزء الأيمن - مع الإستراتيجية أ 2 (س = 1). النقاط الوسيطة x تتوافق مع احتمالات بعض الاستراتيجيات المختلطة S 1 = (p 1، p 2).
2. يتم رسم مكاسب الإستراتيجية A 1 على المحور الإحداثي الأيسر. على الخط الموازي للمحور الإحداثي ، من النقطة 1 ، يتم رسم مكاسب الإستراتيجية A 2.
حل اللعبة ( 2 × ن) من موقع اللاعب A ، مع الالتزام باستراتيجية maximin. ليس لدى أي من اللاعبين استراتيجيات مهيمنة ومكررة.

تتوافق الاستراتيجية المثلى القصوى للاعب A مع النقطة N ، والتي من أجلها يمكن كتابة نظام المعادلات التالي:
ص 1 = 0
ص 2 = 1
سعر اللعبة ، ص = -2
الآن يمكننا إيجاد استراتيجية الحد الأدنى للاعب B من خلال كتابة نظام المعادلات المقابل ، وإزالة الإستراتيجية B 1 ، B 3 ، B 4 ، والتي من الواضح أنها تعطي خسارة أكبر للاعب B ، وبالتالي ، q 1 = 0 ، ف 3 = 0 ، ف 4 = 0 ...
-2q 2 = -2
ف 2 = 1
لحل هذا النظام نجد:
ف 2 = 1.
إجابة:
سعر اللعبة: ص = -2 ، نواقل استراتيجية اللاعبين:
ق (0 ، 1 ، 0 ، 0) ، ف (0 ، 1)
4. دعنا نتحقق من صحة حل اللعبة باستخدام معيار الإستراتيجية المثلى.
∑a ij q j ≤ v
∑a ij p i ≥ v
م (ف 1 ؛ س) = (-6 0) + (-6 1) + (2 0) + (4 0) = -6 ≤ الخامس
م (ف 2 ؛ س) = (2 0) + (-2 1) + (7 0) + (-1 0) = -2 = ت
م (ف ؛ س 1) = (-6 0) + (2 1) = 2 ≥ الخامس
م (ف ؛ س 2) = (-6 0) + (-2 1) = -2 = ت
م (ف ؛ س 3) = (2 0) + (7 1) = 7 ≥ الخامس
م (ف ؛ س 4) = (4 0) + (-1 1) = -1 ≥ الخامس
يتم استيفاء جميع حالات عدم المساواة باعتبارها مساواة أو عدم مساواة صارمة ، وبالتالي ، يتم العثور على حل اللعبة بشكل صحيح.

المشكلة 4
أعط إجابة مفصلة على السؤال

على الرغم من تخرجي من كلية الفيزياء والتكنولوجيا ، إلا أنني لم أتعلم نظرية الألعاب في الجامعة. لكن منذ أن دخلت سنوات الدراسةلعبت كثيرًا ، أولاً في التفضيل ، ثم في لعبة الجسر ، اهتمت بنظرية الألعاب ، وأتقنت كتابًا مدرسيًا صغيرًا. ومؤخرا قام قارئ موقع ميخائيل بحل مشكلة نظرية الألعاب. بعد أن أدركت أن المهمة لم تُعط لي على الفور ، قررت أن أجدد معرفتي بنظرية اللعبة في ذاكرتي. أقدم لكم كتابًا صغيرًا - عرضًا شائعًا لعناصر نظرية اللعبة وبعض طرق حل ألعاب المصفوفة. لا يحتوي على أي دليل تقريبًا ويوضح النقاط الرئيسية للنظرية بأمثلة. كتب الكتاب عالمة الرياضيات والناشرة العلمية إيلينا سيرجيفنا فينتزل. درست عدة أجيال من المهندسين السوفييت من كتابها المدرسي "نظرية الاحتمالات". كتبت إيلينا سيرجيفنا أيضًا العديد من الأعمال الأدبية تحت اسم مستعار إي.جريكوف.

ايلينا وينتزل. عناصر نظرية اللعبة. - م: فيزماتجيز ، 1961 ، 68 ص.

تحميل موجز قصيربتنسيق أو

§ 1. موضوع نظرية اللعبة. مفاهيم أساسية

عند حل عدد من المهام العملية (في مجال الاقتصاد ، والشؤون العسكرية ، وما إلى ذلك) ، من الضروري تحليل المواقف التي يوجد فيها طرفان (أو أكثر) متحاربان يسعيان لتحقيق أهداف متعارضة ، ونتيجة كل حدث من تعتمد الأطراف على مسار العمل الذي سيختاره العدو. سوف نسمي مثل هذه الحالات "حالات الصراع".

هناك أمثلة عديدة لحالات الصراع من مختلف مجالات الممارسة. أي حالة تنشأ في سياق الأعمال العدائية تنتمي إلى حالات الصراع: يتخذ كل طرف من الأطراف المتحاربة جميع الإجراءات المتاحة له من أجل منع العدو من تحقيق النجاح. تشمل حالات الصراع أيضًا المواقف التي تنشأ عند اختيار نظام سلاح ، وأساليب استخدامه القتالي ، وبشكل عام ، عند التخطيط للعمليات العسكرية: يجب اتخاذ كل قرار في هذا المجال مع مراعاة تصرفات العدو الأقل فائدة له. نحن. ينتمي عدد من المواقف في مجال الاقتصاد (خاصة في وجود المنافسة الحرة) إلى حالات الصراع ؛ الأطراف المتحاربة هي شركات تجارية ومؤسسات صناعية ، إلخ.

أدت الحاجة إلى تحليل مثل هذه المواقف إلى ظهور جهاز رياضي خاص. نظرية الألعاب هي في الأساس ليست أكثر من نظرية رياضية لحالات الصراع. الهدف من النظرية هو تطوير توصيات لمسار عمل عقلاني لكل من المعارضين في سياق حالة الصراع. كل حالة صراع مأخوذة مباشرة من الممارسة معقدة للغاية ، ويواجه تحليلها عقبة بسبب وجود العديد من العوامل المصاحبة. لجعل التحليل الرياضي للموقف ممكناً ، من الضروري التجريد من العوامل الثانوية العرضية وبناء نموذج مبسط رسمي للموقف. سوف نسمي هذا النموذج "لعبة".

تختلف اللعبة عن حالة الصراع الحقيقي حيث يتم إجراؤها وفقًا لقواعد محددة جيدًا. لطالما استخدمت الإنسانية مثل هذه النماذج الرسمية لحالات الصراع ، وهي ألعاب بالمعنى الحرفي للكلمة. تشمل الأمثلة الشطرنج والداما وألعاب الورق وما إلى ذلك. كل هذه الألعاب لها طابع المنافسة التي تجري وفقًا لقواعد معروفة وتنتهي بـ "فوز" (ربح) لاعب أو آخر.

تمثل هذه الألعاب المنظمة رسميًا والمنظمة بشكل مصطنع أكثر من غيرها مادة مناسبةلتوضيح وإتقان المفاهيم الأساسية لنظرية الألعاب. تُستخدم المصطلحات المستعارة من ممارسة مثل هذه الألعاب أيضًا في تحليل حالات النزاع الأخرى: يُشار تقليديًا إلى الأطراف المشاركة فيها باسم "اللاعبون" ، ونتيجة الاصطدام هي "فوز" أحد الأطراف .

في اللعبة ، قد تتعارض مصالح اثنين أو أكثر من الخصوم ؛ في الحالة الأولى ، تسمى اللعبة "الزوجي" ، في الحالة الثانية - "متعددة". يمكن للمشاركين في لعبة متعددة تشكيل تحالفات في مسارها - دائمة أو مؤقتة. في ظل وجود تحالفين دائمين ، تتحول اللعبة المتعددة إلى زوج. تعتبر الألعاب الزوجية ذات أهمية عملية كبيرة ؛ هنا سنقتصر على التفكير في مثل هذه الألعاب فقط.

نبدأ عرضنا لنظرية اللعبة الابتدائية بصياغة بعض المفاهيم الأساسية. سننظر في لعبة زوجي يشارك فيها لاعبان A و B لهما اهتمامات متعارضة. نعني بكلمة "اللعبة" حدثًا يتكون من سلسلة من إجراءات الجانبين A و B. لكي تخضع اللعبة للتحليل الرياضي ، يجب صياغة قواعد اللعبة بدقة. نعني بعبارة "قواعد اللعبة" نظام الشروط الذي ينظم الخيارات الممكنة لأفعال كلا الجانبين ، وكمية المعلومات التي يمتلكها كل جانب عن سلوك الآخر ، وتسلسل "التحركات" المتناوبة (القرارات الفردية المتخذة أثناء اللعبة) ، وكذلك نتيجة أو نتيجة اللعبة التي مجموعة الحركات المعينة لها. لا تحتوي هذه النتيجة (الربح أو الخسارة) دائمًا على تعبير كمي ، ولكن عادةً ما يكون من الممكن ، من خلال تعيين مقياس معين للقياس ، التعبير عنها عدد معين... على سبيل المثال ، في لعبة الشطرنج ، يمكن تحديد الربح بشكل تقليدي بالقيمة +1 ، الخسارة -1 ، التعادل 0.

تسمى اللعبة لعبة محصلتها صفر إذا ربح أحد اللاعبين ما خسره الآخر ، أي. مجموع المكاسب لكلا الطرفين يساوي الصفر. في لعبة محصلتها صفر ، تكون مصالح اللاعبين معاكسة تمامًا. هنا سننظر فقط في مثل هذه الألعاب.

نظرًا لأنه في لعبة محصلتها صفر ، فإن مكافأة أحد اللاعبين تساوي مكافأة الآخر علامة المعاكسإذن ، من الواضح أنه عند تحليل مثل هذه اللعبة ، يمكن للمرء أن يفكر في مكافأة لاعب واحد فقط. فليكن ، على سبيل المثال ، اللاعب "أ". في ما يلي ، من أجل الراحة ، سنطلق على الجانب أ "نحن" والجانب "ب" - "العدو".

في هذه الحالة ، سيتم اعتبار الجانب أ ("نحن") دائمًا "فائزًا" ، والجانب ب ("الخصم") على أنه "خاسر". من الواضح أن هذا الشرط الرسمي لا يعني أي ميزة حقيقية للاعب الأول ؛ من السهل أن ترى أنه يتم استبداله بالعلامة المعاكسة إذا انعكست علامة الفوز.

سوف نتخيل تطور اللعبة في الوقت المناسب على أنها تتكون من سلسلة من المراحل المتتالية أو "الحركات". الحركة في نظرية اللعبة هي اختيار أحد الخيارات التي توفرها قواعد اللعبة. الحركات مقسمة إلى شخصية وعشوائية. الحركة الشخصية هي اختيار واع من قبل أحد اللاعبين لإحدى الحركات المحتملة في موقف معين وتنفيذها. مثال على التحرك الشخصي هو أي حركة في لعبة الشطرنج. عند تنفيذ الحركة التالية ، يقوم اللاعب باختيار واعي لأحد الخيارات الممكنة لترتيب قطع معين على اللوحة. مجموعة الخيارات الممكنة لكل حركة شخصية تنظمها قواعد اللعبة وتعتمد على مجموع الحركات السابقة لكلا الجانبين.

الحركة العشوائية هي اختيار من بين عدد من الاحتمالات ، لا يتم تنفيذه بقرار من اللاعب ، ولكن بواسطة آلية معينة للاختيار العشوائي (رمي عملة معدنية ، نرد ، خلط ورق اللعب ، إلخ). على سبيل المثال ، إعطاء البطاقة الأولى لأحد اللاعبين المفضل هو حركة عشوائية مع 32 خيارًا متساويًا في الإمكان. لكي يتم تعريف اللعبة رياضيًا ، يجب أن تشير قواعد اللعبة إلى التوزيع الاحتمالي للنتائج المحتملة لكل حركة عشوائية.

بعض الألعاب يمكن أن تتكون فقط من حركات عشوائية (ما يسمى بالمقامرة البحتة) أو حركات شخصية فقط (الشطرنج ، لعبة الداما). غالبية لعب الورقينتمي إلى الألعاب نوع مختلط، بمعنى آخر. يحتوي على حركات عشوائية وشخصية.

تصنف الألعاب ليس فقط حسب طبيعة حركاتها (شخصية ، عشوائية) ، ولكن أيضًا حسب طبيعة وكمية المعلومات المتاحة لكل لاعب فيما يتعلق بأفعال الآخر. تتكون فئة خاصة من الألعاب مما يسمى بـ "الألعاب ذات معلومات كاملة". اللعبة التي تحتوي على معلومات كاملة هي لعبة يعرف فيها كل لاعب في كل حركة شخصية نتائج جميع الحركات السابقة ، الشخصية والعشوائية. من الأمثلة على الألعاب التي تحتوي على معلومات كاملة الشطرنج ولعبة الداما ولعبة "noughts and crosses" المعروفة.

لا تنتمي معظم الألعاب ذات الأهمية العملية إلى فئة الألعاب التي تحتوي على معلومات كاملة ، نظرًا لأن عدم اليقين بشأن تصرفات العدو عادة ما يكون عنصرًا أساسيًا في حالات الصراع.

أحد المفاهيم الأساسية لنظرية الألعاب هو مفهوم "الإستراتيجية". استراتيجية اللاعب هي مجموعة من القواعد التي تحدد بشكل فريد الاختيار لكل نقلة شخصية للاعب معين ، اعتمادًا على الموقف الذي تطور أثناء سير اللعبة. عادةً ما يتخذ اللاعب القرار (الاختيار) لكل نقلة شخصية أثناء اللعبة نفسها ، اعتمادًا على الموقف الحالي. ومع ذلك ، من الناحية النظرية ، لن تتغير الأمور إذا تخيلنا أن كل هذه القرارات يتخذها اللاعب مسبقًا. للقيام بذلك ، سيتعين على اللاعب تجميع قائمة مسبقًا بجميع المواقف الممكنة أثناء اللعبة وتقديم الحل الخاص به لكل منها. من حيث المبدأ (إن لم يكن عمليًا) هذا ممكن لأي لعبة. إذا تم اعتماد نظام القرار هذا ، فهذا يعني أن اللاعب قد اختار استراتيجية معينة.

اللاعب الذي اختار إستراتيجية لا يمكنه الآن المشاركة في اللعبة بشكل شخصي ، ولكن استبدال مشاركته بقائمة من القواعد التي سيطبقها عليه شخص غير مهتم (قاضي). يمكن أيضًا إعطاء الإستراتيجية للأتمتة في شكل برنامج محدد. هذه هي الطريقة التي تلعب بها أجهزة الكمبيوتر الشطرنج اليوم. لكي يكون مفهوم "الإستراتيجية" منطقيًا ، يجب أن تكون هناك تحركات شخصية في اللعبة ؛ في الألعاب التي تتكون من حركات عشوائية فقط ، الاستراتيجيات غائبة.

اعتمادًا على عدد الاستراتيجيات الممكنة ، يتم تقسيم الألعاب إلى "محدودة" و "لا نهاية لها". اللعبة المحدودة هي لعبة يمتلك فيها كل لاعب عددًا محدودًا من الاستراتيجيات. اللعبة الأخيرة التي يلعب فيها اللاعب "أ" مالاستراتيجيات واللاعب ب - ناستراتيجيات تسمى لعبة mxn.

فكر في لعبة mxn للاعبين A و B ("نحن" و "الخصم"). سوف نشير إلى استراتيجياتنا أ 1 ، أ 2 ، ... ، أ م استراتيجيات العدو ب 1 ، ب 2 ، ... ، ب ن. دع كل جانب يختار استراتيجية محددة ؛ بالنسبة لنا سيكون A i ، للعدو B j. إذا كانت اللعبة تتكون من حركات شخصية فقط ، فإن اختيار الإستراتيجيات A i و B j يحدد بشكل فريد نتيجة اللعبة - مكاسبنا. دعونا نشير إليه على أنه ij. إذا كانت اللعبة تحتوي ، بالإضافة إلى الحركات العشوائية الشخصية ، فإن المكافأة لزوج من الاستراتيجيات A i و B j هي قيمة عشوائية بناءً على نتائج جميع الحركات العشوائية. في هذه الحالة ، فإن التقدير الطبيعي للمردود المتوقع هو متوسط ​​قيمته (توقع رياضي). سنشير بنفس العلامة إلى كل من المكافأة نفسها (في لعبة بدون حركات عشوائية) ومتوسط ​​قيمتها (في لعبة ذات حركات عشوائية).

دعنا نعرف قيم ij payoff (أو متوسط ​​العائد) لكل زوج من الاستراتيجيات. يمكن كتابة القيم في شكل جدول مستطيل (مصفوفة) ، تتوافق صفوفه مع استراتيجياتنا (A i) ، وتتوافق الأعمدة مع استراتيجيات العدو (B j). يسمى هذا الجدول مصفوفة المكافآت أو ببساطة مصفوفة اللعبة. تظهر مصفوفة اللعبة mxn في الشكل. 1.

أرز. 1. مصفوفة ام اكس ان

باختصار ، سوف نشير إلى مصفوفة اللعبة ‖а ij ‖. لنلقِ نظرة على بعض الأمثلة الأولية للألعاب.

مثال 1.يضع اللاعبان "أ" و "ب" ، دون النظر إلى بعضهما البعض ، عملة معدنية مقلوبة على الطاولة أو الشعار أو ذيول حسب تقديرهما. إذا اختار اللاعبون نفس الجانبين (كلاهما لديه شعار النبالة أو كلاهما له ذيول) ، فإن اللاعب A يأخذ كلتا القطعتين ؛ وإلا فسيتم أخذها من قبل اللاعب "ب". مطلوب تحليل اللعبة وتكوين مصفوفة لها. حل. تتكون اللعبة من حركتين فقط: حركتنا وحركة الخصم ، كلاهما شخصي. لا تنتمي اللعبة إلى الألعاب التي تحتوي على معلومات كاملة ، لأنه في لحظة الدور ، لا يعرف اللاعب الذي يؤديها ما فعله الآخر. نظرًا لأن كل لاعب لديه حركة شخصية واحدة فقط ، فإن استراتيجية اللاعب هي اختيار بهذه الحركة الشخصية الفردية.

لدينا استراتيجيتان: أ 1 - اختيار شعار النبالة و أ 2 - اختيار ذيول ؛ الخصم لديه نفس الإستراتيجيتين: ب 1 - شعار النبالة و ب 2 - ذيول. وبالتالي ، هذه اللعبة هي لعبة 2 × 2. لنفكر في مكاسب العملة على أنها +1. مصفوفة اللعبة:

من خلال مثال هذه اللعبة ، كما هي الابتدائية ، يمكنك فهم بعض الأفكار الأساسية لنظرية اللعبة. افترض أولاً أن اللعبة المحددة يتم تنفيذها مرة واحدة فقط. بعد ذلك ، من الواضح أنه ليس من المنطقي التحدث عن أي "استراتيجيات" للاعبين أكثر عقلانية من الآخرين. يمكن لكل لاعب لنفس السبب اتخاذ أي قرار. ومع ذلك ، عندما تتكرر اللعبة ، يتغير الوضع.

في الواقع ، لنفترض أننا (اللاعب A) اخترنا بعض الإستراتيجيات لأنفسنا (لنقل A1) والتزمنا بها. بعد ذلك ، وفقًا لنتائج التحركات القليلة الأولى ، سيخمن العدو استراتيجيتنا وسيستجيب لها بالطريقة الأقل إفادة لنا ، أي. اختر ذيول. من الواضح أنه من غير المربح لنا أن نستخدم دائمًا أي استراتيجية واحدة ؛ لكي لا نكون في الجانب الخاسر ، يجب علينا أحيانًا اختيار شعار النبالة ، وأحيانًا - ذيول. ومع ذلك ، إذا قمنا بتبديل معاطف الذراعين والذيل في تسلسل معين (على سبيل المثال ، بعد واحد) ، يمكن للعدو أيضًا أن يخمن هذا الأمر والرد على هذه الاستراتيجية بأسوأ طريقة بالنسبة لنا. من الواضح أن الطريقة الموثوقة للتأكد من أن العدو لا يعرف استراتيجيتنا هي تنظيم الاختيار في كل خطوة ، عندما لا نعرف ذلك مسبقًا (يمكن ضمان ذلك ، على سبيل المثال ، من خلال رمي عملة معدنية). وبالتالي ، فإننا نستخدم التفكير البديهي لمقاربة أحد المفاهيم الأساسية لنظرية اللعبة - مفهوم "الإستراتيجية المختلطة" ، أي. مثل عندما الاستراتيجيات "الصرفة" - في هذه الحالة A 1 و A 2 - تتناوب بشكل عشوائي مع ترددات معينة. في هذا المثال ، من اعتبارات التناظر ، من الواضح مسبقًا أن الإستراتيجيتين A 1 و A 2 يجب أن تتناوب مع نفس التردد ؛ في الألعاب الأكثر تعقيدًا ، قد يكون الحل بعيدًا عن التافه.

مثال 2.يقوم اللاعبان A و B في وقت واحد وبشكل مستقل عن الآخر بتدوين كل رقم من ثلاثة أرقام: 1 أو 2 أو 3. إذا كان مجموع الأرقام المكتوبة زوجيًا ، فإن B يدفع A هذا المبلغ بالروبل ؛ إذا كان الأمر غريبًا ، فعلى العكس من ذلك ، يدفع A هذا المبلغ إلى B. مطلوب تحليل اللعبة ووضع مصفوفة لها.

حل. تتكون اللعبة من حركتين. كلاهما شخصي. لدينا (أ) ثلاث استراتيجيات: أ 1 - اكتب 1 ؛ و 2 - اكتب 2 ؛ و 3 - اكتب 3. الخصم (B) لديه نفس الاستراتيجيات الثلاث. اللعبة عبارة عن لعبة 3 × 3:

من الواضح ، كما في الحالة السابقة ، أن العدو يمكنه الرد بأسوأ طريقة لنا على أي استراتيجية نختارها. في الواقع ، إذا اخترنا ، على سبيل المثال ، الإستراتيجية A1 ، فإن العدو سيستجيب لها دائمًا بالاستراتيجية B2 ؛ بشأن الإستراتيجية أ 2 - عن طريق الإستراتيجية ب 3 ؛ بشأن الإستراتيجية أ 3 - عن طريق الإستراتيجية ب 2 ؛ وبالتالي ، فإن أي اختيار لاستراتيجية معينة سيؤدي حتمًا إلى خسارة (ومع ذلك ، لا ينبغي لنا أن ننسى أن العدو في نفس الموقف المؤلم). الحل لهذه اللعبة (أي الكلية الإستراتيجيات الأكثر فائدةكلا اللاعبين) في المادة 5.

مثال 3.لدينا ثلاثة أنواع من الأسلحة تحت تصرفنا: А 1، А 2، А 3؛ للعدو ثلاثة أنواع من الطائرات: B 1 ، B 2 ، B 3. مهمتنا هي ضرب الطائرة. مهمة العدو هي إبقائه غير متأثر. عند استخدام التسلح A 1 ، يتم ضرب الطائرات B 1 و B 2 و B 3 ، على التوالي ، باحتمالات 0.9 و 0.4 و 0.2 ؛ مع التسلح A 2 - مع احتمالات 0.3 و 0.6 و 0.8 ؛ مع سلاح 3 - باحتمالات 0.5 و 0.7 و 0.2. مطلوب صياغة الموقف من حيث نظرية اللعبة.

حل. يمكن اعتبار الموقف على أنه لعبة 3 × 3 مع حركتين شخصيتين وواحدة عشوائية. تحركنا الشخصي هو اختيار نوع السلاح. التحرك الشخصي للعدو - اختيار طائرة للمشاركة في المعركة. تحرك عشوائي - استخدام الأسلحة ؛ قد تنتهي هذه الخطوة بهزيمة أو عدم هزيمة الطائرة. مردودنا هو واحد في حالة اصطدام الطائرة والصفر بخلاف ذلك. استراتيجياتنا هي ثلاثة خيارات للأسلحة. استراتيجيات العدو - ثلاث خيارات للطائرات. متوسط ​​قيمة العائد لكل زوج من الاستراتيجيات ليس أكثر من احتمال إصابة طائرة معينة بسلاح معين. مصفوفة اللعبة:

الهدف من نظرية اللعبة هو تقديم توصيات لـ سلوك معقوللاعبين في حالات الصراع، بمعنى آخر. تحديد "الاستراتيجية المثلى" لكل منهم. الإستراتيجية المثلى للاعب في نظرية اللعبة هي إستراتيجية ، عندما تتكرر اللعبة عدة مرات ، توفر للاعب معين أقصى متوسط ​​ربح ممكن (أو أدنى معدل خسارة ممكن). عند اختيار هذه الاستراتيجية ، فإن أساس التفكير هو افتراض أن العدو على الأقل ذكي مثلنا ، ويفعل كل شيء لمنعنا من تحقيق هدفنا.

في نظرية اللعبة ، يتم تقديم جميع التوصيات على أساس هذه المبادئ ؛ لذلك ، فإنه لا يأخذ في الاعتبار عناصر المخاطرة الموجودة حتمًا في كل إستراتيجية حقيقية ، فضلاً عن الحسابات الخاطئة والأخطاء المحتملة لكل من اللاعبين. نظرية الألعاب ، مثل أي نموذج رياضي لظاهرة معقدة ، لها حدودها. وأهمها أن المكسب ينخفض ​​بشكل مصطنع إلى واحد صيغة المفرد... في معظم حالات الصراع العملية ، عند وضع استراتيجية معقولة ، من الضروري ألا تأخذ بعين الاعتبار معايير عددية واحدة - معايير نجاح الحدث. الاستراتيجية المثلى لمعيار واحد ليست بالضرورة مثالية بالنسبة للآخرين. ومع ذلك ، مع إدراك هذه القيود وبالتالي عدم الالتزام الأعمى بالتوصيات التي تم الحصول عليها من خلال أساليب اللعبة ، لا يزال بإمكان المرء بشكل معقول استخدام الجهاز الرياضي لنظرية اللعبة لتطوير ، إن لم يكن بالضبط "الأمثل" ، إذن ، على الأقل ، استراتيجية "مقبولة" .

§ 2. السعر الأدنى والأعلى للعبة. مبدأ minimax

ضع في اعتبارك لعبة mxn مع مصفوفة كما في الشكل. 1. دعنا نشير بالحرف i رقم استراتيجيتنا ؛ الحرف j هو رقم استراتيجية الخصم. دعونا نحدد لأنفسنا المهمة: تحديد استراتيجيتنا المثلى. دعنا نحلل كل استراتيجية لدينا بالتسلسل ، بدءًا من أ 1.

اختيار الإستراتيجية - يجب أن نعتمد دائمًا على حقيقة أن العدو سوف يستجيب لها بالاستراتيجية - التي يكون مردودنا لها ضئيلًا. دعنا نحدد هذه القيمة للمكافأة ، أي الحد الأدنى من الأرقام a ij in أناالخط ال. دعونا نشير إليه بـ α i:

هنا ، تشير علامة min (الحد الأدنى في j) إلى الحد الأدنى لقيم هذه المعلمة لجميع j الممكنة. دعونا نكتب الأرقام α i ؛ بجانب المصفوفة على اليمين كعمود إضافي:

اختيار أي استراتيجية A i ، يجب أن نعتمد على حقيقة أنه نتيجة للإجراءات المعقولة للخصم ، لن نفوز بأكثر من α i. بطبيعة الحال ، التصرف بحذر شديد والاعتماد على الخصم الأكثر منطقية (أي تجنب أي خطر) ، يجب أن نركز على الاستراتيجية التي يكون فيها الرقم α i هو الحد الأقصى. دعونا نشير إلى هذه القيمة القصوى α:

أو ، مع مراعاة الصيغة (2.1) ،

تسمى القيمة α بالسعر الأقل للعبة ، بمعنى آخر - الفوز الأقصى أو ببساطة الحد الأقصى. يقع الرقم α في سطر معين من المصفوفة ؛ إستراتيجية اللاعب A التي تتوافق مع هذا الخط تسمى استراتيجية maximin. من الواضح ، إذا التزمنا باستراتيجية الحد الأقصى ، فعند أي سلوك للخصم ، نضمن لنا مكافأة ، على الأقل لا تقل عن α. لذلك ، تسمى قيمة α "سعر اللعبة الأدنى". هذا هو الحد الأدنى المضمون الذي يمكننا توفيره لأنفسنا من خلال الالتزام باستراتيجية ("إعادة التأمين") الأكثر حكمة.

من الواضح أنه يمكن تنفيذ تفكير مماثل للخصم B. نظرًا لأن العدو مهتم بتقليل مكاسبنا ، يجب أن ينظر إلى كل من استراتيجياته من وجهة نظر أقصى فوزبهذه الإستراتيجية. لذلك ، في أسفل المصفوفة ، سنكتب القيم القصوى لكل عمود:

وابحث عن الحد الأدنى β j:

تسمى القيمة β السعر الأعلى للعبة ، وبعبارة أخرى ، "الحد الأدنى". تسمى إستراتيجية الخصم المقابلة لمكسب الحد الأدنى "إستراتيجية minimax" الخاصة به. بالتمسك بأقصى استراتيجيته الحذرة ، يضمن الخصم لنفسه ما يلي: مهما فعلنا ضده ، فسوف يخسر على أي حال مبلغًا لا يزيد عن. مبدأ الحذر ، الذي يملي اختيار الاستراتيجيات المناسبة (maximin و minimax) للاعبين ، غالبًا ما يسمى "مبدأ minimax" في نظرية اللعبة وتطبيقاتها. أحيانًا يتم الإشارة إلى أكثر استراتيجيات الحد الأقصى والأدنى دقة للاعبين مصطلح عام"استراتيجيات Minimax".

كأمثلة ، نحدد أسعار الألعاب الأدنى والأعلى واستراتيجيات الحد الأدنى للأمثلة 1 و 2 و 3 من الفقرة 1.

مثال 1.يعطي المثال 1 § 1 لعبة بالمصفوفة التالية:

نظرًا لأن القيمتين α i و β j ثابتتان وتساويان –1 و +1 على التوالي ، فإن أسعار اللعبة الدنيا والعليا هي أيضًا –1 و +1: α = –1 ، = +1. أي استراتيجية للاعب "أ" هي الحد الأقصى ، وأي استراتيجية للاعب "ب" هي إستراتيجيته ذات الحد الأدنى. الاستنتاج تافه: من خلال التمسك بأي من استراتيجياته ، يمكن للاعب "أ" أن يضمن أنه لا يخسر أكثر من 1 ؛ نفس الشيء يمكن أن يضمنه اللاعب ب.

مثال 2.يعطي المثال 2 § 1 لعبة بمصفوفة:

انخفاض سعر اللعبة هو α = –3 ؛ أعلى سعر للعبة β = 4. إستراتيجيتنا القصوى هي А 1 ؛ من خلال تطبيقه بشكل منهجي ، يمكننا أن نتوقع بقوة الفوز على الأقل 3 - (خسارة 3 على الأكثر). استراتيجية minimax للخصم هي أي من الإستراتيجيتين B 1 و B 2 ؛ بتطبيقها بشكل منهجي ، فهو ، على أي حال ، يمكنه أن يضمن أنه لن يخسر أكثر من 4. إذا انحرفنا عن إستراتيجيتنا القصوى (على سبيل المثال ، اختر الإستراتيجية A2) ، يمكن للخصم أن "يعاقبنا" من خلال تطبيق الإستراتيجية "ب". 3 وخفض مردودنا إلى -5 ؛ وبالمثل ، فإن تراجع الخصم عن إستراتيجيته الدنيا يمكن أن يزيد خسارته إلى 6.

مثال 3.مثال 3 § 1 يعطي لعبة بمصفوفة:

انخفاض سعر اللعبة هو α = 0.3 ؛ أعلى قيمة للعبة β = 0.7. استراتيجيتنا الأكثر تحفظًا (maximin) هي A 2 ؛ باستخدام التسلح A2 ، نضمن أننا سنضرب الطائرة في المتوسط ​​في 0.3 على الأقل في جميع الحالات. استراتيجية العدو الأكثر حذرًا (minimax) هي B 2 ؛ باستخدام هذه الطائرة ، يمكن للعدو التأكد من أنه سيتم إصابته في ما لا يزيد عن 0.7 من جميع الحالات.

المثال الأخير مناسب لإثبات واحد خاصية مهمةاستراتيجيات minimax - عدم استقرارها. دعونا نستخدم استراتيجيتنا الأكثر حذرًا (الحد الأقصى) 2 ، والعدو - استراتيجيته الأكثر حذرًا (الحد الأدنى) В 2. طالما أن كلا الخصمين يلتزمان بهذه الاستراتيجيات ، فإن متوسط ​​العائد هو 0.6 ؛ إنه أكبر من القاع ولكنه أصغر أعلى سعرألعاب. لنفترض الآن أن الخصم قد تعلم أننا نستخدم الإستراتيجية أ 2 ؛ سوف يستجيب لها على الفور بالاستراتيجية B 1 ويقلل المكاسب إلى 0.3. في المقابل ، لدينا إجابة جيدة للاستراتيجية ب 1: الإستراتيجية أ 1 ، والتي تعطينا مكافأة قدرها 0.9 ، وهكذا.

وبالتالي ، فإن الموقف الذي يستخدم فيه كلا اللاعبين استراتيجيات minimax الخاصة بهم غير مستقر ويمكن انتهاكه من خلال المعلومات الواردة حول استراتيجية الجانب الآخر. ومع ذلك ، هناك بعض الألعاب التي تكون استراتيجيات minimax مستقرة لها. هذه هي الألعاب التي يكون سعرها الأدنى مساويًا للسعر العلوي: α = β. إذا كان السعر الأدنى للعبة يساوي السعر العلوي ، فعندئذٍ القيمة الإجماليةتسمى التكلفة الصافية للعبة (أحيانًا تكون تكلفة اللعبة فقط) ، وسنشير إليها بالحرف ν.

لنلقي نظرة على مثال. دع لعبة 4 × 4 تُعطى بواسطة المصفوفة:

لنجد السعر الأدنى للعبة: α = 0.6. لنجد السعر العلوي للعبة: β = 0.6. اتضح أنهما متماثلان ، وبالتالي ، فإن صافي سعر اللعبة يساوي α = β = ν = 0.6. العنصر 0.6 ، المميز في مصفوفة المكافأة ، هو الحد الأدنى في صفه والحد الأقصى في العمود. في الهندسة ، تسمى نقطة على سطح لها خاصية مماثلة (الحد الأدنى المتزامن على طول إحداثي واحد والحد الأقصى على طول الآخر) نقطة السرج ؛ بالقياس ، يستخدم هذا المصطلح أيضًا في نظرية اللعبة. عنصر المصفوفة بهذه الخاصية يسمى نقطة السرج للمصفوفة ، ويقال أن اللعبة بها نقطة سرج.

تتوافق نقطة السرج مع زوج من استراتيجيات minimax (في هذا المثال ، A 3 و B 2). تسمى هذه الاستراتيجيات بالمثالية ، ويسمى الجمع بينها بحل اللعبة. الحل للعبة ما يلي ملكية رائعة... إذا التزم أحد اللاعبين (على سبيل المثال ، أ) بإستراتيجيته المثلى ، وانحرف اللاعب الآخر (ب) بأي شكل من الأشكال عن إستراتيجيته المثلى ، فعندئذ بالنسبة للاعب الذي قام بالانحراف ، فلن يكون هذا مفيدًا أبدًا ، مثل يمكن لانحراف اللاعب B في أحسن الأحوال أن يترك المكاسب دون تغيير ، وفي أسوأ الأحوال ، يزيدها. على العكس من ذلك ، إذا التزمت B بإستراتيجيتها المثلى ، وانحرفت A عن استراتيجيتها ، فلا يمكن بأي حال من الأحوال أن يكون هذا مفيدًا لـ A.

يمكن التحقق من هذا البيان بسهولة من خلال مثال اللعبة مع وجود نقطة سرج قيد الدراسة. نرى أنه في حالة لعبة ذات نقطة سرج ، تتمتع استراتيجيات minimax بنوع من "الاستقرار": إذا التزم أحد الطرفين باستراتيجية minimax الخاصة به ، فقد يكون من غير المربح للطرف الآخر أن ينحرف عن جانبه. لاحظ أنه في هذه الحالة ، فإن معرفة أي لاعب بأن العدو قد اختار استراتيجيته المثلى لا يمكن أن يغير سلوك اللاعب نفسه: إذا كان لا يريد التصرف ضد مصالحه الخاصة ، فيجب عليه الالتزام باستراتيجيته المثلى. زوج من الاستراتيجيات المثلى في لعبة نقطة السرج هو ، كما كان ، "وضع التوازن": أي انحراف عن الإستراتيجية المثلى يقود اللاعب المنحرف إلى عواقب غير مواتية ، مما يجبره على العودة إلى موقعه الأصلي.

لذلك ، لكل لعبة نقطة سرج ، هناك حل يحدد زوج من الاستراتيجيات المثلى لكلا الجانبين ، والتي لها الخصائص التالية.

1) إذا التزم الطرفان باستراتيجياتهما المثلى ، فإن متوسط ​​العائد يساوي السعر الصافي للعبة ν ، والذي يمثل في الوقت نفسه أسعارها الأدنى والأعلى.

2) إذا التزم أحد الطرفين باستراتيجيته المثلى ، وانحرف الآخر عن استراتيجيته ، فلا يمكن للجانب المنحرف إلا أن يخسر من هذا ولا يمكنه بأي حال من الأحوال زيادة مكاسبه.

فئة الألعاب ذات السرج ذات أهمية كبيرة من وجهة النظر النظرية والعملية. في نظرية اللعبة ، ثبت أن كل لعبة بمعلومات كاملة لها نقطة سرج ، وبالتالي ، فإن كل لعبة من هذا القبيل لها حل ، أي هناك زوج من الاستراتيجيات المثلى لكلا الجانبين ، مما يعطي متوسط ​​عائد مساوٍ لسعر اللعبة. إذا كانت اللعبة التي تحتوي على معلومات كاملة تتكون فقط من حركات شخصية ، فعندما يطبق كل جانب إستراتيجيته المثلى ، يجب أن تنتهي دائمًا بنتيجة محددة تمامًا ، أي الفوز الذي يساوي سعر اللعبة تمامًا.

كمثال على لعبة بمعلومات كاملة ، نقدمها لعبة مشهورةمع تكديس العملات طاوله دائريه الشكل... يقوم لاعبان بوضع عملات معدنية متطابقة بالتناوب على الطاولة المستديرة ، وفي كل مرة يختاران موقعًا عشوائيًا لمركز العملة ؛ تداخل العملات غير مسموح به. اللاعب الذي يضع آخر عملة يفوز (عندما لا يكون هناك مكان للآخرين). من الواضح أن نتيجة هذه اللعبة دائمًا ما تكون نتيجة مفروغ منها ، وهناك إستراتيجية محددة جيدًا تضمن فوزًا موثوقًا للاعب الذي يضع العملة في المقام الأول. وبالتحديد ، يجب عليه وضع عملة معدنية في وسط الطاولة لأول مرة ، ثم الرد بحركة متماثلة على حركة كل خصم. في هذه الحالة ، يمكن للاعب الثاني أن يتصرف كما يحلو له دون تغيير النتيجة المحددة مسبقًا للعبة. لذلك ، هذه اللعبة منطقية فقط للاعبين الذين لا يعرفون الإستراتيجية المثلى. الوضع مشابه للشطرنج والألعاب الأخرى بمعلومات كاملة ؛ أي من هذه الألعاب لها نقطة سرج وحل يشير لكل لاعب إلى استراتيجيته المثلى ؛ لم يتم العثور على حل لعبة الشطرنج فقط لأن عدد مجموعات الحركات المحتملة في الشطرنج أكبر من أن تتمكن من إنشاء مصفوفة دفع وإيجاد نقطة سرج فيها.

§ 3. استراتيجيات خالصة ومختلطة. حل اللعبة في استراتيجيات مختلطة

تعتبر ألعاب نقطة السرج نادرة نسبيًا بين الألعاب المحدودة ذات الأهمية العملية ؛ الأكثر شيوعًا هو الحال عندما يختلف السعر الأدنى والأعلى للعبة. عند تحليل مصفوفات مثل هذه الألعاب ، توصلنا إلى استنتاج مفاده أنه إذا تم منح كل لاعب خيارًا لاستراتيجية واحدة ، فعندئذٍ ، بالاعتماد على خصم يتصرف بشكل معقول ، يجب تحديد هذا الاختيار من خلال مبدأ minimax. بالتمسك باستراتيجيتنا القصوى ، لأي سلوك للخصم ، فإننا نضمن لأنفسنا عن قصد مكافأة تساوي السعر الأدنى للعبة α. يطرح سؤال طبيعي: هل من الممكن أن يضمن المرء لنفسه عائدًا متوسطًا أكبر من α ، إذا لم نستخدم استراتيجية واحدة "خالصة" ، ولكننا نتبادل عدة استراتيجيات بشكل عشوائي؟ تسمى هذه الاستراتيجيات المجمعة ، التي تتكون من تطبيق عدة استراتيجيات خالصة ، بالتناوب وفقًا لقانون عشوائي مع نسبة تردد معينة ، بالاستراتيجيات المختلطة في نظرية اللعبة.

من الواضح أن كل إستراتيجية خالصة هي حالة خاصة لحالة مختلطة ، حيث يتم تطبيق جميع الاستراتيجيات ، باستثناء واحدة ، بترددات صفرية ، وهذه الاستراتيجية - بتردد 1. اتضح أن التطبيق ليس فقط نقيًا ، ولكن أيضًا استراتيجيات مختلطة ، يمكن للمرء الحصول عليها لكل حل لعبة محدود ، أي زوج من الاستراتيجيات (المختلطة عمومًا) بحيث عندما يطبقها كلا اللاعبين ، فإن المكافأة ستكون مساوية لسعر اللعبة ، وبالنسبة لأي انحراف أحادي الجانب عن الإستراتيجية المثلى ، يمكن أن يتغير العائد فقط في اتجاه غير مواتٍ لـ المنحرف.

يشكل البيان أعلاه محتوى ما يسمى بالنظرية الرئيسية لنظرية اللعبة. تم إثبات هذه النظرية لأول مرة من قبل فون نيومان في عام 1928. البراهين المعروفة للنظرية معقدة نسبيًا. لذلك ، نقدم فقط صيغتها.

كل لعبة نهائية لها حل واحد على الأقل (ربما في مجال الإستراتيجيات المختلطة).

المكاسب الناتجة عن القرار تسمى تكلفة اللعبة. تشير النظرية الرئيسية إلى أن كل لعبة محدودة لها ثمن. من الواضح أن سعر اللعبة يقع دائمًا بين السعر الأدنى للعبة α والسعر الأعلى للعبة:

(3.1) α ≤ ν ≤ β

في الواقع ، تعد α أقصى عائد مضمون يمكننا تقديمه لأنفسنا باستخدام استراتيجياتنا البحتة فقط. نظرًا لأن الاستراتيجيات المختلطة تشمل ، كحالة معينة ، جميع الاستراتيجيات البحتة ، إذن ، فإننا لا نزيد من قدراتنا ، بالإضافة إلى الاستراتيجيات البحتة ، لذلك ، ν ≥ α. وبالمثل ، بالنظر إلى قدرات الخصم ، نظهر أن ν ≤ β ، مما يعني عدم المساواة المثبتة (3.1).

دعونا نقدم تدوين خاص للاستراتيجيات المختلطة. إذا كانت استراتيجيتنا المختلطة ، على سبيل المثال ، تتمثل في تطبيق الاستراتيجيات A 1 و A 2 و A 3 مع الترددات p 1 و p 2 و p 3 و p 1 + p 2 + p 3 = 1 ، فسنشير إلى هذه الاستراتيجية

وبالمثل ، فإن الاستراتيجية المختلطة للعدو ستتم الإشارة إليها من خلال:

حيث q 1 ، q 2 ، q 3 هي الترددات التي تختلط بها الإستراتيجيات B 1 ، B 2 ، B 3 ؛ س 1 + س 2 + س 3 = 1.

لنفترض أننا وجدنا حلاً للعبة ، يتكون من استراتيجيتين مختلطتين مثاليتين S A * ، S B *. في الحالة العامة ، لا يتم تضمين جميع الاستراتيجيات البحتة المتاحة للاعب معين في إستراتيجيته المختلطة المثلى ، ولكن بعضها فقط. سوف نطلق على الإستراتيجيات المتضمنة في الإستراتيجية المختلطة المثلى للاعب إستراتيجياته "المفيدة". اتضح أن حل اللعبة له خاصية أخرى رائعة: إذا التزم أحد اللاعبين بإستراتيجيته المختلطة المثلى SA * (SB *) ، فإن المكافأة تظل دون تغيير وتساوي سعر اللعبة ν ، بغض النظر عن ما يفعله اللاعب الآخر ، إلا إذا تجاوز استراتيجياته "المفيدة". فهو ، على سبيل المثال ، يمكنه استخدام أي من استراتيجياته "المفيدة" في شكل خالص ، ويمكنه أيضًا مزجها بأي نسبة.

§ 4. الأساليب الأولية لحل الألعاب. الألعاب 2x2 و 2xن

إذا لم يكن للعبة mxn نقطة سرج ، فإن إيجاد حل يعد مهمة صعبة بشكل عام ، خاصة بالنسبة لـ m و n الكبيرتين. في بعض الأحيان يمكن تبسيط هذه المهمة عن طريق تقليل عدد الاستراتيجيات عن طريق حذف بعض الاستراتيجيات غير الضرورية. الاستراتيجيات المفرطة هي أ) مكررة وب) من الواضح أنها غير مربحة. ضع في اعتبارك ، على سبيل المثال ، لعبة ذات مصفوفة:

من السهل التأكد من أن الإستراتيجية А 3 تكرر ("تكرر") الإستراتيجية А 1 ، وبالتالي ، يمكن حذف أي من هاتين الاستراتيجيتين. علاوة على ذلك ، عند مقارنة الخطين A 1 و A 2 ، نرى أن كل عنصر من عناصر السطر A2 أقل (أو يساوي) العنصر المقابل في السطر A 1. من الواضح أننا لا يجب أن نستخدم إستراتيجية A2 أبدًا ، فهي غير مربحة عن عمد. بحذف A 3 و A 2 ، نأتي بالمصفوفة إلى المزيد عقل بسيط... علاوة على ذلك ، نلاحظ أن الإستراتيجية B 3 من الواضح أنها غير مربحة للخصم ؛ بحذفها ، نعيد المصفوفة إلى شكلها النهائي:

وبالتالي ، يتم تقليل لعبة 4 × 4 إلى لعبة 2 × 3 من خلال التخلص من الاستراتيجيات المكررة وغير المواتية بشكل واضح.

يجب أن يسبق إجراء حذف الاستراتيجيات المكررة وغير المواتية دائمًا قرار اللعبة. أبسط حالات الألعاب المحدودة ، والتي يمكن حلها دائمًا بالطرق الأولية ، هي ألعاب 2 × 2 و 2 × إن.

فكر في لعبة 2 × 2 مع مصفوفة:

يمكن أن تحدث حالتان هنا: 1) اللعبة لها نقطة سرج ؛ 2) اللعبة ليس لها نقطة سرج. في الحالة الأولى ، الحل واضح: إنه زوج من الاستراتيجيات التي تتقاطع عند نقطة سرج. بالمناسبة ، لاحظ أنه في لعبة 2 × 2 ، يتوافق وجود نقطة السرج دائمًا مع وجود استراتيجيات غير مواتية بشكل متعمد والتي يجب حذفها في التحليل الأولي.

يجب ألا تكون هناك نقطة سرج ، وبالتالي ، فإن السعر الأدنى للعبة لا يساوي السعر العلوي: α ≠ β. مطلوب لإيجاد الإستراتيجية المختلطة المثلى للاعب "أ":

تتميز بالخاصية أنه مهما كانت أفعال الخصم (ما لم يتجاوز حدود استراتيجياته "المفيدة") ، فإن المكافأة ستكون مساوية لسعر اللعبة ν. في لعبة 2 × 2 ، تكون كلتا إستراتيجيتَي العدو "مفيدة" ، وإلا فسيكون للعبة حل استراتيجي خالص (نقطة السرج). هذا يعني أنه إذا التزمنا بإستراتيجيتنا المثلى (4.1) ، فيمكن للخصم استخدام أي من استراتيجياته الخالصة B 1 ، B 2 دون تغيير متوسط ​​العائد ν. ومن ثم لدينا معادلتان:

من خلالها ، مع الأخذ في الاعتبار أن p 1 + p 2 = 1 ، نحصل على:

نجد قيمة اللعبة ν باستبدال القيم p 1 و p 2 في أي من المعادلات (4.2).

إذا كان سعر اللعبة معروفًا ، فيجب تحديد الإستراتيجية المثلى للخصم

تكفي معادلة واحدة ، على سبيل المثال:

من هنا ، مع الأخذ في الاعتبار أن q 1 + q 2 = 1 ، لدينا:

مثال 1.دعونا نجد حل لعبة 2 × 2 التي تم تناولها في المثال 1 § 1 ، مع المصفوفة:

لا تحتوي اللعبة على نقطة سرج (α = –1 ؛ β = +1) ، وبالتالي ، يجب أن يكمن الحل في مجال الاستراتيجيات المختلطة:

عليك إيجاد p 1 و p 2 و q 1 و q 2. بالنسبة لـ p 1 لدينا المعادلة

1 * ص 1 + (-1) (1 - ف 1) = (-1) ص 1 + 1 (1 - ف 1)

من أين ص 1 = 1/2 ، ص 2 = 1/2.

وبالمثل ، نجد: q 1 = 1/2 ، q 2 = 1/2 ، ν = 0.

وبالتالي ، فإن الإستراتيجية المثلى لكل لاعب هي التبديل العشوائي لكل من إستراتيجيته النقية ، باستخدام كل منهما بشكل متساوٍ في كثير من الأحيان ؛ في هذه الحالة ، سيكون متوسط ​​العائد يساوي صفرًا.

كان الاستنتاج الناتج واضحًا بشكل كافٍ مقدمًا. في المثال التالي ، سنلقي نظرة على المزيد لعبة صعبة، الحل الذي ليس واضحًا جدًا. هذا المثال هو مثال بدائي للألعاب المعروفة باسم ألعاب "الغش" أو "الخداع". في الممارسة العملية ، في حالات الصراع ، يتم استخدامها غالبًا طرق مختلفةتضليل العدو (معلومات مضللة ، وضع أهداف خاطئة ، إلخ). المثال ، على الرغم من بساطته ، مفيد للغاية.

مثال 2.اللعبة على النحو التالي. هناك ورقتان: آس وشيطان. يقوم اللاعب "أ" برسم أحدهم بشكل عشوائي ؛ لا يرى "ب" البطاقة التي أخرجها. إذا أخرج A الآس ، فإنه يعلن: "لدي آس" ، ويطلب من الخصم 1 روبل. إذا أخرج A شيطانًا ، فيمكنه إما A 1) أن يقول "لدي آس" ويطلب 1 روبل من الخصم ، أو A 2) يعترف بأن لديه شيطانًا ويدفع للخصم 1 روبل.

العدو ، إذا دفع طواعية 1 روبل ، يمكنه فقط قبوله. إذا طُلب منه روبل واحد ، فيمكنه إما B 1) تصديق أن اللاعب A لديه الآس ويعطيه 1 روبل ، أو B 2) يطلب شيكًا للتأكد من أن العبارة A. تحقق من ذلك اتضح أن A لديه حقًا الآس ، يجب أن يدفع B A 2 روبل. إذا تبين أن A يغش ولديه شيطان ، يدفع اللاعب A للاعب B 2 روبل. مطلوب تحليل اللعبة وإيجاد الإستراتيجية المثلى لكل لاعب.

حل.اللعبة لها هيكل معقد نسبيًا. وهي تتألف من نقلة عشوائية إلزامية واحدة - اختيار اللاعب "أ" لإحدى البطاقتين - وحركتين شخصيتين ، والتي ، مع ذلك ، لا تحدث بالضرورة. في الواقع ، إذا حصل "أ" على الآس ، فإنه لا يقوم بأي خطوة شخصية: تُمنح فرصة واحدة فقط - للمطالبة بروبل واحد ، وهو ما يفعله. في هذه الحالة ، يتم نقل الحركة الشخصية - للاعتقاد أو عدم التصديق (أي ادفع أو لا تدفع روبل واحد) - إلى اللاعب "ب". إذا حصل "أ" نتيجة النقلة العشوائية الأولى على اثنين ، فسيتم منحه أمرًا شخصيًا تحرك: ادفع 1 روبل أو حاول خداع العدو واطلب 1 روبل (باختصار: "لا تخدع" أو "تخدع"). إذا اختار "أ" الأول ، فعلى "ب" أن يقبل روبل واحد فقط ؛ إذا اختار "أ" الخيار الأخير ، فسيحصل اللاعب "ب" على نقلة شخصية: صدق أو لا تصدق "أ" (أي دفع 1 روبل أو طلب تحقق).

استراتيجيات كل لاعب هي قواعد تشير إلى الطريقة التي يجب أن يتصرف بها اللاعب عندما يتم منحه نقلة شخصية. من الواضح أن A لديه استراتيجيتان فقط: A 1 - للغش ، A2 - عدم الغش. لدى B أيضًا استراتيجيتان: B 1 - للإيمان ، B 2 - عدم الإيمان. لنقم ببناء مصفوفة اللعبة. للقيام بذلك ، نحسب متوسط ​​العائد لكل مجموعة من الاستراتيجيات.

1. أ 1 ب 1 (أ يخدع ، ب يعتقد). إذا حصل A على الآس (احتمال هذا هو ، فلن يتم منحه نقلة شخصية ؛ يطلب 1 روبل ، ويصدقه اللاعب B ؛ ربح A بالروبل هو 1. إذا حصل A على اثنين (احتمال هذا هو أيضًا ½) ، وفقًا لاستراتيجيته ، يغش ويطلب 1 روبل ؛ يؤمن به ويدفع ؛ المكافأة A تساوي أيضًا 1. متوسط ​​العائد: 11 = ½ * 1 + ½ * 1 = 1.

2. أ 1 ب 2 (أ يخدع ، ب لا يؤمن). إذا حصل "أ" على الآس ، فليس لديه حركة شخصية ؛ يحتاج روبل واحد وفقًا لاستراتيجيته ، فهو لا يؤمن ، ونتيجة للشيك ، يدفع 2 روبل (ربح A هو +2). إذا حصل "أ" على شيطان ، حسب استراتيجيته ، فإنه يطلب روبل واحد ؛ (ب) ، بحسب ما يقوله ، لا يؤمن ؛ نتيجة لذلك ، يدفع A 2 روبل (ربح A هو -2). متوسط ​​المردود هو: 12 = ½ * (+ 2) + * (- 2) = 0.

3. أ 2 ب 1 (أ لا يخدع ، ب يعتقد). إذا أخرج A آسًا ، فإنه يطلب روبل واحد ؛ ب ، وفقا لاستراتيجيته ، يدفع ؛ ربح A هو +1. إذا أخرج A شيطانًا ، فإنه يدفع روبل واحد وفقًا لاستراتيجيته ؛ الشيء الوحيد المتبقي هو القبول (ربح A هو -1). متوسط ​​المردود هو: 21 = ½ * (+ 1) + ½ * (- 1) = 0.

4. أ 2 ب 2 (أ لا يخدع ، ب لا يؤمن). إذا أخرج A آسًا ، فإنه يطلب روبل واحد ؛ يتحقق B ، ونتيجة للفحص ، يدفع 2 روبل (الفوز هو +2). إذا أخرج A شيطان ، فإنه يدفع روبل واحد ؛ كل ما تبقى هو القبول (المردود هو 1). متوسط ​​المردود هو: 22 = ½ * (+ 2) + ½ * (- 1) = ½.

نبني مصفوفة اللعبة:

المصفوفة ليس لها نقطة سرج. أدنى سعر للعبة هو α = 0 ، والسعر الأعلى للعبة هو β = ½. دعونا نجد حلاً للعبة في مجال الاستراتيجيات المختلطة. بتطبيق الصيغة (4.3) ، نحصل على:

أولئك. يجب على اللاعب "أ" استخدام استراتيجيته الأولى (الغش) في ثلث الحالات كلها ، والثانية (عدم الغش) في الثلثين. في هذه الحالة ، سيفوز بمتوسط ​​سعر اللعبة ν = 1/3.

تشير القيمة ν = 1/3 إلى أنه في ظل هذه الظروف تكون اللعبة مفيدة لـ A وغير مواتية لـ B. وباستخدام إستراتيجيته المثلى ، يمكن لـ A دائمًا أن يوفر لنفسه متوسط ​​العائد الإيجابي. لاحظ أنه إذا استخدم A أكثر إستراتيجيته (الحد الأقصى) الحذر (في هذه الحالة ، تكون كلتا الإستراتيجيتين A 1 و A 2 بحد أقصى) ، فسيحصل على متوسط ​​عائد يساوي صفرًا. وبالتالي ، فإن استخدام إستراتيجية مختلطة يمنح A الفرصة لإدراك ميزته على B ، والتي تنشأ بموجب القواعد المحددة للعبة.

دعنا نحدد الإستراتيجية المثلى ب. لدينا: q 1 * 1 + q 2 * 0 = 1/3 ، q 1 = 1/3 ، q 2 = 2/3. أين

بمعنى آخر. يجب أن يثق اللاعب "ب" في ثلث جميع الحالات ويدفع له روبل واحد دون التحقق ، وفي ثلثي الحالات - تحقق. ثم سيخسر ، في المتوسط ​​، 1/3 في كل مباراة. إذا استخدم استراتيجيته البحتة B 2 (لا تصدق) ، فسيخسر بمعدل 1/2 لكل لعبة.

يمكن إعطاء حل لعبة 2 × 2 تفسيرًا هندسيًا بسيطًا. يجب أن تكون هناك لعبة 2 × 2 مع المصفوفة

خذ مقطعًا من محور الإحداثيات بطول 1 (الشكل 4.1). ستمثل النهاية اليسرى للقسم (النقطة التي تحتوي على الإحداثي x = 0) الإستراتيجية A 1 ؛ الطرف الأيمن من القسم (س = 1) - الإستراتيجية أ 2. لنرسم عمودين على محور الإحداثيات من خلال النقطتين А1 و 2: المحور أنا-أناوالمحور II - II... على المحور أنا-أناسنؤجل المكاسب للاستراتيجية أ 1 ؛ على المحور II - II- يربح مع الإستراتيجية أ 2. ضع في اعتبارك استراتيجية الخصم B 1 ؛ يعطي نقطتين على المحاور أنا-أناو II - IIبإحداثيات 11 و 21 على التوالي. لنرسم خطًا مستقيمًا B 1 B 1 من خلال هذه النقاط. من الواضح ، إذا كانت إستراتيجية العدو B 1 سنطبق الإستراتيجية المختلطة

ثم يتم تمثيل متوسط ​​العائد لدينا ، الذي يساوي في هذه الحالة 11 ص 1 + أ 21 ع 2 ، بالنقطة م على السطر ب 1 ب 1 ؛ حدود هذه النقطة تساوي ص 2. الخط المستقيم В 1 1 ، الذي يمثل العائد في حالة الإستراتيجية В 1 ، سوف يطلق عليه تقليديًا "الإستراتيجية В 1".

من الواضح أنه يمكن بناء الإستراتيجية B2 بنفس الطريقة تمامًا (الشكل 4.2).

نحن بحاجة إلى إيجاد الإستراتيجية المثلى S A * ، أي استراتيجية يتحول الحد الأدنى للمكافأة (لأي سلوك B) إلى حد أقصى. للقيام بذلك ، نقوم ببناء حد أدنى لمكاسب الإستراتيجيات B 1 ، B 2 ، أي الخط المكسور B 1 NB 2 الموضحة في الشكل. 4.2 بخط عريض. سيعبر هذا الحد الأدنى عن الحد الأدنى للمكافأة للاعب "أ" لأي من إستراتيجياته المختلطة ؛ تحدد النقطة N ، التي عندها يصل الحد الأدنى للربح إلى الحد الأقصى ، قرار اللعبة وسعرها. من السهل التحقق من أن إحداثيات النقطة N هي سعر اللعبة ν ، والإحداثيات الخاصة بها تساوي p 2 - تكرار تطبيق الإستراتيجية A 2 في الإستراتيجية المختلطة المثلى S A *.

في حالتنا ، تم تحديد قرار اللعبة من خلال نقطة تقاطع الاستراتيجيات. ومع ذلك ، لن يكون هذا هو الحال دائمًا ؛ في التين. يوضح الشكل 4.3 الحالة ، على الرغم من وجود تقاطع بين الاستراتيجيات ، يعطي الحل لكل من اللاعبين إستراتيجيات خالصة (A 2 و B 2) ، وسعر اللعبة ν = a 22. في هذه الحالة ، تحتوي المصفوفة على نقطة سرج ، ومن الواضح أن الإستراتيجية A 1 غير مربحة منذ ذلك الحين لأية استراتيجية خالصة للخصم ، تعطي ربحًا أقل من A2.

في الحالة التي يكون فيها الخصم لديه استراتيجية غير مواتية عن قصد ، يكون للتفسير الهندسي الشكل الموضح في الشكل. 4.4

في هذه الحالة ، يتطابق الحد الأدنى للمكافأة مع الإستراتيجية B 1 ، ومن الواضح أن الإستراتيجية B 2 غير مربحة للخصم.

يجعل التفسير الهندسي من الممكن تصور الأسعار المنخفضة والعليا للعبة (الشكل 4.5).

للتوضيح ، نقوم ببناء تفسيرات هندسية للألعاب 2 × 2 التي تم النظر فيها في الأمثلة 1 و 2 (الشكل 4.6 و 4.7).

لقد تأكدنا من إمكانية حل أي لعبة 2 × 2 بحيل أولية. يمكن حل أي لعبة 2xn بنفس الطريقة تمامًا. حيث لدينا استراتيجيتان فقط ، ويكون للعدو رقم عشوائي.

افترض أن لدينا استراتيجيتين: А 1 و А 2 واستراتيجيات العدو - n: В 1 ، В 2 ، ... ، В n. المصفوفة ‖a ij ‖ معطاة ؛ يتكون من صفين و n من الأعمدة. على غرار حالة الاستراتيجيتين ، نعطي المشكلة تفسيرًا هندسيًا ؛ يتم تمثيل استراتيجيات n للخصم بواسطة n خطوط مستقيمة (الشكل 4.8). نبني الحد الأدنى للمكاسب (الخط المكسور B 1 MNB 2) ونجد عليها النقطة N ذات الحد الأقصى للإحداثيات. هذه النقطة تعطي الحل للعبة (الإستراتيجية ) إحداثيات النقطة N تساوي سعر اللعبة ν ، والإحداثيات يساوي التردد p 2 للاستراتيجية A 2.

في هذه الحالة ، يتم الحصول على الإستراتيجية المثلى للخصم باستخدام مزيج من إستراتيجيتين "مفيدتين": B 2 و B 4 ، يتقاطعان عند النقطة N. من الواضح أن الإستراتيجية B 3 غير مربحة ، والاستراتيجية B 1 غير مربحة للاستراتيجية المثلى SA *. إذا التزم "أ" باستراتيجيته المثلى ، فلن تتغير المكافأة ، أيًا كانت إستراتيجياته "المفيدة" التي يستخدمها "ب" ، ومع ذلك ، فإنها ستتغير إذا انتقل "ب" إلى الإستراتيجيتين "ب" أو "ب" 3. في نظرية اللعبة ، ثبت أن أي لعبة محدودة mxn لها حل لا يتجاوز فيه عدد الاستراتيجيات "المفيدة" لأي من الجانبين ما لا يقل عن رقمين m و n. على وجه الخصوص ، يترتب على ذلك أن لعبة 2xm لديها دائمًا حل لا تشارك فيه أكثر من استراتيجيتين "مفيدتين" على كلا الجانبين.

باستخدام تفسير هندسي ، يمكن للمرء أن يعطي طريقة سهلة لحل أي لعبة 2xm. مباشرة من الرسم ، نجد زوجًا من الإستراتيجيات "المفيدة" للخصم B j و B k ، تتقاطع عند النقطة N (إذا تقاطعت أكثر من استراتيجيتين عند النقطة N ، فإننا نأخذ أيًا منهما). نحن نعلم أنه إذا التزم اللاعب "أ" بإستراتيجيته المثلى ، فإن المكافأة لا تعتمد على النسبة التي يطبق فيها "ب" على إستراتيجياته "المفيدة" ، وبالتالي ،

من هذه المعادلات والشرط p 2 = 1 - p 1 ، نجد p1 و p2 وسعر اللعبة ν. بمعرفة سعر اللعبة ، يمكنك تحديد الإستراتيجية المثلى على الفور لهذا ، على سبيل المثال ، تم حل المعادلة التالية: qja 1 j + qka 1 k = ν ، حيث qj + qk = 1. في الحالة التي يكون لدينا فيها استراتيجيات m ، والعدو لديه اثنان فقط ، من الواضح أن المشكلة هي تم حلها بطريقة مماثلة تمامًا ؛ يكفي أن نلاحظ أنه من خلال تغيير إشارة الفوز إلى إشارة أخرى ، يمكن للمرء أن يحول اللاعب "أ" من "الفوز" إلى "الخسارة". يمكنك حل اللعبة دون تغيير العلامة الفائزة ؛ ثم يتم حل المشكلة مباشرة لـ B ، ولكن ليس الأدنى ، ولكن يتم إنشاء العائد الأعلى (الشكل 4.9). عند الحدود ، يتم البحث عن النقطة N ذات الحد الأدنى للإحداثيات ، وهي سعر اللعبة ν.

فكر في عدة أمثلة لألعاب 2 × 2 و 2 × 2 وحلها ، وهي أمثلة مبسطة للألعاب ذات الأهمية العملية.

مثال 3.يرسل الجانب أ قاذفتين قاذفتين إلى منطقة العدو ب أناو II; أنايطير في الأمام ، II- خلف. أحد المفجرين - ليس معروفًا مسبقًا أيهما - يجب أن يحمل القنبلة ، والآخر يعمل كمرافقة. في منطقة العدو ، يتم مهاجمة القاذفات من قبل مقاتلة من الجانب B. القاذفات مسلحة بمدافع بمعدلات مختلفة من النيران. إذا هاجم المقاتل المفجر الخلفي II، عندها فقط مدافع هذا المفجر تطلق النار عليها ؛ إذا هاجم الانتحاري الأمامي ، فإن مدافع كلا القاذفتين تطلق النار عليه. احتمال إصابة مقاتل في الحالة الأولى هو 0.3 ، في الحالة الثانية 0.7.

إذا لم يتم إسقاط المقاتل بنيران القصف الدفاعي ، فإنه يضرب الهدف الذي يختاره باحتمال 0.6. مهمة المفجرين هي حمل القنبلة إلى الهدف. مهمة المقاتل هي منع هذا ، أي اسقاط مفجر الناقل. مطلوب اختيار الاستراتيجيات المثلى للأطراف:

أ) بالنسبة للجانب أ: أي مفجر ينبغي استخدامه كناقل؟

ب) للجانب ب: أي مفجر يهاجم؟

حل. لدينا حالة بسيطة من لعبة 2 × 2 ؛ احتمالية الفوزعدم هزيمة الناقل. إستراتيجياتنا: أ 1 - ناقل - مفجر أنا؛ أ 2 - ناقل - مفجر II... استراتيجيات العدو: ب 1 - هجوم مفجر أنا؛ ب 2 - هجمات القاذفات II... لنؤلف مصفوفة اللعبة ، أي العثور على متوسط ​​العائد لكل مجموعة من الاستراتيجيات.

1.A 1 B 1 (الناقل أنا، يتعرض للهجوم أنا). لن يتم ضرب الحاملة إذا أسقطت القاذفات المقاتلة ، أو لم تسقط ، لكنها لن تصيب هدفها: 11 = 0.7 + 0.3 * 0.4 = 0.82.

2.A 2 B 1 (الناقل II، يتعرض للهجوم أنا). أ 21 = 1

3.A 1 B 2 (الناقل أنا، يتعرض للهجوم II). أ 12 = 1

4.A 2 B 2 (الناقل II، يتعرض للهجوم II). أ 22 = 0.3 + 0.7 * 0.4 = 0.58

مصفوفة اللعبة لها الشكل:

أدنى سعر للعبة هو 0.82 ؛ أعلى سعر 1. ماتريكس ليس لها نقطة سرج ؛ نحن نبحث عن حل في مجال الاستراتيجيات المختلطة. نملك:

ص 1 * 0.82 + ص 2 * 1 =

ص 1 * 1 + ص 2 * 0.58 =

ص 1 = 0.7 ؛ ص 2 = 0.3

استراتيجيتنا المثلى هو ، بصفتك ناقلًا ، يجب أن تختار في كثير من الأحيان أنا، كيف II... سعر اللعبة ν = 0.874. بمعرفة ν ، نحدد q 1 و q 2 - ترددات الإستراتيجيتين B 1 و B 2 في الإستراتيجية المثلى للخصم S B *. لدينا: q 1 * 0.82 + q 2 * 1 = 0.874 و q 2 = 1 - q 1 ، حيث q 1 = 0.7 ؛ q 2 = 0.3 ، أي الاستراتيجية المثلى للخصم هي .

مثال 4.يهاجم الجانب "أ" الجسم ويدافع عنه الجانب "ب". الجانب أ له طائرتان ؛ الجانب ب لديه ثلاث مدافع مضادة للطائرات. كل طائرة تحمل سلاحا مدمرا قويا. من أجل إصابة الجسم ، يكفي أن تخترقه طائرة واحدة على الأقل. يمكن للطائرة الجانبية اختيار أي من الاتجاهات الثلاثة للاقتراب من المنشأة: أنا, II, ثالثا(الشكل 4.10). يمكن للعدو (الجانب ب) وضع أي من بنادقه في أي اتجاه ؛ في الوقت نفسه ، يطلق كل سلاح فقط مساحة الفضاء المتعلقة بالاتجاه المحدد ، ولا يطلق النار في الاتجاهات المجاورة. يمكن لكل بندقية إطلاق النار على طائرة واحدة فقط ؛ إصابة الطائرة التي تم إطلاقها باحتمال 1. لا يعرف الجانب "أ" مكان وجود المدافع ؛ لا يعرف الجانب B من أين ستأتي الطائرات. مهمة الجانب أ هي ضرب الكائن ؛ مهمة الجانب B هي منع هزيمته. ابحث عن حل للعبة.

حل. اللعبة عبارة عن لعبة 2 × 3. المردود هو احتمال اصطدام الجسم. استراتيجياتنا المحتملة هي: أ 1 - إرسال طائرة واحدة في كل مرة في اتجاهين مختلفين. و 2 - إرسال كلا الطائرتين في نفس الاتجاه. استراتيجيات العدو: ب 1 - ضع سلاحًا واحدًا في كل اتجاه ؛ في 2 - ضع بندقيتين في اتجاه واحد وواحد في الآخر ؛ في 3 - ضع جميع البنادق الثلاثة في نفس الاتجاه. نقوم بتكوين مصفوفة اللعبة.

1.A 1 B 1 (تحلق الطائرات على طول اتجاهات مختلفة؛ يتم وضع البنادق واحدًا تلو الآخر). من الواضح ، في هذه الحالة ، أنه لن يخترق مستوى واحد الكائن: أ 11 = 0.

2. А 2 1 (تطير الطائرات معًا في نفس الاتجاه ؛ يتم وضع المدافع واحدة تلو الأخرى). من الواضح ، في هذه الحالة ، أن طائرة واحدة ستنتقل إلى الجسم دون إطلاق النار: 21 = 1.

3. А 1 2 (تطير الطائرات واحدة تلو الأخرى ؛ العدو يدافع عن اتجاهين ويترك الثالث بدون حماية). إن احتمال اختراق مستوى واحد على الأقل للكائن يساوي احتمال أن يختار أحدهما اتجاهًا غير محمي: a 12 = 2/3.

4. А 2 В 2 (تطير الطائرات معًا في نفس الاتجاه ؛ العدو يدافع عن اتجاه واحد بمدفعين والآخر بواحد ، أي يدافع في الواقع عن اتجاه واحد ويترك اثنتين بدون حماية). إن احتمال اختراق مستوى واحد على الأقل للكائن يساوي احتمال اختيار زوج من المستويات لاتجاه غير محمي فعليًا: أ 22 = 2/3.

5. A 1 B 3 (الطائرات تطير واحدة تلو الأخرى ؛ العدو يدافع عن اتجاه واحد فقط بثلاث بنادق): 13 = 1.

6. А 2 3 (كلا الطائرتين تطيران معًا ؛ العدو يدافع عن اتجاه واحد فقط بثلاث بنادق). لكي يتم ضرب الجسم ، يجب أن تختار الطائرة اتجاهًا غير محمي: أ 23 = 2/3.

مصفوفة اللعبة:

يمكن أن نرى من المصفوفة أن الإستراتيجية В 3 غير مواتية بشكل واضح بالمقارنة مع В 2 (كان من الممكن حل هذا مسبقًا). وضع إستراتيجية في 3 ، يتم تقليل اللعبة إلى لعبة 2 × 2:

المصفوفة لها نقطة سرج: السعر السفلي للعبة 2/3 يتزامن مع السعر الأعلى. في الوقت نفسه ، نلاحظ أنه بالنسبة لنا (أ) من الواضح أن الإستراتيجية أ 1 غير مربحة. الخلاصة: يجب أن يستخدم كلا الجانبين "أ" و "ب" دائمًا إستراتيجيتهما النقية A 2 و B 2 ، أي يجب أن نرسل الطائرات بمقدار 2 ، ونختار عشوائيًا الاتجاه الذي يتم إرسال الزوج فيه ؛ يجب أن يضع الخصم أسلحته بالطريقة التالية: اثنان في اتجاه واحد ، وواحد في الآخر ، ويجب أيضًا اختيار هذه الاتجاهات بشكل عشوائي (هنا ، كما نرى ، تتضمن "الاستراتيجيات النقية" بالفعل عنصر الصدفة) . بتطبيق هذه الاستراتيجيات المثلى ، سنحصل دائمًا على متوسط ​​عائد ثابت قدره 2/3 (أي أن الكائن سيُضرب باحتمال 2/3). لاحظ أن الحل الذي تم العثور عليه للعبة ليس هو الحل الوحيد ؛ بالإضافة إلى الحل في الاستراتيجيات البحتة ، هناك قسم كامل من الاستراتيجيات المختلطة للاعب A ، والتي تعتبر مثالية ، من p 1 = 0 إلى p 1 = 1/3 (الشكل 4.11).

من السهل ، على سبيل المثال ، التأكد بشكل مباشر من الحصول على نفس متوسط ​​العائد البالغ 2/3 إذا طبقنا استراتيجيتنا A1 و A2 بنسب 1/3 و 2/3.

مثال 5.نفس الظروف كما في المثال السابق ، لكن لدينا أربعة اتجاهات للهجوم ، وللعدو أربعة أسلحة.

حل.لا يزال لدينا استراتيجيتان محتملتان: 1 - إرسال طائرات واحدة في كل مرة ، و A 2 - أرسل طائرتين معًا. لدى العدو خمس استراتيجيات ممكنة: B 1 - ضع سلاحًا واحدًا في كل اتجاه ؛ في 2 - ضع بندقيتين في اتجاهين مختلفين ؛ في 3 - ضع بندقيتين في اتجاه واحد وواحد تلو الآخر في الاتجاهين الآخرين ؛ في 4 ، ضع ثلاث بنادق في اتجاه واحد وواحد في الآخر ؛ في الساعة 5 - ضع جميع البنادق الأربعة في نفس الاتجاه. سيتم تجاهل الإستراتيجيتين B 4 و B 5 مقدمًا حيث من الواضح أنها غير مربحة. التفكير بشكل مشابه للمثال السابق ، نقوم ببناء مصفوفة اللعبة:

سعر اللعبة الأدنى هو 1/2 ، والسعر العلوي هو 3/4. لا تحتوي المصفوفة على نقطة سرج ؛ الحل يكمن في مجال الاستراتيجيات المختلطة. باستخدام التفسير الهندسي (الشكل 4.12) ، دعونا نفرد الاستراتيجيات "المفيدة" للعدو: B 1 و B 2.

يتم تحديد الترددات p 1 و p 2 من المعادلات: p 1 * 0 + (1 - p 1) * 1 = و p 1 * 5/6 + (1 - p 1) * 1/2 = ؛ من أين ص 1 = 3/8 ؛ ص 2 = 5/8 ؛ ν = 5/8 ، أي استراتيجيتنا المثلى ... باستخدامه ، نضمن لأنفسنا أرباحًا متوسطة تبلغ 5/8. بمعرفة سعر اللعبة ν = 5/8 ، نجد التكرارات q 1 و q 2 لاستراتيجيات الخصم "المفيدة": q 1 * 0 + (1 - q 1) * 5/6 = 5/8، q 1 = ¼ ، ف 2 = ¾. الاستراتيجية المثلى للعدو هي: .

مثال 6.الجانب أ لديه استراتيجيتان A 1 و A 2 ، والجانب B له أربع استراتيجيات B 1 و B 2 و B 3 و B 4. مصفوفة اللعبة لها الشكل:

ابحث عن حل للعبة.

حل. انخفاض سعر اللعبة 3 ؛ أعلى 4. يوضح التفسير الهندسي (الشكل 4.13) أن الاستراتيجيات المفيدة للاعب B هي B 1 و B 2 أو B 2 و B 4:

يمتلك اللاعب "أ" عددًا لا نهائيًا من الاستراتيجيات المختلطة المثلى: في الإستراتيجية المثلى ، يمكن أن تختلف p 1 من 1/5 إلى 4/5. سعر اللعبة ν = 4. اللاعب B لديه استراتيجية مثالية خالصة B 2.

§ 5. الطرق الشائعةحلول نهاية اللعبة

حتى الآن ، نظرنا فقط في أكثر الألعاب الابتدائية من النوع 2xn ، والتي يمكن حلها بسهولة بالغة وتتيح تفسيرًا هندسيًا مريحًا وبديهيًا. في الحالة العامة ، يعد حل لعبة mxn مشكلة صعبة إلى حد ما ، ويزداد تعقيد المشكلة ومقدار الحسابات المطلوبة لحلها بشكل كبير مع زيادة m و n. ومع ذلك ، فإن هذه الصعوبات ليست ذات طبيعة أساسية ولا ترتبط إلا بكمية كبيرة جدًا من الحسابات ، والتي قد تكون في بعض الحالات غير عملية عمليًا. يبقى الجانب الأساسي لطريقة إيجاد حل كما هو بالنسبة لأي م.

دعنا نوضح ذلك بمثال لعبة 3xn. دعونا نعطيها تفسيرًا هندسيًا - تفسيرًا مكانيًا بالفعل. يتم تمثيل استراتيجياتنا الثلاث A 1 و A 2 و A 3 بثلاث نقاط على المستوى هوي؛ الأول يكمن في الأصل (الشكل 5.1) ، والثاني والثالث - على المحاور أوهو OUعلى مسافة 1 من البداية.

يتم رسم المحاور من خلال النقاط A 1 و A 2 و A 3 أناأنا, IIIIو ثالثاثالثاعمودي على المستوى هوي... على المحور أناأنايتم إيداع المكافآت مع الإستراتيجية A 1 على المحاور IIIIو ثالثاثالثا- المكاسب مع الإستراتيجيات أ 2 ، أ 3. يتم تصوير كل إستراتيجية للعدو B j بواسطة طائرة تقطع على المحاور أناأنا, IIIIو ثالثاثالثاشرائح تساوي المكافآت للاستراتيجيات المقابلة A 1 و A 2 و A 3 والاستراتيجية B j. بعد بناء كل استراتيجيات العدو ، نحصل على عائلة من الطائرات فوق المثلث A 1 و A 2 و A 3 (الشكل 5.2). بالنسبة لهذه العائلة ، من الممكن أيضًا إنشاء حد منخفض للمكافأة ، كما فعلنا في حالة 2xn ، ونجد في هذه الحدود نقطة N مع أقصى ارتفاعفوق الطائرة هوي... سيكون هذا الارتفاع هو تكلفة اللعبة.

سيتم تحديد الترددات p 1 و p 2 و p 3 للاستراتيجيات A 1 و A 2 و A 3 في الاستراتيجية المثلى SA * من خلال إحداثيات (x ، y) للنقطة N ، وهي: p 2 = x ، p 3 = ص ، ف 1 = 1 - ف 2 - ص 3. ومع ذلك ، فإن مثل هذا البناء الهندسي ، حتى بالنسبة لحالة 3xn ، ليس من السهل تنفيذه ويتطلب الكثير من الوقت والجهد من الخيال. ومع ذلك ، في الحالة العامة للعبة ، يتم نقلها إلى فضاء البعد m وتفقد كل الوضوح ، على الرغم من أن استخدام المصطلحات الهندسية في عدد من الحالات قد يكون مفيدًا. عند حل ألعاب mxn ، من الأفضل عمليًا استخدام ليس المقارنات الهندسية ، ولكن الأساليب التحليلية الحسابية ، خاصة وأن هذه الطرق هي الوحيدة المناسبة لحل مشكلة على أجهزة الكمبيوتر.

تتلخص كل هذه الطرق أساسًا في حل مشكلة عن طريق التجارب المتتالية ، لكن ترتيب تسلسل التجارب يسمح لك ببناء خوارزمية تؤدي إلى حل بأكثر الطرق اقتصادا. هنا سوف نتناول بإيجاز طريقة حسابية واحدة لحل ألعاب mxn - ما يسمى بطريقة "البرمجة الخطية". لهذا ، نعطي أولاً بيانًا عامًا لمشكلة إيجاد حل للعبة mxn. دع لعبة mxn مع استراتيجيات m A 1 ، A 2 ، ... ، A m من استراتيجيات اللاعب A و n B 1 ، B 2 ، ... ، B n للاعب B يتم إعطاء مصفوفة المكافأة ‖a i j ‖. مطلوب إيجاد حل للعبة ، أي استراتيجيتان مختلطتان مثاليتان للاعبين "أ" و "ب"

حيث p 1 + p 2 + ... + p m = 1 ؛ q 1 + q 2 +… + q n = 1 (قد تكون بعض الأرقام p i و q j مساوية للصفر).

يجب أن تزودنا إستراتيجيتنا المثلى S A * بمكافأة لا تقل عن لأي سلوك للخصم ، ومكافأة تساوي ν لسلوكه الأمثل (الإستراتيجية S B *). وبالمثل ، يجب أن توفر الإستراتيجية S B * للخصم خسارة لا تتجاوز ν لأي من سلوكنا وتساوي لسلوكنا الأمثل (الإستراتيجية S A *).

قيمة سعر اللعبة ν في هذه الحالة غير معروفة لنا ؛ سنفترض أنها تساوي البعض رقم موجب، عدد إيجابي... وبإيماننا بذلك ، فإننا لا نخالف عمومية الاستدلال ؛ بالنسبة إلى ν> 0 ، من الواضح أنه يكفي أن تكون جميع عناصر المصفوفة a i j ‖ غير سالبة. يمكن تحقيق ذلك دائمًا عن طريق إضافة قيمة موجبة كبيرة إلى العناصر a i j إل؛ بينما سيرتفع سعر اللعبة بمقدار إلولن يتغير القرار.

لنفترض أننا اخترنا استراتيجيتنا المثلى S A *. بعد ذلك ، سيكون متوسط ​​مردودنا مع استراتيجية الخصم B j هو: a j = p 1 a 1j + p 2 a 2j +… + p m a mj. استراتيجيتنا المثلى S A * لها خاصية أنه لأي سلوك للخصم ، فإنها توفر عائدًا لا يقل عن ν ؛ لذلك ، لا يمكن أن يكون أي من الأرقام a j أقل من. نحصل على عدد من الشروط:

نقسم المتباينات (5.1) بقيمة موجبة ν ونشير إليها

ثم يمكن كتابة الشروط (5.1) في النموذج

حيث ξ 1 ، ξ 2 ، ... ، م أرقام غير سالبة. بما أن р 1 + p 2 +… + p m = 1 ، فإن الكميات ξ 1 ، ξ 2 ، ... ، m تفي بالشرط

(5.3) ξ 1 + ξ 2 + ... + م = 1 / ν.

نريد أن نجعل أرباحنا المضمونة قدر الإمكان ؛ من الواضح ، في نفس الوقت الجزء الصحيحالمساواة (5.3) تأخذ قيمة دنيا. وبالتالي ، يتم تقليل مشكلة إيجاد حل للعبة إلى المشكلة الرياضية التالية: تحديد القيم غير السالبة ξ 1 ، ξ 2 ، ... ، ξ م شروطًا مرضية (5.2) بحيث يكون مجموعها Φ = 1 + 2 +… + m كان الحد الأدنى.

عادة ، عند حل المشكلات المرتبطة بإيجاد القيم القصوى (الحد الأقصى والحد الأدنى) ، يتم تمييز الدالة وتعادل المشتقات الصفر. لكن مثل هذه التقنية غير مجدية في هذه الحالة ، لأن الوظيفة Φ ، التي يجب تخفيضها إلى الحد الأدنى ، خطية ، ومشتقاتها فيما يتعلق بجميع الحجج تساوي الوحدة ، أي لا تتلاشى في أي مكان. وبالتالي ، يتم الوصول إلى الحد الأقصى للدالة في مكان ما على حدود نطاق تباين الوسائط ، والذي يتم تحديده من خلال شرط عدم سلبية الحجج والشروط (5.2). طريقة إيجاد القيم القصوى عن طريق التفاضل غير مناسبة أيضًا في تلك الحالات عندما يتم تحديد الحد الأقصى من الحد الأدنى (أو الحد الأدنى من الحد الأعلى) للمكافأة لحل اللعبة ، كما فعلنا ، على سبيل المثال ، عند حل اللعبة. ألعاب 2xn. في الواقع ، يتكون الحد الأدنى من أقسام من خطوط مستقيمة ، ولا يتم الوصول إلى الحد الأقصى عند النقطة التي يكون فيها المشتق صفرًا (لا توجد مثل هذه النقطة على الإطلاق) ، ولكن عند حدود الفاصل الزمني أو عند نقطة التقاطع من المقاطع المستقيمة.

لحل مثل هذه المشكلات ، الشائعة جدًا في الممارسة ، تم تطوير جهاز برمجة خطي خاص في الرياضيات. يتم طرح مشكلة البرمجة الخطية على النحو التالي. يتم إعطاء نظام المعادلات الخطية:

مطلوب إيجاد القيم غير السالبة للكميات ξ 1 ، ξ 2 ، ... ، ξ م شروط مرضية (5.4) وفي نفس الوقت تقليل الدالة الخطية المتجانسة المعطاة للكميات ξ 1 ، ξ 2 ، ... ، م (شكل خطي): Φ = ص 1 ξ 1 + ص 2 ξ 2 + ... + سم ξ م

من السهل التحقق من أن المشكلة المذكورة أعلاه لنظرية اللعبة هي حالة خاصة لمشكلة البرمجة الخطية لـ c 1 = c 2 =… = cm = 1. للوهلة الأولى ، قد يبدو أن الشروط (5.2) لا تعادل الشروط (5.4) ، لأنها تحتوي على علامات عدم المساواة بدلاً من علامات التساوي. ومع ذلك ، من السهل التخلص من علامات عدم المساواة عن طريق إدخال متغيرات خيالية غير سالبة جديدة z 1 ، z 2 ، ... ، z n وشروط الكتابة (5.2) في النموذج:

الشكل Φ الذي يجب تصغيره هو Φ = ξ 1 + ξ 2 + ... + م. يجعل جهاز البرمجة الخطية من الممكن تحديد القيم ξ 1، ξ 2، ...، m التي تفي بالمتطلبات المذكورة عن طريق عدد صغير نسبيًا من العينات المتتالية. لمزيد من الوضوح ، سنوضح هنا استخدام هذا الجهاز مباشرة على مادة حل ألعاب معينة.

مثال 1.مطلوب إيجاد حل للعبة 3 × 3 ، كما هو موضح في المثال 2 الفقرة 1 ، مع المصفوفة:

لجعل كل ij غير سالبة ، نضيف إلى جميع عناصر المصفوفة L = 5. نحصل على المصفوفة:

في هذه الحالة ، سيرتفع سعر اللعبة بمقدار 5 ، ولن يتغير القرار.

دعونا نحدد الاستراتيجية المثلى S A *. الشروط (5.2) لها النموذج:

حيث ξ 1 = ص 1 / ν ، ξ 2 = ص 2 / ν ، ξ 3 = ص 3 /. للتخلص من علامات عدم المساواة ، نقدم المتغيرات الوهمية z 1، z 2، z 3؛ ستتم كتابة الشروط (5.6) في النموذج:

الصيغة الخطية Φ لها الشكل: Φ = ξ 1 + ξ 2 + ξ 3 ويجب أن تكون صغيرة قدر الإمكان. إذا كانت الإستراتيجيات الثلاث B "مفيدة" ، عندئذٍ تختفي جميع المتغيرات الوهمية الثلاثة z 1 ، z 2 ، z 3 (على سبيل المثال ، سيتم تحقيق مكافأة مساوية لسعر اللعبة ν لكل إستراتيجية B j). ولكن ما زلنا لا نملك سببًا للقول إن الاستراتيجيات الثلاث جميعها "مفيدة". للتحقق من ذلك ، سنحاول التعبير عن الصيغة Φ بدلالة المتغيرات الوهمية z 1 و z 2 و z 3 ومعرفة ما إذا كان بإمكاننا تحقيق الحد الأدنى للصيغة بافتراض أنها تساوي صفرًا. للقيام بذلك ، نحل المعادلات (5.7) فيما يتعلق بالمتغيرات 1، ξ 2، ξ 3 (أي أننا نعبر عن ξ 1، ξ 2، ξ 3 بدلالة المتغيرات الوهمية z 1، z 2، z 3 ):

بإضافة ξ 1 ، ξ 2 ، ξ 3 ، نحصل على: Φ = 1/5 + z 1/20 + z 2/10 + z 3/20. هنا معاملات كل z موجبة ؛ ومن ثم ، فإن أي زيادة في z 1 ، و z 2 ، و z 3 فوق الصفر يمكن أن تؤدي فقط إلى زيادة في الصورة Φ ، ونريدها أن تكون في حدها الأدنى. لذلك ، فإن القيم z 1 ، z 2 ، z 3 التي تجعل الشكل Φ إلى الحد الأدنى هي z 1 = z 2 = z 3 = 0. لذلك ، فإن الحد الأدنى لقيمة النموذج Φ هو: 1 / ν = 1 / 5 ، ومن أين سعر اللعبة ν = 5. استبدال القيم الصفرية z 1 ، z 2 ، z 3 في الصيغ (5.8) ، نجد: ξ 1 = 1/20 ، ξ 2 = 1/10 ، ξ 3 = 1/20 ، أو ضربهم في ν ، ص 1 = 1/4 ، ص 2 = 1/2 ، ص 3 = 1/4. وهكذا ، تم العثور على الإستراتيجية المثلى أ: ، بمعنى آخر. يجب أن نكتب الرقم 1 في ربع الحالات جميعًا ، و 2 في نصف الحالات ، و 3 في الربع المتبقي من الحالات.

معرفة سعر اللعبة ν = 5 ، يمكن للمرء بالفعل الطرق المعروفةالعثور على الاستراتيجية المثلى للعدو ... للقيام بذلك ، سوف نستخدم أي استراتيجيتين "مفيدتين" لدينا (على سبيل المثال ، A 2 و A 3) ونكتب المعادلات:

9 س 1 + 11 (1 - ف 2 - س 1) = 5 ،

من أين q 1 = q3 = 1/4 ؛ ف 2 = 1/2. ستكون الإستراتيجية المثلى للعدو هي نفس إستراتيجيتنا: ... الآن دعنا نعود إلى اللعبة الأصلية (غير المعدلة). للقيام بذلك ، من الضروري فقط طرح القيمة L = 5 المضافة إلى عناصر المصفوفة من سعر اللعبة ν = 5. نحصل على سعر اللعبة الأصلية v 0 = 0. لذلك ، توفر الاستراتيجيات المثلى لكلا الطرفين متوسط ​​عائد يساوي الصفر ؛ اللعبة مفيدة أو غير مواتية للطرفين على حد سواء.

مثال 2.للنادي الرياضي A ثلاثة خيارات لتكوين الفريق A 1 و A 2 و A 3. النادي B - أيضًا في ثلاثة خيارات B 1 و B 2 و B 3. عند التقدم للمشاركة في المسابقة ، لا يعرف أي من الأندية التشكيلة التي سيختارها الخصم. احتمالات فوز نادي A في خيارات مختلفةيتم تقديم الاصطفافات ، المعروفة تقريبًا من تجربة الاجتماعات السابقة ، من خلال المصفوفة:

اكتشف عدد المرات التي يجب أن تلعب فيها الأندية كل فريق ضد بعضها البعض من أجل تحقيق أعلى متوسط ​​لعدد الانتصارات.

حل. أقل سعر للعبة هو 0.4 ؛ أعلى 0.6 ؛ نحن نبحث عن حل في مجال الاستراتيجيات المختلطة. حتى لا نتعامل مع الكسور ، نضرب جميع عناصر المصفوفة في 10 ؛ في هذه الحالة سيرتفع سعر اللعبة 10 مرات ولن يتغير القرار. نحصل على المصفوفة:

الشروط (5.5) لها النموذج:

والشرط الأدنى Φ = 1 + 2 + 3 = دقيقة.

تحقق مما إذا كانت الاستراتيجيات الثلاث للخصم "مفيدة". كفرضية ، نفترض أولاً أن المتغيرات الوهمية z 1 ، z 2 ، z 3 تساوي صفرًا ، وللتحقق نحل المعادلات (5.10) لـ ξ 1 ، ξ 2 ، ξ 3:

(5.12) 136Φ = 30 + 13z 1 + 18z 2-51z 3

توضح الصيغة (5.12) أن الزيادة في المتغيرين z 1 و z 2 بالمقارنة مع القيمة المفترضة للصفر يمكن أن تزيد فقط Φ ، بينما الزيادة في z 3 يمكن أن تنقص Φ. ومع ذلك ، يجب أن تتم الزيادة في z 3 بعناية حتى لا تصبح القيم ξ 1 ، ξ 2 ، ξ 3 ، اعتمادًا على z 3 ، سالبة في هذه الحالة. لذلك ، على الجانب الأيمن من المساواة (5.11) ، نقوم بتعيين القيمتين z 1 و z 2 تساوي الصفر ، وسنزيد القيمة z 3 إلى الحدود المسموح بها (حتى أي من القيم ξ 1 ، ξ 2 ، ξ 3 تختفي). من المساواة الثانية (5.11) يتضح أن الزيادة في z 3 "آمنة" للقيمة ξ 2 - فهي تزيد فقط من هذا. بالنسبة للكميتين 1 و ξ 3 ، فإن الزيادة في z 3 ممكنة فقط حتى حد معين. الكمية ξ 1 تختفي عند z 3 = 10/23 ؛ الكمية ξ 3 تختفي في وقت سابق ، بالفعل عند z 3 = 1/4. لذلك ، بإعطاء z 3 أقصى قيمة مسموح بها لها z 3 = 1/4 ، سنكون صفرًا في هذه الحالة بقيمة ξ 3.

للتحقق مما إذا كان النموذج Φ يصبح الحد الأدنى عند z 1 = 0 ، z 2 = 0 ، ξ 3 = 0 ، نعبر عن المتغيرات المتبقية (غير الصفرية) بدلالة ما يفترض أنه صفر z 1 ، z 2 ، ξ 3. حل المعادلات (5.10) فيما يتعلق ξ 1 و ξ 2 و z 3 ، نحصل على:

(5.13) 32Φ = 7 + z 1 + 4z 2 + ξ 3

يتضح من الصيغة (5.13) أن أي زيادة في z 1 ، z 2 ، ξ 3 على قيم الصفر المفترضة يمكن أن تزيد فقط من شكل Φ. لذلك ، تم العثور على الحل للعبة. يتم تحديده بالقيم z 1 = z 2 = ξ 3 = 0 ، حيث ξ 1 = 1/32 ، ξ 2 = 3/16 ، z 3 = 1/4. بالتعويض بالصيغة (5.13) ، نجد سعر اللعبة ν: 32Φ = 7 = 32 / ν ؛ ν = 32/7. استراتيجيتنا المثلى: ... ينبغي تطبيق الاستراتيجيات "المفيدة" (التركيبات A 1 و A 2) على الترددين 1/7 و 6/7 ؛ تكوين أ 3 - لا تنطبق أبدا.

للعثور على الإستراتيجية المثلى للخصم ، في الحالة العامة ، يمكنك القيام بما يلي: تغيير علامة المكافأة إلى العكس ، وإضافة قيمة ثابتة L إلى عناصر المصفوفة لجعلها غير سالبة ، وحلها المشكلة للخصم بنفس الطريقة التي حلناها بأنفسنا. ومع ذلك ، فإن حقيقة أننا نعرف بالفعل سعر اللعبة يبسط المشكلة إلى حد ما. بالإضافة إلى ذلك ، في هذه الحالة بالذات ، يتم تبسيط المهمة بشكل أكبر من خلال حقيقة أن استراتيجيتين فقط "مفيدتين" للخصم ، B 1 و B 2 ، تشارك في الحل ، لأن قيمة z 3 لا تساوي الصفر ، وبالتالي ، مع الإستراتيجية B 3 ، لا يتم الوصول إلى سعر اللعبة ... عند اختيار أي استراتيجية "مفيدة" للاعب A ، على سبيل المثال A 1 ، يمكن للمرء أن يجد الترددين q 1 و q 2. للقيام بذلك ، نكتب المعادلة 8q 1 + 2 (1 - q 1) = 32/7 ، حيث q 1 = 3/7 ، q 2 = 4/7 ؛ الاستراتيجية المثلى للعدو ستكون: ، بمعنى آخر. يجب ألا يستخدم العدو التركيبة B 3 ، ويجب استخدام التكوينات B 1 و B2 مع الترددات 3/7 و 4/7.

بالعودة إلى المصفوفة الأصلية ، نحدد القيمة الحقيقية للعبة ν 0 = 32/7: 10 = 0.457. هذا يعني أن عدد كبيرالاجتماعات - عدد الانتصارات للنادي "أ" سيكون 0.457 من إجمالي الاجتماعات.

§ 6. الطرق التقريبية لحل الألعاب

في كثير من الأحيان ، في المشاكل العملية ، ليست هناك حاجة لإيجاد حل دقيق للعبة ؛ يكفي إيجاد حل تقريبي يعطي عائدًا متوسطًا قريبًا من سعر اللعبة. يمكن الحصول على معرفة تقريبية بقيمة اللعبة من خلال تحليل بسيط للمصفوفة وتحديد أسعار اللعبة (α) والعليا (β). إذا كانت α و متقاربتين ، فلن تكون هناك حاجة عمليًا للبحث عن حل دقيق ، ولكن سيكون كافياً اختيار استراتيجيات minimax الخالصة. في الحالات التي لا تكون فيها α و متقاربة ، يمكن للمرء الحصول على حل عملي باستخدام الطرق العددية لحل الألعاب ، والتي نبرز منها بإيجاز طريقة التكرار.

الفكرة من وراء طريقة التكرار هي كما يلي. يتم إجراء "تجربة فكرية" حيث يستخدم الخصوم "أ" و "ب" استراتيجياتهم ضد بعضهم البعض. تتكون التجربة من سلسلة من الألعاب الابتدائية ، لكل منها مصفوفة لعبة معينة. يبدأ بحقيقة أننا (اللاعب A) نختار بشكل تعسفي إحدى استراتيجياتنا ، على سبيل المثال ، A i. العدو يستجيب لذلك باستراتيجيته BJ ، وهي أقل فائدة لنا ، أي. يحول مردود الإستراتيجية أ إلى الحد الأدنى. نرد على هذه الحركة باستراتيجيتنا А k ، والتي تعطي أقصى متوسط ​​عائد عندما يستخدم الخصم الإستراتيجية B j. علاوة على ذلك - مرة أخرى حان دور العدو. إنه يستجيب لزوج الحركات لدينا A i و A k باستراتيجيته B j ، والتي تعطينا أصغر متوسط ​​عائد لهاتين الإستراتيجيتين (A i و A k) وهكذا. في كل خطوة من خطوات العملية التكرارية ، يستجيب كل لاعب لأي حركة يقوم بها اللاعب الآخر بإستراتيجيته الخاصة التي تعتبر مثالية بالنسبة لجميع حركاته السابقة ، والتي تُعتبر نوعًا من الإستراتيجية المختلطة ، حيث يتم تقديم إستراتيجيات خالصة بنسب تتوافق مع وتيرة تطبيقها.

هذه الطريقة ، كما كانت ، هي نموذج "تدريب" عملي حقيقي للاعبين ، عندما يقوم كل منهم بالتحقيق التجريبي في سلوك العدو ومحاولة الرد عليه بطريقة مفيدة لنفسه. إذا استمر مثل هذا التقليد لعملية التعلم لفترة كافية ، فإن متوسط ​​العائد لكل زوج واحد من الحركات (لعبة أولية) سيميل إلى سعر اللعبة ، والترددات p 1 ... p m ؛ q 1 ... q n ، التي تلتقي بها استراتيجيات اللاعبين في هذا الرالي ، ستقترب من الترددات التي تحدد الاستراتيجيات المثلى. تظهر الحسابات أن تقارب الطريقة بطيء جدًا ، لكن هذا لا يمثل عقبة أمام آلات الحساب عالية السرعة.

دعنا نوضح تطبيق الطريقة التكرارية باستخدام مثال لعبة 3 × 3 التي تم حلها في المثال 2 من القسم السابق. اللعبة معطاة من المصفوفة:

يوضح الجدول 6.1 أول 18 خطوة من العملية التكرارية. يحتوي العمود الأول على رقم اللعبة الابتدائية (زوج من الحركات) ن؛ في الثاني - الرقم أناالإستراتيجية المختارة للاعب "أ" ؛ في الثلاثة المقبلة - "المكاسب المتراكمة" لأول مرة نألعاب باستراتيجيات العدو B 1 ، B 2 ، B 3. يتم وضع خط تحتها أصغر هذه القيم. بعد ذلك يأتي الرقم يالإستراتيجية التي اختارها العدو ، وبالتالي المكسب المتراكم لـ نألعاب للاستراتيجيات A 1 ، A 2 ، A 3 من هذه القيم ، يتم وضع خط فوق الحد الأقصى من الأعلى. تحدد القيم التي تحتها خط اختيار استراتيجية الاستجابة للاعب الآخر. توضح الرسوم البيانية التالية بالتسلسل: الحد الأدنى لمتوسط ​​العائد ، يساوي الحد الأدنى للمكافأة المتراكمة مقسومًا على عدد الألعاب ن؛ الحد الأقصى لمتوسط ​​المكاسب يساوي الحد الأقصى للأرباح المتراكمة مقسومًا على ن، والمتوسط ​​الحسابي ν * = (ν +) / 2. عند زيادة نجميع الكميات الثلاثة ν ، و ν * ستقترب من سعر اللعبة ، لكن القيمة ν * ، بطبيعة الحال ، ستقترب منها بشكل أسرع نسبيًا.

الجدول 6.1.

كما ترون من المثال ، فإن تقارب التكرارات بطيء للغاية ، ولكن مع ذلك ، حتى مثل هذه الحسابات الصغيرة تجعل من الممكن العثور على قيمة تقريبية لسعر اللعبة وكشف انتشار الاستراتيجيات "المفيدة". عند استخدام آلات الحساب ، تزداد قيمة الطريقة بشكل كبير. تتمثل ميزة الطريقة التكرارية لحل الألعاب في أن حجم الحسابات وتعقيدها ينموان بشكل ضعيف نسبيًا مع زيادة عدد الاستراتيجيات. مو ن.

§ 7. طرق حل بعض الألعاب اللانهائية

اللعبة اللانهائية هي لعبة يكون فيها جانب واحد على الأقل لديه عدد لا حصر له من الاستراتيجيات. الأساليب العامة لحل مثل هذه الألعاب لم يتم تطويرها بشكل كافٍ حتى الآن. ومع ذلك ، بالنسبة للممارسة ، قد تكون بعض الحالات الخاصة ذات أهمية ، والتي تقبل حلاً بسيطًا نسبيًا. خذ بعين الاعتبار لعبة الخصمين A و B ، ولكل منهما مجموعة لا حصر لها (غير معدودة) من الاستراتيجيات ؛ تتوافق هذه الاستراتيجيات مع اللاعب "أ" معان مختلفةالمتغير باستمرار المعلمة NSو - المعلمة في... في هذه الحالة ، بدلاً من المصفوفة ‖a ij ، يتم تحديد اللعبة من خلال وظيفة ما من وسيطتين متفاوتتين باستمرار أ (س ، ص)، والتي سوف نسميها وظيفة الدفع (لاحظ أن الوظيفة نفسها أ (س ، ص)لا يجب أن تكون مستمرة). وظيفة الفوز أ (س ، ص)يمكن تمثيلها هندسيًا ببعض الأسطح أ (س ، ص)فوق منطقة تغيير الحجج (س ، ص)(الشكل 7.1)

تحليل وظيفة المردود أ (س ، ص)يتم إجراء بشكل مشابه لتحليل مصفوفة الدفع. أولاً ، تم العثور على سعر أقل للعبة α ؛ لهذا تم تحديده لكل منهما NSالحد الأدنى من الوظائف أ (س ، ص)للجميع في: ، ثم يتم البحث عن الحد الأقصى لهذه القيم للجميع NS(ماكسيمين):

يتم تحديد السعر الأعلى للعبة (minimax) بنفس الطريقة:

ضع في اعتبارك الحالة عندما تكون α = β. نظرًا لأن قيمة اللعبة تكون دائمًا بين α و ، فإن قيمتها الإجمالية هي ν. المساواة α = β تعني أن السطح أ (س ، ص)لها نقطة سرج ، أي نقطة ذات إحداثيات x 0 ، y 0 ، عندها أ (س ، ص)هو الحد الأدنى في الوقت نفسه فيوالحد الأقصى NS(الشكل 7.2).

المعنى أ (س ، ص)عند هذه النقطة يكون سعر اللعبة ν: ν = أ (س 0 ، ص 0).وجود نقطة سرج يعني أن هذه اللعبة اللانهائية لها حل استراتيجي خالص ؛ س 0 ، ص 0تمثل الاستراتيجيات النقية المثلى A و B. في الحالة العامة ، عندما تكون α ≠ β ، يمكن أن يكون للعبة حل فقط في مجال الاستراتيجيات المختلطة (ربما ليس الحل الوحيد). الإستراتيجية المختلطة للألعاب اللانهائية هناك توزيع احتمالي للإستراتيجيات NSو فيتعتبر متغيرات عشوائية. يمكن أن يكون هذا التوزيع مستمرًا ويتم تحديده من خلال الكثافات F 1 (NS)و F 2 (ذ)؛ يمكن أن تكون منفصلة ، ومن ثم تتكون الاستراتيجيات المثلى من مجموعة من الاستراتيجيات البحتة المنفصلة المختارة مع بعض الاحتمالات غير الصفرية.

في حالة عدم وجود نقطة سرج للعبة لا نهائية ، يمكن تقديم تفسير هندسي مرئي لأسعار اللعبة المنخفضة والعليا. ضع في اعتبارك لعبة لا نهائية ذات وظيفة المكافأة أ (س ، ص)والاستراتيجيات س ، صملء أجزاء الخط بشكل مستمر (× 1 ، × 2)و (ص 1 ، ص 2)... لتحديد السعر الأدنى للعبة α ، تحتاج إلى "إلقاء نظرة" على السطح أ (س ، ص)من المحور في، بمعنى آخر. قم بإسقاطها على متن طائرة xOa(الشكل 7.3). نحصل على رقم محدد من الجانبين بخطوط مستقيمة x = x 1 و x = x 2 ، ومن أعلى وأسفل بالمنحنيين KB و K N ، من الواضح أن السعر الأقل للعبة α ليس أكثر من الحد الأقصى لإحداثيات المنحنى K N.

وبالمثل ، للعثور على السعر الأعلى للعبة ، يجب على المرء أن "ينظر" إلى السطح أ (س ، ص)من المحور NS(سطح المشروع إلى المستوى يو) وابحث عن الحد الأدنى للإحداثيات للحد الأعلى K في الإسقاط (الشكل 7.4).

ضع في اعتبارك مثالين أساسيين للألعاب التي لا نهاية لها.

مثال 1.لدى كل من اللاعبين A و B مجموعة لا حصر لها من الاستراتيجيات الممكنة NSو في، و 0 ≤ x ≤ 1 ؛ 0 ≤ y ≤ 1. يتم إعطاء دالة الدفع لـ a بالتعبير a (x، y) - (x - y) 2. ابحث عن حل للعبة.

الحل ، السطح أ (س ، ص) عبارة عن أسطوانة مكافئة (الشكل 7.5) وليس لها نقطة سرج. تحديد السعر الأدنى للعبة ؛ واضح للجميع NS؛ ومن ثم = 0. دعونا نحدد السعر الأعلى للعبة. للقيام بذلك ، نجد ثابتة في

في هذه الحالة ، يتم الوصول إلى الحد الأقصى دائمًا عند حدود الفاصل الزمني (عند x = 0 أو x = 1) ، أي إنها تساوي قيم y 2 ؛ (1 - ص) 2 ، أيهما أكبر. دعنا نرسم الرسوم البيانية لهذه الوظائف (الشكل 7.6) ، أي الإسقاط السطحي أ (س ، ص)على متن الطائرة يو... الخط الغامق في الشكل. يظهر 7.6 الوظيفة. من الواضح أنه تم الوصول إلى الحد الأدنى لقيمته عند y = 1/2 وتساوي 1/4. لذلك ، فإن السعر الأعلى للعبة هو β = 1/4. في هذه الحالة ، يتطابق السعر الأعلى للعبة مع سعر اللعبة. في الواقع ، يمكن للاعب A تطبيق إستراتيجية مختلطة S A = ، حيث يتم تضمين القيم القصوى x = 0 و x = 1 مع نفس الترددات ؛ إذن بالنسبة لأي إستراتيجية للاعب B ، فإن متوسط ​​العائد للاعب A سيكون مساويًا لـ: ½y 2 + ½ (1 - y) 2. من السهل التحقق من أن هذه الكمية لأي قيم فيبين 0 و 1 قيمة لا تقل عن ¼: ½y 2 + ½ (1 - y) 2 ≥ ¼.

وبالتالي ، يمكن للاعب "أ" ، باستخدام هذه الإستراتيجية المختلطة ، أن يضمن لنفسه مكافأة مساوية لسعر اللعبة الأعلى ؛ لأن سعر اللعبة لا يمكن أن يكون أكثر من السعر الأعلى إذن هذه الاستراتيجية S A الأمثل: S A = S A *.

يبقى العثور على الإستراتيجية المثلى للاعب "ب". من الواضح ، إذا كان سعر اللعبة يساوي السعر الأعلى للعبة ، فإن الإستراتيجية المثلى للاعب B ستكون دائمًا إستراتيجية الحد الأدنى الخالصة ، والتي تضمن له السعر الأعلى للعبة. في هذه الحالة ، هذه الاستراتيجية هي y 0 = ½. في الواقع ، مع هذه الإستراتيجية ، بغض النظر عما يفعله اللاعب "أ" ، لن تكون مكافأته أكبر من. هذا يتبع من المتباينة الواضحة (x - ½) 2 = x (x –1) + ¼ ≤ ¼

مثال 2.الجانب أ ("نحن") يطلق النار على الطائرات المعادية ب. من أجل التهرب من القصف ، يمكن للعدو المناورة ببعض الحمولة الزائدة في، والتي يمكنه ، حسب تقديره ، إرفاق قيم منها في= 0 (حركة مستقيمة) إلى في = فيالأعلى(رحلة في دائرة أقصى انحناء). نحن نفترض فيالأعلىوحدة القياس ، أي وضع فيالأعلى= 1. في القتال ضد العدو ، يمكننا استخدام أجهزة الرؤية بناءً على فرضية واحدة أو أخرى حول حركة الهدف أثناء طيران القذيفة. الزائد NSفي هذه المناورة الافتراضية ، يمكن افتراض أنها تساوي أي قيمة من 0 إلى 1. مهمتنا هي ضرب العدو ؛ مهمة العدو هي أن يبقى غير متأثر. احتمال تلف البيانات NSو فييتم التعبير عنها تقريبًا بالصيغة: أ (س ، ص) = , أين في- الحمولة الزائدة التي يستخدمها العدو ؛ س - الزائد يمثل في الأفق. مطلوب لتحديد الاستراتيجيات المثلى لكلا الطرفين.

حل. من الواضح أن حل اللعبة لا يتغير إذا حددنا p = 1. وظيفة المكافأة أ (س ، ص)يصور بالسطح الموضح في الشكل. 7.7

هذا سطح أسطواني تكون مولداته موازية لمنصف زاوية الإحداثيات هوي، والقسم بالمستوى العمودي على الشبكة المولدة هو منحنى من نوع منحنى التوزيع الطبيعي. باستخدام التفسير الهندسي لأسعار اللعبة الدنيا والعليا المقترحة أعلاه ، نجد β = 1 (الشكل 7.8) و (الشكل 7.9). اللعبة ليس لديها سرج نقطة. يجب البحث عن الحل في مجال الاستراتيجيات المختلطة. المشكلة تشبه إلى حد ما المشكلة في المثال السابق. في الواقع ، للقيم الصغيرة كتتصرف الوظيفة كدالة - (س - ص) 2، وسيتم الحصول على حل اللعبة إذا تم عكس أدوار اللاعبين A و B في حل المثال السابق ؛ أولئك. ستكون إستراتيجيتنا المثلى هي الإستراتيجية البحتة x = 1/2 ، وستكون الإستراتيجية المثلى للخصم SB = هي تطبيق الإستراتيجيات القصوى y = 0 و y = 1 بنفس الترددات.هذا يعني أنه في جميع الحالات يجب علينا استخدم التقاطع ، المصمم للحمل الزائد x = 1/2 ، ويجب ألا يستخدم العدو مناورة على الإطلاق في نصف جميع الحالات ، وفي النصف - أقصى مناورة ممكنة.

أرز. 7.8 التين. 7.9.

من السهل إثبات أن هذا الحل سيكون صالحًا للقيم k ≤ 2. في الواقع ، متوسط ​​العائد لاستراتيجية الخصم S B = ولإستراتيجيتنا NSالتي عبرت عنها الوظيفة , والتي بالنسبة للقيم k ≤ 2 لها حد أقصى واحد عند х = 1/2 ، وهو ما يساوي السعر الأدنى للعبة α. وبالتالي ، فإن تطبيق الإستراتيجية S B يضمن للخصم خسارة لا تتجاوز α ، والتي من خلالها يتضح أن α - السعر الأدنى للعبة - هو سعر اللعبة ν.

بالنسبة إلى k> 2 ، يكون للدالة a (x) حد أقصى (الشكل 7.10) ، يقعان بشكل متماثل بالنسبة إلى x = 1/2 عند النقطتين x 0 و 1 - x 0 ، وتعتمد قيمة x 0 على k .

من الواضح أن ك= 2 × 0 = 1 - س 0 = ½ ؛ عند الزيادة كالنقاط × 0 و 1 - × 0 تبتعد عن بعضها ، وتقترب من النقاط القصوى (0 و 1). لذلك ، سيعتمد قرار اللعبة على k. دعنا نضع قيمة محددة لـ k ، على سبيل المثال ، k = 3 ، ونجد حلاً للعبة ؛ لهذا نحدد الإحداثي x 0 للحد الأقصى للمنحنى a (x). معادلة بصفر مشتق الدالة a (x) ، نكتب المعادلة لتحديد x 0:

هذه المعادلة لها ثلاثة جذور: x = 1/2 (حيث يتم الوصول إلى الحد الأدنى) و x 0 ، 1 - x 0 ، حيث يتم الوصول إلى الحد الأقصى. لحل المعادلة عدديًا ، نجد تقريبًا x 0 ≈ 0.07 ؛ 1 - × 0 0.93.

دعنا نثبت أن حل اللعبة في هذه الحالة هو زوج الاستراتيجيات التالي:

بإستراتيجيتنا وإستراتيجية العدو فيمتوسط ​​المردود

أوجد الحد الأدنى 1 (y) عند 0< у < 1. Функция a 1 (y) симметрична относительно y = 1/2 и может иметь только один или два максимума; ее минимум, во всяком случае, достигается либо в середине отрезка (0, 1), либо на его концах. Полагая у = 0 (или у = 1), найдем

وضع y = 1/2 ، نحصل على

وهو أكبر من 1 (0) ؛ لذلك ، سعر اللعبة لا يقل عن 1 (0):

لنفترض الآن أن الخصم يستخدم الإستراتيجية S B * ، ونستخدم الإستراتيجية x. ثم سيكون متوسط ​​المردود

لكننا اخترنا x 0 تمامًا بحيث يتم الوصول إلى الحد الأقصى للتعبير (7.2) عند x = x 0 ؛ بالتالي،

أولئك. يمكن للخصم ، باستخدام الإستراتيجية S B * ، منع خسارة أكبر من 0.530 ؛ لذلك ، ν = 0.530 هو سعر اللعبة ، والاستراتيجيتان S A * و S B * تعطيان حلاً. هذا يعني أنه يجب علينا استخدام المشاهد مع x = 0.07 و x = 0.93 بنفس التردد ، ويجب ألا يناور العدو بنفس التردد والمناورة بأقصى حمل زائد.

لاحظ أن العائد ν = 0.530 أكبر بشكل ملحوظ من السعر الأدنى للعبة ، والتي يمكن أن نوفرها لأنفسنا من خلال تطبيق إستراتيجيتنا القصوى × 0 = 1/2.

واحد من طرق عمليةحلول الألعاب اللانهائية هي اختزالها التقريبي إلى ألعاب محدودة. في هذه الحالة ، يتم بشكل تقليدي دمج مجموعة كاملة من الاستراتيجيات الممكنة لكل لاعب في إستراتيجية واحدة. بهذه الطريقة ، بالطبع ، يمكن فقط الحصول على حل تقريبي للعبة ، ولكن في معظم الحالات لا يلزم حل دقيق.

ومع ذلك ، يجب أن يؤخذ في الاعتبار أنه عند تطبيق هذه التقنية ، قد تظهر الحلول في مجال الاستراتيجيات المختلطة حتى في الحالات التي يكون فيها حل اللعبة اللانهائية الأصلية ممكنًا في استراتيجيات خالصة ، أي. عندما تحتوي اللعبة اللانهائية على نقطة سرج. إذا تم الحصول على حل مختلط ، عن طريق اختزال لعبة لا نهائية إلى لعبة محدودة ، والذي يتضمن فقط استراتيجيتين "مفيدتين" متجاورتين ، فمن المنطقي محاولة تطبيق استراتيجية نقية وسيطة للعبة اللانهائية الأصلية بينهما.

في الختام ، نلاحظ أن الألعاب اللانهائية ، على عكس الألعاب المحدودة ، قد لا يكون لها حل. دعنا نعطي مثالاً على لعبة لا نهائية ليس لها حل. لاعبان يسميان كل عدد صحيح. اسم الشيئ أكثريتلقى من 1 روبل آخر. إذا اتصل كلاهما بنفس الرقم ، تنتهي اللعبة بالتعادل. من الواضح أن اللعبة لا يمكن أن يكون لها حل. ومع ذلك ، هناك فئات من الألعاب اللانهائية التي يوجد لها حل بالتأكيد.

© 2021 skudelnica.ru - الحب والخيانة وعلم النفس والطلاق والمشاعر والمشاجرات