शुद्ध रणनीति खेल. ऐलेना वेंटज़ेल

घर / झगड़ा

सिद्धांत खेल रणनीति मिश्रित

मिश्रित रणनीतियाँ

यदि किसी मैट्रिक्स गेम में शुद्ध रणनीतियों में सैडल पॉइंट नहीं है, तो गेम की ऊपरी और निचली कीमतें पाई जाती हैं। वे दिखाते हैं कि खिलाड़ी 1 को खेल की शीर्ष कीमत से अधिक भुगतान नहीं मिलेगा, और खिलाड़ी 1 को ऐसे भुगतान की गारंटी है जो खेल के निचले मूल्य से कम नहीं है।

एक खिलाड़ी की मिश्रित रणनीति उसकी शुद्ध रणनीतियों का एक पूरा सेट होती है जब खेल को दी गई संभावनाओं के साथ समान परिस्थितियों में कई बार दोहराया जाता है। आइए संक्षेप में बताएं कि क्या कहा गया है और उपयोग की शर्तों को सूचीबद्ध करें मिश्रित रणनीतियाँ:

  • * सैडल प्वाइंट के बिना खेल;
  • * खिलाड़ी दी गई संभावनाओं के साथ शुद्ध रणनीतियों के यादृच्छिक मिश्रण का उपयोग करते हैं;
  • * समान परिस्थितियों में खेल को कई बार दोहराया जाता है;
  • * प्रत्येक चाल के दौरान, किसी भी खिलाड़ी को दूसरे खिलाड़ी द्वारा चुनी गई रणनीति के बारे में सूचित नहीं किया जाता है;
  • * खेल के परिणामों का औसत निकालने की अनुमति है।

मिश्रित रणनीतियों के लिए निम्नलिखित पदनामों का उपयोग किया जाता है।

खिलाड़ी 1 के लिए, एक मिश्रित रणनीति में संबंधित संभावनाओं पी 1, पी 2, ..., पी टी के साथ शुद्ध रणनीतियों ए 1, ए 2, ..., ए टी का उपयोग करना शामिल है।

खिलाड़ी 2 के लिए

q j शुद्ध रणनीति B j का उपयोग करने की संभावना है।

ऐसे मामले में जब पी आई = 1, खिलाड़ी 1 के लिए हमारे पास एक शुद्ध रणनीति है

खिलाड़ी की शुद्ध रणनीतियाँ ही एकमात्र संभावित असंगत घटनाएँ हैं। मैट्रिक्स गेम में, मैट्रिक्स ए (यह खिलाड़ी 1 और खिलाड़ी 2 दोनों पर लागू होता है) को जानकर, हम यह निर्धारित कर सकते हैं कि कब दिए गए सदिशऔर औसत जीत ( अपेक्षित मूल्यप्रभाव) खिलाड़ी 1:

सदिश कहाँ और हैं;

पी आई और क्यू आई वैक्टर के घटक हैं।

अपनी मिश्रित रणनीतियों को लागू करके, खिलाड़ी 1 अपने औसत भुगतान को अधिकतम करना चाहता है, और खिलाड़ी 2 इस प्रभाव को न्यूनतम संभव मूल्य तक कम करना चाहता है। खिलाड़ी 1 पहुँचने का प्रयास करता है

प्लेयर 2 यह सुनिश्चित करता है कि शर्त पूरी हो

आइए हम खिलाड़ियों 1 और 2 की इष्टतम मिश्रित रणनीतियों के अनुरूप वैक्टर को भी निरूपित करें, अर्थात। ऐसे वैक्टर और जिनके लिए समानता संतुष्ट होगी

जब दोनों खिलाड़ी मिश्रित रणनीतियों का उपयोग करते हैं तो खेल की लागत खिलाड़ी 1 का औसत भुगतान है। इसलिए, मैट्रिक्स गेम का समाधान है:

  • - खिलाड़ी 1 की इष्टतम मिश्रित रणनीति;
  • - खिलाड़ी 2 के लिए इष्टतम मिश्रित रणनीति;

खेल की कीमत.

मिश्रित रणनीतियाँ इष्टतम होंगी (और) यदि वे फ़ंक्शन के लिए एक काठी बिंदु बनाती हैं, यानी।

गणितीय खेलों के लिए एक मौलिक प्रमेय है।

परिमाण के किसी भी मैट्रिक्स ए के साथ मैट्रिक्स गेम के लिए

अस्तित्व में हैं और एक दूसरे के बराबर हैं: = = .

यह ध्यान दिया जाना चाहिए कि इष्टतम रणनीतियों का चयन करते समय, खिलाड़ी 1 को हमेशा खिलाड़ी 2 की किसी भी निश्चित रणनीति (और, इसके विपरीत, खिलाड़ी 2 के लिए) के लिए औसत भुगतान की गारंटी दी जाएगी, जो खेल की कीमत से कम नहीं होगी। खिलाड़ियों 1 और 2 की सक्रिय रणनीतियाँ ऐसी रणनीतियाँ हैं जो शून्य के अलावा अन्य संभावनाओं वाले संबंधित खिलाड़ियों की इष्टतम मिश्रित रणनीतियों का हिस्सा हैं। इसका मतलब यह है कि खिलाड़ियों की इष्टतम मिश्रित रणनीतियों में उनकी सभी प्राथमिकता दी गई रणनीतियाँ शामिल नहीं हो सकती हैं।

किसी गेम को हल करने का अर्थ है गेम की कीमत और इष्टतम रणनीतियों का पता लगाना। आइए मैट्रिक्स गेम के लिए इष्टतम मिश्रित रणनीतियों को खोजने के तरीकों पर अपना विचार शुरू करें सबसे सरल खेल, मैट्रिक्स 22 द्वारा वर्णित। सैडल पॉइंट वाले खेलों पर विशेष रूप से विचार नहीं किया जाएगा। यदि एक काठी बिंदु प्राप्त किया जाता है, तो इसका मतलब है कि लाभहीन रणनीतियाँ हैं जिन्हें छोड़ दिया जाना चाहिए। सैडल पॉइंट की अनुपस्थिति में, दो इष्टतम मिश्रित रणनीतियाँ प्राप्त की जा सकती हैं। जैसा कि पहले ही उल्लेख किया गया है, ये मिश्रित रणनीतियाँ इस प्रकार लिखी गई हैं:

इसका मतलब है कि एक भुगतान मैट्रिक्स है

ए 11 पी 1 + ए 21 पी 2 = ; (1.16)

ए 12 पी 1 + ए 22 पी 2 = ; (1.17)

पी 1 + पी 2 = 1. (1.18)

ए 11 पी 1 + ए 21 (1 - पी 1) = ए 12 पी 1 + ए 22 (1 - पी 1); (1.19)

ए 11 पी 1 + ए 21 - ए 21 पी 1 = ए 12 पी 1 + ए 22 - ए 22 पी 1, (1.20)

जहां हमें इष्टतम मान मिलते हैं:

जानने और, हम पाते हैं:

गणना करने पर, हम पाते हैं:

ए 11 क्यू 1 + ए 12 क्यू 2 = ; क्यू 1 + क्यू 2 = 1; (1.24)

ए 11 क्यू 1 + ए 12 (1 - क्यू 1) = . (1.25)

11 बजे 12 बजे। (1.26)

समस्या हल हो गई है, क्योंकि वेक्टर और गेम की कीमत मिल गई है। भुगतान मैट्रिक्स ए होने से, आप समस्या को ग्राफिक रूप से हल कर सकते हैं। इस पद्धति के साथ, समाधान एल्गोरिथ्म बहुत सरल है (चित्र 2.1)।

  • 1. इकाई लंबाई का एक खंड भुज अक्ष के अनुदिश आलेखित किया जाता है।
  • 2. y-अक्ष रणनीति A 1 के लिए जीत को दर्शाता है।
  • 3. कोटि के समानांतर एक रेखा पर, बिंदु 1 पर, रणनीति ए 2 के लिए जीत की साजिश रची जाती है।
  • 4. खंडों के सिरों को 11-बी 11, ए 12-बी 21, ए 22-बी 22, ए 21-बी 12 के लिए नामित किया गया है और दो सीधी रेखाएं बी 11 बी 12 और बी 21 बी 22 खींची गई हैं।
  • 5. प्रतिच्छेदन बिंदु की कोटि निर्धारित की जाती है। वह बराबर है. बिंदु c का भुज p 2 (p 1 = 1 - p 2) के बराबर है।

चावल। 1.1.

इस विधि का अनुप्रयोग क्षेत्र काफी विस्तृत है। इस पर आधारित है सामान्य संपत्तिगेम्स टीपी, जिसमें यह तथ्य शामिल है कि किसी भी गेम टीपी में प्रत्येक खिलाड़ी के पास एक इष्टतम मिश्रित रणनीति होती है जिसमें शुद्ध रणनीतियों की संख्या न्यूनतम (एम, एन) से अधिक नहीं होती है। इस संपत्ति से हम एक सुप्रसिद्ध परिणाम प्राप्त कर सकते हैं: किसी भी खेल 2n और m2 में, प्रत्येक इष्टतम रणनीति में अधिकतम दो सक्रिय रणनीतियाँ होती हैं। इसका मतलब यह है कि किसी भी गेम 2एन और एम2 को गेम 22 में घटाया जा सकता है। नतीजतन, गेम 2एन और एम2 को ग्राफिकल तरीके से हल किया जा सकता है। यदि परिमित गेम मैट्रिक्स का आयाम mn है, जहां m > 2 और n > 2 है, तो इष्टतम मिश्रित रणनीतियों को निर्धारित करने के लिए रैखिक प्रोग्रामिंग का उपयोग किया जाता है।

5. खेल और सांख्यिकीय निर्णयों का सिद्धांत

5.1. शून्य-योग मैट्रिक्स गेम

आर्थिक और गणितीय मॉडलिंग निम्नलिखित शर्तों के तहत किया जाता है:

निश्चितता;

अनिश्चितताएँ।

मोडलिंग निश्चितता की स्थिति में इसके लिए आवश्यक सभी प्रारंभिक नियामक डेटा (मैट्रिक्स मॉडलिंग, नेटवर्क योजना और प्रबंधन) की उपलब्धता मानता है।

मोडलिंग खतरे में स्टोकेस्टिक अनिश्चितता के तहत किया जाता है, जब कुछ प्रारंभिक डेटा के मान यादृच्छिक होते हैं और इन यादृच्छिक चर के संभाव्यता वितरण के नियम ज्ञात होते हैं (प्रतिगमन विश्लेषण, कतारबद्ध सिद्धांत)।

मोडलिंग अनिश्चितता की स्थिति में मेल खाती है पूर्ण अनुपस्थितिइसके लिए आवश्यक कुछ डेटा (गेम थ्योरी)।

इष्टतम निर्णय लेने के लिए गणितीय मॉडल संघर्ष की स्थितियाँअनिश्चितता की स्थितियों में निर्मित होते हैं।

गेम थ्योरी निम्नलिखित बुनियादी अवधारणाओं के साथ संचालित होती है:

रणनीति;

जीत समारोह.

इस कदम पर हम खेल के नियमों द्वारा प्रदान किए गए कार्यों में से एक के खिलाड़ी द्वारा चयन और कार्यान्वयन को कहेंगे।

रणनीति - यह वर्तमान स्थिति के आधार पर प्रत्येक कदम पर कार्रवाई का विकल्प चुनने की एक तकनीक है।

जीत समारोह हारने वाले खिलाड़ी से जीतने वाले को भुगतान की राशि निर्धारित करने का कार्य करता है।

मैट्रिक्स गेम में, भुगतान फ़ंक्शन को इस प्रकार दर्शाया जाता है भुगतान मैट्रिक्स :

खिलाड़ी I को भुगतान की राशि कहां है, जिसने चाल चुनी है, खिलाड़ी II से, जिसने चाल चुनी है।

ऐसे युग्मित खेल में, प्रत्येक स्थिति में दोनों खिलाड़ियों के भुगतान कार्यों के मूल्य मूल्य में समान और संकेत में विपरीत होते हैं, अर्थात। और इस गेम को कहा जाता है शून्य राशि .

"मैट्रिक्स गेम खेलने" की प्रक्रिया को इस प्रकार दर्शाया गया है:

भुगतान मैट्रिक्स सेट है;

खिलाड़ी I, खिलाड़ी II की परवाह किए बिना, इस मैट्रिक्स की पंक्तियों में से एक को चुनता है, उदाहरण के लिए, -th;

खिलाड़ी II, खिलाड़ी I की परवाह किए बिना, इस मैट्रिक्स के किसी एक कॉलम को चुनता है, उदाहरण के लिए, - th;

मैट्रिक्स तत्व यह निर्धारित करता है कि मुझे खिलाड़ी II से कितना खिलाड़ी प्राप्त होगा। बेशक, यदि, तो हम बात कर रहे हैंखिलाड़ी I की वास्तविक हानि के बारे में।

हम भुगतान मैट्रिक्स वाले एक विरोधी युग्मित गेम को गेम कहेंगे।

उदाहरण

आइए खेल पर विचार करें.

भुगतान मैट्रिक्स सेट है:

.

मान लीजिए कि खिलाड़ी I, खिलाड़ी II से स्वतंत्र होकर, इस मैट्रिक्स की तीसरी पंक्ति चुनता है, और खिलाड़ी II, खिलाड़ी I से स्वतंत्र होकर, इस मैट्रिक्स का दूसरा कॉलम चुनता है:

तब खिलाड़ी I को खिलाड़ी II से 9 इकाइयाँ प्राप्त होंगी।

5.2. मैट्रिक्स गेम में इष्टतम शुद्ध रणनीति

इष्टतम रणनीति खिलाड़ी I की एक रणनीति कहलाती है जिसमें वह खिलाड़ी II द्वारा चुनी गई किसी भी रणनीति के लिए अपनी जीत को कम नहीं करेगा, और खिलाड़ी II की ऐसी रणनीति कहलाती है जिसमें वह खिलाड़ी I द्वारा चुनी गई किसी भी रणनीति के लिए अपनी हानि को नहीं बढ़ाएगा।

एक चाल के रूप में भुगतान मैट्रिक्स की वीं पंक्ति को चुनकर, खिलाड़ी I यह सुनिश्चित करता है कि वह सबसे खराब स्थिति में मूल्य से कम नहीं जीतेगा, जब खिलाड़ी II इस मूल्य को कम करने की कोशिश करता है। इसलिए, खिलाड़ी मैं उस पंक्ति को चुनूंगा जो उसे प्रदान करेगी अधिकतम जीत:

.

खिलाड़ी II भी इसी तरह का तर्क देता है और निश्चित रूप से न्यूनतम नुकसान सुनिश्चित कर सकता है:

.

असमानता हमेशा सत्य होती है:

मात्रा कहलाती है कम कीमतखेल .

मात्रा कहलाती है खेल की शीर्ष कीमत .

इष्टतम रणनीतियाँ कहलाती हैं साफ , यदि समानताएं उनके लिए मान्य हों:

,

.

मात्रा कहलाती है खेल की शुद्ध कीमत पर , अगर ।

इष्टतम शुद्ध रणनीतियाँ प्रपत्र लादने की सीमा भुगतान मैट्रिक्स.

सैडल पॉइंट के लिए निम्नलिखित शर्तें पूरी होती हैं:

अर्थात्, तत्व पंक्ति में सबसे छोटा और स्तंभ में सबसे बड़ा है।

इस प्रकार, यदि भुगतान मैट्रिक्स है लादने की सीमा , तो आप पा सकते हैं इष्टतम शुद्ध रणनीतियाँ खिलाड़ियों।

खिलाड़ी I की शुद्ध रणनीति को संख्याओं के एक क्रमबद्ध सेट (वेक्टर) द्वारा दर्शाया जा सकता है, जिसमें -वें स्थान की संख्या को छोड़कर, जो एक के बराबर है, सभी संख्याएँ शून्य के बराबर हैं।

खिलाड़ी II की शुद्ध रणनीति को संख्याओं के एक क्रमबद्ध सेट (एक वेक्टर) द्वारा दर्शाया जा सकता है जिसमें -वें स्थान की संख्या को छोड़कर, जो एक के बराबर है, सभी संख्याएँ शून्य के बराबर हैं।

उदाहरण

.

चाल के रूप में भुगतान मैट्रिक्स की किसी भी पंक्ति को चुनकर, खिलाड़ी I यह सुनिश्चित करता है कि सबसे खराब स्थिति में जीत चिह्नित कॉलम में मूल्य से कम नहीं है:

इसलिए, खिलाड़ी I भुगतान मैट्रिक्स की दूसरी पंक्ति का चयन करेगा, जो उसे खिलाड़ी II की चाल की परवाह किए बिना अधिकतम जीत प्रदान करती है, जो इस मूल्य को कम करने का प्रयास करेगा:

खिलाड़ी II भी इसी तरह तर्क करता है और अपनी चाल के रूप में पहला कॉलम चुनता है:

इस प्रकार, भुगतान मैट्रिक्स का एक सैडल बिंदु है:

खिलाड़ी I और खिलाड़ी II के लिए इष्टतम शुद्ध रणनीति के अनुरूप, जिसमें खिलाड़ी II द्वारा रणनीति में किसी भी बदलाव के लिए खिलाड़ी I अपनी जीत को कम नहीं करेगा और खिलाड़ी II, खिलाड़ी I द्वारा रणनीति में किसी भी बदलाव के लिए अपना नुकसान नहीं बढ़ाएगा।

5.3. मैट्रिक्स गेम में इष्टतम मिश्रित रणनीति

यदि पेऑफ मैट्रिक्स में सैडल पॉइंट नहीं है, तो किसी भी खिलाड़ी के लिए एक शुद्ध रणनीति का उपयोग करना तर्कहीन है। इसका उपयोग करना अधिक लाभदायक है "संभावना मिश्रण" शुद्ध रणनीतियाँ. फिर मिश्रित रणनीतियों को इष्टतम के रूप में पहचाना जाता है।

मिश्रित रणनीति एक खिलाड़ी को एक यादृच्छिक घटना के संभाव्यता वितरण की विशेषता होती है जिसमें इस खिलाड़ी द्वारा एक चाल का चुनाव शामिल होता है।

खिलाड़ी I की मिश्रित रणनीति संख्याओं का एक क्रमबद्ध सेट है (वेक्टर) जो दो शर्तों को पूरा करता है:

1) के लिए, यानी भुगतान मैट्रिक्स की प्रत्येक पंक्ति को चुनने की संभावना गैर-नकारात्मक है;

2) , यानी, भुगतान मैट्रिक्स की प्रत्येक पंक्ति की पसंद सामूहिक रूप से दर्शाती है पूरा समूहआयोजन।

खिलाड़ी II की मिश्रित रणनीति संख्याओं का एक क्रमबद्ध सेट होगी (वेक्टर) शर्तों को पूरा करना:

भुगतान राशि खिलाड़ी I को, जिसने मिश्रित रणनीति चुनी

खिलाड़ी II से, जिसने मिश्रित रणनीति चुनी

,

औसत मूल्य का प्रतिनिधित्व करता है

.

इष्टतम मिश्रित रणनीतियाँ कहलाती हैं

और ,

यदि किसी मनमानी मिश्रित रणनीति के लिए और निम्नलिखित शर्त पूरी होती है:

यानी, एक इष्टतम मिश्रित रणनीति के साथ, खिलाड़ी I का लाभ सबसे बड़ा है, और खिलाड़ी II का नुकसान सबसे कम है।

यदि भुगतान मैट्रिक्स में कोई सैडल पॉइंट नहीं है, तो

,

यानी एक सकारात्मक अंतर है ( असंबद्ध अंतर )

- ³ 0,

और खिलाड़ियों को अपने पक्ष में इस अंतर का एक बड़ा हिस्सा आत्मविश्वास से प्राप्त करने के लिए अतिरिक्त अवसरों की तलाश करने की आवश्यकता है।

उदाहरण

भुगतान मैट्रिक्स द्वारा परिभाषित खेल पर विचार करें:

.

आइए निर्धारित करें कि क्या कोई सैडल पॉइंट है:

, .

यह पता चला है कि भुगतान मैट्रिक्स में कोई सैडल प्वाइंट नहीं है और अवितरित अंतर इसके बराबर है:

.

5.4. इष्टतम मिश्रित रणनीतियाँ ढूँढना

गेम्स 2x2 के लिए

आयाम के भुगतान मैट्रिक्स के लिए इष्टतम मिश्रित रणनीतियों का निर्धारण दो चर के फ़ंक्शन के इष्टतम बिंदुओं को ढूंढकर किया जाता है।

मान लीजिए कि खिलाड़ी I द्वारा भुगतान मैट्रिक्स की पहली पंक्ति को चुनने की प्रायिकता है

के बराबर । तब दूसरी पंक्ति चुनने की प्रायिकता बराबर है।

माना कि खिलाड़ी II द्वारा पहला कॉलम चुनने की प्रायिकता बराबर है। तब दूसरा कॉलम चुनने की प्रायिकता बराबर है।

खिलाड़ी II द्वारा खिलाड़ी I को भुगतान की राशि बराबर है:

खिलाड़ी I के लाभ और खिलाड़ी II के नुकसान का चरम मूल्य निम्नलिखित स्थितियों से मेल खाता है:

;

.

इस प्रकार, खिलाड़ियों I और II की इष्टतम मिश्रित रणनीतियाँ क्रमशः बराबर हैं:

5.5. गेम्स 2× का ज्यामितीय समाधानएन

जैसे-जैसे भुगतान मैट्रिक्स का आयाम बढ़ता है, दो चर के फ़ंक्शन के इष्टतम को खोजने के लिए इष्टतम मिश्रित रणनीतियों के निर्धारण को कम करना संभव नहीं रह जाता है। हालाँकि, यह देखते हुए कि खिलाड़ियों में से एक के पास केवल दो रणनीतियाँ हैं, एक ज्यामितीय समाधान का उपयोग किया जा सकता है।

खेल का समाधान खोजने के मुख्य चरण इस प्रकार हैं।

आइए हम समतल पर एक समन्वय प्रणाली का परिचय दें। आइए हम खंड को अक्ष पर आलेखित करें। हम इस खंड के बाएँ और दाएँ छोर से लंब खींचते हैं।


इकाई खंड के बाएँ और दाएँ सिरे दो रणनीतियों के अनुरूप हैं और खिलाड़ी I के लिए उपलब्ध हैं। हम इस खिलाड़ी की जीत को खींचे गए लंबवत पर प्लॉट करेंगे। उदाहरण के लिए, भुगतान मैट्रिक्स के लिए


रणनीति चुनते समय खिलाड़ी को ऐसे भुगतान होंगे और, और रणनीति चुनते समय वे होंगे।

आइए खिलाड़ी II की रणनीतियों के अनुरूप, खिलाड़ी I के विजयी अंकों को सीधी रेखा खंडों से जोड़ें। फिर बनी टूटी हुई रेखा, नीचे से ग्राफ़ को सीमित करते हुए, खिलाड़ी I के भुगतान की निचली सीमा निर्धारित करती है।



खिलाड़ी I की इष्टतम मिश्रित रणनीति ढूँढना

,

जो अधिकतम कोर्डिनेट के साथ खिलाड़ी I के भुगतान की निचली सीमा पर बिंदु से मेल खाता है।

आइए इस तथ्य पर ध्यान दें कि विचाराधीन उदाहरण में, केवल दो रणनीतियों का उपयोग करके और, खिलाड़ी I के भुगतान की निचली सीमा पर पाए गए बिंदु पर प्रतिच्छेद करने वाली सीधी रेखाओं के अनुरूप, खिलाड़ी II खिलाड़ी I को बड़ा होने से रोक सकता है भुगतान करें।

इस प्रकार, खेल एक खेल में सिमट गया है और विचाराधीन उदाहरण में खिलाड़ी II की इष्टतम मिश्रित रणनीति होगी

,

जहां संभावना खेल के समान ही है:

5.6. खेल सुलझानाएम× एन

यदि किसी मैट्रिक्स गेम में शुद्ध रणनीतियों में कोई समाधान नहीं है (यानी, कोई सैडल पॉइंट नहीं है) और, पेऑफ मैट्रिक्स के बड़े आयाम के कारण, ग्राफिक रूप से हल नहीं किया जा सकता है, तो समाधान प्राप्त करने के लिए, उपयोग करें रैखिक प्रोग्रामिंग विधि .

आइए आयाम का भुगतान मैट्रिक्स दिया जाए:

.

संभावनाएं तलाशने की जरूरत है , मुझे किस खिलाड़ी के साथ उसकी चालें चुननी होंगी ताकि यह मिश्रित रणनीति उसे खिलाड़ी II द्वारा चालों की पसंद की परवाह किए बिना कम से कम मूल्य की जीत की गारंटी दे।

खिलाड़ी II द्वारा चुनी गई प्रत्येक चाल के लिए, खिलाड़ी I का भुगतान निर्भरता द्वारा निर्धारित किया जाता है:

आइए हम असमानताओं के दोनों पक्षों को विभाजित करें और नए अंकन प्रस्तुत करें:

समानता

फॉर्म लेगा:

चूंकि खिलाड़ी I भुगतान को अधिकतम करना चाहता है, इसलिए व्युत्क्रम को कम से कम किया जाना चाहिए। फिर प्लेयर I के लिए रैखिक प्रोग्रामिंग समस्या का रूप लेगा:

प्रतिबंधों के तहत

खिलाड़ी II के लिए समस्या का निर्माण दोहरे के समान ही किया गया है:

प्रतिबंधों के तहत

सिंप्लेक्स विधि का उपयोग करके समस्याओं को हल करने पर, हमें मिलता है:

,

5.7. मैट्रिक्स गेम को हल करने की विशेषताएं

इष्टतम रणनीतियाँ खोजने की समस्या को हल करने से पहले, दो शर्तों की जाँच की जानी चाहिए:

क्या भुगतान मैट्रिक्स को सरल बनाना संभव है;

क्या भुगतान मैट्रिक्स में कोई सैडल पॉइंट है?

आइए भुगतान मैट्रिक्स को सरल बनाने की संभावना पर विचार करें:

इस तथ्य के कारण कि मैं जिस खिलाड़ी को प्राप्त करना चाहता हूं सबसे बड़ी जीत, तो भुगतान मैट्रिक्स से वें पंक्ति को हटाया जा सकता है, क्योंकि वह इस कदम का उपयोग कभी नहीं करेगा यदि निम्नलिखित संबंध किसी अन्य पंक्ति से संतुष्ट है:

इसी तरह, सबसे छोटे नुकसान के लिए प्रयास करते हुए, खिलाड़ी II कभी भी भुगतान मैट्रिक्स में -वें कॉलम को एक चाल के रूप में नहीं चुनेगा, और यदि निम्नलिखित संबंध किसी अन्य -वें कॉलम से संतुष्ट है तो इस कॉलम को पार किया जा सकता है:

अधिकांश सरल उपायगेम एक सैडल पॉइंट के सरलीकृत भुगतान मैट्रिक्स में उपस्थिति है, जो निम्नलिखित शर्त को पूरा करता है (परिभाषा के अनुसार):

उदाहरण

भुगतान मैट्रिक्स दिया गया है:

.

भुगतान मैट्रिक्स का सरलीकरण:

काठी बिंदु की उपस्थिति:

5.8. प्रकृति के साथ खेलना

गेम थ्योरी समस्याओं के विपरीत सिद्धांत की समस्याएं सांख्यिकीय समाधान अनिश्चित स्थिति में विरोधी संघर्ष का अर्थ नहीं होता है और यह वस्तुनिष्ठ वास्तविकता पर निर्भर करती है, जिसे आमतौर पर कहा जाता है "प्रकृति" .

प्रकृति के साथ मैट्रिक्स गेम में, खिलाड़ी II अनिश्चित कारकों का एक समूह है जो किए गए निर्णयों की प्रभावशीलता को प्रभावित करता है।

मैट्रिक्स गेम सामान्य मैट्रिक्स गेम से केवल इस मायने में भिन्न होते हैं कि खिलाड़ी I के लिए इष्टतम रणनीति चुनते समय, इस तथ्य पर भरोसा करना संभव नहीं है कि खिलाड़ी II अपने नुकसान को कम करने का प्रयास करेगा। इसलिए, भुगतान मैट्रिक्स के साथ, हम परिचय देते हैं जोखिम मैट्रिक्स :

परिस्थितियों में चाल का उपयोग करते समय खिलाड़ी I के जोखिम की मात्रा अंतर के बराबर होती है उस खिलाड़ी को मिलने वाले भुगतान के बीच अगर उसे पता होता कि शर्त स्थापित हो जाएगी, यानी। , और वह जीत जो उसे प्राप्त होगी, न जाने कब कोई चाल चुनते समय शर्त स्थापित हो जाएगी।

इस प्रकार, भुगतान मैट्रिक्स विशिष्ट रूप से जोखिम मैट्रिक्स में बदल जाता है, लेकिन उलटा परिवर्तन अस्पष्ट है।

उदाहरण

विजेता मैट्रिक्स:

.

जोखिम मैट्रिक्स:

संभव दो समस्या कथन समाधान चुनने के बारे में प्रकृति के साथ एक मैट्रिक्स गेम में :

जीत को अधिकतम करना;

जोखिम को कम करना.

निर्णय लेने की समस्या दो स्थितियों में से एक के लिए उत्पन्न की जा सकती है:

- खतरे में , जब प्रकृति की रणनीतियों की संभाव्यता वितरण फ़ंक्शन ज्ञात होती है, उदाहरण के लिए, अपेक्षित विशिष्ट आर्थिक स्थितियों में से प्रत्येक की घटना का यादृच्छिक चर;

- अनिश्चितता की स्थिति में , जब ऐसा संभाव्यता वितरण फ़ंक्शन अज्ञात है।

5.9. सांख्यिकीय निर्णय सिद्धांत में समस्याओं का समाधान

खतरे में

जोखिम की परिस्थितियों में निर्णय लेते समय, खिलाड़ी को संभावनाओं का पता होता है प्रकृति की अवस्थाओं की शुरुआत.

फिर खिलाड़ी I के लिए यह सलाह दी जाती है कि वह किस रणनीति का चयन करे लाइन द्वारा लिया गया औसत जीत मूल्य अधिकतम है :

.

इस समस्या को जोखिम मैट्रिक्स के साथ हल करते समय, हमें वही समाधान मिलता है, जो संगत है न्यूनतम औसत जोखिम :

.

5.10. सांख्यिकीय निर्णय सिद्धांत में समस्याओं का समाधान

अनिश्चितता की स्थिति में

अनिश्चितता की स्थिति में निर्णय लेते समय, आप निम्नलिखित का उपयोग कर सकते हैं मानदंड :

अधिकतम वाल्ड मानदंड;

मानदंड न्यूनतम जोखिमअसभ्य;

हर्विट्ज़ की निराशावाद की कसौटी - आशावाद;

लाप्लास का अपर्याप्त कारण का सिद्धांत.

चलो गौर करते हैं मैक्सिमम वाल्ड परीक्षण .

प्रकृति के साथ खेल एक उचित आक्रामक प्रतिद्वंद्वी के साथ खेला जाता है, यानी, भुगतान मैट्रिक्स के लिए अत्यधिक निराशावाद की स्थिति से पुनर्बीमा दृष्टिकोण लिया जाता है:

.

चलो गौर करते हैं सैवेज का न्यूनतम जोखिम मानदंड .

जोखिम मैट्रिक्स के लिए अत्यधिक निराशावाद की स्थिति से पिछले दृष्टिकोण के समान एक दृष्टिकोण:

.

चलो गौर करते हैं निराशावाद की हर्विट्ज़ कसौटी - आशावाद .

अत्यधिक निराशावाद या अत्यधिक आशावाद द्वारा निर्देशित न होने का अवसर प्रदान किया जाता है:

निराशावाद की डिग्री कहाँ है;

पर - अत्यधिक आशावाद,

पर - अत्यधिक निराशावाद.

चलो गौर करते हैं लाप्लास का अपर्याप्त कारण का सिद्धांत .

यह माना जाता है कि प्रकृति की सभी अवस्थाएँ समान रूप से संभावित हैं:

,

.

पांचवें खंड पर निष्कर्ष

मैट्रिक्स गेम में, दो खिलाड़ी भाग लेते हैं और भुगतान फ़ंक्शन, जो हारने वाले खिलाड़ी से विजेता खिलाड़ी तक भुगतान की राशि निर्धारित करने का कार्य करता है, को भुगतान मैट्रिक्स के रूप में दर्शाया जाता है। इस बात पर सहमति हुई कि खिलाड़ी I एक चाल के रूप में भुगतान मैट्रिक्स की पंक्तियों में से एक को चुनता है, और खिलाड़ी II इसके कॉलम में से एक को चुनता है। फिर इस मैट्रिक्स की चयनित पंक्तियों और स्तंभों के चौराहे पर खिलाड़ी II से खिलाड़ी I को भुगतान का एक संख्यात्मक मूल्य होता है (यदि यह मान सकारात्मक है, तो खिलाड़ी I वास्तव में जीता है, और यदि यह नकारात्मक है, तो खिलाड़ी II अनिवार्य रूप से जीत गया)।

यदि भुगतान मैट्रिक्स में एक काठी बिंदु है, तो खिलाड़ियों के पास इष्टतम शुद्ध रणनीतियाँ हैं, यानी, जीतने के लिए, उनमें से प्रत्येक को अपनी एक इष्टतम चाल दोहरानी होगी। यदि कोई सैडल पॉइंट नहीं है, तो जीतने के लिए, उनमें से प्रत्येक को इष्टतम मिश्रित रणनीति का उपयोग करना होगा, अर्थात, चालों के मिश्रण का उपयोग करना होगा, जिनमें से प्रत्येक को इष्टतम संभावना के साथ बनाया जाना चाहिए।

ज्ञात सूत्रों का उपयोग करके इष्टतम संभावनाओं की गणना करके 2x2 गेम के लिए इष्टतम मिश्रित रणनीतियों का पता लगाया जाता है। का उपयोग करके ज्यामितीय समाधान 2×n खेलों में, उनमें इष्टतम मिश्रित रणनीतियों का निर्धारण 2×2 खेलों के लिए इष्टतम मिश्रित रणनीतियों को खोजने के लिए आता है। एम×एन गेम्स को हल करने के लिए, उनमें इष्टतम मिश्रित रणनीतियों को खोजने के लिए रैखिक प्रोग्रामिंग विधि का उपयोग किया जाता है।

कुछ भुगतान मैट्रिक्स को सरल बनाया जा सकता है, जिसके परिणामस्वरूप असंगत चालों के अनुरूप पंक्तियों और स्तंभों को हटाकर उनका आयाम कम कर दिया जाता है।

यदि खिलाड़ी II अनिश्चित कारकों का एक समूह है जो वस्तुनिष्ठ वास्तविकता पर निर्भर करता है और इसमें विरोधी संघर्ष के स्वर नहीं हैं, तो ऐसे खेल को प्रकृति के साथ खेल कहा जाता है, और इसे हल करने के लिए सांख्यिकीय निर्णयों के सिद्धांत की समस्याओं का उपयोग किया जाता है। फिर, भुगतान मैट्रिक्स के साथ, एक जोखिम मैट्रिक्स पेश किया जाता है और प्रकृति के साथ मैट्रिक्स गेम में समाधान चुनने की समस्या के दो सूत्रीकरण संभव हैं: अधिकतम लाभ और जोखिम को कम करना।

जोखिम की स्थिति में सांख्यिकीय निर्णयों के सिद्धांत की समस्याओं को हल करने से पता चलता है कि खिलाड़ी I के लिए ऐसी रणनीति चुनना उचित है जिसके लिए भुगतान मैट्रिक्स की एक पंक्ति से ली गई जीत का औसत मूल्य (गणितीय अपेक्षा) अधिकतम है, या (जो) वही बात है) जोखिम मैट्रिक्स की पंक्ति द्वारा लिया गया जोखिम का औसत मूल्य (गणितीय अपेक्षा) न्यूनतम है। अनिश्चितता की स्थिति में निर्णय लेते समय इनका उपयोग किया जाता है निम्नलिखित मानदंड: वाल्ड का मैक्सिमम मानदंड, सैवेज का न्यूनतम जोखिम मानदंड, हर्विट्ज़ का निराशावाद-आशावाद मानदंड, लाप्लास का अपर्याप्त कारण का सिद्धांत।

स्व-परीक्षण प्रश्न

गेम थ्योरी की बुनियादी अवधारणाओं को कैसे परिभाषित किया गया है: चाल, रणनीति और भुगतान फ़ंक्शन?

मैट्रिक्स गेम में अदायगी फ़ंक्शन क्या दर्शाया जाता है?

मैट्रिक्स गेम को जीरो-सम क्यों कहा जाता है?

मैट्रिक्स गेम खेलने की प्रक्रिया कैसी होती है?

किस खेल को m×n खेल कहा जाता है?

किस मैट्रिक्स गेम रणनीति को इष्टतम कहा जाता है?

प्योर नामक मैट्रिक्स गेम के लिए इष्टतम रणनीति क्या है?

भुगतान मैट्रिक्स के सैडल पॉइंट का क्या अर्थ है?

मिश्रित नामक मैट्रिक्स गेम के लिए इष्टतम रणनीति क्या है?

किसी खिलाड़ी की मिश्रित रणनीति कैसी दिखती है?

मिश्रित रणनीतियाँ चुनने वाले खिलाड़ी II से खिलाड़ी I को भुगतान की राशि क्या है?

कौन सी मिश्रित रणनीतियों को इष्टतम कहा जाता है?

अवितरित अंतर का क्या अर्थ है?

2x2 गेम के लिए इष्टतम मिश्रित रणनीतियाँ खोजने के लिए किस विधि का उपयोग किया जाता है?

2×n खेलों के लिए इष्टतम मिश्रित रणनीतियाँ कैसे पाई जाती हैं?

एम×एन गेम्स के लिए इष्टतम मिश्रित रणनीतियाँ खोजने के लिए किस विधि का उपयोग किया जाता है?

मैट्रिक्स गेम को हल करने की विशेषताएं क्या हैं?

भुगतान मैट्रिक्स के सरलीकरण का क्या मतलब है और इसे किन शर्तों के तहत लागू किया जा सकता है?

जब पेऑफ मैट्रिक्स में सैडल पॉइंट होता है या नहीं होता है तो कौन सा मैट्रिक्स गेम हल करना आसान होता है?

कौन सी गेम थ्योरी समस्याएं सांख्यिकीय निर्णय सिद्धांत समस्याओं से संबंधित हैं?

भुगतान मैट्रिक्स जोखिम मैट्रिक्स में कैसे परिवर्तित होता है?

प्रकृति के साथ मैट्रिक्स गेम में समाधान चुनने की समस्या के कौन से दो सूत्रीकरण संभव हैं?

प्रकृति के साथ मैट्रिक्स गेम में निर्णय लेने की समस्याएँ किन दो स्थितियों में उत्पन्न हो सकती हैं?

जोखिम की परिस्थितियों में सांख्यिकीय निर्णय सिद्धांत समस्या को हल करते समय खिलाड़ी I के लिए कौन सी रणनीति चुनना उचित है?

अनिश्चितता की स्थिति में सांख्यिकीय निर्णय सिद्धांत समस्याओं को हल करते समय कौन से निर्णय लेने के मानदंड का उपयोग किया जा सकता है?

समस्या समाधान के उदाहरण

1. भुगतान मैट्रिक्स उद्यम के बेचने पर उसके लाभ की मात्रा को इंगित करता है अलग - अलग प्रकारस्थापित मांग (पंक्तियों) के आधार पर उत्पाद (कॉलम)। विभिन्न प्रकार के उत्पादों के उत्पादन और उनकी बिक्री से संबंधित अधिकतम (औसतन) आय के लिए उद्यम की इष्टतम रणनीति निर्धारित करना आवश्यक है।

आइए हम दिए गए मैट्रिक्स को इससे निरूपित करें और चरों का परिचय दें। हम मैट्रिक्स (वेक्टर) का भी उपयोग करेंगे। फिर और , यानी .

व्युत्क्रम मैट्रिक्स की गणना की जाती है:

मान पाए जाते हैं:

.

संभावनाओं की गणना की जाती है:

औसत बिक्री आय निर्धारित की जाती है:

.

2. फार्मासिस्ट कंपनी इस क्षेत्र में दवाओं और बायोमेडिकल उत्पादों की निर्माता है। यह ज्ञात है कि कुछ दवाओं की चरम मांग इसी दौरान होती है ग्रीष्म काल(हृदय संबंधी दवाएं, दर्दनाशक दवाएं), दूसरों के लिए - शरद ऋतु और वसंत अवधि के लिए (संक्रामक-रोधी, कासरोधी)।

प्रति 1 मानक इकाई लागत इकाइयां सितंबर-अक्टूबर के लिए उत्पाद थे: पहले समूह के लिए (हृदय संबंधी दवाएं और दर्दनाशक दवाएं) - 20 रूबल; दूसरे समूह के लिए (संक्रामक-रोधी, कासरोधी दवाएं) - 15 रूबल।

कई से अधिक टिप्पणियों के अनुसार हाल के वर्षकंपनी की मार्केटिंग सेवा ने स्थापित किया है कि वह गर्म मौसम की स्थिति में विचाराधीन दो महीनों के दौरान 3050 पारंपरिक इकाइयाँ बेच सकती है। इकाइयां पहले समूह के उत्पाद और 1100 पारंपरिक इकाइयाँ। इकाइयां दूसरे समूह के उत्पाद; ठंडे मौसम की स्थिति में - 1525 arb। इकाइयां पहले समूह के उत्पाद और 3690 पारंपरिक इकाइयाँ। इकाइयां दूसरा समूह.

मौसम में संभावित परिवर्तनों के संबंध में, कंपनी की उत्पाद उत्पादन रणनीति निर्धारित करने का कार्य निर्धारित किया गया है जो 40 रूबल की बिक्री मूल्य पर अधिकतम बिक्री आय सुनिश्चित करता है। 1 मानक इकाई के लिए इकाइयां पहले समूह के उत्पाद और 30 रूबल। - दूसरा समूह.

समाधान। कंपनी की दो रणनीतियाँ हैं:

इस वर्ष मौसम गर्म रहेगा;

मौसम ठंडा रहेगा.

यदि कंपनी रणनीति अपनाती है और वास्तव में गर्म मौसम (प्रकृति रणनीति) है, तो निर्मित उत्पाद (पहले समूह की दवाओं की 3050 मानक इकाइयां और दूसरे समूह की 1100 मानक इकाइयां) पूरी तरह से बेची जाएंगी और आय होगी

3050×(40-20)+1100×(30-15)=77500 रूबल।

ठंडे मौसम की स्थिति (प्रकृति की रणनीति) में, दूसरे समूह की दवाएं पूरी तरह से बेची जाएंगी, और पहले समूह की दवाएं केवल 1525 पारंपरिक इकाइयों की मात्रा में बेची जाएंगी। इकाइयां और कुछ दवाएँ बिना बिकी रह जाएंगी। आय होगी

1525×(40-20)+1100×(30-15)-20×()=16500 रूबल।

इसी तरह, यदि फॉर्म रणनीति अपनाता है और मौसम वास्तव में ठंडा है, तो आय होगी

1525×(40-20)+3690×(30-15)=85850 रूबल।

गर्म मौसम में आय होगी

1525×(40-20)+1100×(30-15)-() ×15=8150 रूबल।

कंपनी और मौसम को दो खिलाड़ी मानते हुए, हम भुगतान मैट्रिक्स प्राप्त करते हैं

,

खेल की कीमत सीमा में है

भुगतान मैट्रिक्स से यह स्पष्ट है कि सभी शर्तों के तहत कंपनी की आय 16,500 रूबल से कम नहीं होगी, लेकिन यदि मौसम की स्थिति चुनी हुई रणनीति के साथ मेल खाती है, तो कंपनी की आय 77,500 रूबल हो सकती है।

आइए खेल का समाधान खोजें।

आइए हम एक फर्म द्वारा एक रणनीति का उपयोग करने की संभावना को, और एक रणनीति का उपयोग करके, और द्वारा निरूपित करें। गेम को ग्राफ़िक तरीके से हल करने पर, हमें मिलता है , जबकि खेल की कीमत पी है।

औषधियों के उत्पादन की सर्वोत्कृष्ट योजना होगी

इस प्रकार, कंपनी के लिए सितंबर और अक्टूबर के दौरान 2379 पारंपरिक इकाइयों का उत्पादन करना उचित है। इकाइयां पहले समूह की दवाएं और 2239.6 पारंपरिक इकाइयाँ। इकाइयां दूसरे समूह की दवाएं, तो किसी भी मौसम में उसे कम से कम 46,986 रूबल की आय प्राप्त होगी।

अनिश्चितता की स्थिति में, यदि किसी कंपनी के लिए मिश्रित रणनीति (अन्य संगठनों के साथ समझौते) का उपयोग करना संभव नहीं है, तो हम कंपनी की इष्टतम रणनीति निर्धारित करने के लिए निम्नलिखित मानदंडों का उपयोग करते हैं:

वाल्डे मानदंड:

हर्विट्ज़ मानदंड: निश्चितता के लिए हम स्वीकार करते हैं, फिर कंपनी की रणनीति के लिए

रणनीति के लिए

किसी कंपनी के लिए एक रणनीति का उपयोग करना उचित है।

बर्बरता की कसौटी. पहले कॉलम में अधिकतम तत्व 77500 है, दूसरे कॉलम में - 85850।

जोखिम मैट्रिक्स के तत्व अभिव्यक्ति से पाए जाते हैं

,

कहाँ , ,

जोखिम मैट्रिक्स जैसा दिखता है

,

या रणनीति का उपयोग करना उचित है।

इसलिए, कंपनी के लिए या रणनीति का उपयोग करना उचित है।

ध्यान दें कि विचार किए गए प्रत्येक मानदंड को पूरी तरह से संतोषजनक नहीं माना जा सकता है अंतिम विकल्पनिर्णय, लेकिन उनका संयुक्त विश्लेषण हमें कुछ प्रबंधन निर्णय लेने के परिणामों की अधिक स्पष्ट रूप से कल्पना करने की अनुमति देता है।

प्रकृति की विभिन्न अवस्थाओं के ज्ञात संभाव्यता वितरण को देखते हुए, निर्णय मानदंड जीत की अधिकतम गणितीय अपेक्षा है।

विचाराधीन समस्या के लिए यह ज्ञात हो कि गर्म और ठंडे मौसम की संभावनाएँ समान हैं और मात्रा 0.5 है, तो कंपनी की इष्टतम रणनीति निम्नानुसार निर्धारित की जाती है:

कंपनी के लिए या रणनीति का उपयोग करना उचित है।

स्वतंत्र कार्य के लिए कार्य

1. एक उद्यम मांग के आधार पर लाभ प्राप्त करते हुए तीन प्रकार के उत्पाद (ए, बी और सी) का उत्पादन कर सकता है। मांग, बदले में, चार अवस्थाओं (I, II, III और IV) में से एक ले सकती है। निम्नलिखित मैट्रिक्स में, तत्व उस लाभ को दर्शाते हैं जो उद्यम को -वें उत्पाद और -वें मांग की स्थिति जारी करते समय प्राप्त होगा:

सामान्य तौर पर, वी * ≠ वी * - कोई सैडल पॉइंट नहीं है। शुद्ध रणनीतियों में भी कोई इष्टतम समाधान नहीं है। हालाँकि, यदि हम मिश्रित रणनीति की अवधारणा को पेश करके शुद्ध रणनीति की अवधारणा का विस्तार करते हैं, तो एक अच्छी तरह से परिभाषित गेम समस्या का इष्टतम समाधान खोजने के लिए एक एल्गोरिदम लागू करना संभव है। ऐसी स्थिति में, शून्य-राशि खेल का इष्टतम समाधान खोजने के लिए एक सांख्यिकीय (संभाव्य) दृष्टिकोण का उपयोग करने का प्रस्ताव है। प्रत्येक खिलाड़ी के लिए, उसके लिए संभव रणनीतियों के दिए गए सेट के साथ, संभावनाओं का एक अज्ञात वेक्टर (सापेक्ष आवृत्तियों) पेश किया जाता है जिसके साथ एक या किसी अन्य रणनीति को लागू किया जाना चाहिए।

आइए हम खिलाड़ी ए की दी गई रणनीतियों को चुनने की संभावनाओं के वेक्टर (सापेक्ष आवृत्तियों) को निम्नानुसार निरूपित करें:
पी = (पी 1, पी 2,…, पी एम),
जहां p i ≥ 0, p 1 + p 2 +…+ p m = 1. मान p i को रणनीति A i का उपयोग करने की संभाव्यता (सापेक्ष आवृत्ति) कहा जाता है।

इसी प्रकार, खिलाड़ी बी के लिए, संभावनाओं का एक अज्ञात वेक्टर (सापेक्ष आवृत्तियों) पेश किया गया है और इसका रूप है:
क्यू = (क्यू 1, क्यू 2,…, क्यू एन),
जहां q j ≥ 0, q 1 + q 2 +…+ q n = 1. मान q j को रणनीति B j का उपयोग करने की संभावना (सापेक्ष आवृत्ति) कहा जाता है। उनमें से प्रत्येक को चुनने की संभावनाओं के वैक्टर के साथ संयोजन में शुद्ध रणनीतियों ए 1, ए 2, …ए एम और बी 1, बी 2, …बी एन के सेट (संयोजन) को कहा जाता है मिश्रित रणनीतियाँ.

परिमित शून्य-राशि खेलों के सिद्धांत में मुख्य प्रमेय है वॉन न्यूमैन का प्रमेय: प्रत्येक परिमित मैट्रिक्स गेम में, कम से कम, संभवतः मिश्रित रणनीतियों के बीच एक इष्टतम समाधान.
इस प्रमेय से यह निष्कर्ष निकलता है कि एक गैर-अच्छी तरह से परिभाषित गेम में मिश्रित रणनीतियों में कम से कम एक इष्टतम समाधान होता है। ऐसे खेलों में, समाधान इष्टतम मिश्रित रणनीतियों पी * और क्यू * की एक जोड़ी होगी, जैसे कि यदि खिलाड़ियों में से एक अपनी इष्टतम रणनीति का पालन करता है, तो दूसरे खिलाड़ी के लिए अपनी इष्टतम रणनीति से विचलित होना लाभदायक नहीं है।
खिलाड़ी A का औसत भुगतान गणितीय अपेक्षा से निर्धारित होता है:

यदि किसी रणनीति का उपयोग करने की संभावना (सापेक्ष आवृत्ति) शून्य से भिन्न है, तो ऐसी रणनीति कहलाती है सक्रिय.

रणनीतियाँ P*, Q* कहलाती हैं इष्टतम मिश्रितरणनीतियाँ यदि एम ए (पी, क्यू *) ≤ एम ए (पी *, क्यू *) ≤ एम ए (पी *, क्यू) (1)
इस स्थिति में एम ए (पी * , क्यू *) कहा जाता है लागत परखेल और इसे V (V * ≤ V ≤ V *) से दर्शाया जाता है। असमानताओं में से पहली (1) का अर्थ है खिलाड़ी ए का उसकी इष्टतम मिश्रित रणनीति से विचलनबशर्ते कि खिलाड़ी बी अपनी इष्टतम मिश्रित रणनीति पर कायम रहे, औसत जीत में कमी आती हैखिलाड़ी ए. असमानताओं में से दूसरे का मतलब है कि खिलाड़ी बी का उसकी इष्टतम मिश्रित रणनीति से विचलनबशर्ते कि खिलाड़ी ए अपनी इष्टतम मिश्रित रणनीति पर कायम रहे, इससे खिलाड़ी बी की औसत हानि में वृद्धि होती है.

सामान्य तौर पर, इस कैलकुलेटर द्वारा ऐसी समस्याओं को सफलतापूर्वक हल किया जा सकता है।

उदाहरण।

4 7 2
7 3 2
2 1 8

1. जांचें कि भुगतान मैट्रिक्स में सैडल पॉइंट है या नहीं. यदि हाँ, तो हम खेल का समाधान शुद्ध रणनीतियों में लिखते हैं।

हम मानते हैं कि खिलाड़ी I अपनी रणनीति इस तरह चुनता है कि उसका भुगतान अधिकतम हो सके, और खिलाड़ी II अपनी रणनीति इस तरह चुनता है कि खिलाड़ी I का भुगतान कम से कम हो।

खिलाड़ियों बी 1 बी 2 बी 3 ए = मिनट(ए i)
ए 1 4 7 2 2
ए 2 7 3 2 2
ए 3 2 1 8 1
बी = अधिकतम(बी i) 7 7 8

हम गेम की कम कीमत a = max(a i) = 2 द्वारा निर्धारित गारंटीकृत भुगतान पाते हैं, जो अधिकतम शुद्ध रणनीति A 1 को इंगित करता है।
गेम की ऊपरी कीमत b = min(b j) = 7 है। जो सैडल पॉइंट की अनुपस्थिति को इंगित करता है, चूँकि a ≠ b है, तो गेम की कीमत 2 ≤ y ≤ 7 की सीमा के भीतर है। हम एक समाधान ढूंढते हैं मिश्रित रणनीतियों में खेल के लिए. यह इस तथ्य से समझाया गया है कि खिलाड़ी दुश्मन को अपनी शुद्ध रणनीतियों की घोषणा नहीं कर सकते: उन्हें अपने कार्यों को छिपाना होगा। खिलाड़ियों को अपनी रणनीति चुनने की अनुमति देकर खेल को हल किया जा सकता है बेतरतीब(शुद्ध रणनीतियों का मिश्रण)।

2. प्रमुख पंक्तियों और प्रमुख स्तंभों के लिए भुगतान मैट्रिक्स की जाँच करें.
भुगतान मैट्रिक्स में कोई प्रमुख पंक्तियाँ या प्रमुख स्तंभ नहीं हैं।

3. मिश्रित रणनीतियों में खेल का समाधान खोजें.
आइए समीकरणों की एक प्रणाली लिखें।
खिलाड़ी I के लिए
4पी 1 +7पी 2 +2पी 3 = वाई
7पी 1 +3पी 2 +पी 3 = वाई
2पी 1 +2पी 2 +8पी 3 = वाई
पी 1 +पी 2 +पी 3 = 1

खिलाड़ी द्वितीय के लिए
4q 1 +7q 2 +2q 3 = y
7q 1 +3q 2 +2q 3 = y
2q 1 +q 2 +8q 3 = y
क्यू 1 + क्यू 2 + क्यू 3 = 1

गॉस विधि का उपयोग करके इन प्रणालियों को हल करने पर, हम पाते हैं:

y = 4 1/34
पी 1 = 29/68 (पहली रणनीति का उपयोग करने की संभावना)।
पी 2 = 4/17 (दूसरी रणनीति का उपयोग करने की संभावना)।
पी 3 = 23/68 (तीसरी रणनीति का उपयोग करने की संभावना)।

खिलाड़ी I की इष्टतम मिश्रित रणनीति: P = (29 / 68; 4 / 17; 23 / 68)
क्यू 1 = 6/17 (पहली रणनीति का उपयोग करने की संभावना)।
क्यू 2 = 9/34 (दूसरी रणनीति का उपयोग करने की संभावना)।
क्यू 3 = 13/34 (तीसरी रणनीति का उपयोग करने की संभावना)।

खिलाड़ी II की इष्टतम मिश्रित रणनीति: क्यू = (6/17; 9/34; 13/34)
खेल की कीमत: y = 4 1 / 34

यदि खेल में सैडल पॉइंट नहीं है, तो खेल की कीमत और खिलाड़ियों की इष्टतम रणनीति निर्धारित करने में कठिनाइयाँ आती हैं। उदाहरण के लिए, खेल पर विचार करें:

इस खेल में और. इसलिए, पहला खिलाड़ी खुद को 4 के बराबर जीत की गारंटी दे सकता है, और दूसरा अपनी हार को 5 तक सीमित कर सकता है। और के बीच का क्षेत्र, जैसा कि यह था, एक ड्रॉ है और प्रत्येक खिलाड़ी इसकी कीमत पर अपने परिणाम में सुधार करने का प्रयास कर सकता है क्षेत्र। इस मामले में खिलाड़ियों की सर्वोत्तम रणनीतियाँ क्या होनी चाहिए?

यदि प्रत्येक खिलाड़ी तारांकन (और) से चिह्नित रणनीति का उपयोग करता है, तो पहले खिलाड़ी की जीत और दूसरे की हार 5 के बराबर होगी। यह दूसरे खिलाड़ी के लिए नुकसानदेह है, क्योंकि पहला जितना गारंटी दे सकता है उससे अधिक जीतता है। अपने आप। हालाँकि, यदि दूसरा खिलाड़ी किसी तरह रणनीति का उपयोग करने के लिए पहले खिलाड़ी के इरादे को प्रकट करता है, तो वह रणनीति को लागू कर सकता है और पहले खिलाड़ी के भुगतान को 4 तक कम कर सकता है। हालाँकि, यदि पहला खिलाड़ी रणनीति का उपयोग करने के लिए दूसरे खिलाड़ी के इरादे को प्रकट करता है, तो, रणनीति का उपयोग करके, वह अपना भुगतान 6 तक बढ़ा देगा। इस प्रकार, एक स्थिति उत्पन्न होती है जहां प्रत्येक खिलाड़ी को वह रणनीति गुप्त रखनी होगी जिसका वह उपयोग करने जा रहा है। हालाँकि, यह कैसे करें? आख़िरकार, यदि खेल कई बार खेला जाता है और दूसरा खिलाड़ी हमेशा रणनीति का उपयोग करता है, तो पहला खिलाड़ी जल्द ही दूसरे खिलाड़ी की योजना का पता लगा लेगा और रणनीति लागू करने पर अतिरिक्त जीत हासिल करेगा। जाहिर है, दूसरे खिलाड़ी को प्रत्येक नए खेल में रणनीति बदलनी होगी, लेकिन उसे यह इस तरह से करना होगा कि पहले खिलाड़ी को यह अनुमान न लगे कि वह प्रत्येक मामले में कौन सी रणनीति का उपयोग करेगा।

यादृच्छिक चयन तंत्र के लिए, खिलाड़ियों की जीत और हार होगी यादृच्छिक चर. इस मामले में खेल के परिणाम का अनुमान दूसरे खिलाड़ी की औसत हार से लगाया जा सकता है। आइए उदाहरण पर वापस जाएं। इसलिए, यदि दूसरा खिलाड़ी 0.5 की संभावनाओं के साथ यादृच्छिक रूप से एक रणनीति का उपयोग करता है; 0.5, तो पहले खिलाड़ी की रणनीति से उसकी हानि का औसत मूल्य होगा:

और पहले खिलाड़ी की रणनीति के साथ

इसलिए, दूसरा खिलाड़ी पहले खिलाड़ी द्वारा इस्तेमाल की गई रणनीति की परवाह किए बिना अपनी औसत हानि को 4.5 तक सीमित कर सकता है।

इस प्रकार, कुछ मामलों में यह सलाह दी जाती है कि पहले से किसी रणनीति की रूपरेखा तैयार न करें, बल्कि किसी प्रकार के यादृच्छिक चयन तंत्र का उपयोग करके यादृच्छिक रूप से एक या दूसरे को चुनें। यादृच्छिक चयन पर आधारित रणनीति कहलाती है मिश्रित रणनीति, इच्छित रणनीतियों के विपरीत, जिन्हें कहा जाता है शुद्ध रणनीतियाँ.

आइए हम शुद्ध और मिश्रित रणनीतियों की अधिक सख्त परिभाषा दें।



बिना सैडल पॉइंट वाला खेल होने दें:

आइए हम पहले खिलाड़ी की शुद्ध रणनीति का उपयोग करने की आवृत्ति को (i-th रणनीति का उपयोग करने की संभावना) द्वारा निरूपित करें। इसी प्रकार, आइए हम दूसरे खिलाड़ी की शुद्ध रणनीति का उपयोग करने की आवृत्ति को, (जे-वें रणनीति का उपयोग करने की संभावना) द्वारा निरूपित करें। सैडल पॉइंट वाले खेल के लिए, शुद्ध रणनीतियों में एक समाधान है। सैडल प्वाइंट के बिना खेल के लिए, मिश्रित रणनीतियों में एक समाधान होता है, यानी, जब रणनीति का चुनाव संभावनाओं पर आधारित होता है। तब

ढेर सारी शुद्ध प्रथम खिलाड़ी रणनीतियाँ;

ढेर सारी मिश्रित प्रथम खिलाड़ी रणनीतियाँ;

ढेर सारी शुद्ध द्वितीय खिलाड़ी रणनीतियाँ;

ढेर सारी मिश्रित द्वितीय खिलाड़ी रणनीतियाँ।

आइए एक उदाहरण पर विचार करें: चलो एक खेल हो

दूसरा खिलाड़ी संभाव्यता चुनता है . आइए दूसरे खिलाड़ी की औसत हानि का अनुमान लगाएं जब वह क्रमशः रणनीतियों का उपयोग करता है।

शुद्ध और मिश्रित रणनीतियाँ हैं। शुद्ध रणनीति
पहला खिलाड़ी (शुद्ध रणनीति
दूसरा खिलाड़ी) पहले (दूसरे) खिलाड़ी की एक संभावित चाल है, जिसे उसके द्वारा 1 के बराबर संभावना के साथ चुना गया है।

यदि पहले खिलाड़ी के पास m रणनीतियाँ हैं, और दूसरे खिलाड़ी के पास n रणनीतियाँ हैं, तो पहले और दूसरे खिलाड़ियों की किसी भी जोड़ी की रणनीतियों के लिए, शुद्ध रणनीतियों को इकाई वैक्टर के रूप में दर्शाया जा सकता है। उदाहरण के लिए, रणनीतियों की एक जोड़ी के लिए
,
पहले और दूसरे खिलाड़ियों की शुद्ध रणनीतियाँ इस प्रकार लिखी जाएंगी:
,
. रणनीतियों की एक जोड़ी के लिए ,शुद्ध रणनीतियों को इस प्रकार लिखा जा सकता है:

,

.

प्रमेय: मैट्रिक्स गेम में, गेम का निचला शुद्ध मूल्य गेम के ऊपरी शुद्ध मूल्य से अधिक नहीं होता है, अर्थात।
.

परिभाषा:यदि शुद्ध रणनीतियों के लिए ,खिलाड़ी ए और बी में क्रमशः समानता है
, फिर शुद्ध रणनीतियों की एक जोड़ी ( ,) को मैट्रिक्स गेम का सैडल पॉइंट, तत्व कहा जाता है मैट्रिक्स, आई-वें पंक्ति और जे-वें कॉलम के चौराहे पर खड़ा भुगतान मैट्रिक्स का सैडल तत्व है, और संख्या
- खेल की शुद्ध कीमत.

उदाहरण:निचली और ऊपरी शुद्ध कीमतें ज्ञात करें, मैट्रिक्स गेम के सैडल पॉइंट की उपस्थिति स्थापित करें

.

आइए खेल की निचली और ऊपरी शुद्ध कीमतें निर्धारित करें: , ,
.

इस मामले में, हमारे पास एक सैडल पॉइंट (ए 1; बी 2) है, और सैडल तत्व 5 है। यह तत्व पहली पंक्ति में सबसे छोटा और दूसरे कॉलम में सबसे बड़ा है। अधिकतम रणनीति ए 1 से खिलाड़ी ए के विचलन से उसकी जीत में कमी आती है, और खिलाड़ी बी के न्यूनतम रणनीति बी 2 से विचलन से उसकी हानि में वृद्धि होती है। दूसरे शब्दों में, यदि किसी मैट्रिक्स गेम में सैडल तत्व है, तो खिलाड़ियों के लिए सबसे अच्छी रणनीतियाँ उनकी न्यूनतम रणनीतियाँ हैं। और ये शुद्ध रणनीतियाँ, एक सैडल पॉइंट बनाती हैं और गेम मैट्रिक्स में सैडल तत्व को 12 =5 पर उजागर करती हैं, इष्टतम शुद्ध रणनीतियाँ हैं और खिलाड़ी ए और बी, क्रमशः।

यदि मैट्रिक्स गेम में सैडल पॉइंट नहीं है, तो गेम को हल करना मुश्किल हो जाता है। इन खेलों में
. ऐसे खेलों में मिनिमैक्स रणनीतियों का उपयोग इस तथ्य की ओर ले जाता है कि प्रत्येक खिलाड़ी के लिए भुगतान अधिक नहीं होता है , और हारना भी कम नहीं है . प्रत्येक खिलाड़ी के लिए जीत बढ़ाने (नुकसान कम करने) का सवाल उठता है। मिश्रित रणनीतियों का उपयोग करके समाधान खोजा जाता है।

परिभाषा:पहले (दूसरे) खिलाड़ी की मिश्रित रणनीति एक वेक्टर है
, कहाँ
और
(
, कहाँ
और
).

वेक्टर p(q) का अर्थ है पहले खिलाड़ी द्वारा i-th शुद्ध रणनीति (दूसरे खिलाड़ी द्वारा j-th शुद्ध रणनीति) का उपयोग करने की संभावना।

चूँकि खिलाड़ी अपनी शुद्ध रणनीतियों को यादृच्छिक रूप से और एक-दूसरे से स्वतंत्र रूप से चुनते हैं, खेल यादृच्छिक होता है और जीत (हार) की मात्रा यादृच्छिक हो जाती है। इस मामले में, लाभ (हानि) का औसत मूल्य - गणितीय अपेक्षा - मिश्रित रणनीतियों पी, क्यू का एक कार्य है:

.

परिभाषा:फ़ंक्शन f(р, q) को मैट्रिक्स गेम का पेऑफ़ फ़ंक्शन कहा जाता है
.

परिभाषा:रणनीतियाँ
,
यदि मनमानी रणनीतियों के लिए इष्टतम कहा जाता है
,
शर्त पूरी हो गई है

खेल में इष्टतम मिश्रित रणनीतियों का उपयोग पहले खिलाड़ी को किसी अन्य रणनीति पी का उपयोग करने पर कम से कम भुगतान प्रदान करता है; यदि दूसरा खिलाड़ी किसी अन्य रणनीति का उपयोग करता है तो उसे इससे अधिक हानि नहीं होती है।

इष्टतम रणनीतियों और खेल की कीमत का संयोजन खेल का समाधान बनता है।

© 2023 skudelnica.ru -- प्यार, विश्वासघात, मनोविज्ञान, तलाक, भावनाएँ, झगड़े