शुद्ध और मिश्रित रणनीतियाँ। शुद्ध रणनीति खेल

मुख्य / झगड़ा

व्यावहारिक महत्व के सीमित खेलों में, सैडल पॉइंट वाले खेल अपेक्षाकृत दुर्लभ हैं; अधिक विशिष्ट मामला है "जब निचली और ऊपरी कीमतें भिन्न होती हैं। ऐसे खेलों के मैट्रिक्स का विश्लेषण करते हुए, हम इस निष्कर्ष पर पहुंचे कि यदि प्रत्येक खिलाड़ी को एक विकल्प दिया जाता है

एक - एकमात्र रणनीति।, फिर, एक यथोचित अभिनय विरोधी पर भरोसा करते हुए, यह विकल्प न्यूनतम सिद्धांत द्वारा निर्धारित किया जाना चाहिए। हमारी अधिकतम रणनीति का पालन करते हुए, दुश्मन के किसी भी व्यवहार के लिए, हम जानबूझकर खुद को खेल की कम कीमत के बराबर जीत की गारंटी देते हैं। एक स्वाभाविक प्रश्न उठता है: यदि आप एक भी "शुद्ध" रणनीति का उपयोग नहीं करते हैं, लेकिन वैकल्पिक रूप से एक से अधिक औसत लाभ की गारंटी देना संभव है बेतरतीबकई रणनीतियाँ?

एक निश्चित आवृत्ति अनुपात के साथ एक यादृच्छिक कानून के अनुसार बारी-बारी से कई शुद्ध रणनीतियों के आवेदन में ऐसी संयुक्त रणनीतियों को गेम थ्योरी में मिश्रित रणनीति कहा जाता है।

जाहिर है, प्रत्येक शुद्ध रणनीति मिश्रित का एक विशेष मामला है, जिसमें एक को छोड़कर सभी रणनीतियों को शून्य आवृत्तियों के साथ लागू किया जाता है, और यह एक - 1 की आवृत्ति के साथ।

यह पता चला है कि न केवल शुद्ध का उपयोग करना, बल्कि मिश्रित रणनीतियाँ, प्रत्येक परिमित खेल के लिए एक समाधान प्राप्त करना संभव है, अर्थात, ऐसी (आमतौर पर मिश्रित) रणनीतियों की एक जोड़ी जैसे कि जब दोनों खिलाड़ी उन्हें लागू करते हैं, तो भुगतान खेल की कीमत के बराबर होगा, और किसी भी एकतरफा विचलन के लिए इष्टतम रणनीति, अदायगी केवल विचलन के लिए हानिकारक, की ओर बदल सकती है।

उपरोक्त कथन गेम थ्योरी के तथाकथित मुख्य प्रमेय की सामग्री का गठन करता है। यह प्रमेय पहली बार 1928 में वॉन न्यूमैन द्वारा सिद्ध किया गया था। प्रमेय के ज्ञात प्रमाण तुलनात्मक रूप से जटिल हैं; इसलिए, हम केवल इसके सूत्रीकरण को प्रस्तुत करते हैं।

प्रत्येक अंतिम गेम में कम से कम एक समाधान होता है (संभवतः मिश्रित रणनीतियों के क्षेत्र में)।

किसी निर्णय से होने वाले लाभ को खेल की लागत कहा जाता है। मुख्य प्रमेय का तात्पर्य है कि प्रत्येक परिमित खेल की एक कीमत होती है। जाहिर है, खेल की कीमत हमेशा खेल की कम कीमत और खेल की ऊपरी कीमत के बीच होती है:

वास्तव में, अधिकतम गारंटीकृत जीत है कि हम केवल अपनी शुद्ध रणनीतियों का उपयोग करके खुद को प्रदान कर सकते हैं। चूंकि मिश्रित रणनीतियों में, एक विशेष मामले के रूप में, सभी शुद्ध शामिल हैं, फिर, शुद्ध के अलावा, मिश्रित भी अनुमति देते हैं

रणनीतियों, हम, किसी भी मामले में, अपनी क्षमताओं को खराब नहीं करते हैं; फलस्वरूप,

इसी तरह, प्रतिद्वंद्वी की क्षमताओं को देखते हुए, हम यह दिखाएंगे कि

जहाँ से सिद्ध असमानता (3.1) इस प्रकार है।

आइए मिश्रित रणनीतियों के लिए एक विशेष संकेतन पेश करें। यदि, उदाहरण के लिए, हमारी मिश्रित रणनीति में AL रणनीतियों के अनुप्रयोग शामिल हैं, तो आवृत्तियों के साथ हम इस रणनीति को निरूपित करेंगे

इसी तरह, दुश्मन की मिली-जुली रणनीति को निरूपित किया जाएगा:

वे आवृत्तियाँ कहाँ हैं जिन पर रणनीतियाँ मिश्रित होती हैं

मान लीजिए कि हमने दो इष्टतम मिश्रित रणनीतियों एस, एस से मिलकर खेल का समाधान ढूंढ लिया है। सामान्य स्थिति में, किसी दिए गए खिलाड़ी के लिए उपलब्ध सभी शुद्ध रणनीतियों को उसकी इष्टतम मिश्रित रणनीति में शामिल नहीं किया जाता है, लेकिन केवल कुछ ही। हम खिलाड़ी की इष्टतम मिश्रित रणनीति में शामिल रणनीतियों को उसकी "उपयोगी" रणनीति कहेंगे।

यह पता चला है कि खेल के समाधान में एक और है अद्भुत संपत्ति: यदि खिलाड़ियों में से एक अपनी इष्टतम मिश्रित रणनीति 5 (5) का पालन करता है। तब अदायगी अपरिवर्तित रहती है और खेल v की कीमत के बराबर होती है, भले ही दूसरा खिलाड़ी क्या करता है, यदि वह है। बस उनकी "उपयोगी" रणनीतियों से आगे न बढ़ें। उदाहरण के लिए, वह अपनी किसी भी "उपयोगी" रणनीति का शुद्ध रूप में उपयोग कर सकता है, और उन्हें किसी भी अनुपात में मिला भी सकता है।

आइए इस कथन को सिद्ध करें। खेल का कोई समाधान होने दें। विशिष्ट होने के लिए, हम मान लेंगे कि इष्टतम मिश्रित रणनीति में तीन का मिश्रण होता है

क्रमशः "उपयोगी" रणनीतियों में तीन "उपयोगी" रणनीतियों का मिश्रण होता है

इसके अलावा, यह दावा किया जाता है कि यदि हम रणनीति एस का पालन करते हैं, तो दुश्मन किसी भी अनुपात में रणनीतियों को लागू कर सकता है, और लाभ अपरिवर्तित रहेगा और फिर भी खेल की कीमत के बराबर होगा

हालाँकि मैंने भौतिकी और प्रौद्योगिकी संकाय से स्नातक की उपाधि प्राप्त की, लेकिन मुझे विश्वविद्यालय में खेल सिद्धांत नहीं पढ़ाया गया। लेकिन जब से मैं अंदर हूँ छात्र वर्षमैंने बहुत खेला, पहले वरीयता में, और फिर ब्रिज में, गेम थ्योरी में मेरी दिलचस्पी थी, और मैंने एक छोटी पाठ्यपुस्तक में महारत हासिल की। और हाल ही में साइट के पाठक मिखाइल ने गेम थ्योरी की समस्या को हल किया है। यह महसूस करते हुए कि यह कार्य मुझे तुरंत नहीं दिया गया था, मैंने अपनी स्मृति में गेम थ्योरी के अपने ज्ञान को ताज़ा करने का फैसला किया। मैं आपके लिए एक छोटी सी किताब प्रस्तुत करता हूं - गेम थ्योरी के तत्वों की एक लोकप्रिय प्रदर्शनी और मैट्रिक्स गेम को हल करने के कुछ तरीके। इसमें लगभग कोई सबूत नहीं है और उदाहरण के साथ सिद्धांत के मुख्य बिंदुओं को दिखाता है। यह पुस्तक गणितज्ञ और विज्ञान की लोकप्रिय ऐलेना सर्गेवना वेंटजेल द्वारा लिखी गई थी। सोवियत इंजीनियरों की कई पीढ़ियों ने उसकी पाठ्यपुस्तक "थ्योरी ऑफ़ प्रोबेबिलिटी" से अध्ययन किया। ऐलेना सर्गेवना ने भी कई लिखा साहित्यिक कार्यआई। ग्रीकोव के छद्म नाम के तहत।

ऐलेना वेंट्ज़ेल। खेल सिद्धांत के तत्व। - एम।: फ़िज़मतगिज़, 1961 .-- 68 पी।

डाउनलोड संक्षिप्त सारांशप्रारूप में या

§ 1. गेम थ्योरी का विषय। मूल अवधारणा

कई व्यावहारिक समस्याओं (अर्थशास्त्र, सैन्य मामलों, आदि के क्षेत्र में) को हल करते समय, उन स्थितियों का विश्लेषण करना आवश्यक है जहां दो (या अधिक) युद्धरत पक्ष विपरीत लक्ष्यों का पीछा कर रहे हैं, और प्रत्येक घटना का परिणाम पार्टियां इस बात पर निर्भर करती हैं कि दुश्मन किस तरह की कार्रवाई करेगा। हम ऐसी स्थितियों को "संघर्ष की स्थिति" कहेंगे।

अभ्यास के विभिन्न क्षेत्रों से संघर्ष की स्थितियों के कई उदाहरण हैं। शत्रुता के दौरान उत्पन्न होने वाली कोई भी स्थिति संघर्ष की स्थितियों से संबंधित होती है: प्रत्येक लड़ने वाला पक्ष दुश्मन को सफलता प्राप्त करने से रोकने के लिए सभी उपलब्ध उपाय करता है। संघर्ष की स्थितियों में ऐसी स्थितियाँ भी शामिल होती हैं जो एक हथियार प्रणाली का चयन करते समय उत्पन्न होती हैं, इसके युद्धक उपयोग के तरीके और, सामान्य तौर पर, सैन्य अभियानों की योजना बनाते समय: इस क्षेत्र में प्रत्येक निर्णय दुश्मन के कार्यों को ध्यान में रखते हुए लिया जाना चाहिए जो कम से कम फायदेमंद हों। हम। अर्थशास्त्र के क्षेत्र में कई स्थितियां (विशेषकर मुक्त प्रतिस्पर्धा की उपस्थिति में) संघर्ष की स्थितियों से संबंधित हैं; व्यापारिक फर्में लड़ने वाले दलों के रूप में कार्य करती हैं, औद्योगिक उद्यमआदि।

ऐसी स्थितियों का विश्लेषण करने की आवश्यकता ने एक विशेष गणितीय तंत्र को जन्म दिया। गेम थ्योरी अनिवार्य रूप से संघर्ष स्थितियों के गणितीय सिद्धांत से ज्यादा कुछ नहीं है। सिद्धांत का लक्ष्य संघर्ष की स्थिति के दौरान प्रत्येक विरोधियों के लिए कार्रवाई के तर्कसंगत पाठ्यक्रम के लिए सिफारिशें विकसित करना है। अभ्यास से सीधे तौर पर ली गई प्रत्येक संघर्ष की स्थिति बहुत जटिल होती है, और इसका विश्लेषण कई परिचर कारकों की उपस्थिति से बाधित होता है। स्थिति का गणितीय विश्लेषण संभव बनाने के लिए, द्वितीयक, आकस्मिक कारकों से अलग होना और स्थिति का एक सरलीकृत, औपचारिक मॉडल बनाना आवश्यक है। हम इस मॉडल को "गेम" कहेंगे।

खेल वास्तविक संघर्ष की स्थिति से अलग है क्योंकि यह अच्छी तरह से परिभाषित नियमों के अनुसार आयोजित किया जाता है। मानवता लंबे समय से संघर्ष की स्थितियों के ऐसे औपचारिक मॉडल का उपयोग कर रही है, जो शब्द के शाब्दिक अर्थों में खेल हैं। उदाहरणों में शतरंज, चेकर्स, कार्ड गेम आदि शामिल हैं। इन सभी खेलों में एक प्रतियोगिता का चरित्र है जो प्रसिद्ध नियमों के अनुसार आगे बढ़ता है और एक या किसी अन्य खिलाड़ी की "जीत" (लाभ) के साथ समाप्त होता है।

इस तरह के औपचारिक रूप से विनियमित, कृत्रिम रूप से संगठित खेल सबसे अधिक प्रतिनिधित्व करते हैं उपयुक्त सामग्रीगेम थ्योरी की बुनियादी अवधारणाओं को स्पष्ट और मास्टर करने के लिए। इस तरह के खेलों के अभ्यास से उधार ली गई शब्दावली का उपयोग अन्य संघर्ष स्थितियों के विश्लेषण में भी किया जाता है: उनमें भाग लेने वाले दलों को पारंपरिक रूप से "खिलाड़ी" कहा जाता है, और टकराव का परिणाम पार्टियों में से एक की "जीत" होता है। .

खेल में दो या दो से अधिक विरोधियों के हित टकरा सकते हैं; पहले मामले में, खेल को "युगल" कहा जाता है, दूसरे में - "एकाधिक"। एक से अधिक गेम में भाग लेने वाले गठबंधन बना सकते हैं - स्थायी या अस्थायी। दो स्थायी गठबंधनों की उपस्थिति में, बहु खेल एक जोड़ी में बदल जाता है। जोड़ी के खेल सबसे बड़े व्यावहारिक महत्व के हैं; यहां हम केवल ऐसे खेलों पर विचार करने तक ही सीमित रहेंगे।

हम कुछ बुनियादी अवधारणाओं के निर्माण के साथ प्रारंभिक गेम थ्योरी की अपनी प्रस्तुति शुरू करते हैं। हम एक युगल खेल पर विचार करेंगे जिसमें विपरीत रुचियों वाले दो खिलाड़ी A और B भाग लेते हैं। "खेल" से हमारा तात्पर्य एक ऐसी घटना से है जिसमें पक्षों ए और बी की क्रियाओं की एक श्रृंखला शामिल है। खेल को गणितीय विश्लेषण के अधीन करने के लिए, खेल के नियमों को ठीक से तैयार किया जाना चाहिए। "खेल के नियम" से हमारा तात्पर्य उन स्थितियों की प्रणाली से है जो दोनों पक्षों के कार्यों के लिए संभावित विकल्पों को नियंत्रित करती हैं, प्रत्येक पक्ष के पास दूसरे के व्यवहार के बारे में जानकारी की मात्रा, "चाल" का क्रम (व्यक्तिगत निर्णय किए गए) खेल के दौरान), साथ ही उस खेल का परिणाम या परिणाम जिसमें दिया गया सेट चलता है। इस परिणाम (लाभ या हानि) में हमेशा एक मात्रात्मक अभिव्यक्ति नहीं होती है, लेकिन आमतौर पर, माप के एक निश्चित पैमाने को निर्धारित करके, इसे एक निश्चित संख्या द्वारा व्यक्त किया जा सकता है। उदाहरण के लिए, शतरंज के खेल में, लाभ को पारंपरिक रूप से मान +1, हानि -1, ड्रा 0 दिया जा सकता है।

एक गेम को जीरो-सम गेम कहा जाता है यदि एक खिलाड़ी जीतता है जो दूसरा हारता है, अर्थात। दोनों पक्षों की जीत का योग शून्य के बराबर है। शून्य-राशि के खेल में, खिलाड़ियों के हित बिल्कुल विपरीत होते हैं। यहां हम केवल ऐसे खेलों पर विचार करेंगे।

चूंकि शून्य-राशि के खेल में, खिलाड़ियों में से एक का भुगतान दूसरे के भुगतान के बराबर होता है विपरीत चिन्ह, तो, जाहिर है, इस तरह के खेल का विश्लेषण करते समय, केवल एक खिलाड़ी के भुगतान पर विचार किया जा सकता है। उदाहरण के लिए, खिलाड़ी ए होने दें। सुविधा के लिए, हम पारंपरिक रूप से साइड ए को "हम", और साइड बी - "दुश्मन" कहेंगे।

इस मामले में, पक्ष ए ("हम") को हमेशा "जीतने" के रूप में माना जाएगा, और पक्ष बी ("प्रतिद्वंद्वी") को "हारने" के रूप में माना जाएगा। यह औपचारिक शर्त स्पष्ट रूप से पहले खिलाड़ी के लिए कोई वास्तविक लाभ नहीं दर्शाती है; यह देखना आसान है कि यदि विजयी चिन्ह उलट दिया जाता है तो इसे विपरीत से बदल दिया जाता है।

हम समय के साथ खेल के विकास की कल्पना करेंगे, जिसमें क्रमिक चरणों या "चाल" की एक श्रृंखला शामिल होगी। गेम थ्योरी में एक चाल खेल के नियमों द्वारा प्रदान किए गए विकल्पों में से एक का विकल्प है। चाल व्यक्तिगत और यादृच्छिक में विभाजित हैं। एक व्यक्तिगत चाल एक खिलाड़ी द्वारा दी गई स्थिति और उसके कार्यान्वयन में संभावित चालों में से एक द्वारा एक सचेत विकल्प है। व्यक्तिगत चाल का एक उदाहरण शतरंज के खेल में कोई भी चाल है। अगले कदम का प्रदर्शन करते हुए, खिलाड़ी उन विकल्पों में से एक का सचेत विकल्प बनाता है जो बोर्ड पर टुकड़ों की दी गई व्यवस्था के साथ संभव हैं। प्रत्येक व्यक्तिगत चाल के लिए संभावित विकल्पों का सेट खेल के नियमों द्वारा नियंत्रित होता है और दोनों पक्षों की पिछली चालों की समग्रता पर निर्भर करता है।

एक यादृच्छिक चाल कई संभावनाओं में से एक विकल्प है, जो खिलाड़ी के निर्णय से नहीं, बल्कि यादृच्छिक चयन के कुछ तंत्र (एक सिक्का फेंकना, एक पासा, फेरबदल और डीलिंग कार्ड, आदि) द्वारा किया जाता है। उदाहरण के लिए, किसी एक खिलाड़ी को वरीयता में पहला कार्ड देना एक यादृच्छिक चाल है जिसमें 32 समान रूप से संभव विकल्प हैं। खेल को गणितीय रूप से परिभाषित करने के लिए, खेल के नियमों को प्रत्येक यादृच्छिक चाल के लिए संभावित परिणामों के संभाव्यता वितरण को इंगित करना चाहिए।

कुछ खेलों में केवल यादृच्छिक चालें (तथाकथित विशुद्ध रूप से जुआ) या केवल व्यक्तिगत चालें (शतरंज, चेकर्स) शामिल हो सकती हैं। बहुमत पत्तो का खेलखेलों के अंतर्गत आता है मिश्रित प्रकार, अर्थात। यादृच्छिक और व्यक्तिगत दोनों चालें शामिल हैं।

खेलों को न केवल उनकी चाल (व्यक्तिगत, यादृच्छिक) की प्रकृति से वर्गीकृत किया जाता है, बल्कि प्रत्येक खिलाड़ी को दूसरे के कार्यों के बारे में उपलब्ध जानकारी की प्रकृति और मात्रा से भी वर्गीकृत किया जाता है। खेलों का एक विशेष वर्ग तथाकथित "गेम्स विथ ." से बना है पूरी जानकारी". पूरी जानकारी वाला खेल एक ऐसा खेल है जिसमें प्रत्येक खिलाड़ी प्रत्येक व्यक्तिगत चाल पर व्यक्तिगत और यादृच्छिक दोनों, पिछली सभी चालों के परिणामों को जानता है। पूरी जानकारी वाले खेलों के उदाहरणों में शतरंज, चेकर्स और "नॉट्स एंड क्रॉस" का प्रसिद्ध खेल शामिल है।

व्यावहारिक महत्व के अधिकांश खेल पूरी जानकारी वाले खेलों के वर्ग से संबंधित नहीं हैं, क्योंकि दुश्मन के कार्यों के बारे में अनिश्चितता आमतौर पर संघर्ष की स्थितियों का एक अनिवार्य तत्व है।

गेम थ्योरी की मूल अवधारणाओं में से एक "रणनीति" की अवधारणा है। एक खिलाड़ी की रणनीति नियमों का एक समूह है जो विशिष्ट रूप से खेल के दौरान विकसित हुई स्थिति के आधार पर किसी दिए गए खिलाड़ी के प्रत्येक व्यक्तिगत कदम के लिए विकल्प निर्धारित करता है। आमतौर पर, प्रत्येक व्यक्तिगत चाल के लिए निर्णय (पसंद) खिलाड़ी द्वारा खेल के दौरान ही किया जाता है, जो उस विशिष्ट स्थिति पर निर्भर करता है जो विकसित हुई है। हालांकि, सैद्धांतिक रूप से, चीजें नहीं बदलेगी यदि हम कल्पना करते हैं कि ये सभी निर्णय खिलाड़ी द्वारा पहले से किए जाते हैं। ऐसा करने के लिए, खिलाड़ी को खेल के दौरान संभावित सभी स्थितियों की एक सूची पहले से संकलित करनी होगी और उनमें से प्रत्येक के लिए अपना समाधान प्रदान करना होगा। सिद्धांत रूप में (यदि व्यावहारिक रूप से नहीं) यह किसी भी खेल के लिए संभव है। यदि ऐसी निर्णय प्रणाली अपनाई जाती है, तो इसका अर्थ होगा कि खिलाड़ी ने एक निश्चित रणनीति चुनी है।

एक खिलाड़ी जिसने एक रणनीति चुनी है, वह अब व्यक्तिगत रूप से खेल में भाग नहीं ले सकता है, लेकिन अपनी भागीदारी को नियमों की एक सूची के साथ बदल सकता है कि कोई उदासीन व्यक्ति (न्यायाधीश) उसके लिए आवेदन करेगा। एक विशिष्ट कार्यक्रम के रूप में ऑटोमेटन को रणनीति भी दी जा सकती है। इस तरह आज कंप्यूटर शतरंज खेलते हैं। "रणनीति" की अवधारणा को समझने के लिए, खेल में व्यक्तिगत चालें होनी चाहिए; केवल यादृच्छिक चाल वाले खेलों में, रणनीतियाँ अनुपस्थित होती हैं।

संभावित रणनीतियों की संख्या के आधार पर, खेलों को "परिमित" और "अंतहीन" में विभाजित किया जाता है। एक परिमित खेल एक ऐसा खेल है जिसमें प्रत्येक खिलाड़ी के पास केवल सीमित संख्या में रणनीतियाँ होती हैं। अंतिम गेम जिसमें खिलाड़ी A के पास है एमरणनीतियाँ, और खिलाड़ी बी - एनरणनीतियों को एमएक्सएन गेम कहा जाता है।

दो खिलाड़ियों ए और बी ("हम" और "प्रतिद्वंद्वी") के एमएक्सएन गेम पर विचार करें। हम अपनी रणनीतियों ए 1, ए 2, ..., ए एम दुश्मन की रणनीति बी 1, बी 2,…, बी एन को निरूपित करेंगे। प्रत्येक पक्ष को एक विशिष्ट रणनीति चुनने दें; हमारे लिए यह ए होगा, दुश्मन बी जे के लिए। यदि खेल में केवल व्यक्तिगत चालें होती हैं, तो रणनीति A i, B j का चुनाव विशिष्ट रूप से खेल के परिणाम को निर्धारित करता है - हमारी जीत। आइए हम इसे ij के रूप में निरूपित करें। यदि खेल में व्यक्तिगत, यादृच्छिक चालों के अलावा, ए आई, बी जे रणनीतियों की एक जोड़ी के लिए अदायगी एक यादृच्छिक मूल्य है जो सभी यादृच्छिक चालों के परिणामों पर निर्भर करता है। इस मामले में, अपेक्षित अदायगी का एक प्राकृतिक अनुमान इसका औसत मूल्य है ( अपेक्षित मूल्य) हम एक ही चिह्न से दोनों अदायगी (यादृच्छिक चाल के बिना एक खेल में) और इसके औसत मूल्य (यादृच्छिक चाल वाले खेल में) दोनों को निरूपित करेंगे।

आइए जानते हैं प्रत्येक जोड़ी रणनीतियों के लिए एक ij अदायगी (या औसत अदायगी) के मान। मानों को एक आयताकार तालिका (मैट्रिक्स) के रूप में लिखा जा सकता है, जिसकी पंक्तियाँ हमारी रणनीतियों (ए i) के अनुरूप होती हैं, और कॉलम दुश्मन की रणनीतियों (बी जे) के अनुरूप होते हैं। ऐसी तालिका को पेऑफ मैट्रिक्स या केवल गेम मैट्रिक्स कहा जाता है। खेल मैट्रिक्स एमएक्सएन अंजीर में दिखाया गया है। एक।

चावल। 1. मैट्रिक्स एमएक्सएन

संक्षेप में, हम खेल а ij के मैट्रिक्स को निरूपित करेंगे। आइए खेलों के कुछ प्रारंभिक उदाहरण देखें।

उदाहरण 1।दो खिलाड़ी A और B, एक-दूसरे को देखे बिना, अपने विवेक पर एक सिक्का उल्टा करके मेज, प्रतीक या पूंछ पर रख देते हैं। यदि खिलाड़ियों ने एक ही पक्ष चुना है (दोनों के पास हथियारों का कोट है या दोनों की पूंछ है), तो खिलाड़ी ए दोनों सिक्के लेता है; अन्यथा उन्हें खिलाड़ी बी द्वारा लिया जाता है। खेल का विश्लेषण करना और इसके मैट्रिक्स की रचना करना आवश्यक है। समाधान। खेल में केवल दो चालें होती हैं: हमारी चाल और प्रतिद्वंद्वी की चाल, दोनों व्यक्तिगत। खेल पूरी जानकारी वाले खेलों से संबंधित नहीं है, क्योंकि मोड़ के समय खिलाड़ी यह नहीं जानता कि दूसरे ने क्या किया है। चूंकि प्रत्येक खिलाड़ी के पास केवल एक व्यक्तिगत चाल है, खिलाड़ी की रणनीति इस एकल व्यक्तिगत चाल के साथ एक विकल्प है।

हमारे पास दो रणनीतियां हैं: ए 1 - हथियारों का कोट चुनने के लिए और ए 2 - पूंछ चुनने के लिए; प्रतिद्वंद्वी के पास समान दो रणनीतियां हैं: बी 1 - हथियारों का कोट और बी 2 - पूंछ। इस प्रकार यह खेल 2×2 का खेल है। आइए एक सिक्के की जीत को +1 मानें। खेल मैट्रिक्स:

इस खेल के उदाहरण से, जैसा कि यह प्राथमिक है, आप गेम थ्योरी के कुछ आवश्यक विचारों को समझ सकते हैं। पहले मान लीजिए कि दिए गए गेम को केवल एक बार निष्पादित किया जाता है। फिर, जाहिर है, खिलाड़ियों की किसी भी "रणनीति" के बारे में बात करने का कोई मतलब नहीं है जो दूसरों की तुलना में अधिक उचित है। एक ही कारण से प्रत्येक खिलाड़ी कोई भी निर्णय ले सकता है। हालांकि, जब खेल दोहराया जाता है, तो स्थिति बदल जाती है।

दरअसल, मान लीजिए कि हमने (खिलाड़ी ए) ने अपने लिए कुछ रणनीति चुनी है (जैसे, ए 1) और उस पर टिके रहें। फिर, पहले कुछ चालों के परिणामों के आधार पर, दुश्मन हमारी रणनीति का अनुमान लगाएगा और हमारे लिए कम से कम लाभप्रद तरीके से इसका जवाब देगा, अर्थात। पूंछ चुनें। हमेशा किसी एक रणनीति का उपयोग करना हमारे लिए स्पष्ट रूप से लाभहीन है; हारने के पक्ष में नहीं होने के लिए, हमें कभी-कभी हथियारों का कोट चुनना चाहिए, कभी-कभी - पूंछ। हालांकि, अगर हम एक निश्चित क्रम में हथियारों और पूंछ के कोट को वैकल्पिक करते हैं (उदाहरण के लिए, एक के बाद), तो दुश्मन भी इस बारे में अनुमान लगा सकता है और हमारे लिए सबसे खराब तरीके से इस रणनीति का जवाब दे सकता है। जाहिर है, यह सुनिश्चित करने का एक विश्वसनीय तरीका है कि दुश्मन हमारी रणनीति को नहीं जानता है, हर कदम पर चुनाव को व्यवस्थित करना है, जब हम खुद इसे पहले से नहीं जानते हैं (यह सुनिश्चित किया जा सकता है, उदाहरण के लिए, एक सिक्का उछालकर)। इस प्रकार, सहज तर्क से हम गेम थ्योरी की आवश्यक अवधारणाओं में से एक पर आते हैं - "मिश्रित रणनीति" की अवधारणा के लिए, अर्थात। जैसे जब "शुद्ध" रणनीतियां - इस मामले में ए 1 और ए 2 - कुछ आवृत्तियों के साथ यादृच्छिक रूप से वैकल्पिक। इस उदाहरण में, समरूपता के विचार से, यह पहले से स्पष्ट है कि रणनीति ए 1 और ए 2 को समान आवृत्ति के साथ वैकल्पिक होना चाहिए; अधिक जटिल खेलों में, समाधान तुच्छ से दूर हो सकता है।

उदाहरण २।खिलाड़ी ए और बी एक साथ और एक दूसरे से स्वतंत्र रूप से तीन संख्याओं में से प्रत्येक को लिखते हैं: 1, 2 या 3। यदि लिखित संख्याओं का योग सम है, तो बी इस राशि को रूबल में भुगतान करता है; यदि यह विषम है, तो, इसके विपरीत, A इस राशि का भुगतान B को करता है। खेल का विश्लेषण करना और उसका मैट्रिक्स तैयार करना आवश्यक है।

समाधान। खेल में दो चालें होती हैं; दोनों व्यक्तिगत हैं। हम (ए) की तीन रणनीतियां हैं: ए 1 - 1 लिखें; और २ - २ लिखो; और 3 - 3 लिखें। प्रतिद्वंद्वी (बी) के पास समान तीन रणनीतियाँ हैं। खेल एक 3 × 3 खेल है:

जाहिर है, पिछले मामले की तरह, दुश्मन हमारे द्वारा चुनी गई किसी भी रणनीति के लिए सबसे खराब तरीके से जवाब दे सकता है। वास्तव में, यदि हम चुनते हैं, उदाहरण के लिए, रणनीति A1, दुश्मन हमेशा रणनीति B2 के साथ इसका जवाब देगा; रणनीति ए 2 पर - रणनीति बी 3 द्वारा; रणनीति ए 3 पर - रणनीति बी 2 द्वारा; इस प्रकार, एक निश्चित रणनीति का कोई भी विकल्प अनिवार्य रूप से हमें नुकसान की ओर ले जाएगा (हालांकि, यह भूलना आवश्यक नहीं है कि दुश्मन उसी संकटपूर्ण स्थिति में है)। इस खेल का समाधान (यानी, दोनों खिलाड़ियों की सबसे फायदेमंद रणनीतियों का सेट) 5 में दिया जाएगा।

उदाहरण 3.हमारे पास तीन प्रकार के हथियार हैं: 1, 2, 3; दुश्मन के पास तीन तरह के विमान हैं: बी 1, बी 2, बी 3। हमारा काम विमान को मारना है; शत्रु का कार्य उसे अप्रभावित रखना है। आयुध ए 1, विमान बी 1, बी 2, बी 3 का उपयोग करते समय, क्रमशः 0.9, 0.4 और 0.2 की संभावनाओं के साथ मारा जाता है; आयुध ए 2 के साथ - 0.3, 0.6 और 0.8 की संभावनाओं के साथ; ए 3 आयुध के साथ - 0.5, 0.7 और 0.2 की संभावनाओं के साथ। गेम थ्योरी के संदर्भ में स्थिति तैयार करना आवश्यक है।

समाधान। स्थिति को दो व्यक्तिगत चालों और एक यादृच्छिक एक के साथ 3 × 3 गेम के रूप में माना जा सकता है। हमारा व्यक्तिगत कदम हथियार के प्रकार का चुनाव है; दुश्मन की व्यक्तिगत चाल - लड़ाई में भाग लेने के लिए विमान का चुनाव। यादृच्छिक चाल - हथियारों का उपयोग; यह कदम विमान की हार या हार के साथ समाप्त हो सकता है। हमारी अदायगी एक है अगर विमान मारा जाता है और शून्य अन्यथा। हमारी रणनीति तीन हथियार विकल्प हैं; दुश्मन की रणनीतियाँ - तीन विमान विकल्प। प्रत्येक दी गई रणनीति के लिए अदायगी का औसत मूल्य किसी दिए गए विमान को दिए गए हथियार से मारने की संभावना से ज्यादा कुछ नहीं है। खेल मैट्रिक्स:

गेम थ्योरी का लक्ष्य के लिए सिफारिशें प्रदान करना है उचित व्यवहारमें खिलाड़ी संघर्ष की स्थिति, अर्थात। उनमें से प्रत्येक के लिए "इष्टतम रणनीति" का निर्धारण। गेम थ्योरी में एक खिलाड़ी की इष्टतम रणनीति एक रणनीति है, जब खेल को कई बार दोहराया जाता है, तो किसी खिलाड़ी को अधिकतम संभव औसत लाभ (या न्यूनतम संभव औसत नुकसान) प्रदान करता है। इस रणनीति को चुनने में, तर्क का आधार यह धारणा है कि दुश्मन कम से कम हमारे जितना ही बुद्धिमान है, और हमें अपने लक्ष्य को प्राप्त करने से रोकने के लिए सब कुछ करता है।

गेम थ्योरी में, इन सिद्धांतों के आधार पर सभी सिफारिशें की जाती हैं; इसलिए, यह जोखिम के तत्वों को ध्यान में नहीं रखता है जो अनिवार्य रूप से हर वास्तविक रणनीति में मौजूद होते हैं, साथ ही साथ प्रत्येक खिलाड़ी की संभावित गलत गणना और गलतियाँ भी होती हैं। गेम थ्योरी, किसी भी तरह गणित का मॉडलजटिल घटना की अपनी सीमाएँ होती हैं। उनमें से सबसे महत्वपूर्ण यह है कि लाभ कृत्रिम रूप से घटाकर एक कर दिया जाता है विलक्षण... अधिकांश व्यावहारिक संघर्ष स्थितियों में, एक उचित रणनीति विकसित करते समय, एक नहीं, बल्कि कई संख्यात्मक मापदंडों को ध्यान में रखना आवश्यक है - घटना की सफलता के लिए मानदंड। एक रणनीति जो एक मानदंड पर इष्टतम है जरूरी नहीं कि वह दूसरों पर इष्टतम हो। हालाँकि, इन सीमाओं से अवगत होने और इसलिए खेल विधियों द्वारा प्राप्त सिफारिशों का आँख बंद करके पालन नहीं करने के कारण, कोई भी गेम थ्योरी के गणितीय तंत्र को विकसित करने के लिए यथोचित रूप से उपयोग कर सकता है, यदि बिल्कुल "इष्टतम" नहीं है, तो, कम से कम, "स्वीकार्य" रणनीति .

§ 2. खेल की निचली और ऊपरी कीमत। न्यूनतम सिद्धांत

मैट्रिक्स के साथ एक एमएक्सएन गेम पर विचार करें जैसा कि अंजीर में है। 1. आइए पत्र द्वारा निरूपित करें मैं हमारी रणनीति की संख्या; अक्षर j प्रतिद्वंद्वी की रणनीति की संख्या है। आइए अपने आप को कार्य निर्धारित करें: हमारी इष्टतम रणनीति निर्धारित करने के लिए। आइए ए 1 से शुरू करते हुए, हमारी प्रत्येक रणनीति का क्रमिक रूप से विश्लेषण करें।

रणनीति चुनते समय, हमें हमेशा इस तथ्य पर भरोसा करना चाहिए कि दुश्मन उस रणनीति के साथ इसका जवाब देगा, जिसके लिए हमारा भुगतान न्यूनतम है। आइए हम अदायगी के इस मूल्य को परिभाषित करें, अर्थात न्यूनतम संख्या a ij in मैंवें लाइन। आइए हम इसे α i से निरूपित करें:

यहां, न्यूनतम चिह्न (जे में न्यूनतम) सभी संभावित जे के लिए इस पैरामीटर के न्यूनतम मूल्यों को दर्शाता है। आइए हम संख्याएँ α i लिखें; एक अतिरिक्त कॉलम के रूप में दाईं ओर मैट्रिक्स के बगल में:

किसी भी रणनीति ए को चुनना, हमें इस तथ्य पर भरोसा करना चाहिए कि प्रतिद्वंद्वी के उचित कार्यों के परिणामस्वरूप हम α i से अधिक नहीं जीतेंगे। स्वाभाविक रूप से, सबसे अधिक सावधानी से कार्य करना और सबसे उचित विरोधी (यानी किसी भी जोखिम से बचना) पर भरोसा करते हुए, हमें उस रणनीति पर रुकना चाहिए जिसके लिए संख्या α i अधिकतम है। आइए हम इस अधिकतम मान α को निरूपित करें:

या, सूत्र (2.1) को ध्यान में रखते हुए,

मान α को खेल की कम कीमत कहा जाता है, दूसरे शब्दों में - अधिकतम जीत या केवल अधिकतम। संख्या α मैट्रिक्स की एक निश्चित पंक्ति में निहित है; खिलाड़ी ए की रणनीति जो इस रेखा से मेल खाती है उसे अधिकतम रणनीति कहा जाता है। जाहिर है, अगर हम अधिकतम रणनीति का पालन करते हैं, तो प्रतिद्वंद्वी के किसी भी व्यवहार के लिए हमें भुगतान की गारंटी दी जाती है, कम से कम α से कम नहीं। इसलिए, α के मान को "लोअर गेम प्राइस" कहा जाता है। यह गारंटीशुदा न्यूनतम है कि हम सबसे विवेकपूर्ण ("पुनर्बीमा") रणनीति का पालन करके खुद को प्रदान कर सकते हैं।

जाहिर है, प्रतिद्वंद्वी बी के लिए भी इसी तरह का तर्क दिया जा सकता है। चूंकि दुश्मन हमारी जीत को कम करने में रुचि रखता है, इसलिए उसे अपनी प्रत्येक रणनीति को किस दृष्टिकोण से देखना चाहिए? अधिकतम जीतइस रणनीति के साथ। इसलिए, मैट्रिक्स के निचले भाग में, हम प्रत्येक कॉलम के लिए अधिकतम मान लिखेंगे:

और न्यूनतम β j का पता लगाएं:

मान β को खेल का ऊपरी मूल्य कहा जाता है, दूसरे शब्दों में, "मिनीमैक्स"। न्यूनतम लाभ के अनुरूप प्रतिद्वंद्वी की रणनीति को उसकी "मिनीमैक्स रणनीति" कहा जाता है। अपनी सबसे सतर्क मिनिमैक्स रणनीति का पालन करते हुए, विरोधी खुद को निम्नलिखित की गारंटी देता है: हम उसके खिलाफ जो कुछ भी करते हैं, वह किसी भी मामले में β से अधिक की राशि नहीं खोएगा। सावधानी का सिद्धांत, जो खिलाड़ियों के लिए उपयुक्त रणनीतियों (मैक्सिमिन और मिनिमैक्स) के चुनाव को निर्धारित करता है, को अक्सर गेम थ्योरी और इसके अनुप्रयोगों में "मिनीमैक्स सिद्धांत" कहा जाता है। खिलाड़ियों की सबसे सावधान मैक्सिमम और मिनिमैक्स रणनीतियों को कभी-कभी निरूपित किया जाता है सामान्य कार्यकाल"मिनिमैक्स रणनीतियाँ"।

उदाहरण के तौर पर, हम 1 के उदाहरण 1, 2, और 3 के लिए निचले और ऊपरी गेम की कीमतों और न्यूनतम रणनीतियों को परिभाषित करते हैं।

उदाहरण 1।उदाहरण 1 1 निम्नलिखित मैट्रिक्स के साथ एक खेल देता है:

चूंकि मान α i और β j स्थिर हैं और क्रमशः -1 और +1 के बराबर हैं, निचले और ऊपरी गेम की कीमतें भी -1 और +1 हैं: α = -1, β = +1। खिलाड़ी A की कोई भी रणनीति उसकी अधिकतम होती है, और खिलाड़ी B की कोई भी रणनीति उसकी न्यूनतम रणनीति होती है। निष्कर्ष तुच्छ है: अपनी किसी भी रणनीति से चिपके हुए, खिलाड़ी ए गारंटी दे सकता है कि वह 1 से अधिक नहीं हारता है; खिलाड़ी बी द्वारा इसकी गारंटी दी जा सकती है।

उदाहरण २।उदाहरण 2 § 1 मैट्रिक्स के साथ एक गेम देता है:

खेल की निचली कीमत α = -3 है; खेल की ऊपरी कीमत β = 4. हमारी अधिकतम रणनीति А 1 है; इसे व्यवस्थित रूप से लागू करके, हम दृढ़ता से कम से कम -3 (अधिकतम 3 हार) जीतने की उम्मीद कर सकते हैं। प्रतिद्वंद्वी की मिनिमैक्स रणनीति बी 1 और बी 2 में से कोई भी रणनीति है; उन्हें व्यवस्थित रूप से लागू करने पर, वह, किसी भी मामले में, गारंटी दे सकता है कि वह 4 से अधिक नहीं खोएगा। यदि हम अपनी अधिकतम रणनीति से विचलित होते हैं (उदाहरण के लिए, रणनीति A2 चुनें), तो विरोधी हमें रणनीति B लागू करके इसके लिए "दंडित" कर सकता है। 3 और हमारी जीत को कम करना -5 है; इसी तरह, प्रतिद्वंद्वी की अपनी न्यूनतम रणनीति से पीछे हटने से उसका नुकसान 6 तक बढ़ सकता है।

उदाहरण 3.उदाहरण 3 1 मैट्रिक्स के साथ एक गेम देता है:

खेल की निचली कीमत α = 0.3 है; खेल का ऊपरी मूल्य β = 0.7। हमारी सबसे रूढ़िवादी (अधिकतम) रणनीति ए 2 है; 2 आयुध का उपयोग करते हुए, हम गारंटी देते हैं कि हम सभी मामलों में औसतन कम से कम 0.3 में विमान को मारेंगे। सबसे सतर्क (मिनीमैक्स) दुश्मन की रणनीति बी 2 है; इस विमान का उपयोग करके, दुश्मन यह सुनिश्चित कर सकता है कि वह सभी मामलों में से 0.7 से अधिक नहीं मारा जाएगा।

अंतिम उदाहरण एक को प्रदर्शित करने के लिए सुविधाजनक है महत्वपूर्ण संपत्तिमिनिमैक्स रणनीतियाँ - उनकी अस्थिरता। आइए हम अपनी सबसे सतर्क (अधिकतम) रणनीति А 2, और दुश्मन - उसकी सबसे सतर्क (न्यूनतम) रणनीति В 2 का उपयोग करें। जब तक दोनों विरोधी इन रणनीतियों का पालन करते हैं, औसत अदायगी 0.6 है; यह निचले वाले से अधिक है, लेकिन खेल की ऊपरी कीमत से कम है। अब मान लेते हैं कि विरोधी ने जान लिया है कि हम रणनीति ए 2 का उपयोग कर रहे हैं; वह तुरंत रणनीति बी 1 के साथ इसका जवाब देगा और जीत को घटाकर 0.3 कर देगा। बदले में, हमारे पास रणनीति बी 1: रणनीति ए 1 का एक अच्छा जवाब है, जो हमें 0.9 की जीत देता है, और इसी तरह।

इस प्रकार, जिस स्थिति में दोनों खिलाड़ी अपनी न्यूनतम रणनीति का उपयोग करते हैं वह अस्थिर है और विरोधी पक्ष की रणनीति के बारे में प्राप्त जानकारी से इसका उल्लंघन हो सकता है। हालांकि, कुछ गेम ऐसे हैं जिनके लिए मिनिमैक्स रणनीतियां स्थिर हैं। ये वे खेल हैं जिनके लिए कम कीमत ऊपरी के बराबर है: α = β। यदि खेल की निचली कीमत ऊपरी के बराबर है, तो उनके कुल मूल्य को खेल का शुद्ध मूल्य कहा जाता है (कभी-कभी सिर्फ खेल की कीमत), हम इसे अक्षर द्वारा निरूपित करेंगे।

आइए एक उदाहरण देखें। मान लीजिए मैट्रिक्स द्वारा एक 4 × 4 गेम दिया जाता है:

आइए खेल की कम कीमत ज्ञात करें: α = 0.6। आइए खेल की ऊपरी कीमत ज्ञात करें: β = 0.6। वे वही निकले, इसलिए, खेल का शुद्ध मूल्य α = β = ν = 0.6 के बराबर है। पेऑफ मैट्रिक्स में हाइलाइट किया गया तत्व 0.6, इसकी पंक्ति में न्यूनतम और इसके कॉलम में अधिकतम दोनों है। ज्यामिति में, एक सतह पर एक बिंदु जिसमें एक समान गुण होता है (एक समन्वय के साथ एक साथ न्यूनतम और दूसरे के साथ अधिकतम) को सैडल पॉइंट कहा जाता है; सादृश्य द्वारा, इस शब्द का उपयोग गेम थ्योरी में भी किया जाता है। इस संपत्ति के साथ एक मैट्रिक्स के एक तत्व को मैट्रिक्स का सैडल पॉइंट कहा जाता है, और एक गेम को सैडल पॉइंट कहा जाता है।

सैडल पॉइंट मिनिमैक्स रणनीतियों की एक जोड़ी से मेल खाता है (इस उदाहरण में, ए 3 और बी 2)। इन रणनीतियों को इष्टतम कहा जाता है, और उनके संयोजन को खेल का समाधान कहा जाता है। खेल के समाधान में निम्नलिखित उल्लेखनीय गुण हैं। यदि खिलाड़ियों में से एक (उदाहरण के लिए, ए) अपनी इष्टतम रणनीति का पालन करता है, और दूसरा खिलाड़ी (बी) अपनी इष्टतम रणनीति से किसी भी तरह से विचलित हो जाता है, तो उस खिलाड़ी के लिए जिसने विचलन किया है, यह कभी भी फायदेमंद नहीं हो सकता है, जैसे खिलाड़ी बी का विचलन जीत को अपरिवर्तित छोड़ सकता है, और सबसे खराब स्थिति में, इसे बढ़ा सकता है। इसके विपरीत, यदि बी अपनी इष्टतम रणनीति का पालन करता है, और ए अपने आप से विचलित हो जाता है, तो यह किसी भी स्थिति में ए के लिए फायदेमंद नहीं हो सकता है।

इस कथन को खेल के उदाहरण द्वारा आसानी से सत्यापित किया जा सकता है जिसमें एक काठी बिंदु विचाराधीन है। हम देखते हैं कि एक सैडल पॉइंट वाले गेम के मामले में, मिनिमैक्स रणनीतियों में एक प्रकार की "स्थिरता" होती है: यदि एक पक्ष अपनी मिनिमैक्स रणनीति का पालन करता है, तो यह केवल दूसरे के लिए अपने स्वयं से विचलित होने के लिए लाभहीन हो सकता है। ध्यान दें कि इस मामले में, किसी भी खिलाड़ी का ज्ञान कि दुश्मन ने अपनी इष्टतम रणनीति चुनी है, खिलाड़ी के अपने व्यवहार को नहीं बदल सकता है: यदि वह अपने हितों के खिलाफ कार्य नहीं करना चाहता है, तो उसे अपनी इष्टतम रणनीति का पालन करना होगा। सैडल पॉइंट गेम में इष्टतम रणनीतियों की एक जोड़ी, जैसा कि यह थी, एक "संतुलन स्थिति" है: इष्टतम रणनीति से कोई भी विचलन विचलित करने वाले खिलाड़ी को प्रतिकूल परिणामों की ओर ले जाता है, जिससे वह अपनी मूल स्थिति में वापस आ जाता है।

इसलिए, सैडल पॉइंट वाले प्रत्येक गेम के लिए, एक समाधान होता है जो दोनों पक्षों के लिए इष्टतम रणनीतियों की एक जोड़ी को परिभाषित करता है, जिसमें निम्नलिखित गुण होते हैं।

1) यदि दोनों पक्ष अपनी इष्टतम रणनीतियों का पालन करते हैं, तो औसत भुगतान खेल के शुद्ध मूल्य के बराबर होता है, जो एक साथ इसकी निचली और ऊपरी कीमत है।

2) यदि एक पक्ष अपनी इष्टतम रणनीति का पालन करता है, और दूसरा अपने आप से विचलित हो जाता है, तो विचलित पक्ष केवल इससे हार सकता है और किसी भी स्थिति में अपना लाभ नहीं बढ़ा सकता है।

सैडल पॉइंट वाले खेलों का वर्ग सैद्धांतिक और व्यावहारिक दोनों ही दृष्टिकोण से बहुत रुचि रखता है। गेम थ्योरी में, यह साबित होता है कि, विशेष रूप से, पूरी जानकारी वाले प्रत्येक गेम में एक सैडल पॉइंट होता है, और इसलिए, ऐसे प्रत्येक गेम का समाधान होता है, यानी। दोनों पक्षों की इष्टतम रणनीतियों की एक जोड़ी है, जो खेल की कीमत के बराबर औसत अदायगी देती है। यदि पूरी जानकारी वाले खेल में केवल व्यक्तिगत चालें होती हैं, तो जब प्रत्येक पक्ष अपनी इष्टतम रणनीति लागू करता है, तो उसे हमेशा पूरी तरह से निश्चित परिणाम में समाप्त होना चाहिए, अर्थात् एक जीत जो खेल की कीमत के बराबर है।

पूरी जानकारी वाले खेल के उदाहरण के रूप में, हम देते हैं प्रसिद्ध खेलसिक्कों को ढेर करने के साथ गोल मेज़... दो खिलाड़ी बारी-बारी से समान सिक्कों को गोल मेज पर रखते हैं, हर बार सिक्के के केंद्र की मनमानी स्थिति का चयन करते हैं; सिक्कों के ओवरलैपिंग की अनुमति नहीं है। आखिरी सिक्का डालने वाला खिलाड़ी जीतता है (जब दूसरों के लिए कोई जगह नहीं होती है)। जाहिर है, इस खेल का परिणाम हमेशा एक पूर्व निष्कर्ष है, और एक अच्छी तरह से परिभाषित रणनीति है जो उस खिलाड़ी के लिए एक विश्वसनीय जीत सुनिश्चित करती है जो पहले सिक्का डालता है। अर्थात्, उसे पहली बार एक सिक्का तालिका के केंद्र में रखना चाहिए, और फिर प्रत्येक प्रतिद्वंद्वी की चाल के लिए एक सममित चाल के साथ जवाब देना चाहिए। इस मामले में, दूसरा खिलाड़ी खेल के पूर्व निर्धारित परिणाम को बदले बिना जैसा चाहे वैसा व्यवहार कर सकता है। इसलिए, यह खेल केवल उन खिलाड़ियों के लिए समझ में आता है जो इष्टतम रणनीति नहीं जानते हैं। पूरी जानकारी के साथ शतरंज और अन्य खेलों के साथ भी यही स्थिति है; इनमें से किसी भी खेल में एक काठी बिंदु और एक समाधान होता है जो प्रत्येक खिलाड़ी को उसकी इष्टतम रणनीति को इंगित करता है; शतरंज के खेल का समाधान केवल इसलिए नहीं मिला है क्योंकि शतरंज में संभावित चालों के संयोजनों की संख्या इतनी बड़ी है कि भुगतान मैट्रिक्स का निर्माण करने और उसमें एक काठी बिंदु खोजने में सक्षम नहीं है।

§ 3. शुद्ध और मिश्रित रणनीतियाँ। मिश्रित रणनीतियों में खेल का समाधान

व्यावहारिक महत्व के सीमित खेलों में, सैडल पॉइंट वाले खेल अपेक्षाकृत दुर्लभ हैं; अधिक विशिष्ट मामला तब होता है जब खेल के निचले और शीर्ष मूल्य अलग-अलग होते हैं। इस तरह के खेलों के मैट्रिक्स का विश्लेषण करते हुए, हम इस निष्कर्ष पर पहुंचे कि यदि प्रत्येक खिलाड़ी को एक ही रणनीति का विकल्प दिया जाता है, तो, एक उचित अभिनय प्रतिद्वंद्वी पर भरोसा करते हुए, यह विकल्प मिनिमैक्स सिद्धांत द्वारा निर्धारित किया जाना चाहिए। हमारी अधिकतम रणनीति का पालन करते हुए, विरोधी के किसी भी व्यवहार के लिए, हम जानबूझकर खुद को गेम α ​​की कम कीमत के बराबर भुगतान की गारंटी देते हैं। एक स्वाभाविक प्रश्न उठता है: यदि हम एक एकल "शुद्ध" रणनीति का उपयोग नहीं करते हैं, लेकिन यादृच्छिक रूप से कई रणनीतियों को वैकल्पिक करते हैं, तो क्या α से अधिक औसत भुगतान की गारंटी देना संभव है? एक निश्चित आवृत्ति अनुपात के साथ एक यादृच्छिक कानून के अनुसार बारी-बारी से कई शुद्ध रणनीतियों के आवेदन में ऐसी संयुक्त रणनीतियों को गेम थ्योरी में मिश्रित रणनीति कहा जाता है।

जाहिर है, प्रत्येक शुद्ध रणनीति मिश्रित का एक विशेष मामला है, जिसमें एक को छोड़कर सभी रणनीतियों को शून्य आवृत्तियों के साथ लागू किया जाता है, और यह एक - 1 की आवृत्ति के साथ। यह पता चला है कि, न केवल शुद्ध, बल्कि यह भी लागू होता है मिश्रित रणनीतियाँ, प्रत्येक परिमित खेल समाधान के लिए प्राप्त कर सकते हैं, अर्थात। (आम तौर पर मिश्रित) रणनीतियों की एक जोड़ी जैसे कि जब दोनों खिलाड़ी उन्हें लागू करते हैं, तो अदायगी खेल की कीमत के बराबर होगी, और इष्टतम रणनीति से किसी भी एकतरफा विचलन के लिए, अदायगी केवल उस दिशा में बदल सकती है जो प्रतिकूल है भटका हुआ।

उपरोक्त कथन गेम थ्योरी के तथाकथित मुख्य प्रमेय की सामग्री का गठन करता है। यह प्रमेय पहली बार 1928 में वॉन न्यूमैन द्वारा सिद्ध किया गया था। प्रमेय के ज्ञात प्रमाण तुलनात्मक रूप से जटिल हैं; इसलिए, हम केवल इसके सूत्रीकरण को प्रस्तुत करते हैं।

प्रत्येक अंतिम गेम में कम से कम एक समाधान होता है (संभवतः मिश्रित रणनीतियों के क्षेत्र में)।

किसी निर्णय से होने वाले लाभ को खेल की लागत कहा जाता है। मुख्य प्रमेय का तात्पर्य है कि प्रत्येक परिमित खेल की एक कीमत होती है। जाहिर है, खेल ν की कीमत हमेशा खेल α की कम कीमत और खेल की ऊपरी कीमत के बीच होती है:

(३.१) α ≤ β

वास्तव में, α अधिकतम गारंटीकृत भुगतान है जो हम केवल अपनी शुद्ध रणनीतियों का उपयोग करके स्वयं को प्रदान कर सकते हैं। चूंकि मिश्रित रणनीतियों में शामिल हैं, एक विशेष मामले के रूप में, सभी शुद्ध, तो, शुद्ध लोगों के अलावा, मिश्रित रणनीतियों को स्वीकार करते हुए, हम किसी भी मामले में, अपनी क्षमताओं को खराब नहीं करते हैं; इसलिए, α। इसी तरह, प्रतिद्वंद्वी की क्षमताओं पर विचार करते हुए, हम दिखाते हैं कि β, जिसका अर्थ सिद्ध असमानता (3.1) है।

आइए मिश्रित रणनीतियों के लिए एक विशेष संकेतन पेश करें। यदि, उदाहरण के लिए, हमारी मिश्रित रणनीति में रणनीतियों ए 1, ए 2, ए 3 को आवृत्ति पी 1, पी 2, पी 3, और पी 1 + पी 2 + पी 3 = 1 के साथ लागू करना शामिल है, तो हम इस रणनीति को निरूपित करेंगे

इसी तरह, दुश्मन की मिली-जुली रणनीति को निरूपित किया जाएगा:

जहाँ q 1, q 2, q 3 वे आवृत्तियाँ हैं जिन पर रणनीतियाँ B 1, B 2, B 3 मिश्रित होती हैं; क्यू 1 + क्यू 2 + क्यू 3 = 1।

मान लीजिए कि हमने दो इष्टतम मिश्रित रणनीतियों एस ए *, एस बी * से मिलकर खेल का समाधान ढूंढ लिया है। सामान्य स्थिति में, किसी दिए गए खिलाड़ी के लिए उपलब्ध सभी शुद्ध रणनीतियों को उसकी इष्टतम मिश्रित रणनीति में शामिल नहीं किया जाता है, लेकिन केवल कुछ ही। हम खिलाड़ी की इष्टतम मिश्रित रणनीति में शामिल रणनीतियों को उसकी "उपयोगी" रणनीति कहेंगे। यह पता चला है कि खेल के समाधान में एक और उल्लेखनीय संपत्ति है: यदि खिलाड़ियों में से एक अपनी इष्टतम मिश्रित रणनीति SA * (SB *) का पालन करता है, तो अदायगी अपरिवर्तित रहती है और खेल की कीमत के बराबर होती है, चाहे कुछ भी हो दूसरा खिलाड़ी क्या करता है, जब तक कि वह अपनी "उपयोगी" रणनीतियों से आगे नहीं जाता। उदाहरण के लिए, वह अपनी किसी भी "उपयोगी" रणनीति का शुद्ध रूप में उपयोग कर सकता है, और उन्हें किसी भी अनुपात में मिला भी सकता है।

§ 4. खेलों को हल करने के लिए प्राथमिक तरीके। खेल २एक्स2 और 2एक्सएन

यदि गेम एमएक्सएन में सैडल पॉइंट नहीं है, तो समाधान ढूंढना आम तौर पर एक कठिन काम होता है, खासकर बड़े एम और एन के लिए। कभी-कभी कुछ अनावश्यक को हटाकर पहले रणनीतियों की संख्या को कम करके इस कार्य को सरल बनाया जा सकता है। अत्यधिक रणनीतियाँ हैं a) दोहराव और b) स्पष्ट रूप से लाभहीन। उदाहरण के लिए, मैट्रिक्स के साथ एक गेम पर विचार करें:

यह सुनिश्चित करना आसान है कि रणनीति 3 बिल्कुल दोहराती है ("डुप्लिकेट") रणनीति А 1, इसलिए, इन दो रणनीतियों में से किसी को भी हटाया जा सकता है। इसके अलावा, रेखा A 1 और A 2 की तुलना करते हुए, हम देखते हैं कि रेखा A2 का प्रत्येक तत्व रेखा A 1 के संगत तत्व से कम (या बराबर) है। जाहिर है, हमें कभी भी A2 रणनीति का उपयोग नहीं करना चाहिए, यह जानबूझकर लाभहीन है। ए 3 और ए 2 को हटाकर, हम मैट्रिक्स को और अधिक पर लाते हैं सरल मन... इसके अलावा, हम ध्यान दें कि रणनीति बी ३ स्पष्ट रूप से विरोधी के लिए लाभहीन है; इसे हटाते हुए, हम मैट्रिक्स को उसके अंतिम रूप में लाते हैं:

इस प्रकार, डुप्लिकेट और स्पष्ट रूप से नुकसानदेह रणनीतियों को समाप्त करके 4 × 4 गेम को 2 × 3 गेम में घटा दिया जाता है।

डुप्लिकेट और स्पष्ट रूप से प्रतिकूल रणनीतियों को हटाने की प्रक्रिया हमेशा खेल के निर्णय से पहले होनी चाहिए। परिमित खेलों के सरलतम मामले, जिन्हें हमेशा प्राथमिक तरीकों से हल किया जा सकता है, 2 × 2 और 2xn खेल हैं।

मैट्रिक्स के साथ 2 × 2 गेम पर विचार करें:

यहां दो मामले हो सकते हैं: 1) खेल में एक काठी बिंदु है; 2) खेल में कोई काठी बिंदु नहीं है। पहले मामले में, समाधान स्पष्ट है: यह रणनीतियों की एक जोड़ी है जो एक काठी बिंदु पर प्रतिच्छेद करती है। वैसे, ध्यान दें कि 2 × 2 गेम में, एक सैडल पॉइंट की उपस्थिति हमेशा जानबूझकर नुकसानदेह रणनीतियों के अस्तित्व से मेल खाती है, जिसे प्रारंभिक विश्लेषण में हटा दिया जाना चाहिए।

कोई काठी बिंदु न होने दें और इसलिए, खेल की निचली कीमत ऊपरी एक के बराबर नहीं है: α β। खिलाड़ी ए की इष्टतम मिश्रित रणनीति खोजने की आवश्यकता है:

यह संपत्ति द्वारा प्रतिष्ठित है कि प्रतिद्वंद्वी की कार्रवाई जो भी हो (जब तक कि वह अपनी "उपयोगी" रणनीतियों की सीमा से आगे नहीं जाता), अदायगी खेल मूल्य के बराबर होगी। 2 × 2 गेम में, दोनों दुश्मन रणनीतियां "उपयोगी" होती हैं, अन्यथा गेम में एक शुद्ध रणनीति समाधान (काठी बिंदु) होगा। इसका मतलब यह है कि अगर हम अपनी इष्टतम रणनीति (4.1) का पालन करते हैं, तो विरोधी औसत भुगतान को बदले बिना अपनी किसी भी शुद्ध रणनीति बी 1, बी 2 का उपयोग कर सकता है। इसलिए हमारे पास दो समीकरण हैं:

जिसमें से, पी 1 + पी 2 = 1 को ध्यान में रखते हुए, हम प्राप्त करते हैं:

हम किसी भी समीकरण (4.2) में पी 1, पी 2 के मूल्यों को प्रतिस्थापित करके खेल ν का मूल्य पाते हैं।

यदि खेल की कीमत ज्ञात है, तो प्रतिद्वंद्वी की इष्टतम रणनीति निर्धारित करने के लिए

उदाहरण के लिए, एक समीकरण पर्याप्त है:

जहां से, q 1 + q 2 = 1 को ध्यान में रखते हुए, हमारे पास है:

उदाहरण 1।आइए हम मैट्रिक्स के साथ उदाहरण 1 1 में माने गए 2 × 2 गेम का हल खोजें:

खेल में एक सैडल पॉइंट नहीं है (α = -1; β = +1), और इसलिए, समाधान मिश्रित रणनीतियों के क्षेत्र में होना चाहिए:

आपको पी 1, पी 2, क्यू 1 और क्यू 2 खोजने की जरूरत है। पी 1 के लिए हमारे पास समीकरण है

1 * पी 1 + (-1) (1 - पी 1) = (-1) पी 1 + 1 (1 - पी 1)

जहां से पी 1 = 1/2, पी 2 = 1/2।

इसी तरह, हम पाते हैं: q 1 = 1/2, q 2 = 1/2, = 0।

नतीजतन, प्रत्येक खिलाड़ी के लिए इष्टतम रणनीति बेतरतीब ढंग से अपनी दोनों शुद्ध रणनीतियों को वैकल्पिक रूप से उनमें से प्रत्येक का समान रूप से उपयोग करना है; इस मामले में, औसत अदायगी शून्य के बराबर होगी।

परिणामी निष्कर्ष पहले से काफी स्पष्ट था। अगले उदाहरण में, हम और देखेंगे मुश्किल खेल, जिसका समाधान इतना स्पष्ट नहीं है। उदाहरण "धोखाधड़ी" या "धोखा देने वाले" खेलों के रूप में जाने जाने वाले खेलों का एक प्राथमिक उदाहरण है। व्यवहार में, संघर्ष की स्थितियों में, उनका अक्सर उपयोग किया जाता है विभिन्न तरीकेदुश्मन को गुमराह करना (गलत सूचना, झूठे लक्ष्यों की नियुक्ति, आदि)। उदाहरण, अपनी सादगी के बावजूद, काफी शिक्षाप्रद है।

उदाहरण २।खेल इस प्रकार है। दो कार्ड हैं: एक इक्का और एक ड्यूस। प्लेयर ए उनमें से एक को यादृच्छिक रूप से खींचता है; B यह नहीं देखता कि उसने कौन सा कार्ड निकाला। यदि ए ने एक इक्का निकाला, तो वह घोषणा करता है: "मेरे पास एक इक्का है," और प्रतिद्वंद्वी से 1 रूबल की मांग करता है। यदि ए ने एक ड्यूस निकाला, तो वह या तो ए 1) कह सकता है "मेरे पास एक इक्का है" और प्रतिद्वंद्वी से 1 रूबल की मांग करें, या ए 2) स्वीकार करें कि उसके पास एक ड्यूस है और प्रतिद्वंद्वी को 1 रूबल का भुगतान करें।

दुश्मन, अगर उसे स्वेच्छा से 1 रूबल का भुगतान किया जाता है, तो वह केवल इसे स्वीकार कर सकता है। यदि उससे 1 रूबल की मांग की जाती है, तो वह या तो बी 1) खिलाड़ी ए पर विश्वास कर सकता है कि उसके पास इक्का है और उसे 1 रूबल दें, या बी 2) उस कथन को सुनिश्चित करने के लिए चेक की मांग करें ए। यह पता चला है कि ए के पास वास्तव में एक इक्का है, बी को ए को 2 रूबल का भुगतान करना होगा। यदि यह पता चलता है कि ए धोखा दे रहा है और उसके पास एक ड्यूस है, तो खिलाड़ी ए खिलाड़ी बी को 2 रूबल का भुगतान करता है। खेल का विश्लेषण करना और प्रत्येक खिलाड़ी के लिए इष्टतम रणनीति खोजना आवश्यक है।

समाधान।खेल में अपेक्षाकृत जटिल संरचना है; इसमें एक अनिवार्य यादृच्छिक चाल शामिल है - खिलाड़ी ए की दो कार्डों में से एक की पसंद - और दो व्यक्तिगत चालें, जो कि जरूरी नहीं है। दरअसल, अगर ए ने इक्का निकाला, तो वह कोई व्यक्तिगत कदम नहीं उठाता: उसके पास केवल एक अवसर है - 1 रूबल की मांग करने के लिए, जो वह करता है। इस मामले में, एक व्यक्तिगत कदम - विश्वास करने या न मानने के लिए (यानी भुगतान करें या 1 रूबल का भुगतान न करें) - खिलाड़ी बी को स्थानांतरित कर दिया जाता है। यदि पहली यादृच्छिक चाल के परिणामस्वरूप ए को दो प्राप्त हुए, तो उसे व्यक्तिगत दिया जाता है चाल: 1 रूबल का भुगतान करें या दुश्मन को धोखा देने का प्रयास करें और 1 रूबल की मांग करें (संक्षेप में: "धोखा न दें" या "धोखा दें")। यदि ए पहले चुनता है, तो बी को केवल 1 रूबल स्वीकार करना होगा; यदि A ने बाद वाले को चुना है, तो खिलाड़ी B को एक व्यक्तिगत चाल दी जाती है: A पर विश्वास करें या न करें (अर्थात, A 1 रूबल का भुगतान करें या सत्यापन की मांग करें)।

प्रत्येक खिलाड़ी की रणनीतियाँ नियम हैं जो इंगित करते हैं कि जब खिलाड़ी को व्यक्तिगत चाल दी जाती है तो उसे कैसे कार्य करना चाहिए। जाहिर है, ए के पास केवल दो रणनीतियां हैं: ए 1 - धोखा देना, ए 2 - धोखा नहीं देना। बी की भी दो रणनीतियाँ हैं: बी १ - विश्वास करना, बी २ - विश्वास नहीं करना। आइए गेम मैट्रिक्स का निर्माण करें। ऐसा करने के लिए, हम रणनीतियों के प्रत्येक संयोजन के लिए औसत भुगतान की गणना करते हैं।

1. ए 1 बी 1 (ए धोखा देता है, बी विश्वास करता है)। यदि ए को एक इक्का मिला (इसकी संभावना ½ है, तो उसे व्यक्तिगत चाल नहीं दी जाती है; वह 1 रूबल की मांग करता है, और खिलाड़ी बी उस पर विश्वास करता है; रूबल में ए का लाभ 1 है। यदि ए को दो प्राप्त हुए (इसकी संभावना ½ भी है), अपनी रणनीति के अनुसार, वह धोखा देता है और उसे 1 रूबल की आवश्यकता होती है; उस पर विश्वास करता है और भुगतान करता है; अदायगी ए भी 1 के बराबर है। औसत भुगतान: एक 11 = ½ * 1 + ½ * 1 = 1।

2. ए 1 बी 2 (ए धोखा देता है, बी विश्वास नहीं करता है)। यदि ए को इक्का मिलता है, तो उसकी कोई व्यक्तिगत चाल नहीं है; उसे 1 रूबल की आवश्यकता है; अपनी रणनीति के अनुसार, वह विश्वास नहीं करता है और चेक के परिणामस्वरूप 2 रूबल का भुगतान करता है (ए का लाभ +2 है)। यदि ए को ड्यूस मिलता है, तो वह अपनी रणनीति के अनुसार 1 रूबल की मांग करता है; बी, अपने अनुसार, विश्वास नहीं करता है; नतीजतन, ए 2 रूबल का भुगतान करता है (ए का लाभ -2 है)। औसत अदायगी है: एक 12 = ½ * (+ 2) + ½ * (- 2) = 0।

3. ए 2 बी 1 (ए धोखा नहीं देता, बी विश्वास करता है)। यदि ए एक इक्का निकालता है, तो वह 1 रूबल की मांग करता है; बी, अपनी रणनीति के अनुसार भुगतान करता है; A का लाभ +1 है। यदि ए ने ड्यूस निकाला, तो वह अपनी रणनीति के अनुसार 1 रूबल का भुगतान करता है; बी के लिए जो कुछ बचा है वह स्वीकार करना है (ए का लाभ -1 है)। औसत अदायगी है: एक 21 = ½ * (+ 1) + ½ * (- 1) = 0।

4. ए 2 बी 2 (ए धोखा नहीं देता, बी विश्वास नहीं करता)। यदि ए एक इक्का निकालता है, तो वह 1 रूबल की मांग करता है; बी चेक करता है और चेक के परिणामस्वरूप, 2 रूबल का भुगतान करता है (जीत +2 है)। यदि ए एक ड्यूस निकालता है, तो वह 1 रूबल का भुगतान करता है; जो कुछ बचा है उसे स्वीकार करना है (अदायगी 1 है)। औसत अदायगी है: एक 22 = ½ * (+ 2) + ½ * (- 1) = ½।

हम गेम मैट्रिक्स का निर्माण करते हैं:

मैट्रिक्स का कोई सैडल पॉइंट नहीं है। खेल की निचली कीमत α = 0 है, खेल की ऊपरी कीमत β = ½ है। आइए मिश्रित रणनीतियों के क्षेत्र में खेल का समाधान खोजें। सूत्र (4.3) को लागू करने पर, हम प्राप्त करते हैं:

वे। खिलाड़ी ए को सभी मामलों में से एक तिहाई में अपनी पहली रणनीति (धोखा) का उपयोग करना चाहिए, और दूसरा (धोखा नहीं) दो तिहाई में। इस मामले में, वह औसतन खेल की कीमत = 1/3 जीतेगा।

मान ν = 1/3 इंगित करता है कि इन परिस्थितियों में खेल ए के लिए फायदेमंद है और बी के लिए प्रतिकूल है। अपनी इष्टतम रणनीति का उपयोग करके, ए हमेशा खुद को सकारात्मक औसत भुगतान प्रदान कर सकता है। ध्यान दें कि अगर ए ने अपनी सबसे सतर्क (अधिकतम) रणनीति का इस्तेमाल किया (इस मामले में, ए 1 और ए 2 दोनों रणनीतियां अधिकतम हैं), तो उसका औसत भुगतान शून्य के बराबर होगा। इस प्रकार, मिश्रित रणनीति का उपयोग ए को बी पर अपने लाभ का एहसास करने का अवसर देता है, जो कि खेल के दिए गए नियमों के तहत उत्पन्न होता है।

आइए इष्टतम रणनीति बी को परिभाषित करें। हमारे पास है: क्यू 1 * 1 + क्यू 2 * 0 = 1/3, क्यू 1 = 1/3, क्यू 2 = 2/3। कहाँ पे

अर्थात। खिलाड़ी बी को सभी मामलों के एक तिहाई में ए पर भरोसा करना चाहिए और उसे बिना जांच के 1 रूबल का भुगतान करना चाहिए, और दो तिहाई मामलों में - चेक। तब वह औसतन प्रत्येक गेम के लिए 1/3 हारेगा। यदि उसने अपनी न्यूनतम शुद्ध रणनीति बी 2 (विश्वास नहीं) का उपयोग किया, तो वह प्रत्येक गेम के लिए औसतन 1/2 हार जाएगा।

2 × 2 गेम के समाधान को एक सरल ज्यामितीय व्याख्या दी जा सकती है। मैट्रिक्स के साथ 2 × 2 गेम होने दें

भुज अक्ष का एक खंड लें जिसकी लंबाई 1 है (चित्र 4.1)। खंड का बायां सिरा (एब्सिस्सा x = 0 वाला बिंदु) रणनीति ए 1 का प्रतिनिधित्व करेगा; खंड का दाहिना सिरा (x = 1) - रणनीति A २। आइए अंक 1 और А 2: अक्ष . के माध्यम से भुजिका अक्ष पर दो लंबवत् खीचें मैं-मैंऔर अक्ष द्वितीय - द्वितीय... अक्ष पर मैं-मैंहम रणनीति ए 1 के लिए जीत को स्थगित कर देंगे; अक्ष पर द्वितीय - द्वितीयरणनीति ए 2 के साथ जीतता है। प्रतिद्वंद्वी की रणनीति बी 1 पर विचार करें; यह कुल्हाड़ियों पर दो अंक देता है मैं-मैंतथा द्वितीय - द्वितीयक्रमशः 11 और 21 के निर्देशांक के साथ। आइए इन बिंदुओं से होकर एक सीधी रेखा B 1 B 1 खींचते हैं। जाहिर है, अगर दुश्मन की रणनीति बी 1 के साथ हम मिश्रित रणनीति लागू करेंगे

तो हमारी औसत अदायगी, इस मामले में 11 पी 1 + ए 21 पी 2 के बराबर, लाइन बी 1 बी 1 पर एक बिंदु एम द्वारा दर्शाया गया है; इस बिंदु का भुज p 2 के बराबर है। रणनीति 1 के मामले में अदायगी का प्रतिनिधित्व करने वाली सीधी रेखा 1 1, को पारंपरिक रूप से "रणनीति 1" कहा जाएगा।

जाहिर है, रणनीति बी 2 का निर्माण ठीक उसी तरह किया जा सकता है (चित्र। 4.2)।

हमें इष्टतम रणनीति एस ए * खोजने की जरूरत है, यानी, जिसके लिए न्यूनतम भुगतान (बी के किसी भी व्यवहार के लिए) अधिकतम में बदल जाएगा। ऐसा करने के लिए, हम रणनीतियों बी 1, बी 2, यानी के लिए भुगतान पर एक निचली सीमा का निर्माण करते हैं। अंजीर में चिह्नित टूटी हुई रेखा बी 1 एनबी 2। 4.2 बोल्ड लाइन के साथ। यह निचली सीमा खिलाड़ी ए की किसी भी मिश्रित रणनीति के लिए न्यूनतम अदायगी व्यक्त करेगी; बिंदु N, जिस पर यह न्यूनतम लाभ अपने अधिकतम तक पहुँचता है, निर्णय और खेल की कीमत निर्धारित करता है। यह सत्यापित करना आसान है कि बिंदु N का कोटि खेल की कीमत है, और इसका भुज p 2 के बराबर है - इष्टतम मिश्रित रणनीति S A * में रणनीति A 2 के अनुप्रयोग की आवृत्ति।

हमारे मामले में, खेल का निर्णय रणनीतियों के प्रतिच्छेदन बिंदु द्वारा निर्धारित किया गया था। हालाँकि, यह हमेशा ऐसा नहीं होगा; अंजीर में। ४.३ मामले को दिखाता है, जब रणनीतियों के प्रतिच्छेदन की उपस्थिति के बावजूद, समाधान दोनों खिलाड़ियों के लिए शुद्ध रणनीति (ए २ और बी २) देता है, और खेल की कीमत = ए २२। इस मामले में, मैट्रिक्स में एक काठी बिंदु है, और रणनीति ए 1 स्पष्ट रूप से लाभहीन है, क्योंकि विरोधी की किसी भी शुद्ध रणनीति के लिए, यह A2 से कम लाभ देता है।

मामले में जब विरोधी के पास जानबूझकर प्रतिकूल रणनीति होती है, तो ज्यामितीय व्याख्या का रूप अंजीर में दिखाया गया है। ४.४.

इस मामले में, भुगतान की निचली सीमा बी 1 की रणनीति के साथ मेल खाती है, रणनीति बी 2 प्रतिद्वंद्वी के लिए स्पष्ट रूप से लाभहीन है।

ज्यामितीय व्याख्या से खेल की निचली और ऊपरी कीमतों की भी कल्पना करना संभव हो जाता है (चित्र 4.5)।

उदाहरण के लिए, हम उदाहरण 1 और 2 (चित्र 4.6 और 4.7) में माने गए 2 × 2 खेलों की ज्यामितीय व्याख्याएँ बनाते हैं।

हमने सुनिश्चित किया है कि किसी भी 2 × 2 गेम को प्राथमिक ट्रिक्स से हल किया जा सकता है। किसी भी 2xn गेम को ठीक उसी तरह हल किया जा सकता है। जहां हमारे पास केवल दो रणनीतियां हैं, और दुश्मन की मनमानी संख्या है।

मान लीजिए कि हमारे पास दो रणनीतियाँ हैं: 1, 2, और दुश्मन - n रणनीतियाँ: 1, В 2, ..., n। मैट्रिक्स a ij दिया गया है; इसमें दो पंक्तियाँ और n कॉलम होते हैं। इसी तरह दो रणनीतियों के मामले में, हम समस्या को एक ज्यामितीय व्याख्या देते हैं; विरोधी की n रणनीतियों को n सीधी रेखाओं द्वारा दर्शाया जाता है (चित्र 4.8)। हम जीत की निचली सीमा (टूटी हुई रेखा B 1 MNB 2) का निर्माण करते हैं और उस पर बिंदु N को अधिकतम कोटि के साथ पाते हैं। यह बिंदु खेल का समाधान देता है (रणनीति ) बिंदु N की कोटि खेल ν की कीमत के बराबर है, और भुज रणनीति A 2 की आवृत्ति p 2 के बराबर है।

इस मामले में, प्रतिद्वंद्वी की इष्टतम रणनीति दो "उपयोगी" रणनीतियों के मिश्रण का उपयोग करके प्राप्त की जाती है: बी 2 और बी 4, बिंदु एन पर प्रतिच्छेद करते हुए। रणनीति बी 3 स्पष्ट रूप से लाभहीन है, और रणनीति बी 1 इष्टतम रणनीति एसए के लिए लाभहीन है। *. यदि ए अपनी इष्टतम रणनीति पर कायम रहता है, तो भुगतान नहीं बदलेगा, जो भी उसकी "उपयोगी" रणनीतियों बी का उपयोग करता है, हालांकि, अगर बी रणनीति बी 1 या बी 3 में जाता है तो यह बदल जाएगा। गेम थ्योरी में, यह साबित होता है कि किसी भी परिमित गेम एमएक्सएन में एक समाधान होता है जिसमें किसी भी पक्ष की "उपयोगी" रणनीतियों की संख्या कम से कम दो संख्याओं एम और एन से अधिक नहीं होती है। विशेष रूप से, यह इस प्रकार है कि खेल 2xm में हमेशा एक समाधान होता है जिसमें दो से अधिक "उपयोगी" रणनीतियाँ किसी भी पक्ष में भाग नहीं लेती हैं।

ज्यामितीय व्याख्या का उपयोग करके, कोई भी 2xm गेम को हल करने का एक आसान तरीका दे सकता है। सीधे ड्राइंग से, हम विरोधी B j और B k की "उपयोगी" रणनीतियों की एक जोड़ी पाते हैं, जो बिंदु N पर प्रतिच्छेद करती हैं (यदि दो से अधिक रणनीतियाँ बिंदु N पर प्रतिच्छेद करती हैं, तो हम उनमें से कोई भी दो लेते हैं)। हम जानते हैं कि यदि खिलाड़ी ए अपनी इष्टतम रणनीति का पालन करता है, तो भुगतान उस अनुपात पर निर्भर नहीं करता है जिसमें वह बी को अपनी "उपयोगी" रणनीतियों पर लागू करता है, इसलिए,

इन समीकरणों और शर्त p 2 = 1 - p 1 से, हम p1, p2 और खेल की कीमत पाते हैं। खेल की कीमत जानने के बाद, आप तुरंत इष्टतम रणनीति निर्धारित कर सकते हैं इसके लिए, उदाहरण के लिए, निम्नलिखित समीकरण हल किया गया है: qja 1 j + qka 1 k = , जहां qj + qk = 1। मामले में जब हमारे पास m रणनीतियाँ हैं, और दुश्मन के पास केवल दो हैं, जाहिर है, समस्या है पूरी तरह से समान तरीके से हल किया गया; यह नोटिस करने के लिए पर्याप्त है कि जीत के संकेत को विपरीत में बदलकर, खिलाड़ी ए को "जीतने" से "हारने" में बदल सकता है। आप जीत के संकेत को बदले बिना खेल को हल कर सकते हैं; तो समस्या सीधे बी के लिए हल हो जाती है, लेकिन कम नहीं, लेकिन ऊपरी भुगतान का निर्माण किया जाता है (चित्र 4.9)। सीमा पर, न्यूनतम कोटि के साथ एक बिंदु N की मांग की जाती है, जो कि खेल मूल्य है।

2 × 2 और 2xm खेलों के कई उदाहरणों पर विचार करें और हल करें, जो कि व्यावहारिक महत्व के खेलों के सरलीकृत उदाहरण हैं।

उदाहरण 3.साइड ए दो हमलावरों को दुश्मन के इलाके बी में भेजता है मैंतथा द्वितीय; मैंसामने उड़ जाता है, द्वितीय- पीछे। हमलावरों में से एक - यह पहले से ज्ञात नहीं है कि कौन सा - बम ले जाना चाहिए, दूसरा एस्कॉर्ट के रूप में कार्य करता है। दुश्मन के क्षेत्र में, हमलावरों पर एक पक्ष बी लड़ाकू द्वारा हमला किया जाता है।बमवर्षक आग की विभिन्न दरों की तोपों से लैस होते हैं। अगर फाइटर रियर बॉम्बर पर हमला करता है द्वितीय, तभी इस बमवर्षक की तोपें उस पर फायर करती हैं; अगर वह सामने वाले पर हमला करता है, तो दोनों हमलावरों की तोपें उस पर फायरिंग कर रही हैं। पहले मामले में एक लड़ाकू को मारने की संभावना 0.3 है, दूसरे में 0.7।

यदि लड़ाकू को रक्षात्मक बमबारी की आग से नहीं गिराया जाता है, तो यह 0.6 की संभावना के साथ अपनी पसंद के लक्ष्य पर प्रहार करता है। बमवर्षकों का कार्य बम को लक्ष्य तक ले जाना है; लड़ाकू का कार्य इसे रोकना है, अर्थात। एक वाहक बमवर्षक को मार गिराओ। पार्टियों की इष्टतम रणनीतियों को चुनना आवश्यक है:

ए) साइड ए के लिए: वाहक के रूप में किस बॉम्बर का उपयोग किया जाना चाहिए?

बी) साइड बी के लिए: किस बॉम्बर पर हमला करना है?

समाधान। हमारे पास 2 × 2 गेम का एक साधारण मामला है; जीत की संभावनावाहक की गैर हार। हमारी रणनीतियाँ: A १ - वाहक - बॉम्बर मैं; ए 2 - वाहक - बॉम्बर द्वितीय... शत्रु रणनीतियाँ: बी १ - बॉम्बर पर हमला किया जाता है मैं; बी २ - बमवर्षक हमले द्वितीय... आइए गेम मैट्रिक्स की रचना करें, अर्थात। रणनीतियों के प्रत्येक संयोजन के लिए औसत अदायगी का पता लगाएं।

1.ए 1 बी 1 (वाहक .) मैं, हमला किया है मैं) यदि बमवर्षक लड़ाकू को नीचे गिराते हैं, या नीचे गोली नहीं मारते हैं, तो वाहक को नहीं मारा जाएगा, लेकिन यह अपने लक्ष्य को नहीं मारेगा: एक 11 = 0.7 + 0.3 * 0.4 = 0.82।

2.ए 2 बी 1 (वाहक .) द्वितीय, हमला किया है मैं) एक 21 = 1

3.ए 1 बी 2 (वाहक .) मैं, हमला किया है द्वितीय) ए 12 = 1

4.ए 2 बी 2 (वाहक .) द्वितीय, हमला किया है द्वितीय) ए 22 = 0.3 + 0.7 * 0.4 = 0.58

गेम मैट्रिक्स का रूप है:

खेल का निचला मूल्य 0.82 है; शीर्ष मूल्य 1. मैट्रिक्स में कोई काठी बिंदु नहीं है; हम मिश्रित रणनीतियों के क्षेत्र में समाधान ढूंढ रहे हैं। हमारे पास है:

पी 1 * 0.82 + पी 2 * 1 =

पी 1 * 1 + पी 2 * 0.58 =

पी 1 = 0.7; पी 2 = 0.3

हमारी इष्टतम रणनीति यानी, एक वाहक के रूप में, आपको अधिक बार चुनना चाहिए मैं, कैसे द्वितीय... खेल की कीमत = 0.874 है। को जानकर, हम q 1 और q 2 निर्धारित करते हैं - विरोधी S B * की इष्टतम रणनीति में रणनीतियों B 1 और B 2 की आवृत्तियाँ। हमारे पास है: क्यू 1 * 0.82 + क्यू 2 * 1 = 0.874 और क्यू 2 = 1 - क्यू 1, जहां से क्यू 1 = 0.7; क्यू २ = ०.३, यानी प्रतिद्वंद्वी की इष्टतम रणनीति है .

उदाहरण 4.साइड ए ऑब्जेक्ट पर हमला करता है, साइड बी इसका बचाव करता है। साइड ए में दो विमान हैं; साइड बी में तीन एंटी-एयरक्राफ्ट गन हैं। प्रत्येक विमान में एक शक्तिशाली विनाशकारी हथियार होता है; वस्तु से टकराने के लिए, कम से कम एक विमान के माध्यम से इसे तोड़ने के लिए पर्याप्त है। साइड ए विमान सुविधा तक पहुंचने के लिए तीन दिशाओं में से कोई भी चुन सकता है: मैं, द्वितीय, तृतीय(अंजीर। 4.10)। शत्रु (पक्ष B) अपनी किसी भी बंदूक को किसी भी दिशा में रख सकता है; इस मामले में, प्रत्येक हथियार केवल से संबंधित अंतरिक्ष के क्षेत्र को गोली मारता है यह दिशा, और पड़ोसी दिशाओं को गोली नहीं मारता है। प्रत्येक बंदूक केवल एक विमान पर फायर कर सकती है; निकाल दिया गया विमान संभाव्यता के साथ मारा गया है। साइड ए को पता नहीं है कि बंदूकें कहां स्थित हैं; पक्ष B को नहीं पता कि विमान कहाँ से आएंगे। साइड ए का कार्य वस्तु को हिट करना है; पक्ष बी का कार्य उसकी हार को रोकना है। खेल का समाधान खोजें।

समाधान। खेल 2×3 का खेल है। अदायगी वस्तु से टकराने की संभावना है। हमारी संभावित रणनीतियाँ हैं: ए १ - एक समय में दो अलग-अलग दिशाओं में एक विमान भेजें। और 2 - दोनों विमानों को एक ही दिशा में भेजें। शत्रु रणनीतियाँ: बी १ - प्रत्येक दिशा में एक हथियार डालें; 2 में - दो बंदूकें एक दिशा में और एक दूसरी दिशा में रखें; 3 में - तीनों तोपों को एक ही दिशा में रखें। हम खेल के मैट्रिक्स की रचना करते हैं।

1.ए 1 बी 1 (विमान साथ में उड़ते हैं अलग दिशा; बंदूकें एक समय में एक रखी जाती हैं)। जाहिर है, इस मामले में, एक भी विमान वस्तु से नहीं टूटेगा: एक 11 = 0।

2. 2 1 (विमान एक साथ एक ही दिशा में उड़ते हैं; बंदूकें एक-एक करके रखी जाती हैं)। जाहिर है, इस मामले में, एक विमान बिना फायरिंग के वस्तु के पास जाएगा: एक 21 = 1.

3. 1 В 2 (विमान एक समय में एक उड़ान भरते हैं; दुश्मन दो दिशाओं की रक्षा करता है और तीसरे को असुरक्षित छोड़ देता है)। संभावना है कि कम से कम एक विमान वस्तु के माध्यम से टूट जाएगा इस संभावना के बराबर है कि उनमें से एक असुरक्षित दिशा का चयन करेगा: एक 12 = 2/3।

4. А 2 2 (विमान एक ही दिशा में एक साथ उड़ते हैं; दुश्मन एक दिशा की रक्षा दो तोपों से करता है और एक एक के साथ, यानी वास्तव में एक दिशा की रक्षा करता है और दो को असुरक्षित छोड़ देता है)। संभावना है कि कम से कम एक विमान वस्तु के माध्यम से टूट जाएगा, वास्तव में असुरक्षित दिशा चुनने वाले विमानों की एक जोड़ी की संभावना के बराबर है: 22 = 2/3।

5. ए १ बी ३ (विमान एक समय में एक उड़ान भरते हैं; दुश्मन तीन बंदूकों के साथ केवल एक दिशा की रक्षा करता है): १३ = १।

6. 2 3 (दोनों विमान एक साथ उड़ते हैं; दुश्मन तीन तोपों से केवल एक दिशा की रक्षा करता है)। वस्तु को हिट करने के लिए, विमान को एक असुरक्षित दिशा चुननी होगी: एक 23 = 2/3।

खेल मैट्रिक्स:

मैट्रिक्स से यह देखा जा सकता है कि रणनीति В ३ स्पष्ट रूप से २ की तुलना में नुकसानदेह है (इसे पहले से हल किया जा सकता था)। क्रॉसिंग आउट रणनीति 3 में, गेम को 2 × 2 गेम में घटा दिया गया है:

मैट्रिक्स में एक काठी बिंदु होता है: खेल का निचला मूल्य 2/3 शीर्ष के साथ मेल खाता है। उसी समय, हम ध्यान दें कि हमारे लिए (ए) रणनीति ए १ स्पष्ट रूप से लाभहीन है। निष्कर्ष: A और B दोनों पक्षों को हमेशा अपनी शुद्ध रणनीति A 2 और B 2 का उपयोग करना चाहिए, अर्थात। हमें विमान को 2 से भेजना है, यादृच्छिक रूप से उस दिशा का चयन करना जिसमें जोड़ी भेजी जाती है; विरोधी को अपने हथियार निम्नलिखित तरीके से रखने चाहिए: दो - एक दिशा में, एक - दूसरी ओर, और इन दिशाओं का चुनाव भी बेतरतीब ढंग से किया जाना चाहिए (यहाँ, जैसा कि हम देखते हैं, पहले से ही "शुद्ध रणनीतियों" में एक तत्व शामिल है मोका)। इन इष्टतम रणनीतियों को लागू करते हुए, हमें हमेशा 2/3 का एक स्थिर औसत भुगतान मिलेगा (यानी वस्तु को 2/3 संभावना के साथ मारा जाएगा)। ध्यान दें कि खेल का पाया गया समाधान केवल एक ही नहीं है; में निर्णय के अलावा स्वच्छ रणनीति, खिलाड़ी ए की मिश्रित रणनीतियों का एक पूरा खंड है, जो इष्टतम हैं, पी 1 = 0 से पी 1 = 1/3 (चित्र। 4.11)।

उदाहरण के लिए, यह देखना आसान है कि यदि हम अपनी रणनीति A1 और A2 को 1/3 और 2/3 के अनुपात में लागू करते हैं तो 2/3 का समान औसत भुगतान प्राप्त होगा।

उदाहरण 5.पिछले उदाहरण के समान ही स्थितियां हैं, लेकिन हमारे लिए हमले की चार दिशाएं संभव हैं, और दुश्मन के पास चार हथियार हैं।

समाधान।हमारे पास अभी भी दो संभावित रणनीतियां हैं: ए 1 - एक बार में एक विमान भेजें, ए 2 - दो विमानों को एक साथ भेजें। दुश्मन के पास पाँच संभावित रणनीतियाँ हैं: बी १ - प्रत्येक दिशा में एक हथियार डालें; 2 में - दो बंदूकें दो अलग-अलग दिशाओं में रखें; 3 में - दो बंदूकें एक दिशा में और एक समय में अन्य दो पर रखें; 4 पर, तीन बंदूकें एक दिशा में और एक दूसरी दिशा में रखें; 5 बजे - चारों तोपों को एक ही दिशा में रखें। रणनीतियाँ बी ४, बी ५ अग्रिम रूप से स्पष्ट रूप से लाभहीन के रूप में त्याग दी जाएंगी। पिछले उदाहरण के समान तर्क करते हुए, हम गेम मैट्रिक्स का निर्माण करते हैं:

निचले खेल की कीमत 1/2 है, ऊपरी एक 3/4 है। मैट्रिक्स का कोई सैडल बिंदु नहीं है; समाधान मिश्रित रणनीतियों के क्षेत्र में निहित है। ज्यामितीय व्याख्या (चित्र। 4.12) का उपयोग करते हुए, आइए हम दुश्मन की "उपयोगी" रणनीतियों को अलग करें: बी 1 और बी 2।

आवृत्ति पी 1 और पी 2 समीकरणों से निर्धारित होते हैं: पी 1 * 0 + (1 - पी 1) * 1 = ν और पी 1 * 5/6 + (1 - पी 1) * 1/2 = ; जहां से पी 1 = 3/8; पी 2 = 5/8; = 5/8, यानी। हमारी इष्टतम रणनीति है ... इसका उपयोग करते हुए, हम खुद को 5/8 की औसत जीत की गारंटी देते हैं। खेल = 5/8 की कीमत जानने के बाद, हम प्रतिद्वंद्वी की "उपयोगी" रणनीतियों की आवृत्तियाँ q 1 और q 2 पाते हैं: q 1 * 0 + (1 - q 1) * 5/6 = 5/8, q 1 = , क्यू 2 = . दुश्मन की इष्टतम रणनीति होगी: .

उदाहरण 6.साइड ए में दो रणनीतियां ए 1 और ए 2 हैं, साइड बी में चार बी 1, बी 2, बी 3 और बी 4 हैं। गेम मैट्रिक्स का रूप है:

खेल का समाधान खोजें।

समाधान। कम खेल कीमत 3; शीर्ष 4. ज्यामितीय व्याख्या (अंजीर। 4.13) से पता चलता है कि खिलाड़ी बी की उपयोगी रणनीतियां बी 1 और बी 2 या बी 2 और बी 4 हैं:

प्लेयर ए में असीम रूप से कई इष्टतम मिश्रित रणनीतियां हैं: इष्टतम रणनीति में, पी 1 1/5 से 4/5 तक भिन्न हो सकता है। खेल की कीमत = 4। प्लेयर बी की शुद्ध इष्टतम रणनीति बी 2 है।

§ 5. परिमित खेलों को हल करने के सामान्य तरीके

अब तक, हमने केवल 2xn प्रकार के सबसे प्राथमिक खेलों पर विचार किया है, जिन्हें बहुत आसानी से हल किया जा सकता है और एक सुविधाजनक और सहज ज्यामितीय व्याख्या की अनुमति दी जा सकती है। सामान्य स्थिति में, खेल एमएक्सएन को हल करना एक कठिन समस्या है, और समस्या की जटिलता और इसे हल करने के लिए आवश्यक गणनाओं की मात्रा एम और एन बढ़ने के साथ नाटकीय रूप से बढ़ जाती है। हालाँकि, ये कठिनाइयाँ मौलिक प्रकृति की नहीं हैं और केवल बहुत बड़ी मात्रा में गणनाओं से जुड़ी हैं, जो कुछ मामलों में व्यावहारिक रूप से अव्यावहारिक हो सकती हैं। समाधान खोजने की विधि का मूल पहलू किसी भी m के लिए समान रहता है।

आइए इसे 3xn गेम के उदाहरण से स्पष्ट करें। आइए इसे एक ज्यामितीय व्याख्या दें - पहले से ही एक स्थानिक। हमारी तीन रणनीतियों ए 1, ए 2 और ए 3 को विमान पर तीन बिंदुओं द्वारा दर्शाया जाएगा बजरा; पहला मूल बिंदु पर स्थित है (चित्र.5.1), दूसरा और तीसरा - कुल्हाड़ियों पर ओहतथा कहांशुरुआत से 1 की दूरी पर।

अंक A 1, A 2 और A 3 . के माध्यम से कुल्हाड़ियों को खींचा जाता है मैंमैं, द्वितीयद्वितीयतथा तृतीयतृतीयविमान के लंबवत बजरा... अक्ष पर मैंमैंअदायगी कुल्हाड़ियों पर रणनीति ए 1 के साथ जमा की जाती है द्वितीयद्वितीयतथा तृतीयतृतीय- रणनीतियों ए 2, ए 3 के साथ जीत। दुश्मन बी जे की प्रत्येक रणनीति को कुल्हाड़ियों पर काटने वाले विमान द्वारा दर्शाया गया है मैंमैं, द्वितीयद्वितीयतथा तृतीयतृतीयसंबंधित रणनीतियों ए 1, ए 2 और ए 3 और रणनीति बी जे के लिए भुगतान के बराबर खंड। इस प्रकार शत्रु की सभी रणनीतियों का निर्माण करने के बाद, हमें त्रिभुज A 1, A 2 और A 3 पर विमानों का एक परिवार मिलता है (चित्र 5.2)। इस परिवार के लिए, आप कम भुगतान सीमा भी बना सकते हैं, जैसा कि हमने 2xn मामले में किया था, और इस सीमा बिंदु N पर विमान के ऊपर अधिकतम ऊंचाई के साथ खोजें बजरा... यह ऊंचाई खेल की लागत होगी।

इष्टतम रणनीति एसए * में रणनीतियों ए 1, ए 2 और ए 3 की आवृत्ति पी 1, पी 2, पी 3 बिंदु एन के निर्देशांक (एक्स, वाई) द्वारा निर्धारित की जाएगी, अर्थात्: पी 2 = एक्स, पी 3 = वाई, पी 1 = 1 - पी 2 - पी 3। हालांकि, इस तरह के एक ज्यामितीय निर्माण, यहां तक ​​​​कि 3xn मामले के लिए भी, लागू करना आसान नहीं है और इसके लिए कल्पना के बहुत समय और प्रयास की आवश्यकता होती है। एक खेल के सामान्य मामले में, इसे एक एम-आयामी अंतरिक्ष में स्थानांतरित किया जाता है और सभी स्पष्टता खो देता है, हालांकि कई मामलों में ज्यामितीय शब्दावली का उपयोग उपयोगी हो सकता है। एमएक्सएन गेम को हल करते समय, व्यवहार में ज्यामितीय उपमाओं का उपयोग नहीं करना अधिक सुविधाजनक होता है, लेकिन कम्प्यूटेशनल विश्लेषणात्मक तरीके, खासकर जब से ये विधियां कंप्यूटर पर किसी समस्या को हल करने के लिए उपयुक्त हैं।

ये सभी विधियां अनिवार्य रूप से क्रमिक परीक्षणों द्वारा किसी समस्या को हल करने के लिए उबलती हैं, लेकिन परीक्षणों के अनुक्रम को क्रमबद्ध करने से आप एक एल्गोरिथ्म का निर्माण कर सकते हैं जो सबसे किफायती तरीके से समाधान की ओर ले जाता है। यहां हम संक्षेप में एमएक्सएन गेम को हल करने के लिए एक कम्प्यूटेशनल विधि पर ध्यान देंगे - तथाकथित "रैखिक प्रोग्रामिंग" विधि। इसके लिए हम पहले खेल mxn का हल खोजने की समस्या का एक सामान्य विवरण देते हैं। मान लीजिए कि एम रणनीति ए 1, ए 2,…, ए एम खिलाड़ी ए और एन रणनीति बी 1, बी 2,…, बी एन खिलाड़ी बी के साथ एक गेम एमएक्सएन दिया जाता है और एक पेऑफ मैट्रिक्स ‖a i j दिया जाता है। खेल का समाधान खोजना आवश्यक है, अर्थात। खिलाड़ियों ए और बी की दो इष्टतम मिश्रित रणनीतियां

जहां पी 1 + पी 2 + ... + पी एम = 1; q 1 + q 2 +… + q n = 1 (कुछ संख्याएँ p i और q j शून्य के बराबर हो सकती हैं)।

हमारी इष्टतम रणनीति एस ए * हमें प्रतिद्वंद्वी के किसी भी व्यवहार के लिए ν से कम का भुगतान नहीं करना चाहिए, और उसके इष्टतम व्यवहार (रणनीति एस बी *) के लिए ν के बराबर भुगतान करना चाहिए। इसी तरह, रणनीति एस बी * को प्रतिद्वंद्वी को नुकसान प्रदान करना चाहिए जो हमारे किसी भी व्यवहार के लिए से अधिक नहीं है और हमारे इष्टतम व्यवहार (रणनीति एस ए *) के लिए के बराबर है।

इस मामले में खेल की कीमत का मूल्य हमारे लिए अज्ञात है; हम मान लेंगे कि यह कुछ के बराबर है सकारात्मक संख्या... ऐसा मानते हुए, हम तर्क की व्यापकता का उल्लंघन नहीं करते हैं; > 0 के लिए, यह स्पष्ट रूप से पर्याप्त है कि मैट्रिक्स a i j के सभी तत्व गैर-ऋणात्मक हों। यह हमेशा तत्वों को जोड़कर प्राप्त किया जा सकता है a i j पर्याप्त रूप से बड़ा सकारात्मक मान ली; जबकि खेल की कीमत में वृद्धि होगी लीऔर निर्णय नहीं बदलेगा।

मान लीजिए हमने अपनी इष्टतम रणनीति S A * चुनी है। तब विरोधी की रणनीति B j के साथ हमारा औसत भुगतान होगा: a j = p 1 a 1j + p 2 a 2j +… + p m a mj। हमारी इष्टतम रणनीति एस ए * में संपत्ति है कि विरोधी के किसी भी व्यवहार के लिए, यह से कम नहीं का भुगतान प्रदान करता है; इसलिए, कोई भी संख्या a j ν से कम नहीं हो सकती है। हमें कई शर्तें मिलती हैं:

हम असमानताओं (5.1) को एक धनात्मक मान से विभाजित करते हैं और निरूपित करते हैं

तब शर्तों (5.1) को फॉर्म में लिखा जा सकता है

जहाँ 1, ξ 2,…, m ऋणेतर संख्याएँ हैं। चूँकि р 1 + p 2 +… + p m = 1 है, तो मात्राएँ 1, ξ 2,…, m शर्त को पूरा करती हैं।

(५.३) १ + २ +… + मी = १ / ।

हम अपनी गारंटीकृत जीत को यथासंभव संभव बनाना चाहते हैं; जाहिर है, एक ही समय में दाहिना भागसमानता (5.3) न्यूनतम मान लेती है। इस प्रकार, खेल का समाधान खोजने की समस्या निम्न गणितीय समस्या तक कम हो जाती है: गैर-ऋणात्मक मान निर्धारित करें 1, ξ 2,…, मीटर संतोषजनक स्थितियां (5.2) ताकि उनका योग Φ = ξ 1 + 2 +… + मी न्यूनतम था।

आमतौर पर, चरम मूल्यों (मैक्सिमा और मिनिमा) को खोजने से जुड़ी समस्याओं को हल करते समय, फ़ंक्शन को विभेदित किया जाता है और डेरिवेटिव को शून्य के बराबर किया जाता है। लेकिन इस मामले में ऐसी तकनीक बेकार है, क्योंकि फ़ंक्शन , जिसे कम से कम करने की आवश्यकता है, रैखिक है, और सभी तर्कों के संबंध में इसके डेरिवेटिव एकता के बराबर हैं, यानी। कहीं गायब न हों। नतीजतन, अधिकतम फ़ंक्शन तर्कों की भिन्नता की सीमा की सीमा पर कहीं पहुंच जाता है, जो तर्कों और शर्तों (5.2) की गैर-नकारात्मकता की आवश्यकता से निर्धारित होता है। विभेदन के माध्यम से चरम मूल्यों को खोजने की विधि उन मामलों में भी अनुपयुक्त है जब खेल को हल करने के लिए अधिकतम निचली (या ऊपरी की न्यूनतम) अदायगी सीमा निर्धारित की जाती है, जैसा कि हमने, उदाहरण के लिए, 2xn को हल करते समय किया था। खेल वास्तव में, निचली सीमा सीधी रेखाओं के वर्गों से बनी होती है, और अधिकतम उस बिंदु पर नहीं पहुँचती है जहाँ व्युत्पन्न शून्य है (ऐसा कोई बिंदु नहीं है), लेकिन अंतराल की सीमा पर या बिंदु पर सीधे वर्गों का चौराहा।

ऐसी समस्याओं को हल करने के लिए, जो व्यवहार में काफी सामान्य हैं, गणित में एक विशेष रैखिक प्रोग्रामिंग उपकरण विकसित किया गया है। रैखिक प्रोग्रामिंग समस्या निम्नानुसार प्रस्तुत की गई है। रैखिक समीकरणों की एक प्रणाली दी गई है:

मात्रा 1, 2,…, मीटर संतोषजनक स्थितियों (5.4) के गैर-ऋणात्मक मानों को खोजने के लिए आवश्यक है और साथ ही मात्रा 1, ξ 2,…, के दिए गए सजातीय रैखिक कार्य को कम करना आवश्यक है। एम (रैखिक रूप): = सी 1 ξ 1 + सी 2 ξ 2 +… + सेमी ξ एम

यह सत्यापित करना आसान है कि गेम थ्योरी की उपरोक्त समस्या c 1 = c 2 =… = cm = 1 के लिए रैखिक प्रोग्रामिंग समस्या का एक विशेष मामला है। पहली नज़र में, ऐसा लग सकता है कि शर्तें (5.2) के बराबर नहीं हैं स्थितियां (5.4), क्योंकि समान चिह्नों के बजाय उनमें असमानता चिह्न होते हैं। हालाँकि, नए काल्पनिक गैर-ऋणात्मक चर z 1, z 2,…, z n और लेखन की स्थिति (5.2) को इस रूप में पेश करके असमानता के संकेतों से छुटकारा पाना आसान है:

फॉर्म Φ को कम से कम करने के लिए Φ = ξ 1 + ξ 2 +… + मीटर है। रैखिक प्रोग्रामिंग उपकरण 1, ξ 2,…, m मानों का चयन करना संभव बनाता है जो अपेक्षाकृत कम संख्या में अनुक्रमिक नमूनों के माध्यम से बताई गई आवश्यकताओं को पूरा करते हैं। अधिक स्पष्टता के लिए, हम यहां विशिष्ट गेम को हल करने की सामग्री पर सीधे इस डिवाइस के उपयोग को प्रदर्शित करेंगे।

उदाहरण 1।मैट्रिक्स के साथ उदाहरण 2 1 में दिए गए 3 × 3 गेम का हल खोजना आवश्यक है:

सभी को गैर-ऋणात्मक बनाने के लिए, हम मैट्रिक्स L = 5 के सभी तत्वों को जोड़ते हैं। हम मैट्रिक्स प्राप्त करते हैं:

इस मामले में, खेल की कीमत में 5 की वृद्धि होगी, और निर्णय नहीं बदलेगा।

आइए हम इष्टतम रणनीति एस ए * को परिभाषित करें। शर्तें (5.2) का रूप है:

जहां १ = पी १ / , २ = पी २ / , ३ = पी ३ / । असमानता के संकेतों से छुटकारा पाने के लिए, हम डमी चर z 1, z 2, z 3; शर्तें (5.6) फॉर्म में लिखी जाएंगी:

रैखिक रूप Φ का रूप है: = ξ 1 + ξ 2 + 3 और जितना संभव हो उतना छोटा बनाया जाना चाहिए। यदि सभी तीन रणनीतियाँ B "उपयोगी" हैं, तो सभी तीन डमी चर z 1, z 2, z 3 गायब हो जाते हैं (अर्थात, प्रत्येक रणनीति B j के लिए खेल मूल्य के बराबर भुगतान प्राप्त किया जाएगा)। लेकिन हमारे पास अभी भी यह कहने का कोई कारण नहीं है कि तीनों रणनीतियाँ "उपयोगी" हैं। इसे जांचने के लिए, हम फॉर्म को डमी वेरिएबल्स z 1, z 2, z 3 के रूप में व्यक्त करने का प्रयास करेंगे और देखेंगे कि क्या हम उन्हें शून्य के बराबर मानते हुए प्राप्त कर सकते हैं, फॉर्म का न्यूनतम। ऐसा करने के लिए, हम चर 1, ξ 2, ξ 3 के संबंध में समीकरण (5.7) हल करते हैं (यानी, हम 1, ξ 2, 3 को डमी चर z 1, z 2, z 3 के रूप में व्यक्त करते हैं। ):

1, 2, 3 को जोड़ने पर, हम प्राप्त करते हैं: = 1/5 + z 1/20 + z 2/10 + z 3/20। यहाँ सभी z के गुणांक धनात्मक हैं; इसलिए, शून्य से ऊपर z 1, z 2, z 3 में कोई भी वृद्धि केवल के रूप में वृद्धि का कारण बन सकती है, और हम चाहते हैं कि यह न्यूनतम हो। इसलिए, मान z 1, z 2, z 3 जो फ़ॉर्म को न्यूनतम बनाते हैं z 1 = z 2 = z 3 = 0 हैं। इसलिए, फॉर्म का न्यूनतम मान है: 1 / ν = 1 /5, जहां से खेल की कीमत = 5. सूत्रों (5.8) में शून्य मान z 1, z 2, z 3 को प्रतिस्थापित करते हुए, हम पाते हैं: 1 = 1/20, ξ 2 = 1/10, ३ = १/२०, या, उन्हें ν, p १ = १/४, p २ = १/२, p ३ = १/४ से गुणा करना। इस प्रकार, इष्टतम रणनीति ए पाई गई है: , अर्थात। हमें सभी मामलों के एक चौथाई में नंबर 1 लिखना चाहिए, आधे मामलों में 2 और मामलों के शेष तिमाही में 3 लिखना चाहिए।

खेल की कीमत ν = 5 जानने के बाद, हम प्रतिद्वंद्वी की इष्टतम रणनीति खोजने के लिए पहले से ज्ञात विधियों का उपयोग कर सकते हैं ... ऐसा करने के लिए, हम अपनी किन्हीं दो "उपयोगी" रणनीतियों (उदाहरण के लिए, ए 2 और ए 3) का उपयोग करेंगे और समीकरण लिखेंगे:

9क्यू 1 + 11 (1-क्यू 2 -क्यू 1) = 5,

जहाँ से q 1 = q3 = 1/4; क्यू 2 = 1/2। दुश्मन की इष्टतम रणनीति हमारे जैसी ही होगी: ... अब आइए मूल (रूपांतरित नहीं) खेल पर वापस जाएं। ऐसा करने के लिए, केवल एल = 5 के मूल्य को खेल के मूल्य से मैट्रिक्स के तत्वों में जोड़ा गया है = 5 घटाना आवश्यक है। हमें मूल गेम v 0 = 0 की कीमत मिलती है। इसलिए, दोनों पक्षों की इष्टतम रणनीतियाँ शून्य के बराबर औसत अदायगी प्रदान करती हैं; खेल दोनों पक्षों के लिए समान रूप से फायदेमंद या नुकसानदेह है।

उदाहरण २।स्पोर्ट्स क्लब ए के पास टीम ए 1, ए 2 और ए 3 के संयोजन के लिए तीन विकल्प हैं। क्लब बी - तीन विकल्प बी 1, बी 2 और बी 3 में भी। प्रतियोगिता में भाग लेने के लिए आवेदन करते समय, कोई भी क्लब नहीं जानता कि प्रतिद्वंद्वी कौन सा लाइनअप चुनेगा। क्लब ए की विभिन्न लाइनअप के तहत जीतने की संभावनाएं, जो मोटे तौर पर पिछली बैठकों के अनुभव से जानी जाती हैं, मैट्रिक्स द्वारा दी गई हैं:

पता लगाएँ कि जीत की उच्चतम औसत संख्या प्राप्त करने के लिए क्लबों को कितनी बार प्रत्येक टीम को एक-दूसरे के खिलाफ खेलना चाहिए।

समाधान। खेल की निचली कीमत 0.4 है; शीर्ष 0.6; हम मिश्रित रणनीतियों के क्षेत्र में समाधान ढूंढ रहे हैं। भिन्नों से निपटने के लिए, हम मैट्रिक्स के सभी तत्वों को 10 से गुणा करते हैं; इस मामले में, खेल की कीमत 10 गुना बढ़ जाएगी, और निर्णय नहीं बदलेगा। हमें मैट्रिक्स मिलता है:

शर्तें (5.5) का रूप है:

और न्यूनतम शर्त Φ = ξ 1 + ξ 2 + 3 = मिनट।

जांचें कि प्रतिद्वंद्वी की सभी तीन रणनीतियां "उपयोगी" हैं या नहीं। एक परिकल्पना के रूप में, हम पहले मानते हैं कि डमी चर z 1, z 2, z 3 शून्य के बराबर हैं, और सत्यापन के लिए हम ξ 1, 2, 3 के लिए समीकरण (5.10) हल करते हैं:

(5.12) 136Φ = 30 + 13z 1 + 18z 2 - 51z 3

सूत्र (5.12) से पता चलता है कि शून्य के उनके कल्पित मान की तुलना में चर z 1 और z 2 में वृद्धि केवल बढ़ा सकती है, जबकि z 3 में वृद्धि Φ को घटा सकती है। हालाँकि, z ३ में वृद्धि सावधानी से की जानी चाहिए ताकि z ३ के आधार पर १, २, ३ के मान इस मामले में नकारात्मक न बनें। इसलिए, समानता के दाहिने हाथ (5.11) पर, हम मान z 1 और z 2 को शून्य के बराबर सेट करते हैं, और हम मान z 3 को अनुमेय सीमा तक बढ़ा देंगे (जब तक कि कोई भी मान 1, 2, 3 गायब हो जाता है)। दूसरी समानता (5.11) से यह देखा जाता है कि z 3 में वृद्धि 2 के मान के लिए "सुरक्षित" है - यह केवल इससे बढ़ता है। मात्रा १ और ३ के लिए, यहाँ z ३ में वृद्धि एक निश्चित सीमा तक ही संभव है। मात्रा ξ 1 z 3 = 10/23 पर लुप्त हो जाती है; मात्रा 3 पहले गायब हो जाती है, पहले से ही z 3 = 1/4 पर। इसलिए, z 3 को इसका अधिकतम स्वीकार्य मान z 3 = 1/4 देते हुए, हम इस स्थिति में 3 का मान शून्य कर देंगे।

यह जांचने के लिए कि क्या फॉर्म Φ z 1 = 0, z 2 = 0, 3 = 0 पर न्यूनतम हो जाता है, हम शेष (गैर-शून्य) चर को कथित रूप से शून्य z 1, z 2, ξ 3 के रूप में व्यक्त करते हैं। 1, 2 और z 3 के संबंध में समीकरण (5.10) को हल करने पर, हम प्राप्त करते हैं:

(5.13) 32Φ = 7 + Зz 1 + 4z 2 + 3

यह सूत्र (5.13) से देखा गया है कि z 1, z 2, 3 में उनके कल्पित शून्य मानों में कोई भी वृद्धि केवल के आकार को बढ़ा सकती है। इसलिए, खेल का समाधान मिल गया है; यह मानों से निर्धारित होता है z 1 = z 2 = 3 = 0, जहां से 1 = 1/32, 2 = 3/16, z 3 = 1/4। सूत्र (5.13) में प्रतिस्थापित करते हुए, हम खेल की कीमत पाते हैं : 32Φ = 7 = 32 / ; = 32/7। हमारी इष्टतम रणनीति: ... "उपयोगी" रणनीतियां (रचनाएं ए 1 और ए 2) आवृत्तियों 1/7 और 6/7 पर लागू की जानी चाहिए; रचना ए 3 - कभी लागू न करें।

विरोधी की इष्टतम रणनीति खोजने के लिए, सामान्य स्थिति में, आप निम्न कार्य कर सकते हैं: भुगतान के संकेत को विपरीत में बदलें, मैट्रिक्स के तत्वों को गैर-नकारात्मक बनाने के लिए निरंतर मान एल जोड़ें, और हल करें विरोधी के लिए समस्या वैसे ही जैसे हमने अपने लिए हल की। हालाँकि, यह तथ्य कि हम पहले से ही खेल की कीमत जानते हैं कुछ हद तक समस्या को सरल करता है। इसके अलावा, इसमें विशिष्ट मामलाकार्य को इस तथ्य से और सरल बनाया गया है कि विरोधी की केवल दो "उपयोगी" रणनीतियाँ, बी १ और बी २, समाधान में भाग लेती हैं, क्योंकि z ३ का मान शून्य नहीं है, और इसलिए, रणनीति B ३ के साथ, खेल की कीमत तक नहीं पहुंचा है। खिलाड़ी ए की किसी भी "उपयोगी" रणनीति को चुनना, उदाहरण के लिए ए 1, कोई आवृत्तियों q 1 और q 2 पा सकता है। ऐसा करने के लिए, हम समीकरण 8q 1 + 2 (1 - q 1) = 32/7 लिखते हैं, जहां से q 1 = 3/7, q 2 = 4/7; दुश्मन की इष्टतम रणनीति होगी: , अर्थात। दुश्मन को रचना बी ३ का उपयोग नहीं करना चाहिए, और रचना बी १ और बी २ का उपयोग आवृत्तियों ३/७ और ४/७ के साथ किया जाना चाहिए।

मूल मैट्रिक्स पर लौटने पर, हम खेल का सही मूल्य निर्धारित करते हैं 0 = 32/7: 10 = 0.457। इसका मतलब है कि के लिए एक बड़ी संख्या मेंबैठकें क्लब ए के लिए जीत की संख्या सभी बैठकों में से 0.457 होगी।

§ 6. खेलों को हल करने के अनुमानित तरीके

अक्सर, व्यावहारिक समस्याओं में, खेल का सटीक समाधान खोजने की आवश्यकता नहीं होती है; यह एक अनुमानित समाधान खोजने के लिए पर्याप्त है जो खेल की कीमत के करीब औसत भुगतान देता है। खेल ν के मूल्य का एक अनुमानित ज्ञान मैट्रिक्स के एक सरल विश्लेषण और खेल के निचले (α) और ऊपरी (β) कीमतों के निर्धारण द्वारा दिया जा सकता है। यदि α और β करीब हैं, तो व्यावहारिक रूप से सटीक समाधान की खोज करने की कोई आवश्यकता नहीं है, लेकिन यह शुद्ध न्यूनतम अधिकतम रणनीति चुनने के लिए पर्याप्त होगा। ऐसे मामलों में जहां α और β करीब नहीं हैं, कोई गेम को हल करने के लिए संख्यात्मक तरीकों का उपयोग करके एक व्यावहारिक समाधान प्राप्त कर सकता है, जिससे हम संक्षेप में पुनरावृत्ति विधि पर प्रकाश डालते हैं।

पुनरावृत्ति विधि के पीछे का विचार इस प्रकार है। एक "विचार प्रयोग" खेला जाता है जिसमें विरोधी ए और बी एक दूसरे के खिलाफ अपनी रणनीतियों का उपयोग करते हैं। प्रयोग में प्राथमिक खेलों का एक क्रम होता है, जिनमें से प्रत्येक में किसी दिए गए खेल का एक मैट्रिक्स होता है। यह इस तथ्य से शुरू होता है कि हम (खिलाड़ी ए) अपनी रणनीतियों में से एक को मनमाने ढंग से चुनते हैं, उदाहरण के लिए, ए i। दुश्मन इसका जवाब अपनी रणनीति बी जे से देता है, जो हमारे लिए सबसे कम फायदेमंद है, यानी। रणनीति ए के लिए अदायगी को न्यूनतम में बदल देता है। हम अपनी रणनीति А k के साथ इस कदम का जवाब देते हैं, जो अधिकतम औसत भुगतान देता है जब प्रतिद्वंद्वी रणनीति बी जे का उपयोग करता है। आगे - फिर से दुश्मन की बारी। वह अपनी रणनीति बी जे के साथ हमारी जोड़ी ए और ए के चालों का जवाब देता है, जो हमें इन दो रणनीतियों (ए आई, ए के) के लिए सबसे छोटा औसत भुगतान देता है, और इसी तरह। पुनरावृत्ति प्रक्रिया के प्रत्येक चरण में, प्रत्येक खिलाड़ी अपनी रणनीति के साथ दूसरे खिलाड़ी के किसी भी कदम का जवाब देता है जो कि उसकी पिछली सभी चालों के सापेक्ष इष्टतम है, जिसे किसी प्रकार की मिश्रित रणनीति माना जाता है, जिसमें शुद्ध रणनीतियों को इसी अनुपात में प्रस्तुत किया जाता है। उनके आवेदन की आवृत्ति।

यह विधि, जैसा कि यह थी, खिलाड़ियों के वास्तविक व्यावहारिक "प्रशिक्षण" का एक मॉडल है, जब उनमें से प्रत्येक अपने अनुभव के माध्यम से जांच करता है कि प्रतिद्वंद्वी किस तरह से व्यवहार करता है और इस तरह से इसका जवाब देने की कोशिश करता है जो उसके लिए फायदेमंद है। यदि सीखने की प्रक्रिया की इस तरह की नकल काफी लंबे समय तक जारी रहती है, तो प्रति एक जोड़ी चाल (प्राथमिक खेल) की औसत अदायगी खेल की कीमत और आवृत्तियों p 1 ... p m; q 1 ... q n, जो इस रैली में खिलाड़ियों की रणनीतियों को पूरा करते हैं, उन आवृत्तियों तक पहुंचेंगे जो इष्टतम रणनीतियों को निर्धारित करते हैं। गणना से पता चलता है कि विधि का अभिसरण बहुत धीमा है, लेकिन यह उच्च गति की गणना करने वाली मशीनों के लिए कोई बाधा नहीं है।

आइए हम पिछले खंड के उदाहरण 2 में हल किए गए 3 × 3 गेम के उदाहरण का उपयोग करके पुनरावृत्त विधि के अनुप्रयोग का वर्णन करें। खेल मैट्रिक्स द्वारा दिया गया है:

तालिका ६.१ पुनरावृति प्रक्रिया के पहले १८ चरणों को दर्शाती है। पहले कॉलम में प्राथमिक गेम की संख्या होती है (चाल की एक जोड़ी) एन; दूसरे में - संख्या मैंखिलाड़ी ए की चुनी हुई रणनीति; अगले तीन में - पहले के लिए "संचित जीत" एनदुश्मन की रणनीतियों के साथ खेल बी 1, बी 2, बी 3। इनमें से सबसे छोटा मान रेखांकित किया गया है। इसके बाद नंबर आता है जेदुश्मन द्वारा चुनी गई रणनीति, और, तदनुसार, संचित लाभ एनरणनीतियों के साथ खेल इन मूल्यों में से ए 1, ए 2, ए 3, अधिकतम ऊपर से रेखांकित किया गया है। रेखांकित मूल्य दूसरे खिलाड़ी की प्रतिक्रिया रणनीति की पसंद निर्धारित करते हैं। निम्नलिखित ग्राफ़ क्रमिक रूप से दिखाते हैं: न्यूनतम औसत अदायगी , खेल की संख्या से विभाजित न्यूनतम संचित अदायगी के बराबर एन; अधिकतम संचित जीत के बराबर अधिकतम औसत जीत को से विभाजित किया जाता है एन, और उनका अंकगणितीय माध्य ν * = (ν +) / २. जब बढ़ रहा है एनसभी तीन मात्राएँ , और ν * खेल की कीमत के करीब पहुंचेंगे, लेकिन मूल्य ν *, स्वाभाविक रूप से, तुलनात्मक रूप से तेज़ी से पहुंचेगा।

तालिका ६.१.

जैसा कि आप उदाहरण से देख सकते हैं, पुनरावृत्तियों का अभिसरण बहुत धीमा है, लेकिन फिर भी, इस तरह की एक छोटी सी गणना भी खेल की कीमत का अनुमानित मूल्य खोजने और "उपयोगी" रणनीतियों के प्रसार को प्रकट करना संभव बनाती है। गणना मशीनों का उपयोग करते समय, विधि का मूल्य काफी बढ़ जाता है। खेलों को हल करने के लिए पुनरावृत्त विधि का लाभ यह है कि गणना की मात्रा और जटिलता अपेक्षाकृत कमजोर रूप से बढ़ती है क्योंकि रणनीतियों की संख्या बढ़ती है। एमतथा एन.

§ 7. कुछ अनंत खेलों को हल करने के तरीके

एक अंतहीन खेल एक ऐसा खेल है जिसमें कम से कम एक पक्ष के पास अनंत संख्या में रणनीतियाँ होती हैं। ऐसे खेलों को हल करने के सामान्य तरीके अभी तक विकसित नहीं हुए हैं। हालांकि, अभ्यास के लिए, कुछ विशेष मामले रुचि के हो सकते हैं, जो अपेक्षाकृत सरल समाधान स्वीकार करते हैं। दो विरोधियों ए और बी के खेल पर विचार करें, जिनमें से प्रत्येक में रणनीतियों का एक अनंत (बेशुमार) सेट है; खिलाड़ी A के लिए ये रणनीतियाँ . के अनुरूप हैं विभिन्न अर्थलगातार बदलते पैरामीटर एन एस, और - पैरामीटर . के लिए पर... इस मामले में, मैट्रिक्स a ij के बजाय, खेल को दो लगातार भिन्न तर्कों के कुछ फ़ंक्शन द्वारा परिभाषित किया जाता है ए (एक्स, वाई), जिसे हम अदायगी फ़ंक्शन कहेंगे (ध्यान दें कि फ़ंक्शन ही ए (एक्स, वाई)निरंतर नहीं होना चाहिए)। विन फंक्शन ए (एक्स, वाई)किसी सतह द्वारा ज्यामितीय रूप से निरूपित किया जा सकता है ए (एक्स, वाई)तर्क बदलने के क्षेत्र में (एक्स, वाई)(अंजीर। 7.1)

अदायगी समारोह का विश्लेषण ए (एक्स, वाई)भुगतान मैट्रिक्स के विश्लेषण के समान ही किया जाता है। सबसे पहले, खेल α की कम कीमत पाई जाती है; इसके लिए यह प्रत्येक के लिए निर्धारित है एन एसन्यूनतम कार्य ए (एक्स, वाई)सभी के लिए पर:, तो इनमें से अधिकतम मान सभी के लिए खोजा जाता है एन एस(अधिकतम):

खेल की ऊपरी कीमत (मिनीमैक्स) उसी तरह निर्धारित की जाती है:

उस स्थिति पर विचार करें जब α = β। चूंकि खेल ν का मान हमेशा α और β के बीच होता है, इसलिए उनका कुल मान होता है। समानता α = β का अर्थ है कि सतह ए (एक्स, वाई)एक काठी बिंदु है, अर्थात, निर्देशांक x 0, y 0 के साथ एक बिंदु, जिस पर ए (एक्स, वाई)एक ही समय में न्यूनतम है परऔर अधिकतम एन एस(अंजीर। 7.2)।

अर्थ ए (एक्स, वाई)इस बिंदु पर खेल की कीमत है : ν = ए (एक्स 0, वाई 0)।एक काठी बिंदु की उपस्थिति का मतलब है कि इस अनंत खेल में एक शुद्ध रणनीति समाधान है; एक्स 0, वाई 0इष्टतम शुद्ध रणनीतियों ए और बी का प्रतिनिधित्व करते हैं। सामान्य मामले में, जब α β, खेल का केवल मिश्रित रणनीतियों के क्षेत्र में समाधान हो सकता है (शायद केवल एक ही नहीं)। अनंत खेलों के लिए मिश्रित रणनीति रणनीतियों के लिए कुछ संभाव्यता वितरण है एन एसतथा परयादृच्छिक चर के रूप में माना जाता है। यह वितरण निरंतर और घनत्व द्वारा निर्धारित किया जा सकता है एफ 1 (एनएस)तथा एफ 2 (वाई); असतत हो सकता है, और फिर इष्टतम रणनीतियों में कुछ गैर-शून्य संभावनाओं के साथ चुनी गई अलग-अलग शुद्ध रणनीतियों का एक सेट होता है।

मामले में जब एक अनंत खेल में एक काठी बिंदु नहीं होता है, तो खेल की निचली और ऊपरी कीमतों की एक दृश्य ज्यामितीय व्याख्या दी जा सकती है। एक भुगतान समारोह के साथ एक अनंत खेल पर विचार करें ए (एक्स, वाई)और रणनीतियाँ एक्स, वाईलाइन खंडों को लगातार भरना (एक्स 1, एक्स 2)तथा (वाई 1, वाई 2)... खेल α की कम कीमत निर्धारित करने के लिए, आपको सतह पर "देखने" की आवश्यकता है ए (एक्स, वाई)अक्ष से पर, अर्थात। इसे एक विमान पर प्रोजेक्ट करें xóa(अंजीर। 7.3)। हम पक्षों से सीधी रेखाओं x = x 1 और x = x 2 से घिरा हुआ एक निश्चित आंकड़ा प्राप्त करते हैं, और ऊपर और नीचे वक्र KB और K N से। खेल α की कम कीमत, जाहिर है, इससे ज्यादा कुछ नहीं है वक्र K N की अधिकतम कोटि

इसी तरह, खेल β की ऊपरी कीमत का पता लगाने के लिए, किसी को सतह पर "देखना" चाहिए ए (एक्स, वाई)अक्ष से एन एस(प्रोजेक्ट सरफेस टू प्लेन हाँ) और प्रक्षेपण में ऊपरी सीमा K की न्यूनतम कोटि ज्ञात करें (चित्र, 7.4)।

अंतहीन खेलों के दो प्राथमिक उदाहरणों पर विचार करें।

उदाहरण 1।खिलाड़ी ए और बी प्रत्येक के पास संभावित रणनीतियों का एक बेशुमार सेट है एन एसतथा पर, और 0 x ≤ 1; 0 y ≤ 1. a के लिए अदायगी फलन a (x, y) - (x - y) 2 व्यंजक द्वारा दिया जाता है। खेल का समाधान खोजें।

हल, पृष्ठ a (x, y) एक परवलयिक बेलन है (चित्र 7.5) और इसका कोई सैडल बिंदु नहीं है। खेल की कम कीमत निर्धारित करें; सबके लिए स्पष्ट एन एस; इसलिए = 0. आइए हम खेल की ऊपरी कीमत निर्धारित करें। ऐसा करने के लिए, हम एक निश्चित के लिए पाते हैं पर

इस मामले में, अधिकतम हमेशा अंतराल की सीमा (x = 0 या x = 1 पर) पर पहुंच जाता है, अर्थात। यह y 2 के मानों के बराबर है; (1 - y) 2, जो बड़ा है। आइए इन फलनों के आलेख खींचते हैं (चित्र 7.6), अर्थात्। सतह प्रक्षेपण ए (एक्स, वाई)विमान पर हाँ... अंजीर में बोल्ड लाइन। 7.6 फ़ंक्शन दिखाता है। जाहिर है, इसका न्यूनतम मान y = 1/2 पर पहुँच जाता है और 1/4 के बराबर होता है। इसलिए, खेल की ऊपरी कीमत β = 1/4 है। इस मामले में, खेल की ऊपरी कीमत खेल की कीमत के साथ मेल खाती है। वास्तव में, खिलाड़ी A मिश्रित रणनीति S A = . लागू कर सकता है , जिसमें चरम मान x = 0 और x = 1 समान आवृत्तियों के साथ शामिल हैं; फिर खिलाड़ी बी की किसी भी रणनीति के लिए खिलाड़ी ए का औसत भुगतान बराबर होगा: ½y 2 + ½ (1 - y) 2। यह सत्यापित करना आसान है कि यह मात्रा किसी भी मान के लिए है पर 0 और 1 के बीच का मान ¼ से कम नहीं है: ½y 2 + ½ (1 - y) 2 ।

इस प्रकार, खिलाड़ी ए, इस मिश्रित रणनीति का उपयोग करते हुए, खुद को ऊपरी गेम मूल्य के बराबर भुगतान की गारंटी दे सकता है; चूंकि खेल की कीमत ऊपरी कीमत से अधिक नहीं हो सकती है, तो यह रणनीतिएस ए इष्टतम: एस ए = एस ए *।

यह खिलाड़ी बी की इष्टतम रणनीति खोजने के लिए बनी हुई है। जाहिर है, अगर खेल की कीमत खेल की ऊपरी कीमत के बराबर है, तो खिलाड़ी बी की इष्टतम रणनीति हमेशा उसकी शुद्ध न्यूनतम रणनीति होगी, जो उसे गारंटी देती है खेल की ऊपरी कीमत। इस मामले में, ऐसी रणनीति y 0 = ½ है। दरअसल, इस रणनीति के साथ, खिलाड़ी ए चाहे कुछ भी करे, उसका भुगतान ¼ से अधिक नहीं होगा। यह स्पष्ट असमानता (x - ½) 2 = x (x -1) + . से अनुसरण करता है

उदाहरण २।साइड ए ("हम") दुश्मन के विमान बी पर फायरिंग कर रहा है। गोलाबारी से बचने के लिए, दुश्मन कुछ अधिभार के साथ युद्धाभ्यास कर सकता है पर, जिससे वह अपने विवेक से मूल्यों को जोड़ सकता है पर= 0 (सीधी गति) से पर = परमैक्स(अधिकतम वक्रता के एक चक्र में उड़ान)। हमारा मानना ​​है परमैक्समाप की इकाई, अर्थात्। लगाना परमैक्स= 1. दुश्मन के खिलाफ लड़ाई में, हम प्रक्षेप्य की उड़ान के दौरान लक्ष्य की गति के बारे में एक या दूसरी परिकल्पना के आधार पर दृष्टि उपकरणों का उपयोग कर सकते हैं। अधिभार एन एसइस काल्पनिक युद्धाभ्यास में, इसे 0 से 1 तक किसी भी मान के बराबर माना जा सकता है। हमारा काम दुश्मन को मारना है; शत्रु का कार्य अप्रभावित रहना है। डेटा के लिए नुकसान की संभावना एन एसतथा परलगभग सूत्र द्वारा व्यक्त किया जाता है: a (x, y) = , कहाँ पे पर- दुश्मन द्वारा इस्तेमाल किया गया अधिभार; x - दृष्टि में अधिभार का हिसाब। दोनों पक्षों की इष्टतम रणनीतियों को निर्धारित करना आवश्यक है।

समाधान। जाहिर है, अगर हम p = 1 सेट करते हैं तो खेल का समाधान नहीं बदलता है। अदायगी समारोह ए (एक्स, वाई)अंजीर में दिखाई गई सतह द्वारा दर्शाया गया है। 7.7.

यह एक बेलनाकार सतह है जिसके जनक निर्देशांक कोण के समद्विभाजक के समानांतर होते हैं बजरा, और जेनरेट्रिक्स के लंबवत एक विमान द्वारा अनुभाग एक सामान्य वितरण वक्र के प्रकार का एक वक्र है। ऊपर प्रस्तावित खेल के निचले और ऊपरी मूल्यों की ज्यामितीय व्याख्या का उपयोग करते हुए, हम β = 1 (चित्र। 7.8) और (चित्र। 7.9) पाते हैं। खेल में एक काठी बिंदु नहीं है; मिश्रित रणनीतियों के क्षेत्र में समाधान खोजा जाना चाहिए। समस्या कुछ हद तक पिछले उदाहरण में समस्या के समान है। दरअसल, छोटे मूल्यों के लिए फ़ंक्शन एक फ़ंक्शन की तरह व्यवहार करता है - (एक्स - वाई) 2, और यदि पिछले उदाहरण के समाधान में खिलाड़ी A और B की भूमिकाएँ बदल दी जाती हैं, तो खेल का समाधान प्राप्त हो जाएगा; वे। हमारी इष्टतम रणनीति शुद्ध रणनीति x = 1/2 होगी, और विरोधी SB = की इष्टतम रणनीति समान आवृत्तियों के साथ चरम रणनीतियों y = 0 और y = 1 को लागू करना होगा। इसका मतलब है कि सभी मामलों में हमें अवश्य ही क्रॉसहेयर का उपयोग करें, एक अधिभार x = 1/2 के लिए डिज़ाइन किया गया है, और दुश्मन को सभी मामलों के आधे हिस्से में पैंतरेबाज़ी का उपयोग नहीं करना चाहिए, और आधे में - अधिकतम संभव पैंतरेबाज़ी।

चावल। 7.8 अंजीर। 7.9.

यह साबित करना आसान है कि यह समाधान k 2 के मूल्यों के लिए मान्य होगा। दरअसल, प्रतिद्वंद्वी की रणनीति के लिए औसत भुगतान S B = और हमारी रणनीति के लिए एन एससमारोह द्वारा व्यक्त , जो मूल्यों के लिए k 2 में = 1/2 पर अधिकतम एक है, जो कि खेल α की कम कीमत के बराबर है। नतीजतन, रणनीति एस बी के आवेदन प्रतिद्वंद्वी को एक नुकसान की गारंटी देता है जो α से अधिक नहीं है, जिससे यह स्पष्ट है कि α - खेल की कम कीमत - खेल की कीमत है ।

k> 2 के लिए, फलन a (x) में दो उच्चिष्ठ (चित्र 7.10) हैं, जो x = 1/2 के सापेक्ष सममित रूप से x 0 और 1 - x 0 पर स्थित हैं, और x 0 का मान k पर निर्भर करता है। .

जाहिर है, के लिए = 2 x 0 = 1 - x 0 = ½; जब बढ़ रहा हो अंक x 0 और 1 - x 0 चरम बिंदुओं (0 और 1) के करीब आते हुए अलग हो जाते हैं। इसलिए, खेल का निर्णय k पर निर्भर करेगा। आइए k के लिए एक विशिष्ट मान सेट करें, उदाहरण के लिए, k = 3, और खेल का समाधान खोजें; इसके लिए हम वक्र a (x) के अधिकतम का भुज x 0 परिभाषित करते हैं। फ़ंक्शन a (x) के व्युत्पन्न को शून्य करने के लिए, हम x 0 निर्धारित करने के लिए समीकरण लिखते हैं:

इस समीकरण के तीन मूल हैं: x = 1/2 (जहाँ न्यूनतम पहुँच गया है) और x 0, 1 - x 0, जहाँ अधिकतम पहुँच गया है। समीकरण को संख्यात्मक रूप से हल करने पर, हम लगभग x 0 0.07 पाते हैं; 1 - एक्स 0 0.93।

आइए हम साबित करें कि इस मामले में खेल का समाधान निम्नलिखित रणनीतियों की जोड़ी है:

हमारी रणनीति और दुश्मन की रणनीति के साथ परऔसत अदायगी है

0 . पर न्यूनतम 1 (y) ज्ञात कीजिए< у < 1. Функция a 1 (y) симметрична относительно y = 1/2 и может иметь только один или два максимума; ее минимум, во всяком случае, достигается либо в середине отрезка (0, 1), либо на его концах. Полагая у = 0 (или у = 1), найдем

y = 1/2 सेट करने पर, हमें प्राप्त होता है

जो 1 (0) से बड़ा है; इसलिए, खेल की कीमत 1 (0) से कम नहीं है:

अब मान लीजिए कि विरोधी रणनीति एस बी * का उपयोग करता है, और हम रणनीति एक्स का उपयोग करते हैं। तब औसत अदायगी होगी

लेकिन हमने x 0 को बिल्कुल इसलिए चुना है ताकि x = x 0 पर अधिकतम व्यंजक (7.2) पहुंच जाए; फलस्वरूप,

वे। प्रतिद्वंद्वी, रणनीति S B * का उपयोग करके, 0.530 से अधिक के नुकसान को रोक सकता है; इसलिए, = 0.530 खेल की कीमत है, और रणनीतियाँ S A * और S B * एक समाधान देती हैं। इसका मतलब है कि हमें एक ही आवृत्ति के साथ x = 0.07 और x = 0.93 के साथ स्थलों का उपयोग करना चाहिए, और दुश्मन को समान आवृत्ति के साथ पैंतरेबाज़ी नहीं करनी चाहिए और अधिकतम अधिभार के साथ पैंतरेबाज़ी नहीं करनी चाहिए।

ध्यान दें कि अदायगी = 0.530 खेल की कम कीमत से काफी अधिक है , जिसे हम अपनी अधिकतम कार्यनीति x 0 = 1/2 लागू करके स्वयं को प्रदान कर सकते हैं।

में से एक व्यावहारिक तरीकेअनंत खेलों का समाधान परिमित लोगों तक उनकी अनुमानित कमी है। इस मामले में, प्रत्येक खिलाड़ी के लिए संभावित रणनीतियों की एक पूरी श्रृंखला को पारंपरिक रूप से एक रणनीति में जोड़ा जाता है। इस तरह, निश्चित रूप से, खेल का केवल एक अनुमानित समाधान प्राप्त किया जा सकता है, लेकिन ज्यादातर मामलों में सटीक समाधान की आवश्यकता नहीं होती है।

हालांकि, यह ध्यान में रखा जाना चाहिए कि इस तकनीक को लागू करते समय, मिश्रित रणनीतियों के क्षेत्र में समाधान उन मामलों में भी प्रकट हो सकते हैं जब शुद्ध रणनीतियों में मूल अनंत खेल का समाधान संभव है, अर्थात। जब अनंत खेल में एक काठी बिंदु होता है। यदि, एक अनंत खेल को एक परिमित में कम करके, एक मिश्रित समाधान प्राप्त किया जाता है, जिसमें केवल दो आसन्न "उपयोगी" रणनीतियाँ शामिल हैं, तो यह उनके बीच मूल अनंत खेल की एक मध्यवर्ती शुद्ध रणनीति को लागू करने का प्रयास करने के लिए समझ में आता है।

अंत में, हम ध्यान दें कि सीमित खेलों के विपरीत, अनंत खेलों का समाधान नहीं हो सकता है। आइए एक ऐसे अनंत खेल का उदाहरण दें जिसका कोई हल नहीं है। दो खिलाड़ी प्रत्येक पूर्णांक का नाम देते हैं। नामांकित अधिकअन्य 1 रूबल से प्राप्त करता है। यदि दोनों एक ही नंबर पर कॉल करते हैं, तो खेल ड्रॉ में समाप्त होता है। खेल का स्पष्ट रूप से समाधान नहीं हो सकता है। हालांकि, अनंत खेलों के ऐसे वर्ग हैं जिनके लिए निश्चित रूप से एक समाधान मौजूद है।

खिलाड़ी A की मिश्रित रणनीति SA शुद्ध रणनीतियों A1, A2, ..., Am का प्रायिकता p1, p2, ..., pi, ..., pm के साथ प्रयोग है और प्रायिकताओं का योग 1 के बराबर है: खिलाड़ी A की मिश्रित रणनीतियाँ मैट्रिक्स के रूप में या एक स्ट्रिंग SA = (p1, p2, ..., pi, ..., pm) के रूप में लिखी जाती हैं, इसी तरह, खिलाड़ी B की मिश्रित रणनीतियों को :, या , एसबी = (क्यू 1, क्यू 2, ..., क्यूई, ..., क्यूएन), जहां रणनीतियों की उपस्थिति की संभावनाओं का योग 1 के बराबर है: शुद्ध रणनीतियों को मिश्रित लोगों का एक विशेष मामला माना जा सकता है और दिया जा सकता है एक स्ट्रिंग द्वारा जिसमें 1 एक शुद्ध रणनीति से मेल खाती है। मिनिमैक्स सिद्धांत के आधार पर, खेल का इष्टतम समाधान (या समाधान) निर्धारित किया जाता है: यह सामान्य स्थिति में एस * ए, एस * बी इष्टतम रणनीतियों की एक जोड़ी है, मिश्रित, होने निम्नलिखित संपत्ति: यदि खिलाड़ियों में से एक अपनी इष्टतम रणनीति का पालन करता है, तो दूसरा अपने से विचलित होने से लाभदायक नहीं हो सकता है। इष्टतम समाधान के अनुरूप भुगतान को खेल v की लागत कहा जाता है। खेल की कीमत असमानता को संतुष्ट करती है :? ? वी? ? (३.५) कहाँ? तथा? - नीचे और शीर्ष मूल्यखेल गेम थ्योरी का निम्नलिखित मुख्य प्रमेय सत्य है - न्यूमैन का प्रमेय। प्रत्येक अंतिम गेम में कम से कम एक इष्टतम समाधान होता है, संभवतः मिश्रित रणनीतियों के बीच। मान लीजिए एस * ए = (पी * 1, पी * 2, ..., पी * आई, ..., पी * एम) और एस * बी = (क्यू * 1, क्यू * 2, ..., क्यू * i, ..., q * n) इष्टतम रणनीतियों की एक जोड़ी है। यदि एक शुद्ध रणनीति को गैर-शून्य संभावना के साथ इष्टतम मिश्रित रणनीति में शामिल किया जाता है, तो इसे सक्रिय कहा जाता है। सक्रिय रणनीतियों पर प्रमेय मान्य है: यदि खिलाड़ियों में से एक अपनी इष्टतम मिश्रित रणनीति का पालन करता है, तो भुगतान अपरिवर्तित रहता है और खेल v की कीमत के बराबर होता है, यदि दूसरा खिलाड़ी अपनी सक्रिय रणनीतियों की सीमा से आगे नहीं जाता है। यह प्रमेय बहुत व्यावहारिक महत्व का है - यह एक सैडल बिंदु के अभाव में इष्टतम रणनीति खोजने के लिए विशिष्ट मॉडल प्रदान करता है। एक 2 × 2 खेल पर विचार करें, जो एक परिमित खेल का सबसे सरल मामला है। यदि इस तरह के खेल में एक काठी बिंदु है, तो इष्टतम समाधान इस बिंदु के अनुरूप शुद्ध रणनीतियों की एक जोड़ी है। एक सैडल पॉइंट के बिना एक गेम, गेम थ्योरी के मुख्य प्रमेय के अनुसार, एक इष्टतम समाधान मौजूद है और मिश्रित रणनीतियों की एक जोड़ी द्वारा निर्धारित किया जाता है एस * ए = (पी * 1, पी * 2) और एस * बी = (क्यू * 1, क्यू * 2) ... उन्हें खोजने के लिए, हम सक्रिय रणनीतियों पर प्रमेय का उपयोग करेंगे। यदि खिलाड़ी ए अपनी इष्टतम रणनीति एस "ए का पालन करता है, तो उसका औसत भुगतान गेम वी की कीमत के बराबर होगा, चाहे कोई भी सक्रिय रणनीति खिलाड़ी बी उपयोग करे। 2 × 2 गेम के लिए, प्रतिद्वंद्वी की कोई भी शुद्ध रणनीति है सक्रिय अगर कोई सैडल पॉइंट नहीं है खिलाड़ी ए का भुगतान (खिलाड़ी बी की हानि) - यादृच्छिक मूल्य, गणितीय अपेक्षा (औसत मूल्य) जिसकी खेल की कीमत है। इसलिए, खिलाड़ी A (इष्टतम रणनीति) का औसत भुगतान प्रतिद्वंद्वी की पहली और दूसरी दोनों रणनीतियों के लिए v के बराबर होगा। खेल को अदायगी मैट्रिक्स द्वारा निर्दिष्ट करें। खिलाड़ी ए का औसत भुगतान यदि वह इष्टतम मिश्रित रणनीति का उपयोग करता है, और खिलाड़ी बी शुद्ध रणनीति बी 1 का उपयोग करता है (यह भुगतान मैट्रिक्स पी के पहले कॉलम से मेल खाता है), बराबर है खेल की कीमत v: a11 p * 1 + a21 p * 2 = v। खिलाड़ी ए को समान औसत भुगतान मिलता है यदि दूसरा खिलाड़ी रणनीति बी 2 लागू करता है, अर्थात। ए12 पी * 1 + ए 22 पी * 2 = वी। पी * 1 + पी * 2 = 1 को ध्यान में रखते हुए, हम इष्टतम रणनीति एस "ए और गेम वी की कीमत निर्धारित करने के लिए समीकरणों की एक प्रणाली प्राप्त करते हैं: (3.6) इस प्रणाली को हल करते हुए, हम इष्टतम रणनीति (3.7) प्राप्त करते हैं ) और खेल की कीमत (3.8) एसबी * - खिलाड़ी बी की इष्टतम रणनीति खोजने पर सक्रिय रणनीति, हम पाते हैं कि खिलाड़ी ए (ए 1 या ए 2) की किसी भी शुद्ध रणनीति के लिए, खिलाड़ी बी का औसत नुकसान बराबर है खेल की कीमत v, यानी (3.9) तब इष्टतम रणनीति सूत्रों द्वारा निर्धारित की जाती है: (3.10 )

"स्वच्छ" रणनीतियाँ

जाम से हम पहले से ही परिचित हैं। हालांकि, अगर किसी रणनीति की जंजीर से जाम हटा दिया जाए तो क्या होगा? हमें एक "स्वच्छ रणनीति" मिलेगी। शुद्ध रणनीतियाँ वे हैं जो क्रियाओं की श्रृंखला में होती हैं, जिनकी जड़ से लेकर उत्पादक भाग तक, कोई अप्रभावी उप-रणनीतियाँ (जाम) नहीं होती हैं, और यह अक्सर केवल मन में सभी लिंक की उपस्थिति से ही प्रमाणित किया जा सकता है।

बेशक, रणनीति को लागू करने के सभी संभावित परिणामों के दृष्टिकोण से, हमारे लिए सबसे प्रभावी के बारे में बात करना मुश्किल है, क्योंकि हमारे पास निश्चित अनुभव नहीं हो सकता है, और इसलिए कुछ मध्यवर्ती रणनीतियां हैं, लेकिन यह है हमारा अनुभव है कि रणनीति यथासंभव प्रभावी होनी चाहिए।

शुद्ध रणनीतियों की अवधारणा भी इन सामग्रियों में से एक है, इसलिए मैं एक उदाहरण दूंगा:

शाम। आप अपने गृह क्षेत्र में घर की जल्दी में हैं। दूध भाग जाता है। "संदिग्ध प्रकार के कुछ, कई" आप अपने पते में सुनते हैं "अरे, आप, [सेंसरशिप द्वारा काटे गए]। यहाँ मत जाओ, सर बर्फ़ पड़ जाएगी!"

आप क्या करेंगे? कई विकल्प हो सकते हैं। कोई चीजों को सुलझाने के लिए जाएगा, कोई डर जाएगा और अपनी गति तेज कर देगा, कोई वापस कुछ चिल्लाएगा। हालाँकि, आइए सोचें, इस मामले में व्यवहार की शुद्ध रणनीति क्या है?

सड़क पर कोई अजनबी आपको कुछ चिल्ला रहा है। आपका अपना व्यवसाय है, जिस पर आप वास्तव में जाते हैं। पाठ के आधार पर, इस व्यक्ति के साथ संवाद करने से आपके लिए सकारात्मक लाभ की संभावना बहुत कम है। तार्किक निष्कर्ष: शांति से अपने व्यवसाय के बारे में जाने। मैं आपका ध्यान इस तथ्य की ओर आकर्षित करता हूं कि यह "शांत" है, बिना छाया के नकारात्मक भावनाएं, लेकिन जो हो रहा है उसके प्रति स्वस्थ उदासीनता के साथ। कितने लोग ऐसा करेंगे? मुझे लगता है कि भारी अल्पसंख्यक। क्यों?

क्योंकि अधिकांश लोगों के पास आत्म-संरक्षण के लिए निचली परतों में बंधी अवचेतन रणनीतियों की एक पूरी परत होती है, विशेष रूप से, ये हो सकती हैं: "हमेशा अशिष्टता के साथ अशिष्टता का जवाब दें", "यदि कोई गंदी बातें कहता है, तो आपको भागना होगा", "अगर कोई असभ्य है - तो आपको उसका चेहरा भरना होगा", "अगर कोई असभ्य है, तो एक खतरा है", और विभिन्न रूपों में पसंद है। बेशक, हर कोई किसी तरह की सक्रिय कार्रवाई नहीं करेगा, लेकिन भावनात्मक रूप से यह लगभग सभी को प्रभावित करेगा। और यह एक कैंट है।

शुद्ध रणनीतियाँ हमेशा भावनात्मक रूप से तटस्थ या सकारात्मक होती हैं, और यह आपके मस्तिष्क में निहित है, आपको बस इसका उपयोग करना है।

आप शुद्ध रणनीतियों के बारे में "शुद्ध रणनीति क्यों?" नोट्स में कुछ पढ़ सकते हैं। और हाउस, हॉपकिंस, आदि।

जीनियस की रणनीतियाँ पुस्तक से। अल्बर्ट आइंस्टीन लेखक दिल्ट्स रॉबर्ट

रणनीतियाँ 1. "रणनीति" शब्द की परिभाषा: क) ग्रीक शब्द "रणनीति" से आया है, जिसका अर्थ है: "सैन्य नेता", "विज्ञान, युद्ध की कला", "सामाजिक, राजनीतिक संघर्ष के नेतृत्व की कला।"

जीनियस की रणनीतियाँ (अरस्तू शर्लक होम्स वॉल्ट डिज़्नी वोल्फगैंग एमॅड्यूस मोजार्ट) पुस्तक से लेखक दिल्ट्स रॉबर्ट

किताब से क्या आप अच्छी तरह से अध्ययन करना जानते हैं?! उपयोगी किताबलापरवाह छात्रों के लिए लेखक कार्पोव एलेक्सी

रणनीतियाँ यदि आप सोचते हैं और कार्रवाई की रणनीति चुनते हैं तो आपकी शिक्षा गुणवत्ता के पूरी तरह से अलग स्तर पर जाएगी। रणनीति समग्र योजना है। यह दी गई सामान्य पंक्ति है वास्तविक स्थितियां... ये लक्ष्य हैं, समय सीमा, अप्रत्याशितता और विविधता को ध्यान में रखते हुए ... यह नब्ज की बहुत भावना है

मन और सफलता की रणनीति पुस्तक से लेखक एंटिपोव अनातोली

इमोशनल इंटेलिजेंस पुस्तक से गोलेमैन डेनियल द्वारा

गुणक मानसिक विकासतथा भावनात्मक बुद्धि: शुद्ध प्रकार के आईक्यू और भावनात्मक बुद्धि का विरोध नहीं है, बल्कि अलग-अलग क्षमताएं हैं। हम सभी बुद्धि को अनुभव की तीक्ष्णता के साथ जोड़ते हैं; उच्च के साथ लोग

12 ईसाई मान्यताओं की एक किताब से जो आपको पागल कर सकती है टाउनसेंड जॉन द्वारा

सही इरादे या शुद्ध विचार सही इरादा सही काम करने का निर्णय है। हम एक अच्छा काम चुनते हैं जो भगवान को प्रसन्न करता है, आमतौर पर यह सोचे बिना कि क्या हम वास्तव में इसे करना चाहते हैं। हम बस इसे करते हैं और बस इतना ही। कई इंजील प्रचारक

कमिंग इन लाइफ: ए कलेक्शन किताब से लेखक लेखक अनजान है

रुडोल्फ इवानोविच एबेल: "रिमेम्बर एज़ डेज़र्ज़िंस्की ने कहा:" स्वच्छ हाथ, ठंडा सिर और गर्म दिल ... "रूडोल्फ इवानोविच हाबिल ने सोवियत खुफिया में काम करने के लिए तीस साल से अधिक समर्पित किया। उन्हें ऑर्डर ऑफ लेनिन, रेड बैनर के दो ऑर्डर, ऑर्डर ऑफ लेबर से सम्मानित किया गया था

किताब से होमो सेपियन्स२.० [होमो सेपियन्स २.० http://hs2.me] सेपियंस होमो . द्वारा

रणनीतियाँ

होमो सेपियन्स 2.0 . पुस्तक से द्वारा सेपियन्स 2.0 होमो

"स्वच्छ" रणनीतियाँ हम पहले से ही जाम से परिचित हैं। हालांकि, अगर किसी रणनीति की जंजीर से जाम हटा दिया जाए तो क्या होगा? हमें एक "स्वच्छ रणनीति" मिलेगी। शुद्ध रणनीतियाँ वे हैं जो क्रियाओं की श्रृंखला में हैं, जिनमें मूल से लेकर प्रभावी भाग तक अनुपस्थित हैं।

पुस्तक प्रारंभ से। चेहरे पर घूंसा डर, "सामान्य" होना बंद करें और कुछ सार्थक करें लेखक अयकाफ जॉन

किताब से मनुष्य एक जानवर के रूप में लेखक निकोनोव अलेक्जेंडर पेट्रोविच

रणनीतियाँ रणनीतियों की सामान्य अवधारणा सिद्धांत रूप में, हर कोई एक डिग्री या किसी अन्य को समझता है कि रणनीति क्या है। अनुभव प्राप्त करने और प्रसंस्करण के परिणामस्वरूप प्राप्त ज्ञान का एक निश्चित सेट होने के बाद, हम व्यवहार के कुछ मॉडल बनाते हैं। रणनीति एक लक्ष्य प्राप्त करने के लिए एक मॉडल है।

किताब से टर्न योर वर्किंग मेमोरी टू फुल पावर एलोवे ट्रेसी द्वारा

स्वच्छ रणनीतियाँ क्यों? इस परियोजना में सामग्री का शेर का हिस्सा लगातार इंगित करता है कि पुनर्लेखन के लिए शुद्ध रणनीतियों का उपयोग करना आवश्यक है और उनके आधार पर एक जाम की तलाश करना अनिवार्य है। यह क्षण पहली नज़र में स्पष्ट नहीं है और

एक बहिर्मुखी दुनिया में अंतर्मुखी पुस्तक से लेखक रोमांत्सेवा एलिसैवेटा

लेखक की किताब से

लेखक की किताब से

रणनीतियाँ कंप्यूटर रणनीतियों के लिए खिलाड़ी को ध्यान केंद्रित करने, अपने कार्यों की योजना बनाने और विभिन्न समस्याओं को हल करने की आवश्यकता होती है। हाल के शोध से पता चलता है कि रणनीति सभी उम्र के खिलाड़ियों के संज्ञानात्मक कौशल में सुधार कर सकती है। के अनुसार

लेखक की किताब से

शुद्ध प्रकार ऐसी एक अवधारणा है - "शुद्ध मनोवैज्ञानिक प्रकार". वास्तव में, एक अवधारणा है, लेकिन व्यावहारिक रूप से कोई वस्तु नहीं है, अर्थात लोग इस अवधारणा के लिए आदर्श रूप से अनुकूल हैं। कोई शुद्ध अंतर्मुखी और स्पष्ट बहिर्मुखी नहीं हैं। इसके अलावा, हम आपसे सहमत हैं

खिलाड़ी की पसंद की कार्रवाई को कहा जाता है कदम... चालें हैं व्यक्तिगत(खिलाड़ी जानबूझकर यह या वह निर्णय लेता है) और यादृच्छिक रूप से(खेल का परिणाम खिलाड़ी की इच्छा पर निर्भर नहीं करता है)। नियमों का समूह जो यह निर्धारित करता है कि खिलाड़ी को कौन सी चाल चलने की जरूरत है, कहलाता है रणनीति... रणनीतियाँ हैं साफ(खिलाड़ियों के गैर-यादृच्छिक निर्णय) और मिला हुआ(रणनीति को एक यादृच्छिक चर के रूप में माना जा सकता है)।

काठी के बिंदू

में खेल का सिद्धांतअनुसूचित जनजाति। ( काठी तत्व) कॉलम का सबसे बड़ा तत्व है गेम मैट्रिसेस, जो एक साथ संगत पंक्ति का सबसे छोटा तत्व है (in .) ज़ीरो-सम टू-पर्सन गेम) इस बिंदु पर, इसलिए, एक खिलाड़ी का मैक्सिमम दूसरे के मिनिमैक्स के बराबर होता है; एस टी एक बिंदु है संतुलन.

मिनिमैक्स प्रमेय

मिनिमैक्स के अनुरूप कार्यनीति कहलाती है मिनिमैक्स रणनीति.

खिलाड़ियों को सबसे "सावधान" मैक्सिमिन और मिनिमैक्स रणनीतियों के चुनाव को निर्धारित करने वाला सिद्धांत कहलाता है न्यूनतम सिद्धांत... यह सिद्धांत उचित धारणा से चलता है कि प्रत्येक खिलाड़ी प्रतिद्वंद्वी के विपरीत लक्ष्य हासिल करना चाहता है।

खिलाड़ी अपने कार्यों को चुनता है, यह मानते हुए कि प्रतिद्वंद्वी प्रतिकूल तरीके से कार्य करेगा, अर्थात। "नुकसान" करने की कोशिश करेंगे।

लॉस फंकशन

लॉस फंकशन- एक फ़ंक्शन जो, सिद्धांत रूप में सांख्यिकीय निर्णयअवलोकन योग्य डेटा के आधार पर खराब निर्णय लेने के नुकसान की विशेषता है। यदि शोर की पृष्ठभूमि के खिलाफ सिग्नल पैरामीटर के आकलन की समस्या का समाधान किया जा रहा है, तो नुकसान फ़ंक्शन के बीच विसंगति का एक उपाय है वास्तविक मूल्यअनुमानित पैरामीटर और पैरामीटर अनुमान

इष्टतम मिश्रित खिलाड़ी रणनीतिदी गई संभावनाओं के साथ समान परिस्थितियों में खेल के कई दोहराव के साथ अपनी शुद्ध रणनीतियों के अनुप्रयोगों का एक पूरा सेट है।

एक खिलाड़ी की मिश्रित रणनीति दी गई संभावनाओं के साथ समान परिस्थितियों में खेल के कई दोहराव के साथ अपनी शुद्ध रणनीतियों को लागू करने का एक पूरा सेट है।

1. यदि एक पंक्ति के सभी तत्व दूसरी पंक्ति के संगत तत्वों से बड़े नहीं हैं, तो मूल पंक्ति को पेऑफ मैट्रिक्स से हटाया जा सकता है। इसी तरह कॉलम के लिए।

2. खेल की लागत अद्वितीय है।

डॉक्टर:मान लीजिए कि 2 गेम की कीमतें हैं वीऔर, जो एक जोड़े पर पहुंचे हैं और, क्रमशः, तब

3. यदि भुगतान मैट्रिक्स के सभी तत्वों में समान संख्या जोड़ दी जाती है, तो इष्टतम मिश्रित रणनीति नहीं बदलेगी, और इस संख्या से खेल की कीमत बढ़ जाएगी।

डॉक्टर:
, कहाँ पे

4. यदि अदायगी मैट्रिक्स के सभी तत्वों को एक ही गैर-शून्य संख्या से गुणा किया जाता है, तो खेल की कीमत को इस संख्या से गुणा किया जाएगा, और इष्टतम रणनीति नहीं बदलेगी।

© 2021 skudelnica.ru - प्यार, विश्वासघात, मनोविज्ञान, तलाक, भावनाएं, झगड़े