खेळ आणि सांख्यिकीय उपाय सिद्धांत.

मुख्य / तिच्या पतीसभेत

या खेळाडूची निवड किंवा त्या कारवाईची निवड केली जाते च्या कडे. Shoots आहेत वैयक्तिक (खेळाडू जाणूनबुजून हे किंवा त्या निर्णयाचे पालन करतात) आणि यादृच्छिक (गेमचा परिणाम खेळाडूच्या इच्छेवर अवलंबून नाही). कायद्याचा एक संच जो खेळाडूला कोणत्या अभ्यासक्रमाची आवश्यकता आहे हे निर्धारित करते हे निर्धारित करते स्ट्रॅटेजी. तेथे आहेत स्वच्छ (नॉन-रँडम प्लेअर सोल्यूशन्स) आणि मिश्रित (धोरण यादृच्छिक रक्कम म्हणून मानली जाऊ शकते).

Seddle पॉइंट

मध्ये गेम सिद्धांत एस टी. ( सॅडल घटक) - हा स्तंभाचा सर्वात मोठा घटक आहे मॅट्रिक्स गेम्सजे त्याच वेळी संबंधित ओळचे सर्वात लहान घटक (मध्ये शून्य रक्कम दोन व्यक्तींचा खेळ). या वेळी, एका खेळाडूने जास्तीत जास्त इतरांपेक्षा अधिक समान आहे; एस टी. एक मुद्दा आहे समतोल.

Minixse TheRem

Mincis संबंधित धोरण म्हणतात मिनिमॅक्स स्ट्रॅटेजी.

तत्त्व, निर्देशित करणारे खेळाडू, सर्वात जास्त "सावध" कमाल आणि मिनिमॅक्स रणनीतींची निवड म्हणतात minimax च्या सिद्धांत. हा सिद्धांत एक वाजवी धारणा पासून अनुसरण करतो की प्रत्येक खेळाडू शत्रूच्या लक्ष्य विरुद्ध ध्येय साध्य करण्याचा प्रयत्न करतो.

खेळाडू आपले कार्य निवडतो, असे मानले की शत्रू प्रतिकूल कार्य करेल, होय. "हानी" करण्याचा प्रयत्न करेल.

नुकसान कार्य

नुकसान कार्य - सांख्यिकीय सोल्यूशन्सच्या सिद्धांतानुसार एक असे कार्य मान्य केलेल्या डेटावर आधारित चुकीच्या निर्णय घेण्यामध्ये नुकसानाचे वर्णन करते. जर हस्तक्षेपाच्या पार्श्वभूमीवर सिग्नल पॅरामीटरचे अनुमान काढण्याचे कार्य सोडले तर तोटा कार्य करणे हे विसंगतींचे मोजमाप आहे खरे अर्थ अंदाजे पॅरामीटर आणि पॅरामीटर अंदाज

अनुकूल मिश्रित प्लेअर स्ट्रॅटेजी - निर्दिष्ट संभाव्यतेसह समान परिस्थितीत गेम पुनरावृत्ती करण्यासाठी ही स्वच्छ रणनीती पूर्ण संच आहे.

प्लेअरची मिश्रित धोरण हे निर्दिष्ट संभाव्यतेसह त्याच अटींमध्ये गेम पुनरावृत्ती करण्याच्या नेट स्ट्रॅटेजीजचा संपूर्ण संच आहे.

1. स्ट्रिंगचे सर्व घटक दुसर्या ओळीचे अधिक संबंधित आयटम नाहीत तर, स्त्रोत स्ट्रिंग पेमेंट मॅट्रिक्समधून हटविली जाऊ शकते. स्तंभ सारखे.

2. खेळाची किंमत ही एकमेव आहे.

गोदी: समजा की 2 किंमती खेळ आहेत व्ही. आणि, जे एक जोडीवर साध्य केले जाते आणि त्यानुसार, नंतर

3. जर पेमेंट मॅट्रिक्सच्या सर्व घटक समान संख्या जोडा तर अनुकूल मिश्रित रणनीती बदलणार नाहीत आणि गेमची किंमत या नंबरद्वारे वाढेल.

गोदी:
कुठे

4. जर पेमेंट मॅट्रिक्सच्या सर्व घटकांनी समान संख्या वाढविली असेल तर तो शून्यच्या समान नसेल तर गेमची किंमत या नंबरवर वाढते आणि इष्टतम धोरणे बदलणार नाहीत.

एसए प्लेअर ए च्या मिश्रित धोरणास शुद्ध रणनीती ए 1, ए 2 चा वापर म्हणतात ..., संभाव्यतेसह पी 1, पी 2, ..., पीआय, ..., पीएम आणि संभाव्यता बेरीज 1: मिश्रित आहे. प्लेअर स्ट्रॅटेजीज ए मॅट्रिक्सच्या स्वरूपात किंवा स्ट्रिंगच्या स्वरूपात रेकॉर्ड केले आहे \u003d (पी 1, पी 2, पीआय, पीआय, ..., पंतप्रधान), त्याचप्रमाणे डिझाइन केलेले मिश्रित खेळाडू रणनीती :,, sb \u003d (क्यू 1, क्यू 2, ..., क्यूई, ..., क्यूएन), जेथे रणनीतींच्या स्वरुपाची संभाव्यता 1 आहे: स्वच्छ रणनीती मिश्रित खाजगी केस म्हणून मानले जाऊ शकते आणि स्ट्रिंग सेट केले जाऊ शकते ज्यामध्ये 1 स्वच्छ धोरणांशी संबंधित आहे. किमान तत्त्वावर आधारित, गेमचे इष्टतम समाधान (किंवा निर्णय) निर्धारित केले आहे: मिश्रित सामान्य प्रकरणात * इष्टतम धोरणे एस * ए, एस * बी एक जोडी आहे, ज्यामध्ये खालील मालमत्ता आहे: पैकी एक खेळाडूंना त्याची अनुकूल धोरण आहे, तर दुसरा त्याच्याकडून अनुकूलपणे मागे फिरू शकत नाही. इष्टतम समाधानाशी संबंधित विजयी गेम व्ही. गेमची किंमत असमानता पूर्ण करते:? ? v? ? (3.5) कुठे? आणि? - कमी आणि अप्पर गेम किमती. गेम थ्योरीचे खालील मूलभूत प्रमेय निष्पक्ष नेमॅन प्रमेय आहे. प्रत्येक अंतिम गेम आहे किमान एक अनुकूल उपाय असू शकते मिश्र धोरणे. एस * ए \u003d (पी * 1, पी * 2, ..., पी * मी, पी * एम) आणि एस * बी \u003d (क्यू * 1, क्यू * 2, ..., प्रश्न * मी, ..., क्यू * एन) - चांगल्या रणनीतींचा एक जोडी. जर नेट स्ट्रॅटेजी एक नॉन-शून्य संभाव्यतेसह इष्टतम मिश्रित धोरणामध्ये प्रवेश करते तर त्याला सक्रिय म्हटले जाते. सक्रिय स्ट्रॅटेजी प्रमेय वैध आहे: जर खेळाडूंपैकी एकाने त्याच्या चांगल्या मिश्रित धोरणाचे पालन केले असेल तर, विजयी खेळाच्या किंमतीवर अपरिवर्तित आणि समान राहतात, तर दुसरा खेळाडू त्याच्या सक्रिय रणनीतींच्या पलीकडे जात नाही. या प्रमेयमध्ये उत्तम व्यावहारिक महत्त्व आहे - ते कडल पॉईंटच्या अनुपस्थितीत अनुकूल रणनीती शोधण्याचे विशिष्ट मॉडेल देते. 2 × 2 च्या गेम आकाराचा विचार करा, जो अंतिम गेमचा सर्वात सोपा बाब आहे. जर अशा गेममध्ये एक सॅडल पॉईंट असेल तर इष्टतम समाधान या बिंदूशी संबंधित शुद्ध रणनीती एक जोडी आहे. गेम थ्योरीच्या मुख्य सिद्धांतानुसार, सर्वोत्कृष्ट उपाय अस्तित्वात नसलेल्या गेममध्ये, इष्टतम उपाय अस्तित्वात आहे आणि मिश्रित रणनीतींच्या जोडीने निश्चित केले आहे * ए \u003d (पी * 1, पी * 2) आणि एस * बी \u003d (क्यू * 1, क्यू * 2). त्यांना शोधण्यासाठी आम्ही वास्तविक स्ट्रॅटेजी प्रमेय वापरतो. जर खेळाडू आणि त्याच्या सर्वोत्कृष्ट रणनीती एस "ए धरून असेल तर, त्याचे सरासरी विजय गेम व्हीच्या किंमतीच्या बरोबरीचे असेल, प्लेअर व्हायरससाठी जे काही सक्रिय धोरण आहे. खेळण्यासाठी 2 × 2 खेळण्यासाठी कोणतीही शुद्ध शत्रू धोरण सक्रिय आहे सॅडल पॉइंट. विन प्लेयर ए (प्लेअर लॉस) - यादृच्छिक मूल्य, अपेक्षित मूल्य (सरासरी मूल्य) कोणत्या गेमची किंमत आहे. म्हणून, सरासरी खेळाडू विजय (इष्टतम स्ट्रॅटेजी) विरुद्ध आणि प्रथम आणि द्वितीय शत्रू धोरणासाठी समान असेल. सरासरी प्लेअरच्या विजयाच्या पेमेंट मॅट्रिक्सद्वारे गेम सेट करू द्या, जर ते सर्वोत्कृष्ट मिश्रित धोरणाचा वापर करते आणि शुद्ध स्ट्रॅटेजी बी 1 मधील खेळाडू (हे पेमेंट मॅट्रिक्स पी च्या पहिल्या स्तंभाशी संबंधित आहे) ची किंमत आहे गेम व्ही: ए 11 पी * 1 + ए 21 पी * 2 \u003d व्ही. समान सरासरी मिळकते एक खेळाडू ए प्राप्त करते जर दुसरा खेळाडू बी 2 स्ट्रॅटेजी लागू करतो, तर. ए 12 पी * 1 + ए 22 पी * 2 \u003d व्ही. पी * 1 + पी * 2 \u003d 1 लक्षात घेऊन, आम्ही इष्टतम स्ट्रॅटेजी एस "ए आणि गेमच्या किंमतीचे निर्धारण करण्यासाठी समीकरणांचे एक सिस्टम प्राप्त करतो: (3.6) या प्रणालीचे निराकरण करण्यासाठी आम्ही इष्टतम धोरण (3.7) प्राप्त करतो. गेमची किंमत (3.8) एसव्ही * शोधताना सक्रिय रणनीतींबद्दल प्रमेय लागू करणे - सर्वोत्कृष्ट खेळाडूची धोरणे, आम्ही ते प्राप्त करतो की खेळाडू ए (ए 1 किंवा ए 2) च्या कोणत्याही स्वच्छ धोरणासह, सरासरी प्लेयर हानी किंमत समान आहे गेम व्ही, म्हणजेच (3. 9) ही अनुकूल धोरण सूत्रांनी निश्चित केली आहे: (3.10)

अर्थव्यवस्थेतील गणितीय पद्धती आणि मॉडेल

मॅट्रिक्स गेम्स

परिचय

आर्थिकदृष्ट्या, अशा अनेक बाजूंनी वेगवेगळ्या गोलांचा पाठपुरावा केला जातो. उदाहरणार्थ, विक्रेता आणि खरेदीदार, पुरवठादार आणि ग्राहक, बँक आणि योगदानकर्ता इत्यादी यांच्यातील संबंध. अशा संघर्ष परिस्थिती केवळ अर्थव्यवस्थेतच नव्हे तर इतर उपक्रमांमध्ये उद्भवतात. उदाहरणार्थ, शतरंज, चेकर, डोमिनोज, लोट्टो इत्यादी खेळताना.

खेळ- हे आहे गणिती मॉडेल कमीतकमी दोन व्यक्तींच्या सहभागासह संघर्ष वेगळा मार्ग आपले ध्येय साध्य करण्यासाठी. खेळ म्हणतात जोडी जर दोन खेळाडू त्यात सहभागी असतील तर. खेळ म्हणतात विरोधी जर एक खेळाडू जिंकला तर दुसर्याच्या नुकसानीस. म्हणून, गेम कार्य करणे, विविध परिस्थितींमध्ये एका खेळाडूच्या विजयाचे मूल्य निर्दिष्ट करणे पुरेसे आहे.

वर्तमान परिस्थितीनुसार खेळाडूच्या कारवाईची कोणतीही पद्धत कॉल केली जाते धोरण प्रत्येक खेळाडूस विशिष्ट स्ट्रॅटेजी आहेत. जर नक्कीच रणनीतींची संख्या असेल तर गेमला म्हणतात शेवटी अन्यथा - अनंत . धोरणे म्हणतात स्वच्छ जर प्रत्येक खेळाडू केवळ एक रणनीती परिभाषित करतो आणि यादृच्छिकपणे नाही तर.

खेळ सोडविणेसमाधानी असलेल्या अशा धोरण निवडणे ऑप्टिमॅशनची स्थिती. ही परिस्थिती अशी आहे की एक खेळाडू येतो कमाल विजय, जर दुसरा त्याच्या धोरणाकडे पालन करतो. आणि उलट, दुसरा खेळाडू येतो किमान तोटा, जर खेळाडूंची पहिली रणनीती असेल तर. अशी धोरणे म्हणतात इष्टतम . अशा प्रकारे, गेमचा ध्येय प्रत्येक खेळाडूसाठी चांगल्या धोरणाची परिभाषा आहे.

स्वच्छ स्ट्रॅटेजी गेम

दोन खेळाडूंसह खेळाचा विचार करा परंतु आणि मध्येसमजा एक खेळाडू परंतुहे आहे एम.धोरणे एक 1, आणि 2, ..., आणि एम, एक खेळाडू मध्येहे आहे एनधोरणे बी 1, बी 2, ..., बी एन.आम्ही मानतो की खेळाडूची निवड परंतुस्ट्रॅटेजी मी,एक खेळाडू मध्येस्ट्रॅटेजी बी जे.निश्चितपणे गेमचे परिणाम निश्चित करते, i.e. जिंकणे एक IJ.खेळाडू परंतुआणि विजय बी ij.खेळाडू मध्येयेथे मी \u003d 1,2, ..., एम, जे \u003d 1,2, ..., एन.

दोन खेळाडूंसह सर्वात सोपा गेम एक विरोधी गेम आहे , त्या. गेम ज्यामध्ये खेळाडूंचे स्वारस्य थेट उलट आहेत. या प्रकरणात, खेळाडू जिंकणे समानतेशी संबंधित आहेत.

बी ij \u003d -ए आयजे

या समानतेचा अर्थ असा आहे की खेळाडूंपैकी एक विजय दुसर्याच्या नुकसानीच्या समान आहे. या प्रकरणात, खेळाडूंपैकी केवळ एक खेळाडूंचा विचार करणे पुरेसे आहे, उदाहरणार्थ, एक खेळाडू परंतु.

प्रत्येक जोडी रणनीती एक Iआणि बी जे.जिंकण्यासारखे आहे एक IJ.खेळाडू परंतु.या सर्व जिंकणे सोयीस्करपणे तथाकथित स्वरूपात रेकॉर्ड केलेले आहेत पेमेंट मॅट्रिक्स

या मॅट्रिक्सची रेखा प्लेअर रणनीती परंतु,आणि स्तंभ - प्लेअर रणनीती मध्येसर्वसाधारणपणे, हा गेम म्हणतात (एम × एन) -गम.


उदाहरण 1.दोन खेळाडू परंतु आणि मध्येएक नाणे फेकून द्या. जर नाणेच्या बाजूस सहभाग असेल तर जिंकला परंतु. खेळाडू मध्येखेळाडू देते. परंतु1 च्या बरोबरीने काही रक्कम, आणि जर ते एकत्र येत नाहीत तर खेळाडू जिंकतो, i.e. उलट, खेळाडू परंतुखेळाडू देते. मध्येसमान रक्कम , समान 1. एक पेमेंट मॅट्रिक्स तयार करण्यासाठी.

निर्णय.कार्य स्थिती अंतर्गत

स्वच्छ रणनीती खेळाडू मी विजेते ए च्या मॅट्रिक्सच्या एका ओळीत एक निवड आहे आणि शुद्ध खेळाडू II धोरण समान मॅट्रिक्सच्या कॉलमपैकी एक निवड आहे.

खेळाडूंचे अनुकूल निव्वळ रणनीती एक अनिवार्य युनिट पी \u003d 1, क्यू i \u003d 1. उदाहरणार्थ: उदाहरणार्थ: पी (1.0), क्यू (1.0). येथे पी 1 \u003d 1, क्यू 1 \u003d 1.

कार्य 1.
पेमेंट मॅट्रिक्सद्वारे, कठोर वर्चस्व सिद्धांतांचा वापर करून अनुकूल स्वच्छ रणनीती शोधा. व्हॅक्टर पी *, क्यू * बर्न करण्याच्या प्रतिसाद म्हणून.



आर 1

आर 2

आर 3

आर 4.

एस 1.

3

1

2

5

एस 2.

2

0

0

3

एस 3.

-3

-5

-5

-2

एस 4.

0

-2

-2

1

निर्णय:

सर्व कार्ये कॅलक्युलेटर मॅट्रिक्स गेमसह निराकरण करतात.

आम्हाला विश्वास आहे की खेळाडू मी जास्तीत जास्त विजय मिळविण्यासाठी आपली योजना निवडतो आणि खेळाडू II खेळाडूच्या विजयाची किंमत कमी करण्याचा प्रयत्न करतो.

खेळाडूबी 1.बी 2.बी 3.बी 4.ए \u003d किमान (मी)
एक 1.3 1 2 5 1
एक 2.2 0 0 3 0
एक 3.-3 -5 -5 -2 -5
एक 4.0 -2 -2 1 -2
बी \u003d मॅक्स (बी i)3 1 2 5
आम्हाला गेमच्या तळाशी किंमतीद्वारे परिभाषित गॅरंटीड गेन आढळतो ए \u003d कमाल (i) \u003d 1, जे जास्तीत जास्त शुद्ध रणनीती दर्शवते.
शीर्ष किंमत गेम बी \u003d किमान (बी जे) \u003d 1.
सॅडल पॉइंट (1, 2) दोन पर्यायांसाठी एक उपाय दर्शवितो (ए 1, बी 2). गेमची किंमत 1 च्या समान आहे.
2. आम्ही प्रबळ ओळी आणि प्रभावी स्तंभांवर पेमेंट मॅट्रिक्स तपासतो.
कधीकधी गेमच्या मॅट्रिक्सच्या साध्या विचारांच्या आधारावर आम्ही असे म्हणू शकतो की काही नेट स्ट्रॅटेजीज केवळ शून्य संभाव्यतेसह इष्टतम मिश्रित धोरण प्रविष्ट करू शकतात.
ते म्हणतात i-ya पहिला खेळाडू त्याच्या विरोधात आहे के-वाई. जर सर्वांसाठी एक ≥ kj असेल तर स्ट्रॅटेजी जे ई एन. आणि किमान एक जे. एक IJ\u003e kj. या प्रकरणात ते असेही म्हणतात i-ya धोरण (किंवा स्ट्रिंग) - प्रभावी, के-होय - प्रभावी.
ते म्हणतात जे-जे. द्वितीय खेळाडूची धोरण त्याच्याशी वागते एल-यू सर्व साठी धोरण जे ई एम. एक IJ ≤ एक आयएल आणि किमान एक मी एक IJ आहे< a il . В этом случае जे-यू धोरण (स्तंभ) प्रभावी म्हटले जाते, एल-यू - प्रभावी.
1 रणनीती एक 2 (स्ट्रिंग 1 चे सर्व घटक द्वितीय पंक्तीच्या मूल्यापेक्षा जास्त किंवा समान आहेत) प्रभुत्व करतात, म्हणून आम्ही मॅट्रिक्सची दुसरी स्ट्रिंग वगळता. संभाव्यता पी 2 \u003d 0.
स्ट्रॅटेजी ए 1 च्या धोरणावर 3 (स्ट्रिंग 1 चे सर्व घटक 3RD स्ट्रिंगच्या मूल्यापेक्षा मोठे किंवा समान आहेत) प्रभुत्व करतात, म्हणून आम्ही मॅट्रिक्सच्या तिसर्या स्ट्रिंगला वगळतो. संभाव्यता पी 3 \u003d 0.
3 1 2 5
0 -2 -2 1

खेळाडूच्या नुकसानीच्या स्थितीपासून बी 1 धोरण बी 2 (स्तंभ 1 च्या सर्व घटकांवर प्रभुत्व आहे अधिक घटक स्तंभ 2) म्हणूनच, आम्ही मॅट्रिक्सचे पहिले स्तंभ वगळता. संभाव्यता प्रश्न 1 \u003d 0.
खेळाडूच्या नुकसानीच्या स्थितीपासून, धोरण बी 4 रणनीती बी 1 (स्तंभाच्या सर्व घटकांचे सर्व घटक) प्रभावित करतात, त्यामुळे मॅट्रिक्सचे चौथे स्तंभ वगळता. संभाव्यता प्रश्न 4 \u003d 0.
1 2
-2 -2

आम्ही गेम 4 x 4 गेम 2 एक्स 2 मध्ये समाविष्ट केले.



गेमचे समाधान ( 2 एक्स एन


पी 1 \u003d 1
पी 2 \u003d 0
किंमत गेम, वाई \u003d 1
आता आपण एक प्लेअर मिनिमॅक्स स्ट्रॅटेजी शोधू शकता, समीकरण संबंधित प्रणाली लिहिणे
प्रश्न 1 \u003d 1
प्रश्न 1 + प्रश्न 2 \u003d 1
ही प्रणाली सोडवणे, आम्हाला आढळते:
प्रश्न 1 \u003d 1.
उत्तरः
गेम किंमत: वाई \u003d 1, प्लेअर स्ट्रॅटेजी व्हॅक्टर:
प्रश्न (1, 0), पी (1, 0)

Σa ij q j ≤ v v
Σa ij p मी ≥ v v
एम (पी 1; क्यू) \u003d (1 1) + (2 0) \u003d 1 \u003d v
एम (पी 2; क्यू) \u003d (2 1) + (2 0) \u003d -2 ≤ v
एम (पी; क्यू 1) \u003d (1 1) + (2 0) \u003d 1 \u003d v
एम (पी; क्यू 2) \u003d (2 1) + (2 0) \u003d 2 ≥ v

मूळ मॅट्रिक्समधून पंक्ती आणि स्तंभ काढून टाकण्यात आले होते, त्यानंतर आढळलेली संभाव्यता वेक्टर लिहीली जाऊ शकते:
पी (1,0,0,0)
क्यू (0,1,0,0)

कार्य 2.
गेमची तळाशी आणि उच्च किंमत शोधण्यासाठी पेमेंट मॅट्रिक्सवर. जर सॅडल पॉईंट असेल तर, इष्टतम स्वच्छ रणनीतींचे वेक्टर लिहा. पी *, क्यू *.



आर 1

आर 2

आर 3

एस 1.

-6

-5

0

एस 2.

-8

-3

-2

एस 3.

-3

-2

3

निर्णय:
1. पेमेंट मॅट्रिक्समध्ये कडल पॉईंट आहे का ते तपासतो. तसे असल्यास, आम्ही शुद्ध रणनीतींमध्ये गेमचे निराकरण लिहून ठेवतो.
खेळाडूबी 1.बी 2.बी 3.ए \u003d किमान (मी)
एक 1.-6 -5 0 -6
एक 2.-8 -3 -2 -8
एक 3.-3 -2 3 -3
बी \u003d मॅक्स (बी i)-3 -2 3

आम्हाला गेम ए \u003d मॅक्स (ए) \u003d -3 च्या तळाशी किंमतीद्वारे परिभाषित गॅरंटीड गेन आढळतो, जो जास्तीत जास्त शुद्ध रणनीती दर्शवितो.
शीर्ष किंमत गेम बी \u003d किमान (बी जे) \u003d -3.
सॅडल पॉईंट (3, 1) दोन पर्यायांसाठी एक उपाय दर्शवितो (ए 3, बी 1). खेळ किंमत -3 आहे.
उत्तरः पी (0,0,1), क्यू (1,0,0)

कार्य 3.
पेमेंट मॅट्रिक्सवर, आपल्याला इष्टतम धोरणे पी *, क्यू * आणि गेमची किंमत शोधतात. कोणत्या खेळाडू जिंकत आहेत?



आर 1

आर 2

आर 3

आर 4.

एस 1.

-6

-6

2

4

एस 2.

2

-2

7

-1

निर्णय:
1. पेमेंट मॅट्रिक्समध्ये कडल पॉईंट आहे का ते तपासतो. तसे असल्यास, आम्ही शुद्ध रणनीतींमध्ये गेमचे निराकरण लिहून ठेवतो.
आम्हाला विश्वास आहे की खेळाडू मी जास्तीत जास्त विजय मिळविण्यासाठी आपली योजना निवडतो आणि खेळाडू II खेळाडूच्या विजयाची किंमत कमी करण्याचा प्रयत्न करतो.
खेळाडूबी 1.बी 2.बी 3.बी 4.ए \u003d किमान (मी)
एक 1.-6 -6 2 4 -6
एक 2.2 -2 7 -1 -2
बी \u003d मॅक्स (बी i)2 -2 7 4

आम्हाला गेम ए \u003d मॅक्स (ए) \u003d -2 च्या तळाशी किंमतीद्वारे परिभाषित गॅरंटीड विजेता आढळतो, जो जास्तीत जास्त शुद्ध रणनीती दर्शवितो.
गेमची सर्वात महत्वाची किंमत बी \u003d मि (बी जे) \u003d -2.
सॅडल पॉइंट (2, 2) दोन पर्यायांसाठी एक उपाय दर्शवितो (ए 2, बी 2). खेळ किंमत -2 आहे.
3. मिश्रित रणनीतींमध्ये गेमचे निराकरण शोधा.
आम्ही भौमितिक पद्धतीने कार्य करू, ज्यामध्ये खालील चरणांचा समावेश आहे:
1. Abscissa axis सह कार्टेसियन समन्वय प्रणाली मध्ये, एक विभाग स्थगित आहे, ज्याची लांबी 1. समान आहे 1. सेगमेंटचे डावे (पॉइंट एक्स \u003d 0) स्ट्रॅटेजी ए 1, उजवीकडील - स्ट्रॅटेजी ए. 2 (x \u003d 1). इंटरमीडिएट पॉइंट्स एक्स X ची काही मिश्रित धोरणे एस 1 \u003d (पी 1, पी 2) च्या संभाव्यतेशी संबंधित आहे.
2. अध्यादेशाच्या डाव्या अक्षावर, स्ट्रॅटेजीचे जिंकणे 1 स्थगित केले जातात. अध्यापनाच्या अक्ष्याच्या समांतर म्हणून, स्ट्रॅटेजीचे जिंकणे 2 पासून स्थगित केले जातात.
गेमचे समाधान ( 2 एक्स एन) खेळाडू ए च्या स्थितीतून आचरण आहे, ज्यामध्ये जास्तीत जास्त धोरण आहे. कोणत्याही खेळाडूंमध्ये कोणतेही प्रभावी आणि डुप्लिकेट रणनीती नाहीत.

मॅक्सिमिन इष्टतम खेळाडूची स्ट्रॅटजी ए पॉईंट एनशी संबंधित आहे ज्यासाठी आपण खालील सिस्टीमचे समीकरण लिहू शकता:
पी 1 \u003d 0
पी 2 \u003d 1
गेम किंमत, वाई \u003d -2
आता आपण समीकरणांच्या संबंधित प्रणाली लिहून, स्ट्रॅटेजी बी 1, बी 3, बी 4 काढून टाकून, जो खेळाडू बीला स्पष्टपणे मोठा तोटा देतो, आणि म्हणूनच, प्रश्न 1 \u003d 0, क्यू 3 \u003d 0, क्यू 4 \u003d 0.
-2Q 2 \u003d -2
प्रश्न 2 \u003d 1
ही प्रणाली सोडवणे, आम्हाला आढळते:
प्रश्न 2 \u003d 1.
उत्तरः
गेम किंमत: वाई \u003d -2, प्लेअर स्ट्रॅटेजी व्हॅक्टर:
प्रश्न (0, 1, 0, 0), पी (0, 1)
4. धोरणाच्या निकषांच्या मदतीने गेमची शुद्धता तपासा.
Σa ij q j ≤ v v
Σa ij p मी ≥ v v
एम (पी 1; क्यू) \u003d (-6 0) + (-6 1) + (2 0) + (4 0) \u003d -6 ≤ v
एम (पी 2; क्यू) \u003d (2 0) + (2 1) + (7 0) + (-1 0) \u003d -2 \u003d v
एम (पी; क्यू 1) \u003d (-6 0) + (2 1) \u003d 2 ≥ v
एम (पी; क्यू 2) \u003d (-6 0) + (2 1) \u003d -2 \u003d v
एम (पी; क्यू 3) \u003d (2 0) + (7 1) \u003d 7 ≥ v
एम (पी; क्यू 4) \u003d (4 0) + (-1) \u003d -1 ≥ v
सर्व असमानता समानता किंवा कठोर असमान म्हणून केली जातात, म्हणूनच गेमचे समाधान सत्य आढळते.

कार्य 4.
प्रश्नाचे तपशीलवार उत्तर द्या

जरी मी भौतिक-तांत्रिक संकाय संपवला तरी मी विद्यापीठात खेळांचे सिद्धांत वाचले नाही. पण मी आत आहे विद्यार्थी वर्षे मी प्राधान्य मध्ये बरेच काही खेळले, आणि नंतर पुल मध्ये, मला खेळांच्या सिद्धांतामध्ये रस होता आणि मी एक लहान ट्यूटोरियल मास्टर केले. आणि नुकत्याच साइटच्या वाचक मिखेल गेमच्या सिद्धांताचे कार्य सोडवण्यासाठी. मला जाणवलं की कार्य मला दिले नाही, मी गेमच्या सिद्धांतावर माझे ज्ञान रीफ्रेश करण्याचा निर्णय घेतला. मी तुम्हाला एक लहान पुस्तक आहे - गेम सिद्धांतांच्या घटकांची एक लोकप्रिय विधान आणि मॅट्रिक्स गेमचे निराकरण करण्याचे काही मार्ग. याकडे जवळजवळ पुरावे नसतात आणि उदाहरणांच्या सिद्धांतांच्या मुख्य तरतुदींचे वर्णन करतात. पुस्तकाने गणितज्ञ आणि लोकप्रिय दिसणारे एलेना सेरेजीवना व्हेंटेल लिहिले. सोव्हिएत अभियंतेंच्या अनेक पिढ्या "संभाव्यता सिद्धांत" च्या पाठ्यपुस्तकावर अभ्यास केला. एलेना सर्जीवना हे टोपणनाव अंतर्गत अनेक साहित्यिक कार्ये देखील लिहिले i. ग्रिकोव्ह.

एलेना व्हेंटेल गेम सिद्धांत घटक. - एम .: fizmatgiz, 1 9 61. - 68 पी.

डाउनलोड लहान सार स्वरूपात किंवा

§ 1. गेम सिद्धांताचा विषय. मूलभूत संकल्पना

अनेक व्यावहारिक कार्ये (अर्थशास्त्र क्षेत्रात, लष्करी केस इ.) सोडवताना, दोन (किंवा अधिक) युद्ध करणार्या पक्षांकडे लक्ष देणे आवश्यक आहे, उलट उद्दीष्टांचा पाठपुरावा करणे आणि प्रत्येक घटनेच्या परिणामाचे परिणाम विश्लेषण करणे आवश्यक आहे. पक्षांपैकी एक म्हणजे कृतीच्या कोणत्या प्रतिमा प्रतिस्पर्ध्याची निवड करतात यावर अवलंबून असते. "संघर्ष परिस्थिति" अशा परिस्थितीत आपण अशा परिस्थितींना कॉल करू.

संघर्ष परिस्थितींचे अनेक उदाहरण विविध व्यवसायातून आणले जाऊ शकतात. शत्रुत्वाच्या काळात उद्भवणार्या कोणत्याही परिस्थितीत: शत्रूला यश मिळवण्यापासून रोखण्यासाठी प्रत्येक लढाऊ पक्ष त्यासाठी उपलब्ध असलेल्या सर्व उपायांना घेतात. संघर्ष शस्त्र प्रणालीच्या निवडीपासून उद्भवणार्या आणि शस्त्रक्रियेच्या पद्धतींपासून उद्भवणार्या परिस्थिती आणि सर्वसाधारणपणे, लष्करी ऑपरेशनचे नियोजन करताना: या क्षेत्रातील प्रत्येक उपाययोजनाला शत्रूच्या किमान फायदेशीर कृतींवर लक्ष केंद्रित केले पाहिजे. अर्थशास्त्र क्षेत्रात अनेक परिस्थिती (विशेषत: मुक्त स्पर्धेच्या उपस्थितीत) संघर्ष परिस्थितीशी संबंधित आहे; संघर्ष करणार्या पक्षांच्या भूमिकेत व्यापार कंपन्या, औद्योगिक उपक्रम इत्यादी आहेत.

अशा परिस्थितींचे विश्लेषण करण्याची गरज एक विशेष गणिती उपकरणे जीवनात झाली. गेमचे सिद्धांत अनिवार्य परिस्थितीचे गणितीय सिद्धांत आहे. संघर्ष परिस्थितीदरम्यान प्रत्येक विरोधकांच्या तर्कशुद्ध कृतीबद्दल शिफारसींचा विकास हा सिद्धांताचा उद्देश आहे. प्रत्येकजण थेट संघर्ष स्थितीच्या सरावातून घेण्यात आला आहे ते अत्यंत जटिल आहे आणि त्याचे विश्लेषण असंख्य दृष्टीकोनातून अडथळा आणत आहे. परिस्थितीचे संभाव्य गणितीय विश्लेषण करण्यासाठी, दुय्यम पासून विचलित करणे आवश्यक आहे, घटक आणणे आणि एक सरलीकृत, औपचारिक परिस्थिती मॉडेल तयार करणे आवश्यक आहे. आम्ही अशा मॉडेलला "गेम" म्हणू.

वास्तविक संघर्ष परिस्थितीतून, गेमला निश्चितपणे निश्चित नियमांनुसार आयोजित केला जातो. शब्दाच्या शाब्दिक अर्थाने खेळ असलेल्या समस्यांमधील संघर्षांच्या अशा परिस्थितीच्या अशा औपचारिक मॉडेलचा वापर करून मानवते. उदाहरणे शतरंज, तपासक, कार्ड गेम इ. सर्व्ह करू शकता. हे सर्व गेम एक विशिष्ट खेळाडूचे सुप्रसिद्ध नियमांनुसार आणि "विजय" (विजय) अनुसार असलेल्या स्पर्धेचे स्वरूप आहेत.

अशा औपचारिक नियमन, कृत्रिमरित्या संघटित खेळ सर्वात जास्त आहेत योग्य सामग्री गेम सिद्धांतांच्या मूलभूत संकल्पनांचे स्पष्टीकरण आणि मास्टर करण्यासाठी. अशा खेळांच्या प्रथावरून उधार घे, लागू होते, लागू होते आणि इतर संघर्ष परिस्थितींचे विश्लेषण करताना: त्यामध्ये गुंतलेली पक्ष सशर्तपणे "खेळाडू" म्हणून ओळखली जातात आणि टक्कर झाल्यामुळे पक्षांपैकी एक "जिंकणे" आहे.

गेमला दोन किंवा अधिक विरोधकांचा सामना करावा लागतो; पहिल्या प्रकरणात, गेमला "जोडी" म्हटले जाते, दुसर्या - "एकाधिक" मध्ये. एकाधिक गेम सहभागी त्याच्या कोर्समध्ये गठित करू शकतात - स्थायी किंवा तात्पुरती. जर दोन कायमस्वरुपी गठबंधन असतील तर एकाधिक गेम जोडीला आकर्षित करतो. सर्वात मोठा व्यावहारिक महत्त्व जोडलेले गेम आहेत; येथे आपण स्वतःला अशा खेळांच्या विचारात प्रतिबंधित करू.

चला काही मूलभूत संकल्पनांच्या शब्दासह गेमच्या प्राथमिक सिद्धांताची सादरीकरण सुरू करूया. आम्ही जोडलेल्या गेमचा विचार करू ज्यामध्ये दोन खेळाडू ए आणि बी उलट स्वारस्यासह समाविष्ट आहेत. "गेमच्या अंतर्गत" आम्ही पक्षांच्या अनेक क्रिया आणि व्ही व्ही व्ही व्ही. चे अनेक क्रिया समाविष्ट केल्यामुळे, गेम गणिती विश्लेषण अधीन होण्यासाठी, गेमचे नियम अचूकपणे तयार केले जावे. "खेळाच्या नियम" अंतर्गत, दोन्ही पक्षांच्या कारवाईसाठी संभाव्य पर्यायांचे नियमन करणे, दुसर्या वर्तनाच्या प्रत्येक बाजूच्या माहितीची माहिती, "हालचाली" च्या बदलांची क्रमवारी, (वैयक्तिक निर्णय घेतलेली) गेम प्रक्रियेत), तसेच गेमचा परिणाम किंवा परिणाम या हालचालीचा एक संच. याचा परिणाम (विजय किंवा तोटा) नेहमीच प्रमाणिक अभिव्यक्ती नसतो, परंतु सहसा आपण काही मोजमाप स्केल सेट करू शकता, ते व्यक्त करू शकता एक निश्चित संख्या. उदाहरणार्थ, शतरंज गेममध्ये, जिंकणे सशर्तपणे +1, नुकसान -1 म्हणून श्रेय दिले जाऊ शकते, 0.

गेमला शून्य रकमेसह गेम म्हणतात, जो कोणीतरी इतर गमावतो, i... दोन्ही बाजूंच्या विजयाची बेरीज शून्य आहे. शून्य योगामध्ये, खेळाडूंचे स्वारस्य थेट उलट आहेत. येथे आपण अशा खेळांचा विचार करू.

खेळाडूंपैकी एक विजेते असलेल्या गेममध्ये गेममध्ये इतर समान आहे परिचित परिचितस्पष्टपणे, अशा गेमचे विश्लेषण करताना आपण केवळ खेळाडूंपैकी एक जिंकण्याचा विचार करू शकता. उदाहरणार्थ, खेळाडू ए. भविष्यात, आम्ही पक्षाच्या सोयीसाठी आहोत आणि आम्ही पारंपरिक आणि "आम्ही" आणि प्रतिस्पर्ध्यात "आम्ही" आणि बाजूला कॉल करू.

त्याच वेळी, बाजूला एक ("आम्ही") नेहमी "गमावले" म्हणून "जिंकणे" आणि बाजूला ("विरोधी") म्हणून मानले जाईल. या औपचारिक स्थिती, स्पष्टपणे, पहिल्या खेळाडूसाठी कोणताही वास्तविक फायदा याचा अर्थ असा नाही; जेव्हा ते विपरीत बदलले तर ते विपरीत बदलले गेले आहे तर ते उलट चिन्ह बदलले आहे.

खेळाच्या विकासात आम्ही सतत सतत सतत चरण किंवा "हालचाली" समाविष्ट केल्या जातील. खेळांच्या सिद्धांतामधील हालचालीला पर्यायांच्या नियमांद्वारे प्रदान केलेल्या पर्यायांपैकी एक आहे. हालचाली वैयक्तिक आणि यादृच्छिक मध्ये विभागली आहेत. वैयक्तिक हालचालीला या परिस्थितीत आणि त्याच्या अंमलबजावणीच्या हालचालींपैकी एक खेळाडूंपैकी एक आहे. वैयक्तिक हालचालीचा एक उदाहरण - शतरंज गेममधील कोणत्याही हालचाली. दुसरीकडे जाण्याचा खेळाडू मंडळाच्या आकडेवारीच्या या स्थानावर संभाव्य पर्यायांची जागरूक निवड करतो. प्रत्येक वैयक्तिक प्रगतीसाठी संभाव्य पर्यायांचा एक संच गेमच्या नियमांद्वारे नियंत्रित केला जातो आणि मागील दोन्ही पक्षांच्या मागील हालचालींवर अवलंबून असतो.

यादृच्छिक प्रगतीमुळे खेळाडूंच्या निर्णयावरून बाहेर पडलेल्या अनेक संधींमधून एक निवडी म्हणतात, परंतु कोणत्याही यादृच्छिक निवडी यंत्रणा (फोडणे नाणी, हाडे, टिकोव्ह्का आणि नकाशे वितरण इत्यादी.). उदाहरणार्थ, प्राधान्यातील खेळाडूंपैकी एक असलेले पहिले कार्ड 32 समतुल्य पर्यायांसह यादृच्छिक अभ्यासक्रम आहे. गेम गणितिकदृष्ट्या परिभाषित करण्यासाठी, गेमचे नियम प्रत्येक अपघाताने संभाव्य परिणामांच्या संभाव्यतेचे वितरण दर्शवितात.

काही गेममध्ये केवळ यादृच्छिक हालचाली (तथाकथित शुद्ध जुगार) किंवा केवळ वैयक्तिक हालचाली (चेस, तपासक) असू शकतात. बहुतेक कार्ड गेम्स खेळ संबंधित आहे मिश्र प्रकार. दोन्ही यादृच्छिक आणि वैयक्तिक हालचाली आहेत.

गेम केवळ हालचाली (वैयक्तिक, यादृच्छिक) नव्हे तर निसर्गाद्वारे आणि दुसर्या क्रियांबद्दलच्या प्रत्येक खेळाडूस उपलब्ध असलेल्या माहितीद्वारे वर्गीकृत केले जातात. खेळांचे विशेष वर्ग तथाकथित "गेम्स संपूर्ण माहिती" संपूर्ण माहितीसह गेम गेम असे म्हणतात ज्यामध्ये प्रत्येक खेळाडू वैयक्तिक आणि यादृच्छिक दोन्ही मागील मागील हालचालींचे परिणाम माहित आहे. पूर्ण-माहिती गेमचे उदाहरण शतरंज, चेकर, तसेच प्रसिद्ध गेम "क्रॉस आणि नोोलिकी" देऊ शकतात.

व्यावहारिक महत्त्व असलेल्या बहुतेक गेममध्ये संपूर्ण माहिती असलेल्या गेमच्या वर्गाशी संबंधित नसतात, कारण शत्रूच्या कृत्यांबद्दल अज्ञातता सहसा विरोधाभास परिस्थितींचा एक महत्त्वपूर्ण घटक असतो.

गेम थ्योरीच्या मूलभूत संकल्पनांपैकी एक म्हणजे "धोरण" ची संकल्पना आहे. गेमच्या प्रक्रियेच्या आधारे या खेळाडूच्या प्रत्येक वैयक्तिक प्रगतीसह या खेळाडूच्या प्रत्येक वैयक्तिक प्रगतीसह या खेळाडूच्या धोरणास नियमांचे संच म्हणतात. सध्याच्या विशिष्ट परिस्थितीनुसार प्रत्येक वैयक्तिक प्रगतीसाठी प्रत्येक वैयक्तिक प्रगतीसाठी सोल्युशन (निवड) घेतली जाते. तथापि, सैद्धांतिकदृष्ट्या बदलत नाही, जर आपण कल्पना केली की हे सर्व निर्णय अग्रगण्य खेळाडूंनी स्वीकारले आहेत. यासाठी, खेळाला गेमच्या मार्गावर सर्व संभाव्य परिस्थितींची सूची तयार करावी लागेल आणि त्यापैकी प्रत्येकास प्रदान करणे आवश्यक आहे. तत्त्वतः (व्यावहारिकदृष्ट्या नसल्यास) कोणत्याही गेमसाठी हे शक्य आहे. जर अशी समाधान प्रणाली स्वीकारली गेली असेल तर याचा अर्थ असा होईल की खेळाडूने विशिष्ट धोरण निवडले आहे.

ज्या खेळाडूने धोरण निवडले आहे त्यांनी आता वैयक्तिकरित्या गेममध्ये भाग घेतला नाही, परंतु त्याच्या सहभागास नियमांच्या यादीत पुनर्स्थित केले ज्यामुळे त्याच्यासाठी कोणतेही प्रजनन व्यक्ती (न्यायाधीश) लागू होईल. धोरणास एका विशिष्ट कार्यक्रमाच्या स्वरूपात मशीन मशीन विचारले जाऊ शकते. आयएमएम शतरंजमध्ये सध्या तेच आहे. की "धोरण" ची संकल्पना अर्थपूर्ण आहे, वैयक्तिक हालचालींच्या खेळामध्ये असणे आवश्यक आहे; गेममध्ये एक यादृच्छिक हालचालींचा समावेश आहे, कोणतीही धोरणे नाहीत.

संभाव्य रणनीतींच्या संख्येवर अवलंबून, गेम "अंतिम" आणि "अंतहीन" मध्ये विभागलेला आहे. अल्टीमेटला गेम म्हणतात ज्यामध्ये प्रत्येक खेळाडूला केवळ रणनीतींची मर्यादित संख्या आहे. अल्टिमेट गेम ज्यामध्ये खेळाडू आहे एम. धोरणे आणि एक खेळाडू - एन एमएक्सएन गेम नावाची रणनीती.

दोन खेळाडूंचा एमएक्सएन गेम ए आणि बी ("आम्ही" आणि "विरोधी") विचारात घ्या. आम्ही आमच्या रणनीती 1, आणि 2, आणि शत्रू धोरण बी 1, 2, ..., एन मध्ये दर्शवेल. प्रत्येक बाजूला एक विशिष्ट धोरण निवडू द्या; आमच्यासाठी, हे एक असेल, जे शत्रू आहे. जर खेळाला केवळ वैयक्तिक हालचाली असतील तर, रणनीतींची निवड I, बी जे अनन्यपणे गेमचे परिणाम निश्चित करते - आमचे विजय. त्याला आणि आयजे दर्शवा. जर गेममध्ये वैयक्तिक, यादृच्छिक हालचालींसह, नंतर रणनीतींची विजयी जोडी आय, बी जे सर्व यादृच्छिक हालचालींच्या आधारावर यादृच्छिक मूल्य आहे. या प्रकरणात, अपेक्षित विजयाचे नैसर्गिक अंदाज ही सरासरी मूल्य (गणितीय अपेक्षा) आहे. आम्ही स्वत: ला जिंकणे म्हणून समान चिन्हाद्वारे (यादृच्छिक हालचालीशिवाय गेममध्ये) आणि त्याचे सरासरी मूल्य (यादृच्छिक हालचालीसह गेममध्ये).

प्रत्येक प्रकारच्या रणनीतीसह जिंकण्याच्या (किंवा सरासरी विजय) च्या आयजेचे मूल्य आम्हाला कळवा. व्हॅल्यूज आयताकृती सारणी (मॅट्रिक्स) म्हणून लिहिली जाऊ शकते, ज्या स्ट्रिंग्ज आमच्या धोरणांशी संबंधित असतात (एक) आणि कॉलम्स - शत्रू धोरणे (बी जे). अशा सारणीला पेमेंट मॅट्रिक्स किंवा फक्त एक गेम मॅट्रिक्स म्हटले जाते. एमएक्सएन गेम मॅट्रिक्स अंजीरमध्ये सादर केले आहे. एक

अंजीर 1. मॅट्रिक एमएक्सएन.

संक्षिप्त आम्ही गेम च्या मॅट्रिक्स दर्शवेल ‖a ij ‖. खेळांच्या अनेक प्राथमिक उदाहरणांचा विचार करा.

उदाहरण 1. दोन खेळाडू एक आणि एकमेकांना पाहत न करता, त्यांच्या विवेकबुद्धीने चिन्हांकित किंवा विस्तृतपणे टेबलवर ठेवतात. जर खेळाडूंनी त्याच बाजूंना निवडले असेल (हात किंवा दोन्ही कोट मध्ये दोन्ही कोट मध्ये), नंतर खेळाडू आणि दोन्ही नाणी घेतात; अन्यथा, त्यांचे खेळाडू त्यांना गेमचे विश्लेषण करण्यासाठी आणि ते मॅट्रिक्स बनविण्यासाठी घेतात. निर्णय. खेळामध्ये फक्त दोन हालचाली असतात: आमचे हालचाल आणि शत्रूचे हालचाल वैयक्तिक. गेम संपूर्ण माहितीसह खेळत नाही, कारण त्याच्या खेळाडूने त्याच्या खेळाडूला काय केले हे माहित नाही. प्रत्येक खेळाडूमध्ये फक्त एक वैयक्तिक हालचाल असल्याने, खेळाडूची धोरण एकाच वेळी एक पर्याय आहे.

आमच्याकडे दोन रणनीती आहेत: आणि 1 - निर्णय निवडण्यासाठी हात आणि 2 चे कोट निवडा; प्रतिस्पर्ध्याला समान दोन रणनीती आहेत: 1 - हात आणि 2 मध्ये - गर्दी. अशा प्रकारे, हा गेम 2 × 2 गेम आहे. आम्ही +1 साठी नाणी जिंकण्याचा विचार करू. मॅट्रिक्स गेम्स:

या गेमच्या उदाहरणावर, जसे की ते प्राथमिक नसतात, आपण गेमच्या सिद्धांताची काही आवश्यक कल्पना समजू शकता. समजा प्रथम हा गेम केवळ एकदाच केला जातो. मग, स्पष्टपणे, खेळाडूंच्या कोणत्याही "धोरणे" बद्दल बोलणे व्यर्थ आहे, इतरांपेक्षा अधिक वाजवी. समान बेससह प्रत्येक खेळाडू कोणताही उपाय घेऊ शकतो. तथापि, जेव्हा गेमची पुनरावृत्ती तेव्हा स्थिती बदलते.

खरंच, आम्ही असे मानतो की आम्ही (खेळाडू ए) ने काही प्रकारचे धोरण (चला म्हणा आणि 1) निवडले आणि त्याचे पालन केले. मग, पहिल्या काही हालचालींच्या निकालांच्या अनुसार, प्रतिस्पर्धी आपल्या धोरणांबद्दल अंदाज घेतो आणि आपल्यासाठी कमीतकमी अनुकूल प्रतिसाद देईल, I... एक पकड निवडा. आम्ही नेहमी एक धोरण लागू करणे स्पष्टपणे निरुपयोगी आहोत; नुकसान होऊ नये म्हणून, कधीकधी आपण शस्त्रेचा कोट निवडला पाहिजे, कधीकधी - होल्डिंग. तथापि, जर आपण काही विशिष्ट क्रमाने (उदाहरणार्थ, एक नंतर) शस्त्रांचा कोट बदलतो (उदाहरणार्थ, एक नंतर), शत्रू देखील याचा अंदाज देखील करू शकतो आणि आपल्यासाठी सर्वात वाईटच्या या धोरणास प्रतिसाद देऊ शकतो. स्पष्टपणे, एक सुरक्षित मार्ग जो शत्रूला आपल्या धोरणास ओळखणार नाही याची हमी देते, प्रत्येक वेळी आम्ही स्वत: ला ओळखत नाही (हे सुनिश्चित केले जाऊ शकते, उदाहरणार्थ, एक नाणे फेकणे). अशा प्रकारे, अंतर्ज्ञानी तर्क करून, "मिश्रित धोरण" च्या संकल्पनासाठी - गेम सिद्धांतांच्या आवश्यक संकल्पनांपैकी एकाकडे पोचतो - I.. जेव्हा "शुद्ध" रणनीती - या प्रकरणात, एक 1 आणि एक 2 - कोणत्याही विशिष्ट फ्रिक्वेन्सींसह अपरिचितपणे. या उदाहरणामध्ये, सममितीच्या दृष्टिकोनातून स्पष्ट आहे की धोरणे 1 आणि 2 समान वारंवारतेसह बदलली पाहिजे; अधिक गुंतागुंतीच्या खेळांमध्ये, निर्णय अगदी दूरचा असू शकतो.

उदाहरण 2. खेळाडू ए आणि एकमेकांमधून स्वतंत्रपणे तीन आकडे: 1, 2 किंवा 3. लिखित क्रमांकांची बेरीज देखील असल्यास, ही रक्कम रुबलमध्ये देते; जर ते विचित्र असेल तर उलट, आणि ही रक्कम देईल. गेमचे विश्लेषण करणे आवश्यक आहे आणि ते मॅट्रिक्स बनविणे आवश्यक आहे.

निर्णय. खेळामध्ये दोन हालचाली असतात; दोन्ही वैयक्तिक आहेत. आम्ही (ए) तीन धोरणे: एक 1 - लिहा 1; आणि 2 - लिहा 2; आणि 3 - लिहा 3. विरोधी (बी) समान तीन रणनीती आहे. गेम 3 × 3 गेम आहे:

स्पष्टपणे, मागील प्रकरणात, आमच्याद्वारे प्रतिस्पर्धी शत्रू आमच्यासाठी सर्वात वाईट उत्तर देऊ शकतो. खरंच, जर आपण निवडले, उदाहरणार्थ, एक रणनीती 1, शत्रू नेहमी 2 मध्ये एक धोरणास प्रतिसाद देईल; एक धोरण 3 मध्ये 2 - स्ट्रॅटेजी; 2 मध्ये 3 स्ट्रॅटेजी स्ट्रॅटेजीवर; अशाप्रकारे, एखाद्या विशिष्ट धोरणाची कोणतीही निवड अनिवार्यपणे आम्हाला हानी पोहोचविली जाईल (तथापि, त्याच प्लॉटमध्ये प्रतिस्पर्धी देखील विसरला आहे हे विसरून जा). हा गेम सोडवणे (I. सेट उच्च रणनीती दोन्ही खेळाडू) § 5 मध्ये दिले जाईल.

उदाहरण 3.आमच्याकडे आमच्या तीन प्रकारच्या शस्त्रे आहेत: एक 1, एक 2, एक 3; प्रतिस्पर्ध्याला तीन प्रकारचे विमान आहेत: बी 1, 2, 3 मध्ये. आमचे कार्य विमान दाबणे आहे; प्रतिस्पर्धीचे कार्य अप्रभावित करणे हे आहे. आर्मॅमेंट्स लागू करताना एक 1, एअरप्लेन्स बी 1, बी 2, 3 मध्ये संभाव्यत: 0.9, 0.4 आणि 0.2 द्वारे प्रभावित आहेत; 2 सह - संभाव्यता 0.3, 0.6 आणि 0.8 सह सेवा मध्ये; इस्त्रमेंट आणि 3 - संभाव्यता 0.5, 0.7 आणि 0.2 सह. गेमच्या सिद्धांतानुसार परिस्थिती तयार करणे आवश्यक आहे.

निर्णय. परिस्थिती 3 × 3 ची गेम म्हणून मानली जाऊ शकते आणि दोन वैयक्तिक हालचाली आणि एक यादृच्छिक. आमचे वैयक्तिक हालचाल शस्त्रे प्रकारांची निवड आहे; प्रतिस्पर्ध्याचा वैयक्तिक हालचाल - युद्धात सहभागी होण्यासाठी विमानाची निवड. यादृच्छिक हलवा - शस्त्रे वापरणे; हे चालना विमानाचा पराभव किंवा मतभेद संपुष्टात येऊ शकतो. जर विमान आश्चर्यचकित झाल्यास आपला विजय एक समान आहे आणि अन्यथा शून्य समान आहे. आमची धोरणे तीन शस्त्रे आहेत; शत्रूची धोरणे विमानासाठी तीन पर्याय आहेत. प्रत्येक निर्दिष्ट जोडींसाठी विजयाचे सरासरी मूल्य या शस्त्रासह या विमानास हानीची शक्यता कमी आहे. मॅट्रिक्स गेम्स:

खेळ सिद्धांतांचा उद्देश म्हणजे शिफारसी विकसित करणे वाजवी वर्तन खेळाडू बी संघर्ष परिस्थिती. त्यापैकी प्रत्येकाची "अनुकूल रणनीती" ची परिभाषा. खेळांच्या सिद्धांतामध्ये अनुकूल खेळाडू धोरण म्हणतात की गेमच्या वारंवार पुनरावृत्तीसह, हा खेळाडू उच्चतम संभाव्य सरासरी विजय (किंवा किमान संभाव्य सरासरी तोटा) प्रदान करतो. ही रणनीती निवडताना, तर्कशक्तीचा आधार असा आहे की शत्रू आपल्यासारख्या वाजवी म्हणून वाजवी आहे आणि आपल्या ध्येय साध्य करण्यापासून रोखण्यासाठी सर्वकाही करतो.

खेळांच्या सिद्धांतामध्ये, या तत्त्वांवर आधारित सर्व शिफारसी तयार होतात; म्हणून, हे जोखीम घटकांमध्ये घेतलेले नाही, जे प्रत्येक वास्तविक धोरणात तसेच प्रत्येक खेळाडूचे संभाव्य गैरसमज आणि त्रुटींमध्ये अनिवार्यपणे उपस्थित आहेत. कॉम्प्लेक्स घटनेच्या कोणत्याही गणितीय मॉडेलसारखे गेमचे सिद्धांत, मर्यादा आहे. त्यापैकी सर्वात महत्वाचे म्हणजे जिंकणे कृत्रिमरित्या कमी होते एक संख्या. बहुतेक व्यावहारिक संघर्षांच्या परिस्थितीत, वाजवी धोरण विकसित करताना, एखादे खाते घेणे आवश्यक आहे, परंतु अनेक अंकीय पॅरामीटर्स - इव्हेंटच्या यशासाठी निकष. इष्टतम एक निकष आहे एक धोरण इतरांवर अनुकूल नाही. तथापि, या निर्बंधांची जाणीव आणि म्हणून, गेम पद्धतींद्वारे मिळालेल्या अंधांच्या शिफारसींचा पालन केल्याशिवाय, तरीही, कोणत्याही "अनुकूल", नंतर, कोणत्याही परिस्थितीत "इष्टचिकमत" न विकास करण्यासाठी गेम थ्योरीच्या गणितीय यंत्रणेचा वापर करणे शक्य आहे. स्वीकारार्ह "धोरण.

§ 2. लोअर आणि टॉप किंमत गेम. "मिनिमॅक्स" सिद्धांत

अंजीर म्हणून, मॅट्रिक्ससह एमएक्सएन गेमचा विचार करा. 1. आम्ही आमच्या धोरणाची संख्या दर्शवितो; पत्र जे शत्रू धोरण क्रमांक आहे. आम्ही कार्य कार्य करू: आपली सर्वोत्कृष्ट धोरण निर्धारित करण्यासाठी. आम्ही 1 पासून सुरू असलेल्या आमच्या प्रत्येक धोरणांचे विश्लेषण करतो.

एक रणनीती निवडून मी जेएसच्या इच्छेनुसार शत्रूला प्रतिसाद देईल, ज्यासाठी आमचे विजयी आणि आयजे किमान आहेत. आम्ही जिंकण्याच्या हे मूल्य परिभाषित करतो, i.e. किमान संख्या आणि आयजे मीओळ त्याच्या α द्वारे सूचित करा:

येथे सर्व शक्य आहे जे या पॅरामीटर्सच्या किमान मूल्यांद्वारे मिनी चिन्ह (जे. वर किमान जे) दर्शविले जाते. संख्या α; अतिरिक्त स्तंभाच्या स्वरूपात उजवीकडील मॅट्रिक्सच्या पुढे:

मी कोणत्याही धोरणाची निवड करून, आपण अशी अपेक्षा केली पाहिजे की शत्रूच्या वाजवी कृतींच्या परिणामी, आम्ही α मी पेक्षा अधिक जिंकणार नाही. स्वाभाविकच, सर्वात सावधगिरी बाळगणे आणि सर्वात वाजवी शत्रूवर अवलंबून राहणे (होय. जोखीम टाळणे), आम्ही त्या धोरणावर राहणे आवश्यक आहे ज्यासाठी संख्या α जास्तीत जास्त आहे. ही कमाल मूल्य दर्शवते:

किंवा, फॉर्म्युला (2.1) विचारात घेतल्यास,

Α च्या मूल्याने गेमची तळाशी किंमत म्हटले आहे, अन्यथा - कमाल विजय किंवा फक्त मॅक्सिमा. संख्या α मॅट्रिक्सच्या विशिष्ट ओळीत आहे; त्या प्लेअर स्ट्रॅटेजी ए, जे या ओळीशी संबंधित आहे, त्याला जास्तीत जास्त धोरण म्हणतात. स्पष्टपणे, जर आपण जास्तीत जास्त रणनीतीचे पालन केले तर, कोणत्याही शत्रूच्या वर्तनासह, जिंकणे कोणत्याही परिस्थितीत कमीत कमी नाही. म्हणून, α चे मूल्य आणि "गेमची तळाशी किंमत" असे म्हटले जाते. ही एक हमी किमान आहे जी आम्ही स्वत: ला प्रदान करू शकतो, सर्वात काळजीपूर्वक ("पुनर्विचार") धोरणाची पालन करणे.

स्पष्टपणे, शत्रूसाठीही अशाच तर्क करणे शक्य आहे. शत्रूला आमच्या विजयींना किमान पैसे देण्यास स्वारस्य असल्याने, त्याने प्रत्येक धोरण दृष्टिकोन बाळगणे आवश्यक आहे कमाल विजय या धोरणासह. म्हणून, मॅट्रिक्सच्या तळाशी, आम्ही प्रत्येक कॉलमसाठी जास्तीत जास्त मूल्यांचे पुनरुत्थान करतो:

आणि किमान β जे:

Β च्या मूल्याने गेमची उच्च किंमत म्हटले आहे, अन्यथा - "मिनिमॅक्स". शत्रूच्या संबंधित मिनेमॅक्स धोरणास त्याचे "मिनिमॅक्स स्ट्रॅटेजी" म्हटले जाते. त्याच्या सर्वात काळजीपूर्वक minimax धोरणाचे पालन करणे, शत्रू स्वतःला पुढील हमी देतो: आपण त्याच्याविरूद्ध जे काही घेतले आहे, तो कोणत्याही परिस्थितीत β पेक्षा जास्त रक्कम गमावेल. सावधगिरीचा सिद्धांत, खेळाडूंना संबंधित धोरणे (कमाल आणि मिनिमॅक्स), गेमच्या सिद्धांतामध्ये आणि त्याच्या अनुप्रयोगांना "मिनिमॅक्स तत्त्व" म्हणून ओळखले जाते. कधीकधी खेळाडूंचे सर्वात जास्त काळजीपूर्वक आणि मिनीमॅक्स रणनीती सूचित करतात सामान्य शब्द "मिनिमॅक्स स्ट्रॅटेजीज".

उदाहरण म्हणून, आम्ही गेमचे निम्न आणि उच्च किंमत आणि उदाहरणे 1, 2 आणि 3 × 1 साठी minimax धोरणे परिभाषित करतो.

उदाहरण 1.उदाहरणार्थ 1 § 1 दाना गेम पुढील मॅट्रिक्ससह:

Α आणि β जे यांचे मूल्य निरंतर आणि समान आहेत, क्रमशः, -1 आणि +1, गेमचे निम्न आणि सर्वोच्च किंमत देखील -1 आणि +1: α \u003d -1, β \u003d + समान आहेत. 1. कोणतीही प्लेअर स्ट्रॅटेजी हा मॅक्सिमिन आहे आणि कोणत्याही प्लेअरची योजना ही त्याची मिनिमॅक्स स्ट्रॅटेजी आहे. Trivilen च्या पैसे काढणे: त्याच्या कोणत्याही धोरणांचे पालन करणे, एक खेळाडू आणि याची हमी देऊ शकते की ते 1 पेक्षा जास्त गमावणार नाही; समान खेळाडू व्ही.

उदाहरण 2. उदाहरणार्थ 2 § 1 दाना गेम मॅट्रिक्ससह:

गेमची कमी किंमत α \u003d -3; शीर्ष किंमत गेम β \u003d 4. आमचे मॅक्सिमिन धोरण 1 आहे; व्यवस्थितपणे लागू करणे, आम्ही कमीतकमी -3 जिंकू शकत नाही (3 पेक्षा जास्त गमावू नका). शत्रूचे मिनिमॅक्स धोरण 1 आणि 2 पैकी कोणतीही रणनीती आहे; त्यांना व्यवस्थितपणे लागू करून, कोणत्याही परिस्थितीत, तो हमी देऊ शकतो की तो 4 पेक्षा जास्त गमावणार नाही. जर आपण आपल्या मॅक्सिमिन धोरणापासून मागे जाणार नाही (उदाहरणार्थ, एक रणनीती निवडा), शत्रू लागू करून "दंड" करू शकतो 3 ते 3 आणि आमच्या जिंकणीला कमी करा. त्याचप्रमाणे, त्याच्या मिनीमॅक्स धोरणापासून शत्रूचा अत्याचार हे त्याचे नुकसान वाढवू शकते.

उदाहरण 3.उदाहरणार्थ 3 § 1 दाना गेम मॅट्रिक्ससह:

गेमची कमी किंमत α \u003d 0.3; शीर्ष मूल्य गेम β \u003d 0.7. आमचे सर्वात काळजीपूर्वक (कमाल) धोरण 2 आहे; बाथरा ए वापरून 2, आम्ही हमी देतो की आम्ही सर्व प्रकरणांच्या 0.3 पेक्षा कमी नसलेल्या विमानावर प्रभाव टाकू. शत्रूचे सर्वात सावध (minimax) धोरण 2 मध्ये आहे; हे विमान लागू करणे, शत्रूला खात्री असू शकते की ते 0.7 पेक्षा जास्त प्रकरणांपेक्षा जास्त प्रभावित होणार आहे.

शेवटच्या उदाहरणावर, एक प्रदर्शित करणे सोयीस्कर आहे महत्वाची मालमत्ता मिनिमॅक्स रणनीती त्यांचे अस्थिरता आहेत. आम्ही आमच्या सर्वात सावध (कमाल) धोरण ए 2 ला लागू करू आणि शत्रू 2 मधील सर्वात सावध (minimax) धोरण आहे. जोपर्यंत दोन्ही शत्रूंनी या रणनीतींचे पालन केले नाही तोपर्यंत सरासरी विजय 0.6 आहे; ते जास्त आहे, परंतु कमी आहे शीर्ष किंमत खेळ आता म्हणूया की शत्रूला ओळखले जाते की आम्ही एक रणनीती लागू करतो. तो ताबडतोब 1 मध्ये तिच्या धोरणास प्रतिसाद देईल आणि 0.3 साठी एक विजय देईल. वळणात, धोरण बी 1 वर आपले चांगले उत्तर आहे: स्ट्रॅटेजी ए 1, आम्हाला 0.9, इत्यादी.

अशाप्रकारे, दोन्ही खेळाडूंनी त्यांच्या मिनिमॅक्स रणनीतींचा आनंद घेतलेला आहे आणि प्रतिस्पर्ध्याच्या प्रतिस्पर्ध्याच्या धोरणाविषयी माहितीद्वारे त्याचे उल्लंघन केले जाऊ शकते. तथापि, काही गेम आहेत ज्यासाठी मिनिमॅक्स धोरणे टिकाऊ असतात. हे खेळ आहेत ज्यासाठी कमी किंमत शीर्षस्थानी आहे: α \u003d β. जर गेमची कमी किंमत शीर्षस्थानी असेल तर ते सामान्य मूल्य गेमची निव्वळ किंमत (कधीकधी गेमची किंमत) म्हणते, आम्ही ते अक्षराने दर्शवितो.

एक उदाहरण विचारात घ्या. गेम 4 × 4 मॅट्रिक्सद्वारे सेट करू द्या:

गेमची कमी किंमत शोधा: α \u003d 0.6. गेमची सर्वात महत्वाची किंमतः β \u003d 0.6. ते समान होते, म्हणूनच गेममध्ये α \u003d β \u003d ν \u003d 0.6 च्या समान शुद्ध किंमत आहे. पेमेंट मॅट्रिक्समध्ये हायलाइट केलेला घटक 0.6, त्याच्या पंक्तीमध्ये एकाच वेळी कमीतकमी किमान आहे. भूमितीमध्ये, समान मालमत्तेसह पृष्ठभागावर बिंदू (एकाचवेळी किमान एक समन्वय आणि त्यापेक्षा जास्तीत जास्त) एक सॅडल पॉईंट म्हणतात, हा शब्द गेमच्या सिद्धांतामध्ये लागू होतो. या मालमत्तेसह मॅट्रिक्सचा एक घटक मॅट्रिक्सचा एक सॅडल पॉइंट म्हणतात आणि गेमबद्दल ते एक सॅडल पॉइंट आहे.

सॅडल पॉईंट मिनीमॅक्स रणनीतींच्या जोडीशी संबंधित आहे (या उदाहरणामध्ये आणि 3 आणि 2 मध्ये). या रणनीतींना अनुकूल म्हटले जाते आणि त्यांचे संपूर्णता गेम सोडवणे आहे. खेळाचा निर्णय खालील आहे आश्चर्यकारक मालमत्ता. जर खेळाडूंपैकी एक (उदाहरणार्थ,) त्याच्या सर्वोत्कृष्ट धोरणाचे पालन करतो आणि दुसरा खेळाडू (सी) त्याच्या चांगल्या धोरणापासून विचलित होण्याचा कोणत्याही मार्गाने विचलित होईल, तर मग एक विचलन बनविण्यासाठी ते कधीही फायदेशीर ठरू शकत नाही, खेळाडूंचा असा अस्वीकार अपरिवर्तित विजय मिळवू शकतो आणि सर्वात वाईट परिस्थितीत - वाढवा. त्याउलट, जर त्याच्या चांगल्या धोरणामध्ये, परंतु स्वतःपासून विचलित होऊ शकते, तर हे ए साठी फायदेकारक होऊ शकत नाही.

हे विधान सॅडल पॉईंटसह विचाराधीन गेमचे उदाहरण तपासणे सोपे आहे. आम्ही पाहतो की एका सॅडल पॉईंटसह गेमच्या बाबतीत, मिनीमॅक्स रणनीतींमध्ये असामान्य "स्थिरता" आहे: जर एक बाजू त्याच्या मिनिमॅक्स धोरणाचे पालन करते, तर दुसर्याला फक्त इतरांना विचलित होऊ शकते. लक्षात घ्या की, या प्रकरणात शत्रूने सर्वोत्कृष्ट रणनीती निवडलेल्या कोणत्याही खेळाडूच्या माहितीची उपस्थिती खेळाडूच्या स्वत: च्या वर्तनात बदलू शकत नाही: जर त्याला स्वतःच्या आवडींवर कार्य नको असेल तर त्याने त्याच्या चांगल्या धोरणाचे पालन केले पाहिजे. सॅडल पॉईंटसह खेळामधील चांगल्या रणनीतींचा जोडी आहे, जसे की "समतोल स्थिती": इष्टतम धोरणातील कोणत्याही विचलनामुळे त्याच्या मूळ स्थितीकडे परत येण्याची हानिकारक परिणामांकडे एक विचलित खेळाडू आहे. .

म्हणून, सॅडल पॉईंटसह प्रत्येक गेमसाठी एक उपाय आहे जे दोन्ही पक्षांच्या सर्व चांगल्या रणनीतींचे परिभाषित करते, जे खालील गुणधर्मांद्वारे वैशिष्ट्यीकृत आहे.

1) जर दोन्ही बाजूंनी त्यांच्या चांगल्या रणनीतींचे पालन केले तर सरासरी विजय गेमच्या निव्वळ किंमतीच्या समान आहे ν, जे त्याची कमी आणि उच्च किंमत आहे.

2) जर पक्षांपैकी एकाने सर्वोत्कृष्ट रणनीती ठेवली असेल आणि इतर स्वत: च्या विचलित होतात, तर विचलित बाजूला फक्त हरवू शकतो आणि कोणत्याही परिस्थितीत त्याचा फायदा वाढवू शकतो.

गेमचे वर्ग एक सॅडल पॉईंट असून सैद्धांतिक आणि व्यावहारिक दृष्टिकोनातून दोन्हीपेक्षा जास्त स्वारस्य आहे. गेमच्या सिद्धांतामध्ये हे सिद्ध झाले आहे की, विशेषतः, संपूर्ण माहितीसह प्रत्येक गेममध्ये एक कडा आहे आणि म्हणूनच अशा प्रत्येक गेममध्ये एक उपाय आहे, I.. दुसर्या हाताच्या चांगल्या रणनीतींचा एक जोडी आहे, जो गेमच्या सरासरीचा सरासरी वाढ देत आहे. जर संपूर्ण माहितीसह गेममध्ये केवळ वैयक्तिक हालचालींचा समावेश असेल तर, त्याच्या चांगल्या धोरणाच्या प्रत्येक बाजूला लागू करताना, त्यास नेहमीच एक निश्चित परिणाम, म्हणजेच विजेते, नक्कीच समान किंमतीशी संपर्क साधला पाहिजे.

येथे संपूर्ण माहितीसह गेमचे उदाहरण म्हणून प्रसिद्ध खेळ एक नाणी ठेवून गोल मेज. दोन खेळाडूंनी केवळ एकाच नाणींवर एकाच नाणी ठेवल्या, प्रत्येक वेळी नाणेच्या मध्यभागी प्रत्येक वेळी निवडणे; नाणी च्या परस्पर आच्छादन परवानगी नाही. शेवटच्या नाणे (इतरांसाठी जागा नसल्यास) खेळाडूंपैकी एक जिंकतो. हे स्पष्ट आहे की या गेमचे परिणाम नेहमीच पूर्वनिर्धारित असतात आणि एक निश्चित धोरण आहे जी प्रथम नाणे ठेवणार्या खेळाडूंकडून विश्वसनीय लाभ प्रदान करते. म्हणजे, त्याने प्रथम सिंकला टेबलच्या मध्यभागी ठेवावे आणि नंतर एक सममितीय हालचाली सह प्रतिसाद देण्यासाठी शत्रूच्या प्रत्येक हालचालीवर. त्याच वेळी, दुसरा खेळाडू गेमचा पूर्वनिर्धारित परिणाम न बदलता, काहीही वागू शकतो. म्हणून, हा गेम केवळ चांगल्या धोरणास ओळखत नसलेल्या खेळाडूंसाठी अर्थपूर्ण आहे. परिस्थिती संपूर्ण माहितीसह शतरंज आणि इतर खेळांसारखीच आहे; अशा कोणत्याही गेममध्ये एक काठी पॉइंट आहे आणि प्रत्येक खेळाडूला त्याची सर्वोत्कृष्ट धोरण दर्शविणारी निराकरणे आहे; शतरंज खेळाचा निर्णय केवळ सापडला नाही कारण शतरंजमध्ये संभाव्य हालचालींचे संयोजन किती मोठे आहे जेणेकरून आपण एक पेमेंट मॅट्रिक्स तयार करू शकता आणि त्यात एक सॅडल पॉइंट शोधू शकता.

§ 3. स्वच्छ आणि मिश्रित रणनीती. मिश्रित रणनीतींमध्ये खेळाचे समाधान

व्यावहारिक महत्त्व असलेल्या अंतिम सामन्यांमध्ये, सॅडल पॉईंटसह तुलनेने दुर्मिळ खेळ आहेत; जेव्हा गेमची तळाशी आणि सर्वोच्च किंमत भिन्न असते तेव्हा अधिक सामान्य आहे. अशा खेळांच्या मॅट्रिक्सचे विश्लेषण करणे, आम्ही निष्कर्ष काढला की प्रत्येक खेळाडूला एका धोरणाची निवड देण्यात आली तर ही निवड प्रत्येक खेळाडूमध्ये Minak च्या तत्त्वाद्वारे निर्धारित केली पाहिजे. त्याच्या मॅक्सिमिन धोरणाचे पालन करणे, शत्रूच्या कोणत्याही वर्तनाने गेमच्या कमी किंमतीच्या बरोबरीने जिंकण्याची हमी दिली आहे. एक नैसर्गिक प्रश्न आहे: स्वतःला सरासरी विजय, ग्रेटर हमी देणे अशक्य आहे, जर आपण एकल "स्वच्छ" धोरण नाही आणि वैकल्पिकरित्या अनेक धोरणे लागू करता का? खेळांच्या सिद्धांतांतील विशिष्ट वारंवारता प्रमाण असलेल्या यादृच्छिक कायद्याद्वारे अलगाव असलेल्या अनेक शुद्ध रणनीतींचा वापर करणार्या अशा संयुक्त रणनीतींमध्ये मिश्रित रणनीती म्हणतात.

स्पष्टपणे, प्रत्येक नेट स्ट्रॅटेजी मिश्रित एक विशेष प्रसंग आहे, ज्यामध्ये एक वगळता सर्व धोरणे शून्य फ्रिक्वेन्सीज वापरल्या जातात, आणि हे - एक वारंवारता 1. केवळ स्वच्छ, परंतु मिश्रित रणनीती देखील लागू करतात. प्रत्येक शेवटच्या गेमच्या निर्णयासाठी, i.e. अशा दोन (सामान्य, मिश्रित) धोरणांमध्ये, दोन्ही खेळाडूंसह त्यांना अर्ज करताना, विजय गेमच्या किंमतीच्या समान असेल आणि चांगल्या धोरणापासून कोणत्याही एक-पक्षीय विचलनासह जिंकणे केवळ बदलले जाऊ शकते विचलित साठी nufffitable.

मंजूरी केली ही गेमच्या सिद्धांताच्या तथाकथित मूलभूत प्रमेयची सामग्री आहे. हे प्रमेय 1 9 28 मध्ये नेुमानानच्या पार्श्वभूमीने प्रथम मानले गेले होते, प्रमेयचे सुप्रसिद्ध पुरावे तुलनेने जटिल आहेत; म्हणून आम्ही फक्त त्याचे शब्द देतो.

प्रत्येक अंतिम गेममध्ये कमीतकमी एक उपाय आहे (शक्यतो मिश्रित रणनीती क्षेत्रात).

सोल्यूशनच्या परिणामस्वरूप जिंकलेल्या विजयामुळे खेळाची किंमत म्हणतात. मुख्य प्रमेय कडून ते पुढील अंतिम गेममध्ये किंमत आहे. अर्थातच, गेमची किंमत नेहमीच गेमच्या कमी किंमतीच्या दरम्यान आणि गेमच्या वरील किंमती दरम्यान आहे β:

(3.1) α ≤ ν ≤ β

खरंच, α जास्तीत जास्त गॅरंटीड लाभ आहे, जे आम्ही स्वत: साठी प्रदान करू शकतो, केवळ आपली शुद्ध रणनीती लागू करू शकतो. मिश्रित रणनीतींमध्ये खाजगी केस आणि सर्व स्वच्छ म्हणून, नंतर स्वच्छता वगळता, मिश्रित रणनीती, आम्ही कोणत्याही परिस्थितीत, त्यांच्या क्षमतेवर खराब करू नका; परिणामी, ν ≥ α. त्याचप्रमाणे, शत्रूच्या संभाव्यतेचा विचार केल्यामुळे आपण ते दर्शवू, ν ≤ β, ज्यामधून असमानता पुरावा (3.1) असावा.

मिश्रित रणनीतींसाठी आम्ही विशेष पदनाम सादर करतो. उदाहरणार्थ, आमच्या मिश्रित धोरणामध्ये रणनीती एक 1, एक 2, आणि 3 फ्रिक्वेंसीस पी 1, पी 2, पी 3, पी 1 + पी 2 + पी 3 \u003d 1 सह लिक्युटीज पी 1, पी 2, पी 3 सह लागू आहे, आम्ही ही रणनीती दर्शवितो

त्याचप्रमाणे, मिश्रित शत्रू धोरण सूचित केले जाईल:

जेथे प्रश्न 1, क्यू 2, क्यू 3 - दोन रणनीती बी 1, 2 मध्ये 3 मध्ये 3 मिश्रित आहेत; प्रश्न 1 + प्रश्न 2 + क्यू 3 \u003d 1.

समजा आपल्याला गेमचे निराकरण दोन अनुकूल मिश्रित धोरणे एस *, एस बी * समाविष्ट आहे. सर्वसाधारणपणे, या खेळाडूला उपलब्ध सर्व शुद्ध रणनीती त्याच्या चांगल्या मिश्रित धोरणामध्ये समाविष्ट आहेत आणि फक्त काही. आम्ही इष्टतम मिश्रित प्लेअरच्या धोरणामध्ये "उपयुक्त" धोरणे समाविष्ट करणार आहोत. खेळाच्या निर्णयाची आणखी एक अद्भुत मालमत्ता आहे: जर खेळाडूंपैकी एकाने इष्टतम मिश्रित एसए * स्ट्रॅटे (एसबी *) ठेवला असेल तर विजेते गेमच्या किंमतीचे अपरिवर्तित आणि समान आहे. काहीही फरक पडत नाही. इतर खेळाडू केवळ "उपयोगी" रणनीतींच्या पलीकडे नसतील तर. उदाहरणार्थ, त्याचे "उपयुक्त" स्ट्रॅटेजी त्याच्या शुद्ध स्वरूपात वापरू शकतात आणि त्यांना कोणत्याही प्रमाणात मिसळू शकते.

§ 4. निराकरण खेळ प्राथमिक पद्धती. गेम 2.एक्स2 आणि 2.एक्सएन

जर एमएक्सएन गेमला सॅडल पॉईंट नसेल तर समाधान शोधणे म्हणजे सामान्यतः मोठ्या प्रमाणात एम आणि एन सह. कधीकधी हे कार्य सुलभ करणे शक्य आहे, जर आपण प्रथम अनावश्यक पार करून रणनीतींची संख्या कमी केली तर. अनावश्यक धोरणे एक) डुप्लिकेट आणि बी) स्पष्टपणे निरुपयोगी. उदाहरणार्थ, मॅट्रिक्ससह गेम विचारात घ्या:

हे सुनिश्चित करणे सोपे आहे की स्ट्रेटी 3 ची एक रणनीती एक धोरण आहे, तर यापैकी कोणतीही दोन रणनीती हटविली जाऊ शकते. पुढे, 1 आणि एक 2 ची तुलना करणे, आपण पाहतो की स्ट्रिंगचे प्रत्येक घटक 2 स्ट्रिंगच्या संबंधित घटकाचे 1 कमी (किंवा समान) आहे. स्पष्टपणे, आम्ही कधीही ए 2 धोरण वापरू नये, हे स्पष्टपणे हानिकारक आहे. 3 आणि एक 2 रेखाटणे, मॅट्रिक्स अधिक आणा साधेपणा. पुढे, आम्हाला लक्षात येते की शत्रूंसाठी, 3 मधील धोरण ज्ञानिकदृष्ट्या फायदेशीर; ते काढले, मॅट्रिक्सला अंतिम स्वरूपात आणा:

अशा प्रकारे, गेम 4 × 4 डुप्लिकेट ओलांडून आणि जाणूनबुजून फायदेशीर धोरणे गेम 2 × 3 वर कमी केली गेली आहे.

डुप्लिकेट आणि जाणूनबुजून प्रतिकूल धोरणे overring प्रक्रिया नेहमी गेम निर्णय घेतले पाहिजे. प्राथमिक मार्गांनी नेहमी निराकरण करणार्या अंतिम गेमचे सर्वात सोपे प्रकरण 2 × 2 आणि 2xn गेम्स आहेत.

मॅट्रिक्ससह गेम 2 × 2 विचारात घ्या:

दोन प्रकरणे येथे भेटू शकतात: 1) गेममध्ये एक काठी आहे; 2) गेममध्ये एक सॅडल पॉइंट नाही. पहिल्या प्रकरणात, समाधान स्पष्ट आहे: ही सॅडल पॉईंटमध्ये अडथळा आणणारी एक जोडी आहे. या मार्गाने लक्षात घ्या की, गेम 2 × 2 मध्ये, सॅडल पॉईंटची उपस्थिती नेहमीच पूर्वनिर्धारित विश्लेषणामध्ये हटविली जाणे आवश्यक आहे.

सॅडल बिंदू द्या आणि म्हणून, गेमची कमी किंमत वरच्या बाजूस नाही: α ≠ β. इष्टतम मिश्रित खेळाडूची स्ट्रॅटजी ए शोधणे आवश्यक आहे:

हे मालमत्तेद्वारे वैशिष्ट्यीकृत आहे की, शत्रूचे कार्य काय असेल (जर ते फक्त "उपयुक्त" धोरणांच्या पलीकडे जात नसेल तर) जिंकणे गेमच्या किंमतीच्या समान असेल. गेममध्ये 2 × 2, दोन्ही शत्रू रणनीती "उपयुक्त" आहेत, अन्यथा गेममध्ये शुद्ध रणनीती (सॅडल पॉईंट) क्षेत्रात समाधान असेल. याचा अर्थ असा आहे की जर आम्ही आमच्या सर्वोत्कृष्ट धोरण (4.1) पाळल्यास, शत्रू सरासरी विजय बदलल्याशिवाय, 2 पैकी कोणत्याही शुद्ध रणनीती बी 1 चा वापर करू शकतो. येथून आपल्याकडे दोन समीकरण आहेत:

त्यापैकी, पी 1 + पी 2 \u003d 1 लक्षात घेऊन, आम्हाला मिळते:

गेमची किंमत पी 1, पी 2 च्या कोणत्याही समीकरणांसाठी (4.2) च्या मूल्यांचे पुनर्स्थित करून आढळते.

जर खेळ ज्ञात असेल तर इष्टतम शत्रू धोरण निश्चित करण्यासाठी

उदाहरणार्थ पुरेसे समीकरण आहे, उदाहरणार्थ:

कडून क्यू 1+ क्यू 2 \u003d 1, आपल्याकडे आमच्याकडे आहे:

उदाहरण 1. आम्हाला गेम 2 × 2 चे समाधान आढळते, असे मानले जाते, उदाहरणार्थ 1 § 1, मॅट्रिक्ससह:

गेममध्ये एक सॅडल पॉईंट नाही (α \u003d -1; β \u003d +1), आणि म्हणूनच, समाधान मिश्रित रणनीतींच्या क्षेत्रात खोटे बोलणे आवश्यक आहे:

पी 1, पी 2, क्यू 1 आणि क्यू 2 शोधणे आवश्यक आहे. पी 1 साठी आमच्याकडे एक समीकरण आहे

1 * पी 1 + (-1) (1 - पी 1) \u003d (-1) पी 1 + 1 (1 - पी 1)

कुठून पी 1 \u003d 1/2, पी 2 \u003d 1/2.

त्याचप्रमाणे, आम्हाला आढळते: q 1 \u003d 1/2, क्यू 2 \u003d 1/2, ν \u003d 0.

परिणामी, प्रत्येक खेळाडूंसाठी सर्वोत्कृष्ट धोरण यादृच्छिकपणे दोन्ही निव्वळ रणनीतींची यादृच्छिकपणे वैकल्पिकरित्या वैकल्पिकरित्या वापरणे आहे. या प्रकरणात, सरासरी विजय शून्य असेल.

परिणामी आउटपुट आगाऊ स्पष्ट होते. खालील उदाहरणामध्ये, आम्ही अधिक पाहू कॉम्प्लेक्स गेम, ज्याचे समाधान इतके स्पष्ट नाही. एक उदाहरण म्हणजे "फसवणूक" किंवा "दिशाभूलिंग" सह गेम म्हणून ओळखल्या जाणार्या गेमचे प्राथमिक नमुना आहे. सराव मध्ये, विरोधाभास परिस्थिती अनेकदा लागू होतात विविध पद्धती शत्रूचा परिचय भ्रमित आहे (भिन्नता, खोट्या हेतूचे संरेखन इत्यादी). एक उदाहरण, साधेपणा असूनही, सुंदर शिक्षक.

उदाहरण 2. खेळ पुढील आहे. दोन कार्डे आहेत: एसी आणि दोनदा. खेळाडू आणि यादृच्छिकपणे त्यांच्यापैकी एक घेतो; तो काय नकाशे पाहिले नाही. जर मी बाहेर काढले तर तो घोषित करतो: "माझ्याकडे एक आहे," आणि प्रतिस्पर्धी 1 रुबल आवश्यक आहे. जर मी एक twos बाहेर घेतला तर ते एकतर 1) एकतर 1) म्हणू शकतो आणि शत्रू 1 रुबल, किंवा 2) म्हणू शकतो की त्याच्याकडे दुप्पट आहे आणि शत्रू 1 रुबल भरतो.

शत्रू, जर तो स्वेच्छेने 1 रुबल भरतो तर तो फक्त घेऊ शकतो. जर त्याला 1 रूबलची गरज असेल तर तो एकतर 1 मध्ये एकतर असेल तर तो एकतर एकतर असू शकतो, परंतु तो तुजात आहे आणि त्याला 1 रुबल किंवा 2 वर्षांचा दबाव आणला आहे. परिणामी हे खरे आहे की आपण खरोखर एसीई काढल्यास, 2 rubles आवश्यक आहे. जर तो फसवतो आणि त्याच्याकडे दोनदा एक खेळाडू आहे, एक खेळाडू आणि 2 rubles मध्ये खेळाडू देतो. गेमचे विश्लेषण करणे आवश्यक आहे आणि प्रत्येक खेळाडूचे सर्वोत्कृष्ट धोरण शोधणे आवश्यक आहे.

निर्णय. खेळ तुलनेने जटिल संरचना आहे; यात एक अनिवार्य यादृच्छिक हलवा आहे - एक खेळाडू आणि दोन कार्डे - आणि दोन वैयक्तिक हालचाली, परंतु, तथापि, आवश्यक नसते. खरंच, जर मी ते बाहेर घेतले तर तो कोणत्याही वैयक्तिक हालचाली करत नाही: त्याला फक्त एक शक्यता देण्यात आली - 1 रूबलची मागणी करणे, जे त्याने केले. या प्रकरणात, एक वैयक्तिक पाऊल - विश्वास ठेवणे किंवा विश्वास ठेवणे (म्हणजे देय द्या किंवा 1 रूबल देणे नाही) - खेळाडू व्ही. जर प्रथम यादृच्छिक हालचाली परिणामी, त्याला दोनदा मिळाले त्याला एक वैयक्तिक हालचाली प्रदान केली आहे: 1 रुबल भरण्यासाठी किंवा शत्रूला फसवण्याचा प्रयत्न करा आणि 1 रूबलची मागणी करणे (थोडक्यात: फसवणूक करू नका "किंवा" फसवणूक करू नका "). जर प्रथम आणि प्रथम निवडल्यास, तर फक्त 1 रूबल घेणेच राहील; जर मी दुसरी निवड केली तर खेळाडूला वैयक्तिक हालचाली प्रदान केली गेली आहे: यावर विश्वास ठेवण्यासाठी किंवा (i.e., 1 रूबल भरणे किंवा सत्यापन आवश्यक आहे) विश्वास ठेवणे किंवा विश्वास करणे नाही.

प्रत्येक खेळाडूची धोरणे वैयक्तिक हालचाली प्रदान केल्यावर खेळाडू कशी प्रवेश करतात हे दर्शविते. स्पष्टपणे, फक्त दोन रणनीती: आणि 1 - फसवणूक, आणि 2 - फसवणूक नाही. बी येथे देखील दोन रणनीती: बी 1 - 2 मध्ये विश्वास ठेवण्यासाठी - विश्वास नाही. एक गेम मॅट्रिक्स तयार करा. त्यासाठी आम्ही रणनीतीच्या प्रत्येक संयोजनावर सरासरी विजयाची गणना करतो.

1. 1 मध्ये 1 (आणि फसवणुकीत, फसवणूक). जर मला एसी (या ½ च्या संभाव्यतेस, नंतर वैयक्तिक हालचाली दिली जात नाही; त्याला 1 रुबल आवश्यक आहे, आणि खेळाडू त्याला मानतो; जिंकणे आणि रुबल्समध्ये समान आहे खूप ½), तो त्याच्या धोरणानुसार फसवत आहे आणि 1 रुबल आवश्यक आहे; तो त्याच्यावर विश्वास ठेवतो आणि देय देतो; विजय आणि समान 1. सरासरी विजय: 11 \u003d ½ * 1 + ½ * 1 \u003d 1.

2. 2 मध्ये एक 1 (आणि फसवणूक, विश्वास नाही). जर मला एसी मिळाला तर त्याला वैयक्तिक हालचाली नाही; यासाठी 1 रूबल आवश्यक आहे; त्याच्या धोरणानुसार, ते विश्वास नाही आणि निरीक्षण केल्यामुळे 2 rubles (जिंकणे ए +2 आहे) देते. जर मला दोन मिळाले तर माझ्या रणनीतीनुसार 1 रूबल आवश्यक आहे; आत, त्याच्या स्वत: च्या मते, तो विश्वास नाही; परिणामी, ते 2 rubles देते (विजेते समान -2) देते. सरासरी विजय समान आहे: एक 12 \u003d ½ * (+ 2) + ½ * (- 2) \u003d 0.

3. 1 (आणि फसवणूक नाही, विश्वास नाही) एक 2. जर मी बाहेर काढले तर त्याला 1 रूबल आवश्यक आहे; त्याच्या धोरणानुसार, पैसे द्या; एक +1 जिंकणे. जर मी दोनदा बाहेर काढले तर तो त्याच्या धोरणानुसार 1 रुबल देतो; ते केवळ स्वीकारणे (जिंकणे समान -1 समान आहे). सरासरी विजय: एक 21 \u003d ½ * (+ 1) + ½ * (- 1) \u003d 0.

4. आणि 2 मध्ये 2 (आणि फसवणूक नाही, बी विश्वास नाही). जर मी बाहेर काढले तर त्याला 1 रूबल आवश्यक आहे; चेकमध्ये आणि तपासणी केल्यामुळे, 2 रुबल्स देतात (विजय +2 आहे). जर मी दोनदा बाहेर काढले तर ते 1 रूबल देते; हे केवळ स्वीकारणे आहे (विजय 1 आहे). सरासरी विजय समान आहे: 22 \u003d ½ * (+ 2) + ½ * (1) \u003d ½.

गेम मॅट्रिक्स तयार करा:

मॅट्रिक्समध्ये एक सॅडल पॉइंट नाही. गेमची कमी किंमत α \u003d 0, गेमची शीर्ष किंमत β \u003d ½. मिश्र धोरणांच्या क्षेत्रात गेमचे निराकरण करा. सूत्र (4.3) वापरणे, आम्हाला मिळते:

त्या. खेळाडू ए सर्व प्रकरणांपैकी एक तृतीयांश व्यक्तीची पहिली रणनीती (फसवणूक) आणि दोन तृतीयांश - दुसरा (फसवणूक नाही) वापरतो. त्याच वेळी, सरासरी गेम ν \u003d 1/3 च्या किंमतीवर विजय मिळवेल.

Ν \u003d 1/3 ची किंमत दर्शवते की या परिस्थितीत गेम बीसाठी ए आणि फायदेशीर होण्यासाठी फायदेशीर आहे. त्याच्या चांगल्या धोरणाचा वापर करून आणि नेहमीच सकारात्मक माध्यमिक लाभ प्रदान करू शकतो. लक्षात घ्या की जर मी माझा सर्वात काळजीपूर्वक (जास्तीत जास्त) स्ट्रॅटेजी वापरली (या प्रकरणात, दोन्ही रणनीती 1 आणि 2 जास्तीत जास्त आहेत), त्यात शून्यपेक्षा सरासरी वाढ असेल. अशा प्रकारे, मिश्रित धोरणाचा वापर आणि बीवर त्याचा फायदा घेण्याची क्षमता मिळविण्याची क्षमता देते, जे गेमच्या डेटा नियमांदरम्यान होते.

आम्ही इष्टतम स्ट्रॅटेजी व्ही. आम्ही परिभाषित करतो: आम्ही: प्रश्न 1 * 1 + क्यू 2 * 0 \u003d 1/3, क्यू 1 \u003d 1/3, क्यू 2 \u003d 2/3. पासून

ते खेळाडूला सर्व प्रकरणांपैकी एक तृतीयांश मानले पाहिजे आणि तपासणी केल्याशिवाय 1 रुबल द्या, आणि दोन तृतीयांश प्रकरणांमध्ये - तपासा. मग 1/3 गमावण्यासाठी प्रत्येक गेमसाठी तो सरासरी असेल. जर त्याने त्याच्या मिनिमॅक्स शुद्ध रणनीती 2 वर (विश्वास न ठेवता) वापरला तर तो प्रत्येक गेमवर सरासरी 1/2 वर गमावेल.

गेमचे समाधान 2 × 2 एक साधे भौमितिक व्याख्या दिली जाऊ शकते. एक मॅट्रिक्ससह 2 × 2 असू द्या

Absisissa अक्ष विभाग 1 (आकृती 4.1) घ्या. विभागाच्या डाव्या बाजूला (abscissa x \u003d 0 सह पॉइंट) स्ट्रॅटजी ए 1 दर्शवेल; साइटचा उजवा शेवट (x \u003d 1) एक रणनीती आहे. पॉइंट्स 1 आणि 2 दोन लंबदुभाज्य म्हणून कट करा: अक्ष मी-आय. आणि अक्ष II-II.. अक्ष वर मी-आय. जेव्हा स्ट्रॅटेजी ए 1 ला जिंकतो तेव्हा आम्ही जिंकतो; अक्ष वर II-II. - स्ट्रॅटेजी ए 2 सह. शत्रूच्या धोरणाचा विचार करा. ते अक्षांवर दोन गुण देते मी-आय. आणि II-II. ऑर्डर, क्रमशः आणि 11 आणि 21 आणि एक. आम्ही या पॉईंटद्वारे थेट थेट थेट थेट डायरेक्ट बी 1 खर्च करू. अर्थात, जर आपण शत्रूच्या धोरणासह बी 1 सह, आम्ही मिश्रित धोरण लागू करू

मग आमच्या सरासरी विजय या प्रकरणात समान 11 पी 1 + ए 21 पी 2 एका बिंदूवर 1 बी 1 मधील एका ओळीवर दर्शविल्या जातात; या बरोबरीचे पीएसआयसीसी पी 2 समान आहे. 1 मधील 1 पैकी 1 मध्ये डायरेक्ट करा, 1 पैकी स्ट्रॅटेजीसह 'स्ट्रॅटेजी 1 मध्ये "कॉल करण्यासाठी पवित्र होईल.

स्पष्टपणे, 2 मधील एक धोरण अगदी त्याच प्रकारे तयार केले जाऊ शकते (आकृती 4.2).

आपल्याला इष्टतम रणनीती एस *, i.e., अशा ज्यासाठी किमान जिंकणे (बीच्या कोणत्याही वर्तनासह) जास्तीत जास्त पैसे दिले जातील. हे करण्यासाठी, आम्ही 1 मध्ये 1, 2 मध्ये रणनीतींच्या रणनीतींच्या खाली सीमा तयार करतो. FIG मध्ये चिन्हांकित तुटलेली बी 1 एनबी 2. 4.2 चरबी ओळ. ही निम्न मर्यादा किमान खेळाडूला कोणत्याही मिश्रित रणनीतीसह जिंकेल; पॉइंट एन, ज्यामध्ये किमान जिंकणे जास्तीत जास्त पोहोचते आणि गेमचे निराकरण आणि किंमत निर्धारित करते. बिंदू एन च्या अध्यापित गेमची किंमत आहे हे सुनिश्चित करणे सोपे आहे आणि त्याचे abscissa पी 2 च्या समान आहे - इष्टतम मिश्रित स्ट्रॅटेजी एस मधील स्ट्रॅटेजीच्या अर्जाची वारंवारता आहे.

आमच्या बाबतीत, खेळाचे समाधान रणनीतींच्या छेदनबिंदूच्या बिंदूद्वारे निर्धारित केले गेले. तथापि, हे नेहमीच असेच नाही; अंजीर मध्ये 4.3 जेव्हा रणनीतींच्या छेदनबिंदूची उपस्थिती असूनही, सोल्यूशन दोन्ही खेळाडूंसाठी (2 आणि 2 मध्ये) आणि गेमची किंमत ν \u003d ए 22 साठी स्वच्छ धोरणे देते. या प्रकरणात, मॅट्रिक्समध्ये एक सॅडल पॉईंट आहे आणि स्ट्रॅटेजी 1 स्पष्टपणे निरुपयोगी आहे, कारण कोणत्याही शुद्ध शत्रू धोरणासह, ते 2 पेक्षा लहान वाढवते.

जेव्हा एक स्पष्टपणे प्रतिकूल धोरण एक विरोधी असतो तेव्हा भौमितिक व्याख्या अंजीरमध्ये सादर केलेला देखावा आहे. 4.4.

या प्रकरणात, विजयाच्या खालच्या सीमेला 1 मधील धोरणासह सहभाग घेतात, शत्रूसाठी 2 हानिकारक आहे.

भौमितिक व्याख्या या खेळाच्या तळाशी आणि सर्वोच्च किंमतीची कल्पना करणे शक्य आहे (आकृती 4.5).

उदाहरणार्थ, परीक्षेत 1 आणि 2 (आकृती 4.6 आणि 4.7) मध्ये चर्चा केलेल्या 2 × 2 गेमची भौमितिक व्याख्या तयार करू.

आम्ही खात्री केली की कोणतीही 2 × 2 गेम प्राथमिक तंत्रज्ञानासह सोडविली जाऊ शकते. कोणत्याही 2xn गेम पूर्णपणे निराकरण केले जाऊ शकते. जेथे आपल्याकडे फक्त दोन रणनीती आहेत आणि प्रतिस्पर्ध्याला एक अनियंत्रित संख्या आहे.

आपल्याकडे दोन रणनीती असू द्या: 1, एक 2, आणि प्रतिस्पर्धी - एन धोरणे: 1 मध्ये, 2 मध्ये, ..., ..., n. मॅट्रिक्स ‖a ij ‖ सेट आहे; यात दोन ओळी आणि एन स्तंभ आहेत. दोन रणनीतींच्या बाबतीत, आम्ही भौमितिक व्याख्या समस्या प्रदान करू; एन लाईटी (अंजीर 4.8) एन थेट (4. 4.) द्वारे दर्शविली जातात. आम्ही जिंकण्याच्या खाली मर्यादा (तुटलेली बी 1 एमएनबी 2) तयार करीत आहोत आणि आम्हाला जास्तीत जास्त निवासी असलेल्या पॉइंट एन आढळते. हा मुद्दा गेमचा गेम देतो (धोरण ) ऑर्डर पॉइंट एन गेमच्या किंमतीच्या बरोबरीचा आहे आणि एबीएससीआयएसए स्ट्रॅटीजीच्या पी 2 च्या वारंवारतेच्या समान आहे.

या प्रकरणात, इष्टतम शत्रू धोरणास दोन "उपयुक्त" धोरणांचे मिश्रण वापरुन प्राप्त केले जाते: 2 आणि 4 मध्ये 4 मध्ये intercecting 3 मध्ये intercting स्पष्टपणे निरुपयोगी आहे, आणि धोरण बी 1 एक चांगल्या धोरणासह फायदेशीर आहे एसए *. जर ते सर्वोत्कृष्ट धोरणाचे पालन करेल, तर विजेते बदलणार नाहीत, तथापि, प्रत्येक "उपयुक्त" धोरण कितीही फरक पडत नाही, तर ते स्ट्रॅटेजीज बी 1 किंवा 3 असेल. सिद्धांत सिद्धांतानुसार, हे सिद्ध केले आहे की कोणत्याही अल्टिमेट एमएक्सएन गेममध्ये एक उपाय आहे ज्यामध्ये इतर बाजू "उपयुक्त" रणनीतींची संख्या दोन क्रमांकांपेक्षा जास्त नसते आणि एन. विशेषतः, यातून असे खालीलप्रमाणे आहे की 2XM गेममध्ये नेहमीच एक उपाय आहे ज्यामध्ये दोन "उपयुक्त" धोरणे नाहीत.

भौमितिक व्याख्या वापरून, आपण 2XM गेम सोडविण्याचा सोपा मार्ग देऊ शकता. Drawings द्वारे थेट आम्हाला शत्रू बी जे आणि के च्या "उपयुक्त" स्ट्रॅटेजी एक जोडी आढळतात, पॉइंट एन (जर पॉईंट एन येथे दोन रणनीती ओलांडते तर त्यापैकी कोणतेही दोन घ्या. आम्हाला माहित आहे की जर एखादा खेळाडू आणि त्याच्या चांगल्या धोरणाचे पालन करतो तर जिंकणे यावर अवलंबून नसते की कोणत्या प्रमाणात "उपयोगी" धोरणे लागू होते, म्हणून,

या समीकरण आणि अटी पी 2 \u003d 1 - पी 1, आम्हाला पी 1, पी 2 आणि गेमची किंमत आढळते. गेमची किंमत जाणून घेणे, आपण त्वरित सर्वोत्कृष्ट धोरण निर्धारित करू शकता प्लेअर व्ही. हे निराकरण, निराकरण केले आहे, उदाहरणार्थ, समीकरण: qja 1 j + qka 1 के \u003d ν, जेथे qj + qk \u003d 1. बाबतीत जेव्हा आपल्याकडे एम धोरणे असते आणि शत्रू फक्त दोनच आहे , कार्य पूर्णपणे समान प्रकारे निराकरण आहे.; उलट विजेते चिन्ह बदलून, आपण खेळाडू आणि "विजय" मध्ये "जिंकणे" वरून आणि "जिंकणे" वरून फिरवू शकता. आपण गेम सोडवू शकता आणि शहाणपण बदल न करता; मग कार्य थेट बी साठी सोडवले जाते, परंतु कमी नाही, परंतु जिंकण्याच्या वरची मर्यादा (आकृती 4.9). सीमा थोड्या क्रमाने बिंदू एन शोधत आहे, जो गेमची किंमत आहे.

2 × 2 आणि 2xm गेमचे अनेक उदाहरण विचार आणि सोडवा जे व्यावहारिक गेमचे सरलीकृत नमुना आहेत.

उदाहरण 3.पार्टी आणि दोन बॉम्बला शत्रू पाठवते मी आणि II.; मी समोर floies II. - मागील. बॉम्बेंपैकी एक - हे आगाऊ ओळखले जात नाही - एक बॉम्ब असणे आवश्यक आहे, दुसरा एक संलग्न कार्य करतो. प्रतिस्पर्ध्याच्या परिसरात, बॉम्बर वेगवेगळ्या भांडणाच्या बंदुकीने सशस्त्र बनाम बॉम्बार्डर्सच्या लढतीत हल्ला केला जातो. जर सैन्याने मागील बॉम्बवर हल्ला केला तर II., तर फक्त या बॉम्बार्डरचा अग्नि त्यावर चालतो; जर तो समोरच्या बॉम्बरवर हल्ला करतो, तर दोन्ही बॉम्बस्फोटांच्या बंदुकीस लागतात. पहिल्या प्रकरणात लष्करी जखमांची संभाव्यता 0.3 आहे, दुसर्या 0.7 मध्ये.

बॉम्बस्फोटांच्या संरक्षणात्मक अग्नीने लढत नसल्यास, ते 0.6 संभाव्यतेसह निवडलेल्या लक्ष्यवर चालत आहे. बॉम्बरचे कार्य - एक बॉम्ब ध्येय व्यक्त करण्यासाठी; लष्करीचे कार्य हे टाळण्यासाठी आहे, i.e. वाहक bomber लोड करा. पक्षांच्या चांगल्या रणनीती निवडणे आवश्यक आहे:

अ) पार्टी ए: वाहक बनविण्यासाठी बॉम्बर काय आहे?

बी) पक्षासाठी प्रश्न: बॉम्बरला कशावर हल्ला केला जातो?

निर्णय. आमच्याकडे 2 × 2 खेळण्याचे साधे प्रकरण आहे; संभाव्यता जिंकणे डिस्पोजेबल मीडिया आमची धोरणे: 1 - वाहक - बॉम्बर मी; आणि 2 - वाहक - बॉम्बर II.. एव्हेंट्री स्ट्रॅटेजी: 1 - बॉम्बरवर हल्ला मी; बॉम्बर 2- शिकवले II.. चला गेमचे मॅट्रिक्स बनवूया, i.e. धोरणे प्रत्येक संयोजन सह सरासरी वाढ आम्हाला आढळते.

1. 1 मध्ये 1 (वाहक मीहल्ला मी). बॉम्बस्फोट एक लष्करी गोळा करीत असल्यास किंवा डिस्चार्ज करत नाही तर वाहक आश्चर्यचकित होणार नाही, परंतु तो आपला ध्येय धडकणार नाही: 11 \u003d 0.7 + 0.3 * 0.4 \u003d 0.82.

2. 1 मध्ये एक 2 (वाहक II.हल्ला मी). एक 21 \u003d 1

3. 1 मध्ये 1 (वाहक मीहल्ला II.). एक 12 \u003d 1

4. 2 मध्ये 2 (वाहक II.हल्ला II.). 22 \u003d 0.3 + 0.7 * 0.4 \u003d 0.58

गेमच्या मॅट्रिक्सचा फॉर्म आहे:

गेमची कमी किंमत 0.82; शीर्ष किंमत 1. मॅट्रिक्समध्ये एक सॅडल पॉइंट नाही; समाधान आम्ही मिश्रित रणनीती क्षेत्रात शोधत आहोत. आमच्याकडे आहे:

पी 1 * 0.82 + पी 2 * 1 \u003d ν

पी 1 * 1 + पी 2 * 0,58 \u003d ν

पी 1 \u003d 0.7; पी 2 \u003d 0.3

आमची सर्वोत्कृष्ट धोरण तेथे आहे I.. वाहक म्हणून आपल्याला अधिक निवडण्याची आवश्यकता आहे मीपेक्षा II.. गेमची किंमत □ \u003d 0.874 च्या समान आहे. जाणून घेणे ν, आम्ही क्यू 1 आणि क्यू 2 निर्धारित करतो - 1 आणि 2 मधील रणनीतींचे वारंवारता इष्टतम शत्रूच्या धोरणातील धोरणे आहे. आमच्याकडे आहे: प्रश्न 1 * 0.82 + क्यू 2 * 1 \u003d 0.874 आणि क्यू 2 \u003d 1 - क्यू 1, क्यू 1 \u003d 0.7 पासून; प्रश्न 2 \u003d 0.3, I.., इष्टतम शत्रू धोरण आहे .

उदाहरण 4.पक्ष एक ऑब्जेक्ट हल्ला, पार्टी मध्ये - त्याच टक्कर. बाजूला एक - दोन विमान; बी - तीन zenith गन च्या बाजूला. प्रत्येक विमान एक शक्तिशाली प्रेमळ एक वाहक आहे; ऑब्जेक्टला आश्चर्यचकित होण्यासाठी, कमीतकमी एका विमानातून ब्रेक करणे पुरेसे आहे. एअरप्लेन्स पार्टी आणि ऑब्जेक्टकडे जाण्यासाठी तीन दिशानिर्देश निवडू शकतात: मी, II., III. (आकृती 4.10). शत्रू (साइड सी) कोणत्याही दिशेने कोणत्याही बंदुकीचे कोणत्याही दिशेने सामावून घेऊ शकते; या प्रकरणात, प्रत्येक वाद्यया या क्षेत्राशी संबंधित जागा क्षेत्रावर घेतो आणि शेजारच्या दिशेने शूट करत नाही. प्रत्येक शस्त्र केवळ एक विमान आग लावू शकतो; गोळीबार विमान संभाव्यतेसह आश्चर्यचकित आहे. 1. पक्ष आणि तोफा कोठे ठेवल्या जातात हे माहित नाही; विमान कुठून येतात हे पक्षामध्ये माहित नाही. ए च्या भागाचा कार्य ऑब्जेक्टला मारण्याचा आहे; पक्षाचे उद्दीष्ट - त्याच्या पराभव टाळण्यासाठी. गेमचे निराकरण शोधा.

निर्णय. खेळ 2 × 3 गेम आहे. जिंकणे ही ऑब्जेक्ट हानीची शक्यता आहे. आमची संभाव्य धोरणे: 1 - एक विमान दोन वेगवेगळ्या दिशेने पाठवा. एक 2 - दोन्ही विमानांना एका दिशेने पाठवा. एवढ्या धोरण: 1 - प्रत्येक दिशेने एक साधन एक साधन ठेवा; 2 मध्ये - एका दिशेने दोन बंदूक ठेवा आणि एक - दुसर्या; 3 मध्ये - सर्व तीन बंदुकी एका दिशेने ठेवा. खेळ मॅट्रिक्स बनवा.

1. आणि 1 मध्ये 1 (विमान उडता विविध भागात; तोफा एक व्यवस्था आहे). स्पष्टपणे, कोणत्याही विमानात ऑब्जेक्टवर ब्रेक नाही: एक 11 \u003d 0.

2. 1 मध्ये एक 2 (विमान एक दिशेने उडतो; तोफा एक द्वारे ठेवला जातो). स्पष्टपणे, त्याच वेळी एक विमान ऑब्जेक्टवर ऑब्जेक्टवर जाईल: 21 \u003d 1.

3. आणि 1 ते 2 (विमान एक द्वारे उडतात; विरोधी दोन दिशानिर्देशांचे रक्षण करते आणि असुरक्षित तृतीयांश ठेवते). कमीतकमी एका विमानाने ऑब्जेक्टवर खंडित होण्याची शक्यता तितकीच आहे की त्यापैकी एक असुरक्षित दिशेने निवडेल: ए 12 \u003d 2/3.

4. आणि 2 मधील 2 (विमान एक दिशेने एकत्र उडतात; शत्रू दोन साधनांसह एक दिशा संरक्षित करतो आणि एक आहे, म्हणजे प्रत्यक्षात एक दिशा संरक्षित करते आणि असुरक्षित दोन सोडते). कमीतकमी एका विमानाने ऑब्जेक्टवर ब्रेक केल्याची शक्यता प्रत्यक्षात असुरक्षित दिशेने एक जोडीची शक्यता आहे: ए 22 \u003d 2/3.

5. आणि 1 ते 3 (विमान एक द्वारे उडतात; विरोधी तीन शस्त्रे फक्त एक दिशा संरक्षित करते): एक 13 \u003d 1.

6. आणि 3 मधील (विमान दोन्ही एकत्र उडतात; विरोधी तीन शस्त्रे फक्त एक दिशा संरक्षित करते). ऑब्जेक्ट आश्चर्यचकित होण्यासाठी, विमान असुरक्षित दिशेने निवडणे आवश्यक आहे: एक 23 \u003d 2/3.

मॅट्रिक्स गेम्स:

मॅट्रिक्समधून हे स्पष्ट आहे की 3 ची योजना बी 2 च्या तुलनेत स्पष्टपणे प्रतिकूल आहे (हे आगाऊ सोडवता येते). 3 गेममध्ये धोरण व्यक्त करणे गेम 2 × 2:

मॅट्रिक्समध्ये एक सॅडल पॉईंट आहे: गेमची कमी किंमत 2/3 शीर्षस्थानी coincides. त्याच वेळी, आम्हाला लक्षात येते की आमच्यासाठी (अ), स्ट्रॅटे ए 1 हे स्पष्टपणे हानिकारक आहे. निष्कर्ष: दोन्ही पक्ष ए आणि बी यांनी नेहमी त्यांच्या शुद्ध रणनीती 2 आणि बी 2, I.E.E. आम्ही विमान 2 वर पाठविणे आवश्यक आहे, ज्यायोगे स्टीम पाठविला जातो; शत्रूला यासारखे बंदूक घ्यावे: दोन - एका दिशेने, एक - दुसरीकडे, आणि या भागाची निवड देखील संधीद्वारे चालविली पाहिजे (येथे पाहता, आधीच "शुद्ध रणनीती" एक घटक समाविष्ट आहे संधी). या चांगल्या रणनीतींचा वापर करणे, आम्हाला नेहमीच कायमस्वरुपी सरासरी विजय मिळतील (i.e. 2/3 च्या संभाव्यतेमुळे ऑब्जेक्ट प्रभावित होईल). लक्षात ठेवा की समाधान आढळलेले एकमात्र नाही; शुद्ध रणनीतींमध्ये निराकरण करण्याव्यतिरिक्त, खेळाडू ए, इष्टतम रणनीतींचे संपूर्ण क्षेत्र आहे जे अनुक्रमे आहेत, पी 1 \u003d 0 ते पी 1 \u003d 1/3 (आकृती 4.11).

सुलभ, उदाहरणार्थ, आम्ही आमच्या 1 आणि 2/3 मध्ये 2/3 आणि 2/3 मधील 2 रणनीती लागू केल्यास समान सरासरी जिंकणे 2/3 यशस्वी होईल.

उदाहरण 5. मागील उदाहरणामध्ये त्याच परिस्थितीत, परंतु आमच्यासाठी प्रभाव पाडण्याच्या चार दिशेने आहेत आणि शत्रूच्या चार तोफा आहेत.

निर्णय.आमच्याकडे अजूनही दोन संभाव्य धोरणे आहेत: 1 - विमान एक द्वारे पाठवा आणि 2 - दोन विमान एकत्र पाठवा. प्रतिस्पर्ध्याला पाच संभाव्य धोरणे आहेत: 1 - प्रत्येक दिशेने एक साधन ठेवा; 2 मध्ये - दोन बंदुकी दोन वेगवेगळ्या दिशेने ठेवणे; 3 मध्ये - दोन तोफा एका दिशेने ठेवतात आणि एक-एक-दोनपैकी एक. 4 मध्ये तीन तोफा एकाच दिशेने ठेवतात आणि एक - दुसर्या; 5 मध्ये - सर्व चार बंदुकी एका दिशेने ठेवा. 4 मधील रणनीती 5 पैकी प्रामाणिकपणे प्रतिकूल पद्धतीने प्रक्षेपण करतात. मागील उदाहरणाप्रमाणेच युक्तिवाद करणे, आम्ही गेमचे मॅट्रिक्स तयार करतो:

1/2 गेमचे कमी किंमत, अपर 3/4. मॅट्रिक्समध्ये एक सॅडल पॉईंट नाही; मिश्रित रणनीतींच्या क्षेत्रात निर्णय घेतो. भौमितिक व्याख्या (आकृती 4.12) वापरून, आम्ही "उपयुक्त" शत्रू धोरणे हायलाइट करतो: 1 आणि 2 मध्ये.

फ्रिक्वेन्सी पी 1 आणि पी 2 आम्ही समीकरणांकडून परिभाषित करतो: पी 1 * 0 + (1 - पी 1) * 1 \u003d ν आणि पी 1 * 5/6 + (1 - पी 1) * 1/2 \u003d ν; जेथे पी 1 \u003d 3/8; पी 2 \u003d 5/8; ν \u003d 5/8, i.e. आमची सर्वोत्कृष्ट धोरण आहे . याचा वापर करून, आम्ही स्वत: ला सरासरी विजय 5/8 ला हमी देतो. गेमची किंमत ν \u003d 5/8 जाणून घेणे, आम्हाला वारंवारता प्रश्न 1 आणि क्यू 2 "उपयुक्त" शत्रू धोरणे आढळते: प्रश्न 1 * 0 + (1 - क्यू 1) * 5/6 \u003d 5/8, प्रश्न 1 \u003d ¼, क्यू 2 \u003d ¾. इष्टतम शत्रू धोरण असेल: .

उदाहरण 6. पक्षामध्ये दोन रणनीती 1 आणि 2, साइड बी - चार बी 1, 2, 3 आणि 4 मध्ये. गेमच्या मॅट्रिक्सचा फॉर्म आहे:

गेमचे निराकरण शोधा.

निर्णय. गेमची कमी किंमत 3; शीर्ष 4. भौमितिक व्याख्या (आकृती 4.13) दर्शविते की खेळाडूचे उपयुक्त रणनीती 1 आणि 2 किंवा 2 आणि 4 मध्ये आहेत:

खेळाडूकडे असंख्य चांगल्या मिश्रित रणनीती आहेत: इष्टतम स्ट्रॅटेजी पी 1 मध्ये ते 1/5 ते 4/5 पर्यंत भिन्न असू शकते. गेमची किंमत ν \u003d 4 ची किंमत 2 मध्ये स्वच्छ अनुकूल धोरण आहे.

§ पाच. सामान्य पद्धती अंतिम गेमचे निर्णय

आमच्याकडे फक्त 2xn प्रकार सर्वात प्राथमिक गेम आहेत, जे सहजपणे सोडवले जाऊ शकते आणि सोयीस्कर आणि व्हिज्युअल भौमितिक व्याख्या अनुमती देते. सामान्य प्रकरणात, एमएक्सएन गेम सोल्यूशन समस्येच्या जटिलतेसह आणि वाढत्या एम आणि एन सह गणना वाढविण्यासाठी आवश्यक मोजणीची रक्कम दर्शविते. तथापि, या अडचणी एक मूलभूत स्वभाव सहन करीत नाहीत आणि केवळ मोठ्या प्रमाणावर वसूल करतात, जे काही प्रकरणांमध्ये व्यावहारिकदृष्ट्या अशक्य असू शकतात. निर्णय घेण्याच्या निर्णयाचे मुख्य पक्ष कोणत्याही एम एक आणि समान आहे.

आम्ही 3xn च्या उदाहरणावर हे स्पष्ट करतो. आता तिच्या भौमितीक व्याख्या - आधीच satalial द्या. तीन आमची धोरणे आणि 1, एक 2 आणि 3 विमानात तीन गुण असतील हो; पहिल्यांदा समन्वय (आकृती 5.1), दुसरा आणि तिसरा - अॅक्सेसवर अरे आणि Ou सुरुवातीपासून 1 अंतरावर.

पॉइंट्स 1, आणि 2 आणि 3 ए 3 ने एक्सिस केले जातात मीमी, II.II. आणि III.III.विमानात लंबदुभाषा हो. अक्ष वर मीमी Axes वर स्ट्रेटी 1 स्ट्रेटी तेव्हा winnings स्थगित केले जातात II.II. आणि III.III. - रणनीती एक 2, आणि 3 सह जिंकणे. प्रत्येक शत्रू स्ट्रेटी बी जे एक विमान दर्शवितो जो अक्षांवरून कापतो मीमी, II.II. आणि III.III. उचित रणनीती असलेल्या 1, 2 आणि 3 आणि जे. अशा प्रकारे, सर्व शत्रूच्या रणनीती तयार करणे, आम्ही त्रिकोणावर एक कुटुंब 1, एक 2 आणि एक 3 (आकृती 5.2) वर विमान प्राप्त करतो. या कुटुंबासाठी, आपण 2xn च्या बाबतीत केले आणि या सीमेवर बिंदूसह एन शोधू शकता म्हणून आपण जिंकण्याच्या खाली सीमा देखील तयार करू शकता. कमाल उंची विमान वर हो. ही उंची ही गेमची किंमत आहे.

फ्रिक्वेन्सी पी 1, पी 2, पी 3 रणनीती 1, एक 2 आणि 3 इष्टतम एसए मध्ये 3 स्ट्रॅटेजी पॉईंट एन च्या निर्देशांक (x, y) द्वारे निर्धारित केले जाईल, म्हणजे: पी 2 \u003d एक्स, पी 3 \u003d वाई, पी 1 \u003d 1 - पी 2 - पी 3. तथापि, 3xn च्या बाबतीतही अशा भौमितीक बांधकाम अंमलबजावणी करणे सोपे नाही आणि कल्पनाशक्तीची जास्त वेळ आणि प्रयत्नांची आवश्यकता असते. गेमच्या सामान्य प्रकरणात, ते एम-आयामी स्पेसमध्ये स्थानांतरित केले जाते आणि सर्व दृश्यमानता गमावते, तथापि काही प्रकरणांमध्ये भौमितिक शब्दावली वापरण्यास उपयुक्त असू शकते. प्रॅक्टिसमध्ये एमएक्सएन गेम सोडविणे हे भौमितिक समानता वापरणे अधिक सोयीस्कर आहे, परंतु गणना केलेल्या विश्लेषणात्मक पद्धतींनी, विशेषतः, संगणन मशीनवरील समस्येचे निराकरण करण्यासाठी, या पद्धती पूर्णपणे योग्य आहेत.

या सर्व पद्धतींचे सतत नमुन्यांद्वारे समस्येचे निराकरण करण्यासाठी कमीत कमी कमी होते, परंतु नमुना अनुक्रमांची ऑर्डर देणे आपल्याला अल्गोरिदम तयार करण्यास अनुमती देते ज्यामुळे सर्वात आर्थिक मार्ग सोडते. येथे आम्ही एमएक्सएन गेम्स सोडविण्याच्या समान गणना केलेल्या पद्धतीवर थोडक्यात लक्ष केंद्रित करू - तथाकथित "रेखीय प्रोग्रामिंग" पद्धतीवर. हे करण्यासाठी आम्ही प्रथम एमएक्सएन गेमचा निर्णय घेण्याच्या समस्येचे संपूर्ण सेटिंग देऊ. एमएक्सएन गेम एम स्ट्रॅटेजीजसह 1, 2, आणि एम प्लेअर ए आणि एन स्ट्रॅटेजीज बी 1, बी 2, ..., बी एन प्लेअर इन आणि सेट पेमेंट मॅट्रिक्स ‖a i j ‖. गेमचा निर्णय शोधणे आवश्यक आहे, i.e. खेळाडूंच्या दोन चांगल्या मिश्रित रणनीती

जेथे पी 1 + पी 2 + ... + पी एम \u003d 1; प्रश्न 1 + प्रश्न 2 + ... + क्यू एन \u003d 1 (काही संख्या पी आणि क्यू जे शून्य असू शकतात).

आमच्या सर्वोत्कृष्ट रणनीती एस * ला कमीतकमी ν नाही आणि शत्रूच्या कोणत्याही वर्तनासह आणि ν त्याच्या चांगल्या वर्तनासह (स्ट्रॅटेजी एस बी *) सह. त्याचप्रमाणे, स्ट्रॅटेजी एस बी * आपल्या कोणत्याही वर्तुळासह आणि आमच्या कोणत्याही वर्तनासह आणि आमच्या सर्वोत्कृष्ट वर्तनासह (धोरण एस ए *) सह ν पेक्षा मोठे नाही.

या प्रकरणात खेळाच्या किंमतीची परिमाण यूएस अज्ञात आहे; आम्ही असे मानतो की ते काही समान आहे सकारात्मक संख्या. असा विश्वास आहे की, तर्कसंगतता आम्ही उल्लंघन करत नाही; Ν\u003e 0 होण्यासाठी, हे स्पष्ट आहे की मॅट्रिक्स ‖a i j ‖ च्या सर्व घटक नॉन-नकारात्मक होते. ‖A i जे च्या घटकांना जोडून हे नेहमीच साध्य केले जाऊ शकते. सकारात्मक मूल्य एल; त्याच वेळी गेमची किंमत वाढेल एलआणि निर्णय बदलणार नाही.

आपण आमच्या इष्टतम स्ट्रॅटेजी एस ची निवड करू. नंतर आमच्या सरासरी विजयाची रणनीती बी जे शत्रू समान असेल: एक जे \u003d पी 1 1 ए 1 जे + पी 2 ए 2J + ... + पी एम एमजे. आमची सर्वोत्कृष्ट रणनीती एस एक * मध्ये मालमत्ता आहे की शत्रूच्या कोणत्याही वर्तनासह विजय ν पेक्षा कमी नसतात; परिणामी, जे काही संख्या कमी असू शकत नाहीत ν. आम्हाला बर्याच अटी मिळतात:

आम्ही असमानता (5.1) च्या सकारात्मक मूल्यावर आणि सूचित करते

नंतर परिस्थिती (5.1) फॉर्ममध्ये रेकॉर्ड केली जाईल

जेथे ξ 1, ξ 2, ..., ξ एम नॉन-नकारात्मक संख्या आहेत. पी 1 + पी 2 + ... + पी एम \u003d 1, मूल्ये ξ 1, ξ 2, ..., ξ एम स्थिती पूर्ण करतात

(5.3) ξ 1 + ξ 2 + ... + ξ m \u003d 1 / ν.

आम्ही त्यांच्या गॅरंटीड विजेते शक्य तितके करू इच्छितो; स्पष्टपणे, त्याच वेळी योग्य भाग समानता (5.3) किमान मूल्य घेते. अशा प्रकारे, गेमचे समाधान शोधण्याचे कार्य खालील गणितीय समस्येवर कमी होते: ξ 1, ξ 2, ξ एम, समाधानकारक परिस्थिती (5.2) च्या नॉन-नकारात्मक मूल्ये निर्धारित करण्यासाठी, जेणेकरून त्यांची समय φ \u003d ξ 1 + ξ 2 + ... + ξ मी ते किमान होते.

सहसा, अत्यंत मूल्ये (मॅक्सिमा आणि मिनीम) शोधण्याशी संबंधित समस्या सोडवताना, कार्य शून्य डेरिव्हेटिव्ह्जद्वारे वेगळे आणि समान आहे. परंतु या तंत्रज्ञानामुळे या तंत्राने हे कार्य निरर्थक, रेषीय, रेषीय आणि त्याचे डेरिव्हेटिव्ह्ज असले पाहिजेत, सर्व युक्तिवादांमध्ये समान आहेत, i.e.e. कोठेही शून्य वर जाऊ नका. म्हणून, युक्तिवादांच्या बदलाच्या क्षेत्राच्या सीमेवर कुठेतरी जास्तीत जास्त कार्य प्राप्त केले जाते, जे वितर्क आणि अटींच्या (5.2) च्या नॉन-नकारात्मकतेच्या आवश्यकतानुसार निश्चित केले जाते. भिन्नता वापरुन अत्यंत मूल्यांचे स्वीकृती योग्य नाही आणि अशा प्रकरणांमध्ये, जसे की विजेतेच्या निम्न (किंवा किमान उच्च) सीमा गेम सोडविण्याचे ठरवले जाते, उदाहरणार्थ, 2xn गेम सोडताना आम्ही निर्धारित केले होते. खरंच, निम्न मर्यादा सरळ रेषेच्या भागापासून बनलेली असते आणि जास्तीत जास्त कमाई केली जाते जेथे व्युत्पन्न शून्य असते (सर्व काहीच नाही) आणि अंतराल सीमा किंवा अंतराळाच्या अंतरावर साइट्स

अशा कार्यांचे निराकरण करण्यासाठी, बर्याचदा सराव होत असल्याने, गणितामध्ये विशेष रेखीय प्रोग्रामिंग उपकरण विकसित केले गेले आहे. खालीलप्रमाणे रेखीय प्रोग्रामिंगचे कार्य सेट केले आहे. रेषीय समीकरण दाना प्रणाली:

Ξ 1, ξ 2, ξ, ξ एम, समाधानकारक परिस्थिती (5.4) आणि त्याच वेळी किमान एक दिलेली एकसमान रेषीय कार्य प्राप्त करणे आवश्यक आहे ξ 1, ξ 2, ξ, ¼ एम (रेखीय फॉर्म): φ \u003d सी 1 × 1 + सी 2 × 2 + + सीएम ξ एम

गेम सिद्धांतांचे वरील कार्य म्हणजे सी 1 \u003d सी 2 \u003d ... \u003d सीएम \u003d 1. एका दृष्टीक्षेपात असे दिसते की, असे दिसते (5.2) अटींच्या समतुल्य (5.4) च्या समतुल्य नाही, कारण त्याऐवजी समानतेचे चिन्ह त्यात असमानता चिन्हे असतात. तथापि, असमानता चिन्हांपासून मुक्त होणे सोपे आहे, नवीन काल्पनिक नसलेले नॉन-नॉन-नॉन-नॉन-रेव्हेनिव्हेल व्हेरिएबल्स तयार करणे, जेड 2, ..., z एन आणि रेकॉर्डिंग अटी (5.2) स्वरूपात सादर करणे:

फॉर्म φ, जे कमीतकमी उलट केले जाणे आवश्यक आहे, φ \u003d ξ 1 + ξ 2 + ... ξ एम. रेखीय प्रोग्रामिंग डिव्हाइस मूल्य ξ 1, ξ 2, ..., ξ मी आवश्यकतेनुसार निवडण्यासाठी सतत लहान नमुने अनुमती देते. अधिक स्पष्टतेसाठी, आम्ही या डिव्हाइसला थेट विशिष्ट गेम सोडण्याच्या सामग्रीवर लागू करण्यासाठी येथे दर्शवू.

उदाहरण 1. गेमचे निराकरण करणे आवश्यक आहे 3 × 3 मध्ये दिलेला आहे 2 × 1, एक मॅट्रिक्ससह:

सर्वकाही करण्यासाठी आणि ij नॉन-नकारात्मक, मॅट्रिक्स एल \u003d 5 च्या सर्व घटकांमध्ये जोडा. आम्ही मॅट्रिक्स प्राप्त करतो:

त्याच वेळी, खेळाची किंमत 5 पर्यंत वाढेल आणि निर्णय बदलणार नाही.

आम्ही इष्टतम रणनीती एस * परिभाषित करतो. अटी (5.2) फॉर्म आहेत:

ξ 1 \u003d p 1 / ν, ξ 2 \u003d p 2 / ν, ξ 3 \u003d p 3 / ν. असमानता चिन्ह लावतात, आम्ही z 1, z 2, z 3 च्या कल्पित व्हेरिएबल्स सादर करतो; अटी (5.6) फॉर्ममध्ये रेकॉर्ड केल्या जातील:

रेखीय फॉर्म φ आहे: φ \u003d ξ 1 + ξ 2 + ξ 3 आणि शक्य तितके कमी केले पाहिजे. जर सर्व तीन रणनीती "उपयुक्त" असतील, तर सर्व तीन काल्पनिक व्हेरिएबल्स z 1, z 2, z 3 शून्य वर वळतील (म्हणजे, गेमच्या किंमतीच्या बरोबरीने जिंकले जाईल ν प्रत्येक बी जे स्ट्रॅटेजीसह प्राप्त होईल). परंतु आमच्याकडे अद्याप तीन रणनीती "उपयुक्त" असल्याचे सांगण्याचे कारण नाही. ते तपासण्यासाठी, आम्ही z 1, z 2, z 3 च्या माध्यमातून आकार φ व्यक्त करण्याचा प्रयत्न करू आणि जर आपण त्यांना शून्य समान मानले तर, किमान फॉर्म. हे करण्यासाठी, व्हेरिएबल्सच्या संदर्भात (5.7) व्हेरिएबल्सच्या संदर्भात (5.7) व्हेरिएबल्सचे निराकरण करा.

Folding ξ 1, ξ 2, ξ 3, आम्ही प्राप्त करतो: φ \u003d 1/5 + z 1/20 + z 2/10 + Z 3/2 20. येथे सर्व z वरील गुणांक सकारात्मक आहेत; याचा अर्थ Z 1, Z 2, Z 3 मधील कोणत्याही वाढीमुळे केवळ फॉर्ममध्ये वाढ होऊ शकते आणि आम्हाला ते कमी होऊ शकते. परिणामी, z 1, z 2, z 3, कमीतकमी, z 1 \u003d z 2 \u003d z 3 \u003d 0 च्या मूल्ये आहेत. म्हणून, फॉर्मचे किमान मूल्य φ: 1 / ν \u003d 1 / 5, जेथे गेमची किंमत ν \u003d 5. झीरो व्हॅल्यूज Z 1, Z 2, Z 3 चे प्रमाणन करणे सूत्र (5.8), आम्हाला आढळते: ξ 1 \u003d 1/20, ξ 2 \u003d 1/10, ξ 3 \u003d 1/20, किंवा, त्यांना ν, p 1 \u003d 1/4, पी 2 \u003d 1/2, पी 3 \u003d 1/4 वर गुणाकार. अशा प्रकारे, इष्टतम धोरण आणि आढळले: . आम्ही सर्व प्रकरणांमध्ये एक चतुर्थांश प्रकरणात 1, अर्ध्या प्रकरणात 2 आणि बाकीचे प्रकरण 3 मध्ये लिहिले पाहिजे.

गेमची किंमत ν \u003d 5 ची किंमत जाणून घेणे, आपण आधीच करू शकता ज्ञात पद्धती इष्टतम शत्रू धोरण शोधा . हे करण्यासाठी, आम्ही आमच्या दोन "उपयुक्त" धोरणे वापरतो (उदाहरणार्थ, आणि 2 आणि ए 3) आणि समीकरण लिहा:

9 क्यू 1 + 11 (1-क्यू 2 -Q 1) \u003d 5,

कडून क्यू 1 \u003d क्यू 3 \u003d 1/4 पासून; प्रश्न 2 \u003d 1/2. इष्टतम शत्रू धोरण आमच्यासारखेच असेल: . आता प्रारंभिक (रूपांतरित) गेम परत. हे करण्यासाठी, मॅट्रिक्सच्या घटकांमध्ये जोडलेल्या एल \u003d 5 ची रक्कम घेण्याकरिता ν \u003d 5 ची रक्कम घेणे आवश्यक आहे. आम्ही मूळ गेम व्ही 0 \u003d 0 ची किंमत प्राप्त करतो. परिणामी, दोन्ही पक्षांच्या चांगल्या रणनीती शून्यच्या समान सरासरी वाढ देतात; दोन्ही बाजूंसाठी खेळ तितकेच फायदेशीर किंवा फायदेशीर आहे.

उदाहरण 2. स्पोर्ट्स क्लब ए मध्ये टीम 1, आणि 2 आणि 3 ची रचना तीन प्रकार आहेत. क्लब बी देखील तीन अवांछित बी 1, 2 आणि 3 मध्ये आहे. स्पर्धेत सहभागासाठी अर्ज अर्ज करणे, क्लबपैकी कोणत्याही क्लबला कोणती रचना प्रतिस्पर्धी निवडली जाणार नाही हे माहित आहे. क्लब ए च्या संभाव्यता भिन्न पर्याय संघांची रचना, मागील बैठकीच्या अनुभवातून ओळखली जाते, ते मॅट्रिक्सद्वारे सेट केले जातात:

काही फ्रिक्वेंसी क्लबसह, मीटिंगमधील प्रत्येक बैठकीच्या सर्वात मोठ्या संख्येने विजय मिळविण्यासाठी तयार केले जावे.

निर्णय. गेमची कमी किंमत 0.4; शीर्ष 0.6; समाधान आम्ही मिश्रित रणनीती क्षेत्रात शोधत आहोत. अपूर्णांक हाताळण्यासाठी, मॅट्रिक्सच्या सर्व घटकांना 10 द्वारे गुणाकार करा; त्याच वेळी, खेळाची किंमत 10 वेळा वाढेल आणि निर्णय बदलणार नाही. आम्हाला एक मॅट्रिक्स मिळतो:

अटी (5.5) फॉर्म आहेत:

आणि किमान स्थिती φ \u003d ξ 1 + ξ 2 + ξ 3 \u003d मि.

आम्ही तपासतो की सर्व तीन शत्रू रणनीती "उपयुक्त" आहेत. परिकल्पना म्हणून, आम्ही प्रथम असे मानतो की z 1, z 2, z 3 शून्य आहे आणि समीकरण (5.10) संबंधित समीकरण (5.10) चे परीक्षण करण्यासाठी ξ 1, ξ 2, ξ 3:

(5.12) 136φ \u003d 30 + 13Z 1 + 18Z 2 - 51Z 3

सूत्र (5.12) दर्शविते की त्यांच्या अंदाजे मूल्य शून्यच्या तुलनेत व्हेरिएबल्स 1 आणि Z 2 मधील वाढ केवळ φ वाढवू शकते, तर z 3 मध्ये वाढ φ कमी करू शकते. तथापि, Z 3 मधील वाढ काळजीपूर्वक करावी लागेल की मूल्ये ξ 1, ξ 2, ξ 3 Z 3 वर अवलंबून आहेत नकारात्मक झाले नाही. म्हणून आम्ही समानता (5.11) लाइनच्या उजव्या भागांमध्ये ठेवले (5.11) शून्यच्या समान मूल्ये आणि मूल्य जेडी 3 अनुमत मर्यादा वाढेल (आतापर्यंत काही मूल्ये ξ 1, ξ. 2, ξ 3 शून्य मध्ये बदलणार नाही). दुसर्या समानतेपासून (5.11) हे पाहिले जाऊ शकते की ξ 2 च्या मूल्यासाठी Z 3 "सुरक्षितपणे" वाढ - ते केवळ तेव्हापासूनच वाढते. मूल्ये म्हणून ξ 1, आणि ξ 3, येथे z 3 मधील वाढ केवळ विशिष्ट मर्यादेपर्यंत शक्य आहे. Ξ 1 ची किंमत Z 3 \u003d 10/23 येथे शून्य आहे; Ξ 3 ची किंमत शून्य पूर्वी शून्यच्या आधी, आधीच z 3 \u003d 1/4 येथे आहे. त्यामुळे, त्याच्या कमाल परवानगी मूल्य Z 3 \u003d 1/4 च्या z 3 देणे, आम्ही शून्य व्हॅल्यू ξ 3 वर वळतो.

Z 1 \u003d 0, z 2 \u003d 0, ξ 3 \u003d 0 वर कमीतकमी दिसून येईल की नाही हे तपासण्यासाठी, आम्ही उर्वरित (समान शून्य नाही) व्हेरिएबल्सला शून्य शून्य 1, z 2, ξ 3 द्वारे बदलू. Ξ 1, ξ 2 आणि Z 3 च्या संदर्भात समीकरण (5.10) निराकरण करणे, आम्ही प्राप्त करतो:

(5.13) 32φ \u003d 7 + zz 1 + 4z 2 + ξ 3

फॉर्म्युला (5.13) पासून असे दिसून येते की Z 1, z 2, ξ 3 मधील कोणत्याही वाढीव शून्य मूल्यांवर कोणत्याही वाढ केवळ फॉर्म वाढवू शकते. परिणामी, खेळाचा निर्णय सापडला; हे मूल्य Z 1 \u003d z 2 \u003d ξ 3 \u003d 0 द्वारे निर्धारित केले आहे, ज्यातून ξ 1 \u003d 1/32, ξ 2 \u003d 3/16, z 3 \u003d 1/4. फॉर्म्युला (5.13) मध्ये पुनर्स्थित करणे, आम्हाला गेमची किंमत आहे ν: 32φ \u003d 7 \u003d 32 / ν; ν \u003d 32/7. आमची सर्वोत्कृष्ट रणनीती: . "उपयुक्त" धोरणे (रचना 1 आणि एक 2) वारंवारता 1/7 आणि 6/7 सह लागू केल्या पाहिजेत; रचना एक 3 - कधीही लागू नाही.

इष्टतम शत्रू धोरण शोधण्यासाठी, सर्वसाधारणपणे, आपण हे करू शकता: उलट विजेते चिन्ह बदलणे, मी नॉन-नकारात्मक बनविण्यासाठी मॅट्रिक्स कॉन्स्टंट व्हॅल्यूच्या घटकांमध्ये जोडा आणि शत्रूसाठी कार्य सोडवा. आम्ही ते स्वत: साठी सोडवले. तथापि, गेमची किंमत आम्हाला आधीपासूनच ओळखली गेली आहे, काहीसे कार्य सुलभ करते. याव्यतिरिक्त, या विशिष्ट प्रकरणात, कार्य 1 आणि 2 मध्ये केवळ दोन "उपयुक्त" शत्रू आणि 2 पैकी दोन "उपयुक्त" शत्रू धोरणे सहभागी होतात, कारण z 3 चे मूल्य शून्य नाही आणि याचा अर्थ असा आहे की खेळ किंमत साध्य नाही. कोणत्याही "उपयुक्त" प्लेयरची स्ट्रॅटेजी ए, उदाहरणार्थ, 1, आपण Q 1 आणि क्यू 2 शोधू शकता. हे करण्यासाठी, समीकरण 8Q 1 + 2 (1 - क्यू 1) \u003d 32/7, कडून क्यू 1 \u003d 3/7, क्यू 2 \u003d 4/7 पासून; इष्टतम शत्रू धोरण असेल: . शत्रूने 3 ची रचना वापरू नये, आणि 1 च्या रचना 1 आणि 2 च्या रचना वारंवारता 3/7 आणि 4/7 सह लागू केल्या पाहिजेत.

प्रारंभिक मॅट्रिक्सकडे परत येत आहे, आम्ही गेमची खरी किंमत ν 0 \u003d 32/7: 10 \u003d 0.457 परिभाषित करतो. याचा अर्थ असा आहे मोठा क्रमांक बैठकीच्या विजयाची संख्या सर्व बैठकीतील 0.457 असेल.

§ 6. सोडविणे गेम अंदाजे पद्धती

बर्याचदा व्यावहारिक कार्यांमध्ये गेमचा अचूक निर्णय घेण्याची आवश्यकता नाही; खेळाच्या किंमतीच्या जवळ, सरासरी विजय मिळविण्यासाठी अंदाजे समाधान शोधणे पुरेसे आहे. गेमच्या किंमतीचे अनुमानित ज्ञान ν आधीच मॅट्रिक्सचे एक साधे विश्लेषण आणि कमी (α) चे परिभाषा आणि गेमचे उच्च (β) किंमत. जर आणि β बंद असतील तर, अचूक निराकरण शोधण्याची व्यावहारिकपणे आवश्यकता नाही, परंतु ते नेट मिनिमॅक्स रणनीती निवडण्यासाठी पुरेसे असेल. जेथे α आणि β बंद नाहीत अशा प्रकरणांमध्ये, निराकरण गेम्सच्या अंकीय पद्धतींच्या मदतीने अभ्यास करण्यासाठी स्वीकार्य उपाय प्राप्त करणे शक्य आहे, ज्यामध्ये आम्ही थोडक्यात पुनरावृत्ती पद्धत गमावतो.

पुनरावृत्ती पद्धतीची कल्पना खालीलप्रमाणे कमी केली आहे. "मानसिक प्रयोग" खेळला जातो, ज्यामध्ये विरोधक एक आणि बी एकमेकांविरुद्ध त्यांची धोरणे लागू करतात. प्रयोगात प्राथमिक गेमचे अनुक्रम समाविष्ट आहे, त्यापैकी प्रत्येकाने दिलेल्या गेमचे मॅट्रिक्स आहे. हे तथ्य सुरू होते की आम्ही (खेळाडू ए) एक मनःपूर्वक त्याच्या रणनीतींपैकी एक निवडा, उदाहरणार्थ आणि मी. शत्रू आपल्या स्ट्रॅटेजी बी जे बरोबर जबाबदार आहे, जे आपल्यासाठी कमीतकमी फायदेशीर आहे, i.e. रणनीती आणि मी किमान असताना जिंकतो. या हालचालीवर, आम्ही त्याच स्ट्रॅटेजीला प्रतिसाद देतो, जो प्रतिस्पर्धीच्या स्ट्रॅटेजी बी जे लागू करताना जास्तीत जास्त सरासरी वाढतो. पुढे - पुन्हा प्रतिस्पर्धी च्या वळण. त्याने आमच्या दोन हालचालींचा प्रतिसाद दिला की मी आणि त्याच्या स्ट्रॅटेजी बी जेच्या कार्याचा प्रतिसाद देतो, जो आम्हाला या दोन रणनीतींसह सर्वात लहान विजय मिळवितो (ए आणि के) इत्यादी. रीसेटिव्ह प्रक्रियेच्या प्रत्येक चरणावर, प्रत्येक खेळाडू त्याच्या धोरणासह दुसर्या खेळाडूला प्रतिसाद देतो, जो त्याच्या मागील हालचालीबद्दल अनुकूल आहे, अशा मिश्रित धोरण म्हणून मानले जाणारे एक मिश्रित धोरण म्हणून मानले जाते ज्यामध्ये त्यांच्या अर्जाच्या वारंवारतेच्या तुलनेत शुद्ध धोरणे सादर केली जातात. .

ही पद्धत खेळाडूंच्या वास्तविक व्यावहारिक "शिकण्याच्या" मॉडेलसारखी आहे, जेव्हा त्यांच्यापैकी प्रत्येकजण प्रतिस्पर्ध्याच्या वर्तनाचा मार्ग अनुभवतो आणि स्वतःसाठी अनुकूलपणे प्रतिसाद देण्याचा प्रयत्न करतो. शिक्षण प्रक्रियेची सिम्युलेशन किती वेळ टिकवून ठेवत असेल तर आतापर्यंतचे सरासरी विजय (प्राथमिक गेम) प्रति जोडी खेळ किंमतीसाठी प्रयत्न करतील आणि वारंवारता पी 1 ... पी; प्रश्न 1 ... क्यू एन, ज्या ड्रॉमध्ये खेळाडूंची धोरणे आढळली आहेत, ज्यात चांगल्या रणनीती निर्धारित केलेल्या आवृत्त्यांकडे जाईल. गणना दर्शवते की पद्धतीचे अभिसरण खूप मंद आहे, तथापि, हाय स्पीड गणना मशीनसाठी हे अडथळा नाही.

आम्ही गेम 3 × 3 च्या उदाहरणाच्या उदाहरणावर पुनरावृत्ती करतो, जे मागील परिच्छेदाचे उदाहरण 2 च्या उदाहरणाचे निराकरण करतात. गेम मॅट्रिक्सद्वारे सेट केला आहे:

तक्ता 6.1 पुनरावृत्ती प्रक्रियेच्या पहिल्या 18 चरण दर्शविते. प्रथम कॉलमला प्राथमिक गेमची संख्या (हालचाली जोडली) दिली जाते एन; दुसऱ्या क्रमांकावर - संख्या मी निवडलेला खेळाडू स्ट्रॅटगी ए; पुढील तीन - "संचित विजय" प्रथम साठी एन शत्रूच्या धोरणांसह खेळ 3 मध्ये 3, 2, 3. यापैकी किमान मूल्यांचा जोर दिला जातो. पुढील नंबर आहे जे. शत्रूने निवडलेला धोरण आणि क्रमशः एकत्रित एन धोरणे अंतर्गत खेळ 1, आणि 2 आणि यापैकी 3 या मूल्यांकडे जास्तीत जास्त वरून जोर देतात. अधोरेखित मूल्ये दुसर्या खेळाडूच्या प्रतिसाद धोरणाची निवड निर्धारित करतात. खालील स्तंभे अनुक्रमिकपणे दिलेली आहेत: किमान सरासरी विजेते ✓ गेमच्या संख्येद्वारे विभाजित किमान संचयित विजय. एन; जास्तीत जास्त संचित विजय समान कमाल सरासरी वाढ एन, आणि त्यांचे अंकगणित सरासरी ν * \u003d (ν +) / 2. वाढत आहे एन सर्व तीन मूल्ये ν, आणि ν * गेमच्या किंमतीशी संपर्क साधतील ν, परंतु ν * चे मूल्य नैसर्गिकरित्या तुलनेने वेगवान होईल.

तक्ता 6.1.

उदाहरणावरून पाहिले जाऊ शकते, पुनरावृत्तीचे अभिसरण खूप मंद आहे, परंतु तरीही, अगदी लहान गणना गेमच्या किंमतीचे अंदाजे मूल्य शोधणे आणि "उपयुक्त" धोरणांचे स्पष्टीकरण शक्य होते. मोजण्यायोग्य मशीन वापरताना, पद्धतीचे मूल्य लक्षणीय वाढते. गेम सोडविण्याच्या पुनरुत्थान पद्धतीचा फायदा म्हणजे गणना आणि गणनांची जटिलता ही रणनीती वाढते म्हणून तुलनेने कमकुवतपणे वाढते एम. आणि एन.

§ 7. काही अंतहीन गेम सोडविण्यासाठी पद्धती

एक अंतहीन गेमला एक गेम म्हटले जाते ज्यामध्ये कमीतकमी एका पक्षांपैकी एक असंख्य रणनीती आहेत. अशा खेळांचे निराकरण करण्यासाठी सामान्य पद्धती अजूनही थोड्या डिझाइन केल्या आहेत. तथापि, काही विशिष्ट प्रकरण जे तुलनेने साध्या सारख्या उपायांना सराव करण्यास स्वारस्य असू शकतात. दोन विरोधक ए आणि बीच्या खेळाचा विचार करा, त्यापैकी प्रत्येकास अनंत (अतुलनीय) धोरणे आहेत; खेळाडूसाठी या धोरणांशी संबंधित आहे विविध मूल्ये सतत बदलत पॅरामीटर एच.आणि - पॅरामीटरसाठी डब्ल्यू. या प्रकरणात, मॅट्रिक्स ‖ a ij च्या ऐवजी गेम दोन सतत बदलणार्या वितर्कांचे काही कार्य निर्धारित करते ए (एक्स, वाई)जे आम्ही जिंकण्याच्या कार्यास कॉल करू (आम्ही लक्षात ठेवतो की हे कार्य करते ए (एक्स, वाई) ते निरंतर असू नये). जिंकण्याचे कार्य ए (एक्स, वाई) भौमितिकदृष्ट्या काही पृष्ठभागासह सादर केले जाऊ शकते ए (एक्स, वाई) वितर्क बदलण्याच्या क्षेत्राच्या वर (एक्स, वाई) (आकृती 7.1)

विजयाचे विश्लेषण ए (एक्स, वाई) हे पेमेंट मॅट्रिक्सच्या विश्लेषणासारखेच केले जाते. प्रथम गेमची कमी किंमत आहे. यासाठी प्रत्येकासाठी निर्धारित केले आहे एच. किमान कार्य ए (एक्स, वाई) सर्वात डब्ल्यू:, मग या सर्व मूल्यांसाठी सर्व काही शोधले जाते एच. (मॅक्सिमिन):

गेमची सर्वात महत्वाची किंमत (मिनिमॅक्स) त्याच प्रकारे परिभाषित केली आहे:

Α \u003d β जेव्हा केस विचारात घ्या. गेमची किंमत नेहमी α आणि β दरम्यान संपली आहे, नंतर त्यांचा अर्थ ν आहे. समानता α \u003d β म्हणजे पृष्ठभाग ए (एक्स, वाई) एक सॅडल पॉईंट आहे, I.E., x 0 मध्ये x 0, 0 मध्ये निर्देशित करते ए (एक्स, वाई) त्याच वेळी किमान आहे डब्ल्यू आणि कमाल एच. (आकृती 7.2).

मूल्य ए (एक्स, वाई) या वेळी, गेमची किंमत आहे ν: ν \u003d ए (एक्स 0, वाई 0). एका सॅडल पॉईंटची उपस्थिती म्हणजे शुद्ध रणनीती क्षेत्रात हा अंतहीन गेमचा एक उपाय आहे; एक्स 0, वाई 0 सर्वोत्कृष्ट शुद्ध रणनीती ए आणि व्ही. सर्वसाधारणपणे आहेत, जेव्हा α ≠ β, गेममध्ये मिश्रित रणनीतींच्या क्षेत्रात (कदाचित केवळ एकच नाही) केवळ समाधान असू शकते. अंतहीन खेळांसाठी मिश्रित धोरण धोरणांसाठी काही संभाव्यता वितरण आहे एच. आणि डब्ल्यूयादृच्छिक व्हेरिएबल म्हणून मानले जाते. हे वितरण घनतेद्वारे सतत आणि निर्धारित असू शकते. एफ 1 (x) आणि एफ 2 (वाई); हे समजू शकते, आणि नंतर अनुकूल रणनीतींमध्ये काही गैर-शून्य संभाव्यतेसह निवडलेल्या स्वतंत्र निव्वळ धोरणांचा संच असतो.

या प्रकरणात जेव्हा अंतहीन गेमला सॅडल पॉईंट नसेल तेव्हा आपण गेमच्या निम्न आणि शीर्ष किंमतीचे दृश्यमान भौमितीक व्याख्या देऊ शकता. एक विजेता फंक्शनसह अंतहीन गेम विचारात घ्या. ए (एक्स, वाई)आणि धोरणे एक्स, डब्ल्यू.axes सतत विभाग भरा (x 1, x 2) आणि (1, यू 2). गेमची कमी किंमत निर्धारित करण्यासाठी, आपल्याला पृष्ठभागावर "पहा" आवश्यक आहे ए (एक्स, वाई) अक्ष च्या बाजूला पासून डब्ल्यू. ते विमानात रूपांतरित करा होआ (आकृती 7.3). आम्ही सरळ x \u003d x 1 आणि x \u003d x 2, आणि वरुन आणि खाली असलेल्या बाजूपासून मर्यादित असलेले काही आकार प्राप्त करतो - स्क्व्हर्स बी आणि एन. च्या कमी किंमतीचे प्रमाण जास्त आहे. वक्र ऑर्डर एन.

त्याचप्रमाणे, गेमची सर्वात महत्वाची किंमत शोधण्यासाठी β, आपल्याला पृष्ठभागावर "पहा" आवश्यक आहे ए (एक्स, वाई) अक्ष च्या बाजूला पासून एच. (पृष्ठभागावर पृष्ठभाग डिझाइन करा वॉय) आणि वरच्या सीमेवर प्रोजेक्शन (फिग, 7.4) वर कमी आचरण शोधा.

अंतहीन खेळांच्या दोन प्राथमिक उदाहरणांचा विचार करा.

उदाहरण 1. खेळाडू ए आणि बी मध्ये सर्व संभाव्य धोरणे आहेत. एच.आणि डब्ल्यू, शिवाय, 0 ≤ x ≤ 1; 0 ≤ y ≤ 1. ए साठी जिंकण्याचे कार्य अभिव्यक्तीद्वारे (एक्स, वाई) - (एक्स - वाई) 2 द्वारे दिले आहे. गेमचे निराकरण शोधा.

उपाय, पृष्ठभाग एक (एक्स, वाई) एक पॅराबॉलिक सिलेंडर (आकृती 7.5) आहे आणि त्याच्याकडे सॅडल्ड पॉईंट नाही. आम्ही गेमची कमी किंमत निश्चित करतो; स्पष्टपणे, सर्व साठी एच.; म्हणून \u003d 0. गेमची उच्च किंमत निश्चित करा. हे करण्यासाठी, आम्ही निश्चितपणे शोधतो डब्ल्यू

या प्रकरणात, जास्तीत जास्त अंतरावर सीमा (x \u003d 0 किंवा x \u003d 1), i.e. ते 2 च्या समान आहे; (1 - वाई) 2, जे अधिक आहे. मी या कार्याचे आलेख (आकृती 7.6), i.e. पृष्ठभाग अंदाज ए (एक्स, वाई) विमानात वॉय. अंजीर मध्ये चरबी ओळ. 7.6 वैशिष्ट्य दर्शविले आहे. स्पष्टपणे, त्याची किमान किंमत वाई \u003d 1/2 आणि 1/4 च्या बरोबरीने प्राप्त केली जाते. परिणामी, गेमची सर्वात महत्वाची किंमत β \u003d 1/4. या प्रकरणात, गेमची सर्वात महत्वाची किंमत गेमच्या किंमतीशी जुळते. खरंच, खेळाडू एक मिश्रित स्ट्रॅटेजी एस ए \u003d लागू करू शकतो ज्यामध्ये x \u003d 0 आणि x \u003d 1 समान फ्रिक्वेन्सीजसह समाविष्ट आहेत; मग, कोणत्याही धोरणासह, सरासरी खेळाडू जिंकणारा खेळाडू विजय असेल: ½ 2 + ½ (1 - वाई) 2. कोणत्याही मूल्यांसाठी हे मूल्य असल्याचे सुनिश्चित करणे सोपे आहे डब्ल्यू 0 आणि 1 दरम्यान, ते ¼: ½u 2 + ½ (1 - वाई) 2 ≥ ¼. पेक्षा कमी नाही.

अशाप्रकारे, या मिश्रित धोरणाचा खेळाडू आणि वापर खेळाच्या शीर्ष किंमतीच्या तुलनेत जिंकण्याची हमी देऊ शकतो; नंतर गेमची किंमत सर्वोच्च किंमतीपेक्षा जास्त असू शकत नाही ही रणनीती एक अनुकूल: एस A \u003d एस ए *.

खेळाडू व्ही. ची सर्वोत्कृष्ट धोरण शोधणे अवघड आहे. स्पष्टपणे, गेमची किंमत गेमच्या सर्वात महत्वाच्या किंमतीच्या बरोबरीने असेल तर, इष्टतम खेळाडूंची योजना नेहमीच त्याच्या निव्वळ Minimax धोरण असेल जी त्याला उच्च किंमत हमी देते खेळ. या प्रकरणात, अशा धोरण 0 \u003d ½ आहे. खरंच, या धोरणासह, खेळाडू ए जे काही असेल ते जिंकणार नाही. हे स्पष्ट असमानता (x - ½) 2 \u003d x (x-1) + ¼ ≤ ¼

उदाहरण 2. साइड ए ("आम्ही") प्रतिस्पर्ध्यावर विमान आणते. शेलिंग पासून disaunded करण्यासाठी, शत्रू काही ओव्हरलोड सह मॅन्युव्हर करू शकता डब्ल्यूजे त्याच्या विवेकबुद्धीनुसार ते महत्त्व संलग्न करू शकतात डब्ल्यू \u003d 0 (सरळ चळवळ) ते डब्ल्यू = डब्ल्यू कमाल (कमाल वक्रता परिभ्रमण सुमारे उडता). आम्ही गृहीत धरतो डब्ल्यू कमाल मोजण्याचे एकक, i.e. ठेवले डब्ल्यू कमाल \u003d 1. शत्रूविरूद्ध लढ्यात, आम्ही सेवा फ्लाइट दरम्यान लक्ष्य चळवळीच्या आधारावर एक किंवा दुसर्या परिकल्पनेवर आधारित दृष्टीक्षेप साधने वापरू शकतो. ओव्हरलोड एच. या प्रकरणात, hypothetical maneuver 0 ते 1. पासून कोणत्याही मूल्याच्या समान असू शकते आमचे कार्य शत्रूला मारते; शत्रूचे कार्य अप्रभावित राहणे आहे. डेटासाठी हानीची शक्यता एच. आणि डब्ल्यू अंदाजे फॉर्म्युलाद्वारे व्यक्त केले: ए (एक्स, वाई) \u003d , कुठे डब्ल्यू - शत्रूने अर्ज केला आहे; एक्स - ओव्हरलोड, दृष्टीक्षेपात घेतले. दोन्ही पक्षांच्या चांगल्या रणनीती निर्धारित करणे आवश्यक आहे.

निर्णय. स्पष्टपणे, जर आम्ही पी \u003d 1. विजय फंक्शन ठेवले तर गेम सोल्यूशन बदलणार नाही ए (एक्स, वाई) चित्रात दर्शविलेल्या पृष्ठभागाद्वारे चित्रित. 7.7.

ही एक बेलनाकार पृष्ठभाग आहे जी समन्वय कोपऱ्याच्या कोपऱ्यात समांतर आहे होआणि तयार केलेल्या विमानाचे एक क्रॉस सेक्शन, सामान्य वितरण वक्र प्रकाराचे वक्र आहे. गेमच्या खालच्या आणि शीर्ष किंमतीचे प्रस्तावित भौमितिक व्याख्या वापरणे, आम्हाला β \u003d 1 (आकृती 7.8) आणि (आकृती 7.9) आढळते. गेममध्ये एक सॅडल पॉईंट नाही; मिश्रित रणनीती क्षेत्रात आपल्याला शोधण्याची गरज आहे. मागील उदाहरणाच्या कार्य्यासारखे कार्य काही प्रमाणात आहे. खरंच लहान मूल्यांवर के. फंक्शन एक फंक्शन म्हणून जवळजवळ वागतो - (एक्स - वाई) 2आणि मागील उदाहरण सोडल्यास गेम समाधान कार्य करेल, खेळाडू ए आणि बी च्या भूमिका बदला; त्या. आमची सर्वोत्कृष्ट धोरण एक शुद्ध स्ट्रॅटेजी एक्स \u003d 1/2 असेल आणि शत्रूच्या सर्व चांगल्या धोरणाची सर्वोत्कृष्ट धोरण होय \u003d 0 आणि वाई \u003d 1. याचा अर्थ असा आहे की आम्ही सर्व प्रकरणांमध्ये दृष्टी वापरणे आवश्यक आहे. x \u003d 1/2 साठी, आणि शत्रूने सर्व प्रकरणात अर्धवट हाताळू नये आणि अर्ध्या अधिकतम संभाव्य मॅन्युव्हरमध्ये.

अंजीर 7.8 अंजीर 7.9.

हे निर्णय हे मूल्ये k ≤ 2 साठी न्याय्य असेल हे सिद्ध करणे सोपे आहे, खरोखर, शत्रूच्या धोरणासह सरासरी विजय आणि आमच्या धोरणासह सरासरी विजय एच. हे फंक्शनद्वारे व्यक्त केले आहे , k k 2 साठी कोणते मूल्य x \u003d 1/2, गेमच्या कमी किंमतीच्या समान आहे. परिणामी, स्ट्रॅटेजी एस बी बी बी बी बीच्या नुकसानीचा शत्रू हमी देतो, α पेक्षा जास्त नाही हे स्पष्ट आहे की α गेमची किंमत आहे - आणि गेमची किंमत आहे.

के\u003e 2 वर, फंक्शन ए (एक्स) मध्ये दोन मॅक्सिमा (अंजीर 7.10) आहे, x \u003d 1/2 च्या तुलनेत x \u003d 1/3 च्या तुलनेत x \u003d 1/1 चे मूल्य आहे आणि x 0 चे मूल्य के वर अवलंबून आहे.

स्पष्टपणे, साठी के. \u003d 2 x 0 \u003d 1 - x 0 \u003d ½; वाढत आहे के. गुणोत्तर x 0 आणि 1 - x 0 हलविले जातात, अत्यंत पॉइंट्स (0 आणि 1) जवळ येत आहेत. परिणामी, खेळाचे समाधान के वर अवलंबून असेल. आम्ही के विशिष्ट मूल्य सेट केले, उदाहरणार्थ के \u003d 3, आणि खेळाचा निर्णय शोधावा; हे करण्यासाठी, आम्ही कमाल वक्र ए (एक्स) च्या abscissa x 0 परिभाषित करतो. शून्य डेरिव्हेटिव्ह फंक्शन समान करणे ए (एक्स), x 0 निर्धारित करण्यासाठी समीकरण लिहा:

या समीकरणात तीन मुळे आहेत: x \u003d 1/2 (जेथे ते कमीतकमी प्राप्त केले जाते) आणि x 0, 1 - x 0, जेथे मॅक्सिमा प्राप्त झाला आहे. समीकरण समीकरण संक्षेप, आम्हाला अंदाजे x 0 ≈ 0.07 आहे; 1 - x 0 ≈ 0.93.

आम्ही सिद्ध करतो की या प्रकरणात खेळाचा निर्णय पुढील जोडी असेल:

आमच्या धोरण आणि शत्रू धोरणासह डब्ल्यू सरासरी विजय समान आहे

0 वर किमान 1 (वाई) शोधा< у < 1. Функция a 1 (y) симметрична относительно y = 1/2 и может иметь только один или два максимума; ее минимум, во всяком случае, достигается либо в середине отрезка (0, 1), либо на его концах. Полагая у = 0 (или у = 1), найдем

विश्वास आहे की \u003d 1/2, आम्हाला मिळते

1 (0) पेक्षा मोठे आहे; परिणामी, गेमची किंमत 1 (0) पेक्षा कमी नाही:

आता असे म्हणूया की शत्रू एक रणनीती एस बी * लागू करतो, आणि आम्ही एक स्ट्रॅटजी एक्स आहे. मग सरासरी विजय होईल

परंतु आम्ही x 0 अशा प्रकारे निवडले जेणेकरून x \u003d x 0 वर जास्तीत जास्त अभिव्यक्ती गाठली (7.2); म्हणून,

त्या. स्ट्रॅटेजी एस बी च्या अनुप्रयोगासह प्रतिस्पर्धी कदाचित 0.530 पेक्षा जास्त, नुकसानास अनुमती देऊ शकत नाही; म्हणून, ν \u003d 0.530 हा गेम किंमत आहे आणि स्ट्रॅटेजी एस ए * आणि एस बी * एक उपाय देते. याचा अर्थ असा आहे की आम्ही x \u003d 0.07 आणि x \u003d 0.93 सह समान वारंवारतेसह दृष्टी वापरणे आवश्यक आहे आणि त्याच वारंवारतेसह प्रतिस्पर्धी मॅन्युव्हर आणि मॅन्युव्हरसह जास्तीत जास्त ओव्हरलोडसह नाही.

लक्षात ठेवा की जिंकणे ν \u003d 0,530 गेमच्या कमी किंमतीपेक्षा लक्षणीय मोठ्या आहे जे आपल्या कमाल स्ट्रॅटेजी एक्स 0 \u003d 1/2 चा वापर करून स्वत: ला सुरक्षित ठेवू शकतो.

एक व्यावहारिक मार्ग अंतहीन खेळ सोडविणे ही अंतिम फेरीचा अंदाज आहे. या प्रकरणात, प्रत्येक खेळाडूच्या संभाव्य रणनीतीची संपूर्ण श्रेणी पारंपारिकपणे एका धोरणात एकत्रित केली आहे. अशा प्रकारे, अर्थातच, केवळ अंदाजे गेम निर्णय घेणे शक्य आहे, परंतु बर्याच बाबतीत अचूक उपाय आवश्यक नाही.

तथापि, हे लक्षात घ्यावे की या स्वागत वापरताना, सोल्युशन्स मिश्रित रणनीतींच्या क्षेत्रात दिसू शकतात, अगदी नेट रणनीतींमध्ये प्रारंभिक अनंत खेळाचे निराकरण शक्य आहे, तरीही. जेव्हा अंतहीन गेममध्ये एक सॅडल पॉइंट असतो. जर, अंतहीन खेळाच्या माहितीद्वारे, मिश्रित समाधान प्राप्त झाले, ज्यामध्ये फक्त दोन शेजारील "उपयुक्त" धोरणे समाविष्ट होते, त्यात त्यांच्या दरम्यान मूळ अंतहीन गेमच्या मध्यवर्ती निव्वळ धोरण लागू करण्याचा अर्थ होतो.

निष्कर्षानुसार, आम्ही लक्षात ठेवतो की अंतिम सामन्यात अंतहीन खेळ समाधान नसतात. आपण अनंत गेमचे उदाहरण देऊ या ज्याचा कोणताही उपाय नाही. दोन खेळाडू प्रत्येक पूर्णांक म्हणतात. नामांकित अधिक दुसर्या 1 रुबल पासून मिळते. जर दोन्ही समान संख्या म्हणतात, तर गेम ड्रॉसह संपतो. खेळ स्पष्टपणे समाधान असू शकत नाही. तथापि, अंतहीन गेमचे वर्ग आहेत ज्यासाठी समाधान स्पष्टपणे अस्तित्वात आहे.

© 2021 skudelnica.ru - प्रेम, भयभीत, मनोविज्ञान, घटस्फोट, भावना, झगडा