गेम मॉडेलची संकल्पना. पेमेंट मॅट्रिक्स

मुख्यपृष्ठ / मानसशास्त्र

व्यावहारिक कार्य क्र. 3

गेम सिद्धांत मॉडेल

गेम मॉडेल्स समजून घेणे

गेम सिद्धांत परिस्थितीमध्ये निर्णय घेण्यासाठी विविध प्रकारच्या शिफारसींच्या विकासामध्ये गुंतलेला आहे संघर्ष परिस्थिती... गणिती पद्धतीने संघर्षाची परिस्थिती निर्माण करून, त्यांना दोन, तीन किंवा अधिक खेळाडूंचा खेळ म्हणून प्रस्तुत केले जाऊ शकते, ज्यापैकी प्रत्येकाचा हेतू इतर खेळाडूच्या खर्चावर जास्तीत जास्त फायदा मिळवण्याचा असतो. संघर्षाच्या परिस्थितीचे गणितीय मॉडेल म्हणतात खेळ, संघर्षातील पक्ष - खेळाडू, आणि संघर्षाचा परिणाम आहे विजय... प्रत्येक औपचारिक खेळासाठी, आम्ही परिचय देतो नियम, म्हणजे परिस्थितीची प्रणाली जी निर्धारित करते:

1. खेळाडूंच्या कृतींसाठी पर्याय;

2. भागीदारांच्या वर्तनाबद्दल प्रत्येक खेळाडूकडे असलेली माहिती;

3. प्रत्येक कृतीचा संच ज्याकडे नेतो.

नियमानुसार, विजय मात्रात्मकपणे निर्दिष्ट केले जाऊ शकतात (उदाहरणार्थ, नुकसान - 0, विजय - 1, ड्रॉ - ½). खेळ म्हणतात बाष्प कक्षत्यात दोन खेळाडू सहभागी झाल्यास, आणि एकाधिकजर खेळाडूंची संख्या दोनपेक्षा जास्त असेल. खेळ म्हणतात शून्य बेरीज खेळजर खेळाडूंपैकी एकाचा नफा दुसऱ्याच्या तोट्याइतका असेल. नियमांद्वारे प्रदान केलेल्या कृतींपैकी एकाची निवड आणि अंमलबजावणी म्हणतात हलवाखेळाडू हालचाली वैयक्तिक किंवा यादृच्छिक असू शकतात. वैयक्तिक चाल- संभाव्य कृतींपैकी एकाच्या खेळाडूची जाणीवपूर्वक निवड (बुद्धिबळ खेळातील चाल), यादृच्छिक हालचाल- यादृच्छिकपणे निवडलेली क्रिया (शफल केलेल्या डेकमधून कार्ड निवडणे).

खेळाडू धोरणयाला नियमांचा संच म्हणतात जो वर्तमान परिस्थितीनुसार प्रत्येक वैयक्तिक हालचालीसाठी त्याच्या कृतीची निवड निर्धारित करतो. खेळ म्हणतात अंतिमजर खेळाडूकडे धोरणांची मर्यादित संख्या असेल, आणि अंतहीन- अन्यथा.

खेळ सोडवण्यासाठी, किंवा शोधण्यासाठी खेळ समाधान, प्रत्येक खेळाडूसाठी एक धोरण निवडले पाहिजे जे इष्टतम स्थितीचे समाधान करते, उदा. खेळाडूंपैकी एकाने प्राप्त करणे आवश्यक आहे जास्तीत जास्त विजयजेव्हा दुसरा त्याच्या रणनीतीला चिकटून राहतो. त्याच वेळी, दुसरा खेळाडू असणे आवश्यक आहे किमान नुकसानजर माजी त्याच्या धोरणाला चिकटून राहिला. अशा धोरणांना इष्टतम म्हणतात. उद्देश गेम थिअरी म्हणजे प्रत्येक खेळाडूसाठी इष्टतम धोरण ठरवणे... इष्टतम रणनीती निवडताना, दोन्ही खेळाडू त्यांच्या हितसंबंधांच्या दृष्टिकोनातून वाजवीपणे वागतात असे गृहीत धरणे स्वाभाविक आहे.

पेमेंट मॅट्रिक्स. खालच्या आणि वरच्या खेळाच्या किमती

पेअर एंड गेमचा विचार करा. खेळाडू द्या आहे मीवैयक्तिक धोरणे, जी आम्ही नियुक्त करू A 1, A 2, ..., A मी.खेळाडू द्या बीतेथे आहे nवैयक्तिक धोरणे, त्यांना नियुक्त करूया B 1, B 2, ..., B n.ते म्हणतात की खेळाला एक आयाम आहे m ´ n... रणनीतींच्या कोणत्याही जोडीच्या खेळाडूंच्या निवडीचा परिणाम म्हणून अ iआणि ब जखेळाचा निकाल विशिष्टपणे निर्धारित केला जातो, म्हणजे मिळवणे एक ijखेळाडू (सकारात्मक किंवा नकारात्मक) आणि नुकसान (- एक ij) खेळाडू व्ही... मॅट्रिक्स Р = (a ij), ज्याचे घटक धोरणांशी संबंधित पेऑफ आहेत अ iआणि ब जअसे म्हणतात पेमेंट मॅट्रिक्सकिंवा गेम मॅट्रिक्स.

ब ज अ i ब १ ब २ ब एन
अ १ अ 11 एक 12 a 1n
A 2 एक 21 एक 22 एक 2n
आहे एक m1 a m 2 एक mn

उदाहरण - गेम "शोध"

खेळाडू वॉल्ट 1 मध्ये लपवू शकतो - आम्ही ही रणनीती म्हणून नियुक्त करू अ १किंवा तिजोरी 2 मध्ये - धोरण A 2... खेळाडू व्हीव्हॉल्ट 1 मध्ये पहिला खेळाडू शोधू शकतो - रणनीती 1 मध्ये, किंवा वॉल्ट 2 मध्ये - धोरण 2 मध्ये... जर खेळाडू तिजोरी 1 मध्ये आहे आणि खेळाडूने तेथे शोधला आहे व्ही, म्हणजे काही धोरणे राबवली जातात (अ १, ब १), नंतर खेळाडू दंड भरतो, म्हणजे अ 11= -1. त्याचप्रमाणे, आम्ही प्राप्त करतो एक 22= -1. अर्थात, धोरणे (A 1, B 2)आणि (A 2, B 1)खेळाडू द्या पेऑफ 1 आहे, म्हणून एक 12=एक 21= 1. अशा प्रकारे, आम्हाला पेमेंट मॅट्रिक्स मिळते

खेळाचा विचार करा m ´ nमॅट्रिक्स सह Р = (a ij)आणि खेळाडूच्या रणनीतींपैकी सर्वोत्तम ठरवा ... रणनीती निवडत आहे अ i, खेळाडू हे खेळाडूने मानले पाहिजे व्हीएका रणनीतीचे उत्तर देईल मध्ये जेज्यासाठी खेळाडूला फायदा होतो किमान (खेळाडू व्हीखेळाडूला "हानी" करण्याचा प्रयत्न करतो ).

द्वारे सूचित करूया a iखेळाडूचा सर्वात लहान मोबदला धोरण निवडताना अ iसर्व संभाव्य खेळाडू धोरणांसाठी व्ही(मधील सर्वात लहान संख्या iपेमेंट मॅट्रिक्सची -वी पंक्ती), म्हणजे ...

सर्व संख्यांमध्ये a iसर्वात मोठे निवडा:. चला ए कॉल करूया खेळाची खालची किंमत , किंवा जास्तीत जास्त विजय (जास्तीत जास्त ). ते खेळाडू B च्या कोणत्याही रणनीतीसाठी खेळाडू A चे हमी दिलेले मोबदला... त्यामुळे, .

मॅक्सिमिनशी संबंधित धोरण म्हणतात जास्तीत जास्त धोरण... खेळाडू व्हीखेळाडूचे विजय कमी करण्यात स्वारस्य आहे ; एक धोरण निवडत आहे ब ज, ते A. Denote साठी जास्तीत जास्त संभाव्य लाभ विचारात घेते.

सर्व क्रमांकांपैकी, आम्ही सर्वात लहान निवडतो आणि कॉल करतो b खेळाची सर्वोच्च किंमत , किंवा minimax विजय (minimax ). ते खेळाडू A च्या कोणत्याही रणनीतीसाठी खेळाडू B च्या नुकसानाची हमी... त्यामुळे, .

मिनिमॅक्सशी संबंधित धोरण म्हणतात minimax धोरण... खेळाडूंना अत्यंत सावधगिरीने मिनिमॅक्स आणि मॅक्सिमिन रणनीती निवडण्याची आज्ञा देणारे तत्व म्हणतात. किमान तत्त्व.

सांख्यिकी खेळ

अनेक कार्यांमध्ये ज्याच्यामुळे कृती केली जाते त्या परिस्थितीबद्दल माहिती नसल्यामुळे अनिश्चितता निर्माण होते. या परिस्थिती दुसर्‍या खेळाडूच्या सजग कृतींवर अवलंबून नसून वस्तुनिष्ठ वास्तवावर अवलंबून असतात, ज्याला सामान्यतः "निसर्ग" म्हणतात. अशा खेळांना निसर्ग खेळ (सांख्यिकीय खेळ) म्हणतात.

कार्य

अनेक वर्षांच्या ऑपरेशननंतर, औद्योगिक उपकरणे खालीलपैकी एका स्थितीत असल्याचे दिसून येते: बी 1 - प्रतिबंधात्मक देखभाल केल्यानंतर पुढील वर्षात उपकरणे वापरली जाऊ शकतात; В 2 - उपकरणांच्या त्रास-मुक्त ऑपरेशनसाठी, त्याचे वैयक्तिक भाग आणि असेंब्ली भविष्यात बदलल्या पाहिजेत; बी 3 - उपकरणांना मोठी दुरुस्ती किंवा बदली आवश्यक आहे.

सध्याच्या परिस्थितीनुसार, B 1, B 2, B 3, एंटरप्राइझचे व्यवस्थापन खालील निर्णय घेऊ शकते: A 1 - फॅक्टरी तज्ञांकडून उपकरणे दुरुस्त करण्यासाठी, ज्यासाठी 1 = 6, a 2 = 10 संबंधित खर्च आवश्यक आहेत , आणि 3 = 15 आर्थिक एकके ; आणि 2 - दुरुस्ती करणार्‍यांच्या विशेष टीमला कॉल करा, या प्रकरणात खर्च b 1 = 15, b 2 = 9, b 3 = 18 आर्थिक युनिट्स असतील; आणि 3 - उपकरणे नवीनसह बदलण्यासाठी, कालबाह्य उपकरणे त्याच्या अवशिष्ट मूल्यावर विकणे. या क्रियाकलापाच्या परिणामांची एकूण किंमत अनुक्रमे 1 = 13, 2 = 24 सह, 3 = 12 आर्थिक युनिट्ससह समान असेल.

व्यायाम

1. वर्णन केलेल्या परिस्थितीला गेम स्कीम देऊन, त्यातील सहभागी ओळखा, पक्षांची संभाव्य शुद्ध धोरणे दर्शवा.

2. एक पेमेंट मॅट्रिक्स बनवा, घटकांचा अर्थ मॅट्रिक्सचा ij समजावून सांगा (ते ऋण का आहेत?).

3. पुढील वर्षात उपकरणांच्या ऑपरेशनवर कोणता निर्णय घेतला जाईल हे शोधण्यासाठी एंटरप्राइझच्या व्यवस्थापनास खालील गृहीतकांनुसार तोटा कमी करण्यासाठी शिफारस करणे उचित आहे: अ) समान उपकरणे चालवताना एंटरप्राइझला मिळालेला अनुभव दर्शवितो उपकरणांच्या सूचित अवस्थांच्या संभाव्यता अनुक्रमे q 1 = 0.15 आहेत; q 2 = 0.55; q 3 = 0.3 (बेस निकष लागू करा); b) अनुभव दर्शवितो की उपकरणाच्या सर्व तीन संभाव्य अवस्था समान संभाव्य आहेत (लॅप्लेस निकष लागू करा); c) उपकरणांच्या संभाव्यतेबद्दल निश्चितपणे काहीही सांगितले जाऊ शकत नाही (वाल्ड, सेवेज, हर्विट्झचे निकष लागू करा). Hurwitz निकषात g = 0.8 या पॅरामीटरचे मूल्य दिले आहे.

उपाय

1) वर्णन केलेली परिस्थिती एक सांख्यिकीय खेळ आहे.

सांख्यिकीशास्त्रज्ञ एंटरप्राइझचे व्यवस्थापन आहे, जे खालीलपैकी एक निर्णय घेऊ शकतात: उपकरणे स्वतःच दुरुस्त करा (रणनीती A1), दुरुस्ती करणार्‍यांना कॉल करा (रणनीती A2); उपकरणे नवीनसह बदला (रणनीती A 3).

दुसरी खेळण्याची बाजू - निसर्ग, आम्ही उपकरणांच्या स्थितीवर परिणाम करणाऱ्या घटकांच्या संचाचा विचार करू: प्रतिबंधात्मक दुरुस्तीनंतर उपकरणे वापरली जाऊ शकतात (राज्य बी 1); वैयक्तिक असेंब्ली आणि उपकरणांचे भाग बदलणे आवश्यक आहे (राज्य बी 2): आवश्यक दुरुस्तीकिंवा उपकरणे बदलणे (राज्य B 3).

2) चला खेळाचे पेमेंट मॅट्रिक्स तयार करूया:

पेमेंट मॅट्रिक्स a ij चा घटक एंटरप्राइझच्या व्यवस्थापनाची किंमत दर्शवितो, जर निवडलेल्या धोरण A i सह, उपकरणे B j स्थितीत असल्याचे दिसून आले. पेमेंट मॅट्रिक्सचे घटक नकारात्मक आहेत, कारण कोणत्याही निवडलेल्या धोरणासाठी, एंटरप्राइझच्या व्यवस्थापनास खर्च सहन करावा लागेल.

अ) एंटरप्राइझमध्ये उपकरणांप्रमाणेच कार्य करण्यासाठी मिळालेला अनुभव दर्शवितो की उपकरणांच्या स्थितीची संभाव्यता q 1 = 0.15 च्या समान आहे; q 2 = 0.55; q 3 = 0.3.

आम्ही फॉर्ममध्ये पेमेंट मॅट्रिक्सचे प्रतिनिधित्व करतो:

धोरण आकडेवारी, A i निसर्गाची अवस्था B j
ब १ ब २ ब ३
अ १ -6 -10 -15 -10,9
A 2 -15 -9 -18 -12,6
A 3 -13 -24 -12 -18,75
q ज 0,15 0,55 0,3

कुठे, (i = 1,3)

बेयसच्या निकषानुसार, इष्टतम धोरण म्हणजे शुद्ध धोरण А i, जे सांख्यिकीशास्त्रज्ञाचे सरासरी मोबदला वाढवते, म्हणजे. प्रदान = कमाल.

इष्टतम बायेसियन रणनीती A 1 आहे.

b) उपलब्ध अनुभव सूचित करतो की उपकरणाच्या सर्व तीन संभाव्य अवस्था समान संभाव्य आहेत, म्हणजे. = 1/3.

सरासरी विजय समान आहेत:

1/3 * (- 6-10-15) = -31/3 "-10.33;

1/3*(-15-9-18) = -42/3 = -14;

1/3 * (- 13-24-12) = -49/3 "-16.33.

इष्टतम Laplace धोरण रणनीती A 1 आहे.

c) उपकरणांच्या संभाव्यतेबद्दल निश्चितपणे काहीही सांगितले जाऊ शकत नाही.

वाल्डच्या निकषानुसार, इष्टतम धोरण हे शुद्ध धोरण मानले जाते जे सर्वात वाईट परिस्थितीत जास्तीत जास्त मोबदल्याची हमी देते, उदा.

.

= कमाल (-15, -18, -24) = -15.

अशा प्रकारे, इष्टतम धोरण А 1 आहे.

चला जोखीम मॅट्रिक्स तयार करू, कुठे.

खेळाडूची रणनीती ही एक योजना असते ज्यानुसार तो कोणत्याही संभाव्य परिस्थितीत आणि कोणत्याही संभाव्य तथ्यात्मक माहितीसह निवड करतो. साहजिकच, खेळादरम्यान खेळाडू निर्णय घेतो. तथापि, सिद्धांतानुसार, असे गृहीत धरले जाऊ शकते की हे सर्व निर्णय खेळाडूने आगाऊ घेतले होते. मग या निर्णयांची संपूर्णता त्याची रणनीती बनवते. संभाव्य रणनीतींच्या संख्येवर अवलंबून, गेम मर्यादित आणि अनंत मध्ये विभागले गेले आहेत. खेळाच्या सिद्धांताचे कार्य म्हणजे खेळाडूंसाठी शिफारसी विकसित करणे, म्हणजेच त्यांच्यासाठी इष्टतम धोरण निश्चित करणे. इष्टतम रणनीती ही एक अशी रणनीती आहे जी गेमच्या अनेक पुनरावृत्तीसह, दिलेल्या खेळाडूला जास्तीत जास्त संभाव्य सरासरी मोबदला प्रदान करते.

स्ट्रॅटेजिक गेमचा सर्वात सोपा प्रकार म्हणजे शून्य बेरीजसह दोन खेळाडूंचा खेळ (पक्षांच्या विजयाची बेरीज शून्य समान आहे). गेममध्ये दोन चाली असतात: खेळाडू A त्याच्या संभाव्य रणनीतींपैकी एक Ai (i = 1, 2, m) निवडतो आणि खेळाडू B नी Bj (j = 1, 2,., N) रणनीती निवडतो आणि प्रत्येक निवड यासह केली जाते दुसऱ्या खेळाडूच्या निवडीबाबत पूर्ण अज्ञान.

खेळाडू A चे उद्दिष्ट फंक्शन φ (Ai, Bj) कमाल करणे हे आहे, त्या बदल्यात, खेळाडू B चे ध्येय समान कार्य कमी करणे आहे. प्रत्येक खेळाडू एक व्हेरिएबल निवडू शकतो ज्यावर फंक्शनचे मूल्य अवलंबून असते. जर खेळाडू A ने काही धोरण Ai निवडले, तर हे स्वतःच फंक्शन φ (Ai, Bj) च्या मूल्यावर प्रभाव टाकू शकत नाही.

φ (Ai, Bj) मूल्याच्या मूल्यावर Ai चा प्रभाव अनिश्चित आहे; व्हेरिएबल Bj च्या दुसर्‍या प्लेअरद्वारे, मिनिमायझेशन φ (Ai, Bj) च्या तत्त्वावर आधारित निवडीनंतरच निश्चितता होते. या प्रकरणात, Bj दुसर्या खेळाडूद्वारे निर्धारित केला जातो. चला φ (Ai, Bj) = aij. चला मॅट्रिक्स A तयार करूया:

मॅट्रिक्सच्या पंक्ती Ai धोरणांशी संबंधित आहेत, स्तंभ Bj धोरणांशी संबंधित आहेत. मॅट्रिक्स A ला पेमेंट किंवा गेम मॅट्रिक्स म्हणतात. मॅट्रिक्सचा घटक aij हा खेळाडू A चा मोबदला आहे जर त्याने Ai धोरण निवडले आणि खेळाडू B ने Bj धोरण निवडले.

खेळाडू A ला काही धोरण A निवडू द्या; मग सर्वात वाईट परिस्थितीत (उदा. निवड झाल्यास खेळाडूला माहीत आहेक) त्याला किमान आयजेएवढे मोबदला मिळेल. अशा शक्यतेचा अंदाज घेऊन, खेळाडू A ने त्याचा किमान मोबदला वाढवण्यासाठी अशी रणनीती निवडणे आवश्यक आहे:

a = कमाल किमान aij

मूल्य a - खेळाडू A चे हमी दिलेले मोबदला - याला गेमची कमी किंमत म्हणतात. Аi0 रणनीती, जी a मिळवण्याची खात्री देते, त्याला मॅक्सिमिन म्हणतात.

खेळाडू बी, रणनीती निवडताना, खालील तत्त्वानुसार पुढे जातो: विशिष्ट रणनीती Bj निवडताना, त्याचे नुकसान मॅट्रिक्सच्या j-th स्तंभातील घटकांच्या कमाल मूल्यांपेक्षा जास्त होणार नाही, म्हणजे. कमाल aij पेक्षा कमी किंवा समान

साठी सेट कमाल aij लक्षात घेता भिन्न अर्थ j, खेळाडू B नैसर्गिकरित्या j चे असे मूल्य निवडतो ज्यामध्ये त्याचे जास्तीत जास्त नुकसान β कमी केले जाते:

β = min miax aij

मूल्य β ला गेमची वरची किंमत म्हणतात आणि पेऑफ β शी संबंधित Bj0 धोरणाला minimax म्हणतात.

भागीदारांच्या वाजवी कृतींसह खेळाडू A चा वास्तविक नफा खालच्या आणि वरच्या खेळाच्या किमतींद्वारे मर्यादित आहे. जर हे अभिव्यक्ती समान असतील, म्हणजे.

गेम थिअरी ही एक गणितीय शिस्त आहे, ज्याचा विषय संघर्षाच्या परिस्थितीत निर्णय घेण्याच्या पद्धती आहे.

परिस्थिती म्हणतात संघर्षजर अनेक (सामान्यत: दोन) व्यक्तींचे हित, विरुद्ध ध्येयांचा पाठलाग करत असेल तर त्यात टक्कर आली. प्रत्येक बाजू आपले ध्येय साध्य करण्यासाठी अनेक क्रियाकलाप करू शकते, एका बाजूचे यश म्हणजे दुसर्‍याचे अपयश.

अर्थशास्त्रात, संघर्ष परिस्थिती अतिशय सामान्य आहे (पुरवठादार आणि ग्राहक, खरेदीदार आणि विक्रेता, बँकर आणि ग्राहक यांच्यातील संबंध). इतर अनेक भागातही संघर्षाच्या घटना घडतात.

भागीदारांच्या हितसंबंधांमधील फरक आणि त्यांच्यापैकी प्रत्येकाच्या इष्टतम निर्णय घेण्याच्या इच्छेमुळे संघर्षाची परिस्थिती निर्माण होते जी निर्धारित उद्दिष्टे सर्वात जास्त प्रमाणात पूर्ण करतात. या प्रकरणात, प्रत्येकाने केवळ त्यांच्या स्वतःच्या उद्दिष्टांचाच नव्हे तर भागीदाराच्या उद्दिष्टांचा देखील विचार केला पाहिजे आणि भागीदार जे निर्णय घेतील त्या अगोदर अज्ञात निर्णय विचारात घ्या.

सहसा, अनेक दुय्यम घटकांमुळे संघर्षाच्या परिस्थितीचे थेट विश्लेषण करणे कठीण असते. संघर्षाच्या परिस्थितीचे गणितीय विश्लेषण शक्य करण्यासाठी, केवळ मुख्य घटक लक्षात घेऊन ते सोपे केले पाहिजे. संघर्षाच्या परिस्थितीचे एक सरलीकृत औपचारिक मॉडेल म्हणतात खेळ, संघर्षातील पक्ष - खेळाडू, आणि संघर्षाचा परिणाम आहे विजयसामान्यतः, नफा (किंवा तोटा) परिमाण करता येतो; उदाहरणार्थ, तुम्ही शून्य म्हणून नुकसान, एक नफा आणि 1/2 असा ड्रॉचा अंदाज लावू शकता.

खेळ एक संग्रह आहे नियमखेळाडूंच्या वर्तनाचे वर्णन करणे. सुरुवातीपासून शेवटपर्यंत काही विशिष्ट प्रकारे गेम खेळण्याचे प्रत्येक उदाहरण आहे खेळाची पार्टी.नियमांद्वारे प्रदान केलेल्या कृतींपैकी एकाची निवड आणि अंमलबजावणी म्हणतात हलवाखेळाडू हालचाली वैयक्तिक किंवा यादृच्छिक असू शकतात. वैयक्तिक चालसंभाव्य कृतींपैकी एकाच्या खेळाडूची जाणीवपूर्वक निवड आहे (उदाहरणार्थ, बुद्धिबळ खेळातील चाल). यादृच्छिक हालचाल- ही देखील अनेक पर्यायांपैकी एकाची निवड आहे, परंतु येथे पर्याय खेळाडूद्वारे निवडला जात नाही, परंतु यादृच्छिक निवडीच्या काही यंत्रणेद्वारे (नाणी फेकणे, शफल केलेल्या डेकमधून कार्ड निवडणे) निवडले जाते.

रणनीतीखेळाडू हा नियमांचा एक संच आहे जो वर्तमान परिस्थितीनुसार प्रत्येक वैयक्तिक हालचालीसाठी त्याच्या कृतीची निवड निर्धारित करतो.



जर गेममध्ये केवळ वैयक्तिक चालींचा समावेश असेल, तर प्रत्येक खेळाडूने स्वतःची रणनीती निवडली असल्यास गेमचा निकाल निश्चित केला जातो. तथापि, जर गेममध्ये यादृच्छिक चाली असतील, तर गेम संभाव्य असेल आणि खेळाडूंच्या रणनीतींची निवड अद्याप गेमचा परिणाम निश्चित करणार नाही.

ला ठरवाखेळ, किंवा गेमवर उपाय शोधण्यासाठी, प्रत्येक खेळाडूसाठी अशी रणनीती निवडली पाहिजे जी परिस्थिती पूर्ण करेल इष्टतमता,त्या खेळाडूंपैकी एकाने प्राप्त करणे आवश्यक आहे जास्तीत जास्त विजय,जेव्हा दुसरा त्याच्या रणनीतीला चिकटून राहतो. त्याच वेळी, दुसरा खेळाडू असणे आवश्यक आहे किमान नुकसानजर माजी त्याच्या धोरणाला चिकटून राहिला. अशा धोरणांना इष्टतम म्हणतात. इष्टतम धोरणांनी स्थिरता स्थिती पूर्ण करणे आवश्यक आहे, उदा. या खेळातील कोणत्याही खेळाडूने आपली रणनीती सोडून देणे फायदेशीर नसावे.

प्रत्येक खेळाडूसाठी इष्टतम रणनीती निश्चित करणे हे गेम थिअरीचे ध्येय आहे.

पेअर एंड गेमचा विचार करा. खेळाडू द्या आहे मी वैयक्तिक धोरणे, जी आम्ही नियुक्त करू अ १ , A 2 , ..., आहे ... खेळाडू द्या व्ही तेथे आहे n वैयक्तिक धोरणे, त्यांना नियुक्त करूया ब १ , ब २ , ..., ब मी ... ते म्हणतात की खेळाला एक आयाम आहे m × n ... रणनीतींच्या कोणत्याही जोडीच्या खेळाडूंच्या निवडीचा परिणाम म्हणून



A i आणि B j (i = 1, 2, ..., m; j = 1, 2, ..., n)

खेळाचा निकाल विशिष्टपणे निर्धारित केला जातो, म्हणजे मिळवणे एक ij खेळाडू (सकारात्मक किंवा नकारात्मक) आणि नुकसान ( - एक ij ) खेळाडू व्ही ... मूल्ये समजा OU रणनीतींच्या कोणत्याही जोडीसाठी ओळखले जाते (A i, B j ). मॅट्रिक्स , ज्याचे घटक धोरणांशी संबंधित पेऑफ आहेत अ i आणि ब ज असे म्हणतात पेमेंट मॅट्रिक्सकिंवा गेम मॅट्रिक्स. सामान्य फॉर्मअसे मॅट्रिक्स तक्ता 3.1 मध्ये सादर केले आहे.

तक्ता 3.1

या सारणीच्या पंक्ती खेळाडूच्या रणनीतीशी सुसंगत आहेत , आणि स्तंभ खेळाडूच्या धोरणांसाठी आहेत व्ही ... पुढील गेमसाठी पेमेंट मॅट्रिक्स तयार करूया.

खेळाचा विचार करा m × n मॅट्रिक्स सह P = (a ij), i = 1, 2, ..., m; j = 1, 2, ..., n आणि रणनीतींमधील सर्वोत्तम ठरवा अ १ , A 2 , ..., आहे ... रणनीती निवडत आहे अ i खेळाडू हे खेळाडूने मानले पाहिजे व्ही एका रणनीतीचे उत्तर देईल ब ज ज्यासाठी खेळाडूला फायदा होतो किमान (खेळाडू व्ही खेळाडूला "हानी" करण्याचा प्रयत्न करतो ). द्वारे सूचित करूया α i , खेळाडूचा सर्वात लहान मोबदला धोरण निवडताना अ i सर्व संभाव्य खेळाडू धोरणांसाठी व्ही (मधील सर्वात लहान संख्या iपेमेंट मॅट्रिक्सची -वी पंक्ती), म्हणजे

मॅक्सिमिनशी संबंधित धोरण म्हणतात जास्तीत जास्त धोरण... खेळाडू व्ही खेळाडूचे विजय कमी करण्यात स्वारस्य आहे ; एक धोरण निवडत आहे ब ज , यासाठी जास्तीत जास्त संभाव्य नफा विचारात घेतला जातो ... आम्ही सूचित करतो

मिनिमॅक्सशी संबंधित असलेल्या रणनीतीला मिनिमॅक्स स्ट्रॅटेजी म्हणतात. खेळाडूंना सर्वात "काळजीपूर्वक" मिनिमॅक्स आणि मॅक्सिमिन रणनीती निवडण्याचे आदेश देणारे तत्व म्हणतात. किमान तत्त्व... प्रत्येक खेळाडू शत्रूच्या विरुद्ध ध्येय साध्य करण्याचा प्रयत्न करतो या वाजवी गृहीतकावरून हे तत्त्व पुढे आले आहे. गेमच्या खालच्या आणि वरच्या किमती आणि समस्येतील संबंधित धोरणे ठरवू या.

जर वरच्या आणि खालच्या खेळाच्या किमती समान असतील तर एकूण मूल्यशीर्ष आणि तळाची किंमतखेळ α = β = v म्हणतात खेळाची शुद्ध किंमत , किंवा खेळाच्या किंमतीवर ... गेमच्या किंमतीशी संबंधित मिनिमॅक्स धोरणे आहेत इष्टतम धोरणे, आणि त्यांची संपूर्णता आहे इष्टतम उपाय , किंवा खेळ निर्णय... या प्रकरणात, खेळाडू जास्तीत जास्त हमी मिळते (खेळाडूच्या वर्तनापासून स्वतंत्र व्ही ) विजय वि आणि खेळाडू व्ही किमान हमी मिळवते (खेळाडूच्या वर्तनाची पर्वा न करता ) गमावणे वि ... खेळावर उपाय आहे असे म्हणतात टिकाव , म्हणजे जर खेळाडूंपैकी एकाने त्याच्या इष्टतम रणनीतीचे पालन केले तर दुसऱ्याला त्याच्या इष्टतम रणनीतीपासून दूर जाणे फायदेशीर ठरू शकत नाही.

जोडी स्वच्छ धोरणे अ i आणि ब ज जर आणि फक्त संबंधित घटक असेल तर गेमला इष्टतम समाधान देते एक ij , त्‍याच्‍या स्‍तंभमध्‍ये सर्वात मोठा आणि त्‍याच्‍या पंक्तीमध्‍ये सर्वात लहान आहे. अशी परिस्थिती, जर ती अस्तित्वात असेल, तर म्हणतात खोगीर बिंदू (काठीच्या पृष्ठभागासारखे जे एका दिशेने वर आणि दुसऱ्या दिशेने खाली वळते).

इन्व्हेंटरी मॅनेजमेंट मॉडेलच्या मूलभूत संकल्पना.

व्यवसाय आणि उत्पादन या दोन्हीमध्ये, सातत्य सुनिश्चित करण्यासाठी भौतिक संसाधने किंवा घटकांची वाजवी यादी राखणे ही सामान्य गोष्ट आहे. उत्पादन प्रक्रिया... पारंपारिकपणे, स्टॉकला अपरिहार्य किंमत म्हणून पाहिले जाते जेव्हा खूप कमी पातळीमुळे महाग उत्पादन व्यत्यय येतो आणि खूप जास्त "सुन्न" भांडवल होते. इन्व्हेंटरी मॅनेजमेंटसाठी आव्हान म्हणजे इन्व्हेंटरीची पातळी निश्चित करणे जे दोन नमूद केलेल्या एज केसेसमध्ये संतुलित करते.

चला इन्व्हेंटरी मॅनेजमेंट मॉडेल्सच्या मुख्य वैशिष्ट्यांचा विचार करूया.

मागणी... साठवलेल्या उत्पादनाला मागणी असू शकते निर्धारवादी(सोप्या बाबतीत, वेळेत स्थिर) किंवा यादृच्छिकमागणीच्या यादृच्छिकतेचे वर्णन एकतर मागणीच्या यादृच्छिक क्षणाद्वारे किंवा वेळेच्या निर्धारवादी किंवा यादृच्छिक क्षणी मागणीच्या यादृच्छिक प्रमाणाद्वारे केले जाते.

गोदाम पुन्हा भरणे.गोदामांची भरपाई एकतर ठराविक अंतराने किंवा साठा संपुष्टात आल्याने करता येते, उदा. त्यांना एका विशिष्ट स्तरावर कमी करणे.

ऑर्डर व्हॉल्यूम.नियतकालिक भरपाई आणि स्टॉकची आकस्मिक घट यामुळे, ऑर्डरची मात्रा ऑर्डर देताना पाळलेल्या स्थितीवर अवलंबून असू शकते. जेव्हा स्टॉक दिलेल्या स्तरावर पोहोचतो तेव्हा ऑर्डर सामान्यतः समान रकमेसाठी सबमिट केली जाते - तथाकथित ऑर्डरचे मुद्दे.

वितरणाची वेळ.आदर्शीकृत इन्व्हेंटरी मॅनेजमेंट मॉडेल्समध्ये, असे गृहीत धरले जाते की ऑर्डर केलेली भरपाई त्वरित स्टोअरमध्ये वितरित केली जाते. इतर मॉडेल्स एका निश्चित किंवा यादृच्छिक वेळेच्या अंतरासाठी डिलिव्हरीच्या विलंबाचा विचार करतात.

वितरण खर्च.नियमानुसार, असे गृहीत धरले जाते की प्रत्येक वितरणाची किंमत दोन घटकांनी बनलेली असते - एक-वेळची किंमत जी ऑर्डर केलेल्या बॅचच्या व्हॉल्यूमवर अवलंबून नसते आणि बॅचच्या आकारावर (बहुतेकदा रेषीय) अवलंबून असते.

स्टोरेज खर्च.इन्व्हेंटरी मॅनेजमेंटच्या बर्‍याच मॉडेल्समध्ये, वेअरहाऊसचे व्हॉल्यूम व्यावहारिकदृष्ट्या अमर्यादित मानले जाते आणि संग्रहित इन्व्हेंटरीचे व्हॉल्यूम एक नियंत्रण मूल्य म्हणून काम करते. या प्रकरणात, असे मानले जाते की वेळेच्या प्रत्येक युनिटच्या स्टॉकच्या प्रत्येक युनिटच्या स्टोरेजसाठी विशिष्ट शुल्क आकारले जाते.

कमतरतेचा दंड.कोणतीही गोदाम टंचाई टाळण्यासाठी तयार केली जाते एका विशिष्ट प्रकारच्यासेवा प्रणालीमधील उत्पादने. योग्य वेळी स्टॉक नसल्यामुळे उपकरणे डाउनटाइम, उत्पादनातील अनियमितता इत्यादींशी संबंधित नुकसान होते. हे नुकसान म्हणतात तूट दंड.

स्टॉक नामांकन.सर्वात सोप्या प्रकरणांमध्ये, असे गृहीत धरले जाते की समान प्रकारच्या उत्पादनाचा साठा किंवा एकसंध उत्पादन गोदामात साठवले जाते. अधिक मध्ये कठीण प्रकरणेची दखल घेतली आहे वैविध्यपूर्ण स्टॉक.

वेअरहाऊस सिस्टमची रचना.सर्वात पूर्ण विकसित गणिती मॉडेलसिंगल स्लेड. तथापि, सराव मध्ये, अधिक जटिल संरचना देखील आहेत: गुलामांच्या पदानुक्रमित प्रणाली ज्यामध्ये वेगवेगळ्या कालावधीची पूर्तता आणि ऑर्डरच्या वितरणाची वेळ असते, समान पदानुक्रम पातळीच्या गोदामांमध्ये स्टॉकची देवाणघेवाण करण्याची शक्यता असते इ.

दत्तक इन्व्हेंटरी व्यवस्थापन धोरणाच्या परिणामकारकतेचा निकष आहे खर्च कार्य (खर्च),स्टॉक केलेल्या उत्पादनाच्या पुरवठ्याची एकूण किंमत, त्याची साठवण आणि दंडाची किंमत दर्शविते.

इन्व्हेंटरी मॅनेजमेंटमध्ये इन्व्हेंटरीसह भरपाई आणि उपभोगाची अशी रणनीती शोधणे समाविष्ट असते, ज्यामध्ये किमतीचे कार्य किमान मूल्य घेते.

फंक्शन्स आणि अनुक्रमे व्यक्त करू द्या:

स्टॉकची भरपाई,

इन्व्हेंटरीचा वापर,

साठवलेल्या उत्पादनाची मागणी

काही कालावधीसाठी.

इन्व्हेंटरी मॅनेजमेंट मॉडेल्समध्ये, या फंक्शन्सचे टाइम डेरिव्हेटिव्ह सहसा वापरले जातात,, म्हणतात, अनुक्रमे,

खेळ म्हणतात शून्य बेरीज खेळ, किंवा विरोधीजर खेळाडूंपैकी एकाचा फायदा दुसर्‍याच्या तोट्याइतका असेल, म्हणजे. गेमच्या संपूर्ण कार्यासाठी, त्यापैकी एकाचे मूल्य दर्शविणे पुरेसे आहे. जर आपण सूचित केले तर a- खेळाडूंपैकी एकाचा विजय, b- दुसऱ्याचे मोबदला, नंतर शून्य-सम गेमसाठी b = - a, म्हणून विचार करणे पुरेसे आहे, उदाहरणार्थ, a.

नियमांद्वारे प्रदान केलेल्या कृतींपैकी एकाची निवड आणि अंमलबजावणी म्हणतात हलवाखेळाडू हालचाली वैयक्तिक किंवा यादृच्छिक असू शकतात.

वैयक्तिक चालसंभाव्य कृतींपैकी एकाच्या खेळाडूची जाणीवपूर्वक निवड आहे (उदाहरणार्थ, बुद्धिबळ खेळातील चाल).

यादृच्छिक हालचालही यादृच्छिकपणे निवडलेली क्रिया आहे (उदाहरणार्थ, शफल केलेल्या डेकमधून कार्ड निवडणे). माझ्या कामात मी फक्त खेळाडूंच्या वैयक्तिक चालींचा विचार करेन.

रणनीतीखेळाडू हा नियमांचा एक संच असतो जो सध्याच्या परिस्थितीनुसार प्रत्येक वैयक्तिक हालचालीसाठी त्याच्या कृतीची निवड निर्धारित करतो. सहसा, खेळादरम्यान, प्रत्येक वैयक्तिक हालचालीसह, खेळाडू विशिष्ट परिस्थितीनुसार निवड करतो. तथापि, तत्त्वतः, हे शक्य आहे की सर्व निर्णय खेळाडूने आगाऊ घेतले आहेत (उद्भवलेल्या कोणत्याही परिस्थितीला प्रतिसाद म्हणून). याचा अर्थ खेळाडूने एक विशिष्ट धोरण निवडले आहे, जे नियमांच्या सूचीच्या स्वरूपात किंवा प्रोग्रामच्या स्वरूपात सेट केले जाऊ शकते. (अशा प्रकारे तुम्ही संगणकावर गेम खेळू शकता). खेळ म्हणतात अंतिमजर प्रत्येक खेळाडूकडे धोरणांची मर्यादित संख्या असेल, आणि अंतहीन- अन्यथा.

गेम सोडवण्यासाठी किंवा गेमवर उपाय शोधण्यासाठी, प्रत्येक खेळाडूने परिस्थिती पूर्ण करणारी रणनीती निवडणे आवश्यक आहे. इष्टतमता, म्हणजे खेळाडूंपैकी एकाने प्राप्त करणे आवश्यक आहे जास्तीत जास्त विजयजेव्हा दुसरा त्याच्या रणनीतीला चिकटून राहतो. त्याच वेळी, दुसरा खेळाडू असणे आवश्यक आहे किमान नुकसानजर माजी त्याच्या धोरणाला चिकटून राहिला. अशा धोरणम्हटले जाते इष्टतम... इष्टतम धोरण देखील समाधानी पाहिजे स्थिरता स्थिती, म्हणजे या खेळातील कोणत्याही खेळाडूने आपली रणनीती सोडून देणे फायदेशीर नसावे.

गेम थिअरीचा उद्देश: प्रत्येक खेळाडूसाठी इष्टतम रणनीतीचे निर्धारण. इष्टतम रणनीती निवडताना, दोन्ही खेळाडू त्यांच्या हितसंबंधांच्या दृष्टिकोनातून वाजवीपणे वागतात असे गृहीत धरणे स्वाभाविक आहे.

विरोधी खेळ ज्यामध्ये प्रत्येक खेळाडूकडे धोरणांचा मर्यादित संच असतो त्यांना म्हणतात मॅट्रिक्स खेळ... हे नाव या प्रकारच्या खेळांचे वर्णन करण्याच्या पुढील संभाव्यतेद्वारे स्पष्ट केले आहे. आम्ही एक आयताकृती सारणी काढतो ज्यामध्ये पंक्ती पहिल्या खेळाडूच्या रणनीतीशी संबंधित असतात, स्तंभ दुसऱ्याच्या रणनीतीशी संबंधित असतात आणि पंक्ती आणि स्तंभांच्या छेदनबिंदूवरील टेबलचे सेल गेमच्या परिस्थितीशी संबंधित असतात. . जर आपण प्रत्येक सेलमध्ये संबंधित परिस्थितीतील पहिल्या खेळाडूचे पेऑफ ठेवले तर आपल्याला काही मॅट्रिक्सच्या स्वरूपात गेमचे वर्णन मिळेल. या मॅट्रिक्सला म्हणतात गेम मॅट्रिक्सकिंवा पेऑफ मॅट्रिक्स.

एक आणि समान अंतिम विरोधी खेळाचे वर्णन वेगवेगळ्या मॅट्रिक्सद्वारे केले जाऊ शकते, फक्त पंक्ती आणि स्तंभांच्या क्रमाने एकमेकांपासून भिन्न.

खेळाचा विचार करा मी x n मॅट्रिक्स सह Р = (a ij), i = 1,2, ..., m; j = 1,2, ..., n आणि रणनीतींमधील सर्वोत्तम ठरवा A 1, A 2, ..., A मी... रणनीती निवडत आहे अ iखेळाडू हे खेळाडूने मानले पाहिजे व्हीएका रणनीतीचे उत्तर देईल ब जज्यासाठी खेळाडूला फायदा होतो किमान (खेळाडू व्हीखेळाडूला "हानी" करण्याचा प्रयत्न करतो ). द्वारे सूचित करूया a i, खेळाडूचा सर्वात लहान मोबदला धोरण निवडताना अ iसर्व संभाव्य खेळाडू धोरणांसाठी व्ही(मधील सर्वात लहान संख्या i-th पे मॅट्रिक्स पंक्ती), म्हणजे

a i = एक ij , j = 1, ..., n.

सर्व संख्यांमध्ये a i (i = 1,2, ..., m ) सर्वात मोठा निवडा. चला फोन करूया aखेळाची खालची किंमतकिंवा जास्तीत जास्त मोबदला (मॅक्सिमिन). हा खेळाडूसाठी हमखास विजय आहे. कोणत्याही खेळाडूच्या रणनीतीसाठी व्ही... म्हणून,, i = 1, ..., m; j = 1, ..., n

मॅक्सिमिनशी संबंधित धोरण म्हणतात जास्तीत जास्त धोरण... खेळाडू व्हीखेळाडूचे विजय कमी करण्यात स्वारस्य आहे ; एक धोरण निवडत आहे ब ज, यासाठी जास्तीत जास्त संभाव्य नफा विचारात घेतला जातो .

चला सूचित करूया: β i = एक ij , i = 1, ..., m

सर्व संख्यांमध्ये ब जसर्वात लहान निवडा आणि कॉल करा β खेळाची सर्वोच्च किंमतकिंवा minimax winnings (minimax). हे खेळाडूसाठी हमखास नुकसान आहे व्ही.

त्यामुळे, i = 1, ..., m; j = 1, ..., n.

मिनिमॅक्सशी संबंधित धोरण म्हणतात minimax धोरण.

खेळाडूंना सर्वात "काळजीपूर्वक" मिनिमॅक्स आणि मॅक्सिमिन रणनीती निवडण्याचे आदेश देणारे तत्व म्हणतात. किमान तत्त्व.प्रत्येक खेळाडू शत्रूच्या विरुद्ध ध्येय साध्य करण्याचा प्रयत्न करतो या वाजवी गृहीतकावरून हे तत्त्व पुढे आले आहे.

व्याख्यान ९.गेम मॉडेलची संकल्पना. पेमेंट मॅट्रिक्स.

§ 6 गेम सिद्धांताचे घटक

6.1 गेम मॉडेलची संकल्पना.

संघर्षाच्या परिस्थितीचे गणितीय मॉडेल म्हणतात खेळ , संघर्षातील पक्ष- खेळाडू, आणि संघर्षाचा परिणाम आहे विजय .

प्रत्येक औपचारिक खेळासाठी, आम्ही परिचय देतो नियम , त्या परिस्थितीची एक प्रणाली जी निर्धारित करते: 1) खेळाडूंच्या कृतींसाठी पर्याय; 2) भागीदारांच्या वर्तनाबद्दल प्रत्येक खेळाडूकडे असलेली माहिती; 3) प्रत्येक कृतीचा संच ज्याच्याकडे नेतो. सामान्यतः, नफा (किंवा तोटा) परिमाण करता येतो; उदाहरणार्थ, तुम्ही शून्य म्हणून नुकसान, एक नफा आणि 1/2 असा ड्रॉचा अंदाज लावू शकता. खेळाच्या निकालांचे परिमाणात्मक मूल्यांकन म्हणतात पेमेंट .

खेळ म्हणतात बाष्प कक्ष , त्यात दोन खेळाडू सहभागी झाल्यास, आणि एकाधिक , जर खेळाडूंची संख्या दोनपेक्षा जास्त असेल. आम्ही फक्त जोडलेल्या खेळांचा विचार करू. त्यात दोन खेळाडूंचा समावेश आहे आणि व्ही,ज्यांचे स्वारस्ये विरुद्ध आहेत, आणि खेळाचा अर्थ आपल्याला बाजूकडून क्रियांची मालिका आहे आणि व्ही.

खेळ म्हणतात शून्य बेरीज खेळ, किंवा विरोधी आकाश , जर खेळाडूंपैकी एकाचा फायदा दुसर्‍याच्या तोट्याइतका असेल, म्हणजे. दोन्ही पक्षांच्या विजयाची बेरीज शून्य इतकी आहे. गेमच्या संपूर्ण कार्यासाठी, त्यापैकी एकाचे मूल्य सूचित करणे पुरेसे आहे . जर आपण सूचित केले तर a- खेळाडूंपैकी एकाचा विजय, bदुसर्‍याचा मोबदला, नंतर शून्य-सम गेमसाठी b =a, म्हणून विचार करणे पुरेसे आहे, उदाहरणार्थ a

नियमांद्वारे प्रदान केलेल्या कृतींपैकी एकाची निवड आणि अंमलबजावणी म्हणतात हलवा खेळाडू हालचाली असू शकतात वैयक्तिक आणि यादृच्छिक . वैयक्तिक चाल संभाव्य कृतींपैकी एकाच्या खेळाडूची ही जाणीवपूर्वक निवड आहे (उदाहरणार्थ, बुद्धिबळाच्या खेळातील चाल). प्रत्येक वैयक्तिक हालचालीसाठी संभाव्य पर्यायांचा संच खेळाच्या नियमांद्वारे नियंत्रित केला जातो आणि दोन्ही बाजूंच्या मागील हालचालींच्या संपूर्ण संचावर अवलंबून असतो.

यादृच्छिक हालचाल ही एक यादृच्छिकपणे निवडलेली क्रिया आहे (उदाहरणार्थ, शफल केलेल्या डेकमधून कार्ड निवडणे). गेमची गणितीय व्याख्या होण्यासाठी, खेळाचे नियम प्रत्येक यादृच्छिक हालचालीसाठी सूचित केले पाहिजेत संभाव्यता वितरण संभाव्य परिणाम.

काही खेळांमध्ये फक्त यादृच्छिक चाल (तथाकथित पूर्णपणे जुगार) किंवा फक्त वैयक्तिक चाल (बुद्धिबळ, चेकर्स) असू शकतात. बहुतेक कार्ड गेम मिश्रित खेळ असतात, म्हणजेच त्यामध्ये यादृच्छिक आणि वैयक्तिक चाली दोन्ही असतात. भविष्यात आम्ही केवळ खेळाडूंच्या वैयक्तिक चालींचा विचार करू.

खेळांचे वर्गीकरण केवळ त्यांच्या हालचालींच्या स्वरूपानुसार (वैयक्तिक, यादृच्छिक) केले जात नाही, तर प्रत्येक खेळाडूला दुसर्‍याच्या कृतींबाबत उपलब्ध माहितीचे स्वरूप आणि प्रमाणानुसार देखील वर्गीकृत केले जाते. गेमचा एक विशेष वर्ग तथाकथित "सह गेम" बनलेला आहे संपूर्ण माहिती». संपूर्ण माहिती असलेला खेळ याला एक गेम म्हणतात ज्यामध्ये प्रत्येक वैयक्तिक हालचालीतील प्रत्येक खेळाडूला वैयक्तिक आणि यादृच्छिक दोन्ही मागील सर्व हालचालींचे परिणाम माहित असतात. संपूर्ण माहितीसह खेळांची उदाहरणे म्हणजे बुद्धिबळ, चेकर्स आणि प्रसिद्ध खेळ"नॉट्स अँड क्रॉस". व्यावहारिक महत्त्व असलेले बहुतेक गेम संपूर्ण माहितीसह खेळांच्या वर्गाशी संबंधित नसतात, कारण शत्रूच्या कृतींबद्दल अनिश्चितता हा सहसा संघर्षाच्या परिस्थितीचा एक आवश्यक घटक असतो.

गेम थिअरीच्या मूलभूत संकल्पनांपैकी एक संकल्पना आहे धोरण .

रणनीती खेळाडू हा नियमांचा एक संच असतो जो सध्याच्या परिस्थितीनुसार प्रत्येक वैयक्तिक हालचालीसाठी त्याच्या कृतीची निवड निर्धारित करतो. सहसा, खेळादरम्यान, प्रत्येक वैयक्तिक हालचालीसह, खेळाडू विशिष्ट परिस्थितीनुसार निवड करतो. तथापि, तत्त्वतः, हे शक्य आहे की सर्व निर्णय खेळाडूने आगाऊ घेतले आहेत (उद्भवलेल्या कोणत्याही परिस्थितीला प्रतिसाद म्हणून). याचा अर्थ खेळाडूने एक विशिष्ट धोरण निवडले आहे, जे नियमांच्या सूचीच्या स्वरूपात किंवा प्रोग्रामच्या स्वरूपात सेट केले जाऊ शकते. (अशा प्रकारे तुम्ही संगणकावर गेम खेळू शकता). खेळ म्हणतात अंतिम , जर प्रत्येक खेळाडूकडे धोरणांची मर्यादित संख्या असेल, आणि अंतहीन .– अन्यथा

ला ठरवा खेळ , किंवा शोधा खेळ समाधान , प्रत्येक खेळाडूसाठी एक अशी रणनीती निवडली पाहिजे जी परिस्थिती पूर्ण करेल इष्टतमता , त्या खेळाडूंपैकी एकाने प्राप्त करणे आवश्यक आहे जास्तीत जास्त विजय, जेव्हा दुसरा खेळाडू त्याच्या धोरणाचे पालन करतो, त्याच वेळी, दुसऱ्या खेळाडूकडे असणे आवश्यक आहे किमान नुकसान , जर माजी त्याच्या धोरणाला चिकटून राहिला. अशा रणनीती म्हणतात इष्टतम . इष्टतम रणनीती देखील अट पूर्ण करणे आवश्यक आहे टिकाव , त्या या खेळातील कोणत्याही खेळाडूने आपली रणनीती सोडून देणे फायदेशीर नसावे.

जर खेळाची पुनरावृत्ती अनेक वेळा केली गेली, तर खेळाडूंना प्रत्येक विशिष्ट गेममध्ये जिंकण्यात आणि हरण्यात स्वारस्य नसेल, aसरासरी नफा (तोटा) सर्व पक्षांमध्ये.

प्रत्येक खेळाडूसाठी इष्टतम रणनीती निश्चित करणे हे गेम थिअरीचे ध्येय आहे.

६.२. पेमेंट मॅट्रिक्स. खालच्या आणि वरच्या खेळाच्या किमती

अंतिम खेळ ज्यामध्ये खेळाडू त्यात आहे रणनीती आणि खेळाडू बी - पीरणनीतींना खेळ म्हणतात.

खेळाचा विचार करा
दोन खेळाडू आणि व्ही("आम्ही" आणि "शत्रू").

खेळाडू द्या आहे वैयक्तिक धोरणे, जी आम्ही नियुक्त करू
... खेळाडू द्या व्हीतेथे आहे nवैयक्तिक धोरणे, त्यांना नियुक्त करूया
.

प्रत्येक बाजूला एक विशिष्ट धोरण निवडू द्या; आमच्यासाठी ते असेल , शत्रू साठी ... रणनीतींच्या कोणत्याही जोडीच्या खेळाडूंच्या निवडीचा परिणाम म्हणून आणि (
) खेळाचा निकाल विशिष्टपणे निर्धारित केला जातो, म्हणजे मिळवणे खेळाडू (सकारात्मक किंवा नकारात्मक) आणि तोटा
खेळाडू व्ही.

मूल्ये समजा रणनीतींच्या कोणत्याही जोडीसाठी ओळखले जातात ( ,). मॅट्रिक्स
,
, जे घटक रणनीतींशी संबंधित विजय आहेत आणि , म्हणतात पेमेंट मॅट्रिक्स किंवा खेळाचा मॅट्रिक्स. या मॅट्रिक्सच्या पंक्ती खेळाडूच्या धोरणांशी जुळतात अ,आणि स्तंभ खेळाडूच्या धोरणांसाठी आहेत बी... या धोरणांना स्वच्छ रणनीती म्हणतात.

गेम मॅट्रिक्स
असे दिसते आहे की:

खेळाचा विचार करा
मॅट्रिक्स सह

आणि रणनीतींमधील सर्वोत्तम ठरवा
. रणनीती निवडत आहे , खेळाडू हे खेळाडूने मानले पाहिजे व्हीएका रणनीतीचे उत्तर देईल , ज्यासाठी खेळाडूला फायदा होतो किमान (खेळाडू व्हीखेळाडूला "हानी" करण्याचा प्रयत्न करतो ).

द्वारे सूचित करूया खेळाडूचा सर्वात लहान मोबदला धोरण निवडताना सर्व संभाव्य खेळाडू धोरणांसाठी व्ही(मधील सर्वात लहान संख्या iपेमेंट मॅट्रिक्सची -वी पंक्ती), म्हणजे

(1)

सर्व संख्यांमध्ये (
) सर्वात मोठा निवडा:
.

चला फोन करूया
ngra ची खालची किंमत, किंवा जास्तीत जास्त विजय (मॅक्समिन). खेळाडू B च्या कोणत्याही रणनीतीसाठी खेळाडू A साठी हा खात्रीशीर विजय आहे. त्यामुळे,

. (2)

मॅक्सिमिनशी संबंधित धोरण म्हणतात जास्तीत जास्त धोरण . खेळाडू व्हीखेळाडूचे विजय कमी करण्यात स्वारस्य आहे अ,एक धोरण निवडत आहे , तो या प्रकरणात जास्तीत जास्त संभाव्य फायदा विचारात घेतो ए.आम्ही सूचित करतो

. (3)

सर्व संख्यांमध्ये सर्वात लहान निवडा

आणि कॉल करा खेळाची सर्वोच्च किंमत किंवा minimax विजय (मिनिमॅक्स). अहंकाराने खेळाडू बी गमावण्याची हमी दिली जाते . परिणामी,

. (4)

मिनिमॅक्सशी संबंधित धोरण म्हणतात minimax धोरण.

खेळाडूंना सर्वात "काळजीपूर्वक" मिनिमॅक्स आणि मॅक्सिमिन रणनीती निवडण्याचे आदेश देणारे तत्व म्हणतात. किमान तत्त्व . प्रत्येक खेळाडू शत्रूच्या विरुद्ध ध्येय साध्य करण्याचा प्रयत्न करतो या वाजवी गृहीतकावरून हे तत्त्व पुढे आले आहे.

प्रमेय.गेमची खालची किंमत नेहमी गेमच्या वरच्या किमतीपेक्षा जास्त नसते
.

जर खेळाच्या वरच्या आणि खालच्या किमती समान असतील, तर खेळाच्या वरच्या आणि खालच्या किमतींचे एकूण मूल्य
म्हणतात खेळाची शुद्ध किंमत, किंवा खेळाच्या किंमतीवर. गेमच्या किंमतीशी संबंधित मिनिमॅक्स धोरणे आहेत इष्टतम धोरणे , आणि त्यांची संपूर्णता - इष्टतम उपाय किंवा खेळाच्या निर्णयाने. या प्रकरणात, खेळाडू जास्तीत जास्त हमी मिळते (खेळाडूच्या वर्तनापासून स्वतंत्र V)मिळवणे विआणि खेळाडू व्हीकिमान हमी मिळवते (खेळाडूच्या वर्तनाची पर्वा न करता अ)गमावणे वि... खेळावर उपाय आहे असे म्हणतात टिकाव , त्या जर खेळाडूंपैकी एकाने त्याच्या इष्टतम रणनीतीचे पालन केले तर दुसऱ्याला त्याच्या इष्टतम रणनीतीपासून दूर जाणे फायदेशीर ठरू शकत नाही.

जर खेळाडूंपैकी एक असेल (उदाहरणार्थ अ)त्याच्या इष्टतम धोरण आणि इतर खेळाडूला चिकटून राहते (V)कोणत्याही प्रकारे त्याच्या इष्टतम धोरणापासून विचलित होईल विचलन करणाऱ्या खेळाडूसाठी ते कधीही फायदेशीर असू शकत नाही;अशा खेळाडू विचलन व्हीसर्वोत्तम विजय अपरिवर्तित सोडू शकतो. आणि सर्वात वाईट परिस्थितीत, ते वाढवा.

त्याउलट, जर व्हीत्याच्या इष्टतम धोरणाचे पालन करते, आणि स्वतःपासून विचलित होते, मग ते कोणत्याही परिस्थितीत फायदेशीर ठरू शकत नाही ए.

स्वच्छ धोरणे दोन आणि जर आणि फक्त संबंधित घटक असेल तर गेमला इष्टतम समाधान देते त्‍याच्‍या स्‍तंभमध्‍ये सर्वात मोठा आणि त्‍याच्‍या पंक्तीमध्‍ये सर्वात लहान आहे. अशी परिस्थिती, जर ती अस्तित्वात असेल, तर म्हणतात खोगीर बिंदू. भूमितीमध्ये, पृष्ठभागावरील एक बिंदू ज्यामध्ये एकाच वेळी एका समन्वयासह किमान आणि दुसर्‍या बाजूने कमाल असा गुणधर्म असतो. खोगीर मुद्दा, सादृश्यतेने हा शब्द गेम थिअरीमध्ये वापरला जातो.

एक खेळ ज्यासाठी
,
म्हणतात सॅडल पॉइंट गेम. घटक ही मालमत्ता, मॅट्रिक्सचा सॅडल पॉइंट असणे.

त्यामुळे, सॅडल पॉइंट असलेल्या प्रत्येक गेमसाठी, दोन्ही बाजूंसाठी इष्टतम रणनीतींची जोडी परिभाषित करणारा एक उपाय आहे, ज्यामध्ये खालील गुणधर्म आहेत.

1) जर दोन्ही बाजूंनी त्यांच्या इष्टतम धोरणांचे पालन केले, तर सरासरी मोबदला निव्वळ खेळाच्या किमतीइतका असतो वि, जे एकाच वेळी त्याच्या खालच्या आणि वरच्या किमती आहेत.

2) जर पक्षांपैकी एकाने त्याच्या इष्टतम धोरणाचे पालन केले आणि दुसरा स्वतःपासून विचलित झाला, तर विचलित बाजू केवळ यातून तोटा होऊ शकते आणि कोणत्याही परिस्थितीत त्याचा फायदा वाढवू शकत नाही.

सॅडल पॉइंटसह गेमचा वर्ग सैद्धांतिक आणि व्यावहारिक दृष्टिकोनातून खूप स्वारस्यपूर्ण आहे.

गेम थिअरीमध्ये, हे सिद्ध झाले आहे की, विशेषत:, संपूर्ण माहिती असलेल्या प्रत्येक गेममध्ये सेडल पॉइंट असतो आणि म्हणूनच, अशा प्रत्येक गेममध्ये एक उपाय असतो, म्हणजेच, सरासरी मोबदला देणारी दोन्ही बाजूंच्या इष्टतम धोरणांची जोडी असते. खेळाच्या किमतीएवढी. जर संपूर्ण माहिती असलेल्या गेममध्ये केवळ वैयक्तिक चालींचा समावेश असेल, तर जेव्हा प्रत्येक बाजूने आपली इष्टतम रणनीती लागू केली, तेव्हा ती नेहमी पूर्णपणे निश्चित परिणामाने संपली पाहिजे, म्हणजे, गेमच्या किंमतीइतकाच विजय.

© 2021 skudelnica.ru - प्रेम, विश्वासघात, मानसशास्त्र, घटस्फोट, भावना, भांडणे