गेम मॉडेलची संकल्पना. पेमेंट मॅट्रिक्स

पेअर एंड गेमचा विचार करा. खेळाडू द्या एआहे टवैयक्तिक धोरणे, जी आम्ही नियुक्त करू

खेळाडू द्या व्हीतेथे आहे पीवैयक्तिक धोरणे, आम्ही त्यांना नियुक्त करू. ते म्हणतात की खेळाला एक आयाम आहे टएक्स पी.

कोणत्याही जोडीच्या रणनीतींच्या खेळाडूंच्या निवडीचा परिणाम म्हणून, खेळाचा परिणाम अद्वितीयपणे निर्धारित केला जातो, म्हणजे. मिळवणे a;. खेळाडू ए(सकारात्मक किंवा नकारात्मक) आणि तोटा (-आह)खेळाडू व्ही.मूल्ये समजा अ..रणनीतींच्या कोणत्याही जोडीसाठी ओळखले जाते (अ:, बी;.). मॅट्रिक्स पी =(a..), i = = 1, 2, ..., मी ज = 1, 2, ..., पी,जे घटक रणनीतींशी संबंधित विजय आहेत ए.आणि Bj,म्हणतात पेमेंट मॅट्रिक्स,किंवा खेळाचा मॅट्रिक्स. सामान्य फॉर्मअसे मॅट्रिक्स टेबलमध्ये सादर केले आहे. १२.१. या सारणीच्या पंक्ती खेळाडूच्या रणनीतीशी सुसंगत आहेत अ,आणि स्तंभ खेळाडूच्या धोरणांसाठी आहेत व्ही.

तक्ता 12.1

पुढील गेमसाठी पेमेंट मॅट्रिक्स तयार करूया.

१२.१. शोध खेळ.

खेळाडू एदोन आश्रयस्थानांपैकी एका (I आणि II) मध्ये लपवू शकता; खेळाडू व्हीएक खेळाडू शोधत आहे अ,आणि जर तो सापडला तर त्याला 1 डेनचा दंड मिळेल. युनिट्स पासून अ,अन्यथा खेळाडूला पैसे देतो ए 1 दिवस युनिट्स गेमचे पेमेंट मॅट्रिक्स तयार करणे आवश्यक आहे.

सह निर्णय. पेमेंट मॅट्रिक्स संकलित करण्यासाठी, तुम्ही प्रत्येक खेळाडूच्या वर्तनाचे विश्लेषण केले पाहिजे. खेळाडू एनिवारा I मध्ये लपवू शकतो - आम्ही ही रणनीती याद्वारे दर्शवितो ए v एकतर तिजोरी II मध्ये - धोरण ए. g खेळाडू व्हीनिवारा I - रणनीती मधील पहिला खेळाडू शोधू शकतो व्ही(किंवा व्हॉल्ट II मध्ये - रणनीती व्ही.,.जर खेळाडू एलपलेल्या I मध्ये आहे आणि तेथे तो खेळाडूने शोधला आहे व्ही,त्या काही धोरणे राबवली जातात (Α ν व्ही{), नंतर खेळाडू एदंड भरतो, म्हणजे a n = -1. त्याचप्रमाणे, आम्ही प्राप्त करतो a n = -1 (ए 2, व्ही.,).हे स्पष्ट आहे की धोरणे (ए, वि.,)आणि (A2, / 1,) खेळाडू द्या एपेऑफ 1 आहे, म्हणून aपी = अ. n = I. अशा प्रकारे, 2x2 आकाराच्या "शोध" गेमसाठी, आम्हाला पेमेंट मॅट्रिक्स मिळते:

खेळाचा विचार करा टएक्स पीमॅट्रिक्स सह P = a j) , i = 1,2, ..., τη; j= 1, 2, ..., आणि आणि सर्वोत्तम धोरण परिभाषित करा एयेथे ए v ..., ए t. धोरण निवडणे ए jy खेळाडू एहे खेळाडूने मानले पाहिजे व्हीएका रणनीतीचे उत्तर देईल व्ही.,ज्यासाठी खेळाडूला फायदा होतो एकिमान (खेळाडू व्हीखेळाडूला "हानी" करण्याचा प्रयत्न करतो अ).

a द्वारे सूचित करूया; खेळाडूचा सर्वात लहान मोबदला एजेव्हा तो एक धोरण निवडतो एल; सर्व संभाव्य खेळाडू धोरणांसाठी व्ही(मधील सर्वात लहान संख्या i-th ओळपेमेंट मॅट्रिक्स), म्हणजे

सर्व संख्यांमध्ये a (r = 1,2, ..., ट)सर्वात मोठे निवडा:. चला फोन करूया पण खेळाच्या तळाशी,किंवा जास्तीत जास्त मोबदला (कमाल).या खेळाडू B च्या कोणत्याही रणनीतीसाठी खेळाडू A चे हमी दिलेले मोबदला.त्यामुळे,

(12.2)

मॅक्सिमिनशी संबंधित धोरण म्हणतात जास्तीत जास्त धोरण.खेळाडू व्हीखेळाडूचे विजय कमी करण्यात स्वारस्य आहे अ;एक धोरण निवडत आहे व्ही.,तो या प्रकरणात जास्तीत जास्त संभाव्य फायदा विचारात घेतो ए.आम्ही सूचित करतो

सर्व संख्यांमध्ये β. सर्वात लहान निवडा

आणि β ला कॉल करा खेळाची सर्वोच्च किंमत, किंवा minimax win (minimax).या खेळाडू बी च्या नुकसानाची हमी.त्यामुळे,

(12.4)

मिनिमॅक्सशी संबंधित धोरण म्हणतात minimax धोरण.

खेळाडूंना सर्वात "काळजीपूर्वक" मिनिमॅक्स आणि मॅक्सिमिन रणनीती निवडण्याचे आदेश देणारे तत्व असे म्हणतात. minimaxप्रत्येक खेळाडू शत्रूच्या विरुद्ध ध्येय साध्य करण्याचा प्रयत्न करतो या वाजवी गृहीतकावरून हे तत्त्व पुढे आले आहे. गेमच्या खालच्या आणि वरच्या किमती आणि समस्या १२.१ मधील संबंधित धोरणे ठरवू या. पेमेंट मॅट्रिक्सचा विचार करा

समस्या 12.1 पासून. धोरण Л, (मॅट्रिक्सची पहिली पंक्ती) निवडताना, किमान मोबदला a, = min (-l; 1) = -1 च्या बरोबरीचा असतो आणि खेळाडूच्या β1 धोरणाशी संबंधित असतो व्ही.धोरण निवडताना एल 2 (मॅट्रिक्सची दुसरी पंक्ती) किमान मोबदला आहे a 2 = min (l; -1) = -1, हे रणनीतीने साध्य केले जाते व्ही.,.

स्वतःची हमी जास्तीत जास्त विजयकोणत्याही खेळाडूच्या रणनीतीसाठी व्ही, म्हणजे खेळाची कमी किंमत a = कमाल (a, a2) = = कमाल (-l; -1) = -1, खेळाडू एकोणतीही रणनीती निवडू शकता: अज किंवा ए 2, म्हणजे त्याची कोणतीही रणनीती कमाल आहे.

रणनीती B, (स्तंभ 1), खेळाडू निवडत आहे व्हीखेळाडूला समजते एरणनीतीसह प्रतिसाद देईल ए 2 तुमचा फायदा वाढवण्यासाठी (तोटा व्ही).त्यामुळे खेळाडूचे सर्वाधिक नुकसान होते व्हीजेव्हा तो B धोरण निवडतो तेव्हा ते β, = चेक (-1; 1) = 1 च्या बरोबरीचे असते.

त्याचप्रमाणे, खेळाडू ब चे सर्वाधिक नुकसान (नफा ए) जेव्हा तो B2 धोरण निवडतो (स्तंभ 2) β2 = कमाल (l; -1) = 1 असतो.

अशा प्रकारे, कोणत्याही खेळाडूच्या रणनीतीसाठी एखेळाडू B चे हमी दिलेले किमान नुकसान β = πιίη (β1, β2) = min (l; 1) = 1 आहे - खेळाची वरची किंमत.

खेळाडू B ची कोणतीही रणनीती minimax असते. टेबल पूरक. 12.1 स्ट्रिंग β; आणि स्तंभ a;, आम्हाला टेबल मिळेल. १२.२. अतिरिक्त पंक्ती आणि स्तंभांच्या छेदनबिंदूवर, आम्ही वरच्या आणि खालच्या गेमच्या किंमती लिहू.

तक्ता 12.2

प्रॉब्लेम १२.१ मध्ये, वर विचारात घेतलेल्या, वरच्या आणि खालच्या गेमच्या किमती भिन्न आहेत: a f β.

जर वरच्या आणि खालच्या खेळाच्या किमती समान असतील तर एकूण मूल्यशीर्ष आणि तळाची किंमतखेळाचे α = β = υ म्हणतात खेळाची शुद्ध किंमत,किंवा खेळाच्या किंमतीवर.गेमच्या किंमतीशी संबंधित मिनिमॅक्स धोरणे आहेत इष्टतम रणनीती,आणि त्यांची संपूर्णता - इष्टतम उपाय,किंवा निर्णयखेळ या प्रकरणात, खेळाडू एजास्तीत जास्त हमी मिळते (खेळाडूच्या वर्तनापासून स्वतंत्र V)मोबदला υ, आणि खेळाडू व्हीकिमान हमी मिळवते (खेळाडूच्या वर्तनाची पर्वा न करता) नुकसान υ. खेळावर उपाय आहे असे म्हणतात स्थिरता,त्या जर खेळाडूंपैकी एकाने त्याच्या इष्टतम रणनीतीचे पालन केले तर दुसऱ्याला त्याच्या इष्टतम रणनीतीपासून दूर जाणे फायदेशीर ठरू शकत नाही.

जोडी स्वच्छ धोरणे ए.आणि V. गेमला इष्टतम समाधान देते जर आणि फक्त जर संबंधित घटक rt एकाच वेळी त्याच्या स्तंभात सर्वात मोठा आणि त्याच्या पंक्तीमध्ये सर्वात लहान असेल. अशी परिस्थिती, जर ती अस्तित्वात असेल, तर म्हणतात खोगीर बिंदू(काठीच्या पृष्ठभागासारखे जे एका दिशेने वर आणि दुसऱ्या दिशेने खाली वळते).

आम्ही सूचित करतो अ*आणि V*- शुद्ध रणनीतींची एक जोडी जी सॅडल पॉइंट समस्येमध्ये गेमचे निराकरण करते. रणनीतींच्या प्रत्येक जोडीवर पहिल्या खेळाडूचे पेऑफ फंक्शन सादर करूया: पी (ए:, व्ही-) = आणि येथे... नंतर, सॅडल पॉइंटवरील इष्टतम स्थितीपासून, दुहेरी असमानता धारण करते: P (Aj, B*)<Р(А*, В*)<Р(А", В ), जे प्रत्येकासाठी खरे आहे i = 1, 2, ..., m; j = 1, 2, ..., पी.खरंच, रणनीतीची निवड ए* इष्टतम रणनीती असलेला पहिला खेळाडू V"दुसरा खेळाडू किमान संभाव्य विजय वाढवतो: पी (ए*, बी")> पी (एजी V"),आणि धोरणाची निवड ब"पहिल्याच्या इष्टतम रणनीतीसह दुसरा खेळाडू जास्तीत जास्त नुकसान कमी करतो: P (D, V*)<Р(А", В).

१२.२. पेमेंट मॅट्रिक्सद्वारे दिलेल्या गेमची खालची आणि वरची किंमत निश्चित करा

गेममध्ये सॅडल पॉइंट आहे का?

तक्ता 12. 3

उपाय.टेबलमधील सर्व गणना करणे सोयीचे आहे, ज्यामध्ये मॅट्रिक्स व्यतिरिक्त आर,स्तंभ ए सादर केले; आणि तार)

संपादकाची निवड