基於均值場博弈理論創立的CP505協議在盃賽制中的博弈機制創新

作者：胡烜峯 王建國 聶雪明  蘇海崢
研究機構：香港區塊鏈應用與投資研究院
摘要：本文通過區塊鏈技術，基於以太坊開發框架，創立了CP505協議，並引入了以均值場博弈（Mean Field Game, MFG）理論爲基礎來構建博弈模型，這個新模型適用於所有盃賽制競技類遊戲。與現有國際通行的以賠率爲核心的博弈機制不同，CP505協議構建了一種在數學和博弈論上更加合理的博弈模型。通過分析傳統博弈市場的侷限性，本文結合區塊鏈技術，創立了ERC721協議和ERC20協議的聯動協議CP505，結合隨機數生成機制和成熟的金融模型，實現了一個更加公平、透明區別於現有以賠率爲核心的博彩機制的全新博弈機制，在歷史上，第一次將競技體育類的博弈和金融模型融合，創造了獨特的以去中心化、公平透明、非合作博弈的基礎底層協議。
關鍵詞：均值場博弈理論；CP505協議；盃賽協議；博弈機制創新；404協議創新
一、引言
在國際公開的大型盃賽體系中，國際上合法博彩集團扮演了制定遊戲規則這個重要的角色，對整個體育產業資本都有着舉足輕重都影響。每次大型世界賽事，例如世界盃足球賽，博彩公司給出所有參賽球隊的賠率，而全球的球迷會根據自己的喜好，選擇各自的球隊進行投注。[1] 
這其中的賠率設定涉及到非常複雜的數學分析設定，是整個競技博弈中的核心。正因爲賠率是根據參賽隊的實力、球員當前狀態、球隊歷史表現等一系列指標進行加權計算，由博彩公司主觀的給出。對博彩公司最理想的狀況是任意一個比賽的結果，玩家的籌碼勝負結果可以互相抵消，博彩公司賺取無風險的手續費，這是非常理想也是完全正常的商業模式。
然而因爲競技體育存在着很多偶然性，並且球迷會有天然的傾向，在某些時候，涉及到全球關注的重要比賽，全球投注的巨大金額，會出現大量的押注單一方向。結果會導致一旦比賽爆冷，大部分玩家猜錯了，博彩集團會有超額收益，少部分壓中玩家也會獲得巨大收益，但一旦大部分玩家壓中，博彩集團將面臨鉅額賠付。
儘管今天的賠率制度已經發展到了非常複雜的數學模型以及通過互聯網實現了實時調整賠率的動態機制，但有時候球迷對某些球隊對喜愛是會嚴重影響真實實力對。很多極端的情況，會導致博彩集團面臨風險。例如2014年世界盃半決賽德國對巴西，兩個隊排名和水平接近，理論上賠率應該相差不大，但巴西有主場優勢，並且2014年的巴西隊羣星閃耀，得益於互聯網在全球的快速發展，使得巴西隊擁有海量的熱愛者，這導致當時出現了歷史罕見的一邊倒押注，絕大多數的籌碼都放在巴西最終獲勝晉級決賽上面，博彩公司面臨大賺和大虧的兩難選擇，被迫成爲絕大多數資金的對手盤，這對任何博彩集團來說，都是不可接受的。雖然沒有證據表明比賽被操縱，但在歷史上這次比賽中，德國隊在巴西主場以7：1的比分，大勝具有主場優勢的奪標最大熱門巴西隊，獲勝晉級，這個賽前無法想象的比分也幾乎沒有玩家猜中。從結果來看，博彩公司是最大的獲益者。而在國際所有賽事中，球迷都總結出一個沒有科學依據的規律，“大熱必死”，但其實這背後是由於零和博弈帶來的巨大風險，讓“大熱”的隊伍“死亡”是降低商業風險最無奈的辦法。而這條樸素的，由球迷們總結出來的規律是如此的不符合概率學，也間接證明了，存在信息不對稱干預比賽的結果。
傳統的博彩集團，雖然從商業模式上，不是以下場參與對賭爲目的，但單純的賠率投注方法，一定有概率需要博彩集團賠出更多的賭注，想要從源頭上遏制人爲干預比賽，絕不是制定法律法規嚴格執法去杜絕人爲干預，而是需要從機制上改變傳統的由莊家主動給出賠率的博弈方式。隨着區塊鏈技術的日益成熟，利用區塊鏈技術的透明性、去中心化性、可編程性，能夠實現讓遊戲規則不可被任何人篡改，通過多個標準協議的組合，本文提出了一種基於均值場博弈理論的全新博弈合約CP505協議。
二、相關工作 
2.1  均值場博弈理論 (Mean Field Games, MFG):
Pierre-Louis Lions 等人在2006至2007年提出的均值場博弈理論[2]，爲大量同質智能體參與的博弈提供了均衡解。該理論在數學上描述了在大量參與者的系統中，個體如何基於其他參與者的統計學上的行爲來做出最優決策。
2.2博弈論 (Game Theory):
博弈論[3]是研究具有衝突和合作特徵的決策者之間互動的數學理論。它爲理解和預測賽會制博彩遊戲中的策略行爲提供了框架。
2.3市場機制設計 (Market Mechanism Design) [4]:
市場機制設計關注如何設計市場規則以實現特定的經濟目標，如效率、公平性和透明度。
2.4加密貨幣和區塊鏈技術 (Cryptocurrency and Blockchain Technology):
加密貨幣和區塊鏈技術提供了一種去中心化的價值轉移機制，它爲創建透明和不可篡改的博彩遊戲平臺提供了技術基礎。[5]
2.5行爲經濟學 (Behavioral Economics):
行爲經濟學結合了心理學和經濟學，研究人們在經濟決策中的非理性行爲，這對於理解和設計博彩遊戲的用戶互動具有重要意義。[6]
2.6賽會制博彩市場分析 (Tournament Betting Market Analysis):
對賽會制博彩市場的分析，包括賠率設定、市場流動性和信息效率，爲設計博彩遊戲提供了實證研究基礎。[7]
2.7囚徒困境：一個經典的二人非合作博弈模型，其中每個參與者的從個體最優選擇出發的決策，導致了對所有參與者都較差的結果。這個概念最早由阿爾伯特·W·塔克在1950年提出。[8]
2.8多人博弈的計算困難性：隨着博弈參與者數量的增加，找到均衡解的難度顯著增加。這是因爲博弈的策略空間隨參與者數量呈指數增長，導致計算均衡變得更加複雜。[9]
2.9多人博弈的均衡：在多人博弈中，納什均衡可能不存在或難以找到，這是因爲每個參與者的最優響應策略依賴於其他所有參與者的策略，而每個人的策略選擇空間都很大。[10]
三、理論基礎與模型構建
3.1 均值場博弈理論在假設中的應用
如果用戶的每一份投注都可以變成無數的碎片進行交易，由市場來對碎片自由定價，而這些碎片又能自由的實現全新的投注，這就將傳統的賠率方式，轉化爲了一種金融方式。而問題從分析研究用戶的投注問題，轉化爲分析用戶的金融行爲，進而轉化爲近乎無限的同質對手的博弈策略問題。
在經典的博弈論中，遊戲發生在場景中的對手之間，通常只涉及兩個人，比如著名的囚徒困境問題。涉及三個對手的遊戲在計算上是非常困難的，很難達到均衡，這就是爲什麼西部片《好人、壞人和醜陋的人》如此經典。如果參與遊戲的人數達到四個、五個或更多，從數學上來說是無法解決的，這裏面所說的無法解決，是指沒有所謂的最佳策略，因此遊戲的參與人無法採用趨同的策略。
然而，如果遊戲中的對手數量可以被認爲是無限的，從數學上來說是有解的。法國數學家、菲爾茲獎得主Pierre-Louis Lions和其他幾位數學家在2006年至2007年提出均值場博弈理論，對於一個近乎無限的同質對手參與的遊戲，可以從數學上得到均衡狀態下的概率分佈，從而得到遊戲參與者在均衡點處的最佳策略。
當均值場博弈理論在剛開始被提出時，人們並沒有認爲這個理論在金融領域有任何應用。建立均值場博弈理論的前提是遊戲的對手是同質的，而在傳統金融市場中，遊戲對手的能力和類型完全不同，有具有內幕知識和實際執行力的公司管理層，有機構和大賬戶，還有許多個人投資者，正因爲遊戲的對手不同質，所以總是存在操縱，例如股價不是一個公平博弈的結果，掌握內幕消息的大股東或者管理層，或者看清了籌碼分佈的大資金，這些通常是股價的操縱者。
3.2均值場博弈理論
均值場博弈（mean field game，MFG）理論專門探討數量龐大的智能體（agent）在競爭環境下所使用的策略，每個智能體都會因應身邊其他智能體所採取的行動而隨之應變，務求令自可獲得最大利益。
智能體的假設通常包括以下幾點：
1.同質性：所有智能體都是同質的，即它們具有相同的偏好和決策能力。
2.大量智能體：系統中存在大量的智能體，以至於單個智能體的行爲對整個系統的影響可以忽略不計。
3.相互作用的簡化：智能體之間的相互作用通過智能體行爲的平均效應（即均值場）來簡化表示，而不是通過個體間的直接相互作用。
4.連續時間：智能體的行爲和決策過程通常在連續時間框架下進行建模。
5.理性：智能體被假設爲理性的，即它們會根據自身的利益最大化目標來選擇最優策略。
6.信息結構：在某些模型中，智能體可能具有不同的信息結構，例如完全信息或不完全信息。
7.策略選擇：智能體會根據其他智能體的平均行爲來調整自己的策略，以實現個體效用的最大化。
8.穩定性和均衡：智能體的行爲會趨向於某種均衡狀態，如納什均衡，這是MFG理論分析的重點之一。
9.分佈式決策：智能體的決策過程是分佈式的，沒有中央協調機構。
3.3 構建類似智能體假設
在傳統賠率制中，由於賠率是博彩公司制定的，所以，所有的球迷投注，僅僅是出於自己對球隊的喜愛程度或者客觀估計，以及博彩公司制定的賠率是否存在套利空間，大部分用戶的個人行爲是無法影響其他人的行爲，而其他人的投注行爲，也不會影響我的投注行爲。而當由於大量用戶的行爲導致賠率有變化時，投注用戶也不能撤回投注，改變自己策略，一旦下定之後，就沒有任何反悔的機會。這就不符合均值場博弈的假設。
但當應用區塊鏈技術和智能合約技術，允許每一個用戶將自己的投注都可以碎片化，形成強流動性的交易品，由市場用戶二次決定碎片價格，進而間接實現用戶改變自己的策略，進而影響他人的策略，這些用戶的行爲，就非常接近均值場博弈理論中的智能體的行爲。
一旦我們的模型能夠有機會使大量參與用戶成爲近似的智能體，那麼，根據均值場博弈理論，是有可能會有最優解出現的，這個最優解往往是一組複雜的納什均衡。
3.4納什均衡特點概述
1.非合作性：在非合作博弈中，每個智能體獨立選擇自己的最優策略，不考慮其他智能體的利益。
2.策略組合：納什均衡是所有智能體策略的一個特定組合。在均衡狀態下，每個智能體的策略是對其他智能體策略的最佳響應。
3.穩定性：納什均衡是一種穩定狀態，即在沒有外部干預的情況下，沒有智能體會從改變自己的策略中獲益。
4.預測性：在博弈論中，納什均衡提供了一種預測博弈結果的方法，因爲它代表了一種自我強化的策略狀態。
5.可能的多重均衡：在某些博弈中，可能存在多個納什均衡，每個均衡都代表了一種可能的博弈結果。
6.理性假設：納什均衡的成立基於智能體是理性的，即它們會根據自身的利益最大化目標來選擇策略。
7.效用最大化：在均衡狀態下，每個智能體在給定其他智能體策略的情況下，選擇了能夠最大化自己效用的策略。
3.5 假設模型的理論框架
大量玩家參與的博彩遊戲，在沒有莊家的情況下，這些大數量的玩家屬於同質智能體，符合均值場博弈的成立條件。同時這些玩家無法與數量衆多的其他玩家達成合作博弈，因此均值場博弈也屬於非合作博弈。
納什均衡帶給我們一個重要的價值，也就是在這個模型下的所有用戶不再是一種“賭博”，因爲用戶在非合作條件下，如果他是理性的，只能採取某個確定的策略，或者叫支配型策略，這個策略對自己最有利。納什均衡通常對小數量的玩家有效，理性玩家都採取支配型策略，達成了某種均衡。均值場博弈與納什均衡的前提都是非合作博弈，均值場博弈所達成的均衡可以理解爲無數個納什均衡的組合結果。
傳統的賠率博彩，只能是在給定賠率下的零和博弈，一旦最大的參與方（博彩集團）發現有鉅額賠償風險，就極有可能通過各種方式干預比賽結果，進而出現極大的不公平。而在CP505協議下的新博弈模型，是有機會讓用戶自己選擇策略，並且能夠實現多重策略，每一步的決策都會影響他人，無數的智能體最終有機會實現納什均衡，實現最優解。而這個最優解並不是讓所有用戶都盈利，而是在公平和透明的前提下，所有用戶都已經根據自己理性決策，充分的，自主的，實現了自己的策略，這是一種全新的博弈設計，而不再是傳統的“賭博”。
在一個盃賽的賽制裏面，每輪比賽的結果出來之後，所有的玩家都收到了同樣的條件改變的信息，玩家根據條件的改變，和觀察其他玩家的行爲，重新確定自己的策略並去執行。在每輪結果確定之後，根據各個隊伍的繼續生存的概率，以及玩家自由交易產生的各個隊伍成爲最後贏家的賠率，採用均值場博弈的理論的數學公式，可以計算出來理論上的均衡值，這個均衡值是一系列隊伍以及籌碼的定價。玩家的情緒可能會讓實際的定價與理論定價產生偏移，理性的交易者（套利者）會交易這個偏移，使得實際定價趨向於理論定價。一個市場裏面同時存在套利者和有情緒偏好的交易者，會讓市場產生足夠的交易，對市場的活躍度有利。
3.6 基於CP505協議的博弈模型假設
基於以上分析，CP505協議的博弈模型設計要充分考慮到以下假設：
1.所有比賽信息都公開透明
2.所有玩法規則不可被任何人篡改
3.即便比賽結果有差別也不會影響博弈策略
4.沒有中心化集團有能力干預任何規則設置，即便干預了比賽，也對羣體性策略沒有影響。
5.每個參與者是同質的，他們都追求最高回報率而非“賠率”，他們均可以根據其他參與者的策略，反覆調整自己的行爲。
6.單一智能體行爲對整個系統的影響微不足道。
7.要由充分的市場競爭以及流動性，決定市場價格，該市場價格是所有參與者經過反覆博弈動態變化的，它的變化，表現了市場內所有智能體的狀態及策略的概率分佈。該市場定價被視爲一種均值場博弈所產生的均衡結果。
3.7 區塊鏈技術及智能合約對模型的技術保障
區塊鏈技術以及以以太坊爲基礎的智能合約技術，可以實現所有的數據都公開可查詢和追溯，利用去中心化、分佈式的記賬網絡，可以將程序在全部網絡節點記賬，任何人都沒有能力篡改已經形成的規則。
3.8構建模型
1.將所有參賽隊伍的投注轉化爲基於ERC721協議的NFT資產。該資產也可以實現去中心化交易。
2.用戶購買任何一個隊伍的NFT，即代表一種特殊類型的投注。
3.所有投注不被任何中心化集團掌控，交於智能合約保管，由智能合約分發給最終勝利者。
4.基於CP505協議的設置，所有NFT均可以銷燬並轉化爲ERC20通用型代幣。但每次銷燬NFT所獲得的ERC20代幣均有一部分進入黑洞地址永久銷燬。
5.該代幣基於自動化做市商（AMM）模型在去中心化交易市場交易，避免任何人爲干預。
6.一定數量的ERC20代幣可以重新合成某個球隊的NFT卡，意味着重新投注，一般可以隨機生成，如果用戶不滿意隨機生成的隊伍，還可以再次銷燬NFT，獲取代幣，再次生成。
7.每一個用戶根據自己的決策去銷燬及合成，均會導致代幣的持續性銷燬，進而影響該代幣在二級市場的價格。而該市場的買方需要購買代幣合成新的參賽隊伍卡，而賣出代幣的賣方需要通過代幣的銷售，減少損失，甚至通過低買高賣來減少自身風險。該市場價格將是一個持續的均值場博弈所形成的價格。而用戶的反覆的，自由的，理性的銷燬和生成NFT的過程，是個體自由選擇策略的充分表現。
8.在比賽決賽之後，所有持有冠軍隊的NFT卡的用戶，均分合約中的所有投注額。理論上，每一個用戶都可以在決賽之後，有充分的時間去合成冠軍的卡片。
9.該模型實現的最終結果，在數學表達上是一系列均值場博弈所產生的均衡價格。
四、CP505商業設計方案
4.1假設：市場上有大型比賽項目36個隊伍爭奪冠軍。比賽爲期1個月。已經充分知曉36個隊伍是哪些隊伍，比賽結果是物理世界公共事件，有唯一確定性。理論上任何競技類均可以實現該假設。
4.2第一個NFT盲盒。每個盲盒隨機產生五個隊伍的投注。每個投注是完全一致。比如一個盲盒100美元，則隨機開出來的五個隊伍NFT，每個NFT價值20美金。這20美金即可認爲是投注。
4.3  NFT交易市場，熱門球隊的交易價格會上漲，一直到形成一個均衡的價格。冷門的球隊因爲沒有購買需求，理論上價格會下跌很多。這是第一個市場博弈均衡。
4.4  根據CP505協議的機制。NFT可以銷燬併產出固定的ERC20代幣---V-Token，然後用V-Token重新合成盲盒，這樣的好處是用戶有機會獲得自己相對滿意球隊的NFT籌碼。
4.5 銷燬NFT所產生的V-Token由智能合約控制，將其中的10%V-Token在去中心化交易市場賣掉並打入總獎池。增加用戶總獎金。將另外10%的V-Token打入黑洞地址進行銷燬。
4.6最終冠軍球隊NFT的持有者分享獎池。
4.7玩家策略思考
對於參與者來說，他可以採取的行爲包括但不限於以下策略
大量購買盲盒獲取熱門球隊卡，淘汰沒價值球隊卡，合成新的盲盒，逐漸讓自己手裏的球隊卡變成奪冠卡，獲取獎金
賣掉價格被炒高的熱門球隊NFT，買入他看好的球隊NFT，獲取NFT投資收益。
碎裂自己不看好的球隊NFT，產生V-Token，他可以選擇賣掉，回收一些成本，或者用V-Token重新合成盲盒來繼續追求博弈的偶然性。
隨着小組賽或者淘汰賽的進行，每個球隊NFT的價值都會變化，這個價值的變化的驅動因素來源於比賽結果的隨機性。隨着球隊NFT價值的變化，又會驅動參與者採取他認爲合適的行爲，或者買入/賣出球隊NFT，或者碎裂NFT/合成盲盒。
玩家也可以觀察V-Token的價格，隨着被淘汰隊伍的增加引起碎裂的增加，V-Token的價格可能會因爲購買量的不足，而低於理論價格，玩家購買V-Token合成新的NFT會帶來額外收益。同樣，如果因爲總獎池價值的增加，引起玩家購買V-Token的投機性需求增加，會帶來V-Token價格超過理論價值的狀況，這時候拋售還未被淘汰但奪冠希望不大的隊伍NFT碎裂所產生的V-Token可能有利可圖。
五.開源智能合約代碼
    https://github.com/ai77simon/cp505/
該代碼的編寫得到新加坡獨立商業團隊euro505小組的部分支持，他們根據本論文做了基於歐洲盃的社會實驗，其實驗數據我們將在下一篇論文中進一步給讀者展示。
六、結論
基於區塊鏈技術構建的CP505協議爲所有盃賽制的賽會開創了一種全新博弈思路，它的理論依據來自於均值場博弈、納什均衡、行爲經濟學等理論，在技術上，必須以完全去中心化，並且公開透明、不可篡改的區塊鏈技術以及諸多去中心化的NFT交易市場和去中心化代幣交易市場的產業配合才能實現。在這個相當於無限多同質的個體參與的遊戲中，所有的信息公開透明，用戶可以反覆修改策略，進而影響其他人策略，最終實現在任何一個短暫的均衡狀態之下（下一輪比賽的結果的隨機性還未產生），理論上所有用戶共同決定了最優策略，這個最優策略的直接體現就是價格（包括球隊NFT價格，以及V-Token價格）。
因爲玩家總是存在各種偏好與情緒，所以交易產生的價格，可能與理論上的均衡價格存在偏差。這時候會有理性的套利者交易這個價格偏差，高賣低買，從而使交易價格最終趨向於理論價格。所有的價格是市場上玩家的情緒偏好者與理性的套利者通過交易產生的，不是被操控或者黑幕產生的，套利玩家與追求個人對參賽隊伍偏好的玩家的不同目的，和採取的不同策略，會增加市場的活躍度，讓市場更加健康。
從另一層意義上來說，這種規則的設計，是在科技創新之下，人類試圖利用數學的博弈論，打破傳統賠率型博彩機制，實現一種不以賭博爲目的，而是以投資爲目的的全新博弈樂趣。
由於作者們能力有限，所有的設計思考及開發工作都有不足之處，願本研究能夠爲更多的學者帶來啓發，也願意接受任何學者們的批評和指正。
參考文獻
[1] Asch, P. (2017). "Mathletics: How Gamblers, Managers, and Sports Enthusiasts Use 
Mathematics in Twenty-First-Century Baseball." Princeton University Press.
[2] Lions, P.-L. (2007). "Mean field games." In: J. Math. Sci., Vol. 177, No. 3, pp. 415-430.
[3] Nash, J. F. (1950). "Equilibrium points in n-person games." In: Proc. Nat. Acad. Sci. 
USA, Vol. 36, No. 1, pp. 48-49.
[4] Myerson, R. B. (1981). "Optimal auction design." In: Mathematics of Operations 
Research, Vol. 6, No. 1, pp. 58-73.
[5] Nakamoto, S. (2008). "Bitcoin: A peer-to-peer electronic cash system." 
In: Bitcoin.org.
[6] Kahneman, D., & Tversky, A. (1979). "Prospect theory: An analysis of decision under 
risk." In: Econometrica, Vol. 47, No. 2, pp. 263-291.
[7] Forrest, D., & Simmons, R. (2006). "Betting markets: A survey." In: Journal of 
Prediction Markets, Vol. 1, No. 1, pp. 2-31.
[8] Tucker, A. W. (1950). "A Two-Person Dilemma." In: Psychometrika, Vol. 17, No. 2,
pp. 186-202.
[9] Leyton-Brown, K., & Shoham, Y. (2008). "Multiplayer Games." In: Essentials of Game 
Theory: A Concise, Multidisciplinary Introduction, pp. 97-120. Morgan and Claypool.
[10] Nash, J. F. (1951). "Non-Cooperative Games." In: Annals of Mathematics, Vol. 54, 
No. 2, pp. 286-295.）
創作者的更多內容

實時新聞

創作者的更多內容

實時新聞

熱門文章