期望、行為和獎勵：在不確定和未知的游戲中，獲得確定的快樂

rct AI·2021-01-28

關注

大自然讓我們熱愛冒險，從而能更好地生存和繁衍。人們要敢于冒險，才能獲得更大的收益。雖然冒險就意味著未知，但不確定的獎勵會格外的誘人，也能在關鍵時刻幫助我們做出決定。

在長期的進化和演變中，每個人都會對自己行為的不確定結果抱有各種期待，這種期待和幻想的產生，也會伴隨著愉悅的出現。在期望還沒有實現前，隨著它的增加，愉悅就已經會不斷地上升。而一旦不確定的期望獲得滿足，對應的行為就會得到更強的鞏固。

當獎勵和期望的范圍是有限的，固定目標的無法獲得反而會刺激人們產生克服不確定性的需求，并持續(xù)地強化這種行為。

若獎勵的目標或范圍是無法預計的，或是每一次獲得的獎勵都是超出預先設想之外的，人們獲取滿足和快樂的方式，就跳出了系統(tǒng)內的約束，從而轉向了對未知的不斷探索。

大多情況下，我們總是在用新方法解決舊問題。概率可以給予我們期望并產生愉悅，但又會將這種快樂約束在有限目標的無盡嘗試中。

當我們跳出概率的固有約束，就能在創(chuàng)造和探索豐富的可能中，獲得屬于自己的快樂與滿足。

一、期望的起點：不確定、未知、不可知

我們對于世界的認識是離散化的，從認知的狀態(tài)和認知的可行性來說，可以分為這四個部分：

通過我們已有的認知邏輯，世界中一部分的信息是可知，其中雖然有一部分信息是我們暫時不知道的，但隨著對世界認識的不斷增加，這部分信息是可以被我們所知道的。對于這一類信息，我們的認知方式是離散的，也就是通過概率去獲得信息，并做出對應的反應。

同時，由于邏輯系統(tǒng)自身的限制，我們無法通過這些系統(tǒng)認知到世界中的其他信息，因此這部分信息是我們無論使用任何方法是都無法知道的。對于這些信息，我們只有跳出現有的邏輯系統(tǒng)才能獲得。

當事件的發(fā)生與否是不確定的，這也就是事件的發(fā)生概率。我們知道事件發(fā)生的結果數量是有限的，只是不確定每次發(fā)生的結果是什么。為了能更簡單的理解可知信息的不確定性，我們使用期望來描述。

因此，我們的期望來源于“可知但不確定”的事件，而不是“可知但未知”的事件。

對于“可知但不確定”的事件，我們對于事件發(fā)生的結果有著明確的認知，從而會預先理解到每一個結果，對其產生情感上的期望，并帶來多巴胺和快樂。

而對于“可知卻未知”，由于我們無法明確每一個結果是什么，因此每一次出現的結果都是 over expectation，從而會給人們來帶另外一種情感上的刺激，也就是另外一種快樂。

進一步來看，人們對期望實現的不確定，不僅體現在多巴胺所帶來的快樂和反饋機制上，也會體現在人們的決策機制上。

在行為經濟學中，2002 年諾貝爾經濟學獎得主丹尼爾·卡尼曼告訴我們：在必然會發(fā)生損失的情況下，人們的行為會表現出風險偏好；而在必然會受益的情況下，人們的行為反而表現出風險厭惡。

同時，人們在面對小概率的損失時，則會傾向于風險規(guī)避，而面對小概率的獲得時，人們又傾向于風險偏好。

這樣的決策方式，也對經濟學中的理性人假設提出了挑戰(zhàn)，它指出我們的決策并不是我們想象的那么理性，我們的預期會通過影響情感從而改變純粹理性的決策。

消費者，或稱為玩家，都是趨利避害的動物。雖然客觀上的利其實是食物、生存條件等，但人類主觀上的利全都是愉悅感。人們長期的演變中，進化出了一種獲取快樂的機制，不同的行為會激發(fā)大腦中負責提供獎勵的那部分組織分泌多巴胺，從而讓人們在主觀上覺得很開心。這種神經機制，也會將人們的行為與快樂所聯(lián)系在一起，促使人類實施更多這樣的行為。

同時，不確定性也和多巴胺建立了對應的激勵關系。在隨機性的結果出現前，人們往往對結果有期待，這種期待會隨著行為的增加而累積。當期待被實現時，相比于確定的結果，不確定性會使人們分泌更多的多巴胺，從而獲得更多的快樂，這會使得反饋機制得到更穩(wěn)固的強化。

只要人們對于未知的有期待，快樂就會因此而產生。如果個體對行為結果沒有期待，就算事情的結果對個體再有適應的意義，也很難讓其持續(xù)地進行對應的行為。

然而，對于無法預料到的結果，我們無法產生期望，從而無法進行上述的反饋機制。意料之外的結果也會讓我們通過類比和聯(lián)想的方式，從已有的快樂中找到最相似的一種，產生對應的多巴胺和快樂。

無論是已知的期望還是未知的刺激，僅存在幻想是無法持續(xù)地驅動人們做出對應的決策和行為。雖然人們追求快樂，逃避痛苦；追求確定，逃避未知，但期望和不確定性卻構成了人們對某個事物的情感依賴。

二、行為與反饋：巴普洛夫的狗、斯金納的老鼠和鴿子

心理學家巴甫洛夫（Ivan Pavlov）通過研究動物的條件反射行為，提出了高級神經活動學說。這種高級的神經活動，使得動物的軀體能與外界產生一系列的復雜關系，并在不斷的完善中適應于周圍環(huán)境。

在經典的條件反射實驗中，巴甫洛夫對狗在不同情況下的唾液分泌進行了測量，發(fā)現狗在聞到、看到、靠近和吃食物的時候，都會分泌唾液。他認為狗的這種反應是本能且固有的，將食物稱為無條件刺激（unconditioned stimulus，簡稱 UCS），也把產生的唾液分泌稱為無條件反射（unconditioned reflex，簡稱 UCR）。

在另一組實驗中，巴甫洛夫給狗食物之前，會開啟一個節(jié)拍器，然后每次都重復這個操作，狗在聽到節(jié)拍器而沒有食物時，也會分泌唾液。之后，他又將節(jié)拍器換成了鈴聲、哨子等，也都發(fā)生了一樣的結果。但如果只進行各種刺激，而不提供食物，狗也會逐漸地不分泌唾液。

在將無條件刺激（食物）和引起探索性反射的中性刺激結合后，狗就能對某一種刺激形成條件作用。鈴聲就成了條件刺激（conditioned stimulus，簡稱 CS），由鈴聲引起的唾液分泌就是條件反射（conditioned reflex，簡稱 CR）。

實驗的結果說明了，當中性的刺激和無條件的刺激結合后，動物能逐漸地學會對那個中性刺激做出反應。這種刺激可以通過重復的條件刺激來強化，也可以通過只給條件刺激而不提供無條件刺激來削弱甚至完全消失。

在巴普洛夫的條件反應學說被提出后，早期的行為主義實驗幾乎都在嘗試將某種刺激與生物的某種行為關聯(lián)起來，從而觀察與分析對應的反應。

更值得一提的是，條件刺激下的反應不僅是生理上的，也是心理上的。當生理上的感覺伴隨著條件刺激發(fā)生時，動物會非條件性地產生不同的情緒，比如開心、難過、焦慮、害怕等。在這種刺激重復發(fā)生幾次后，即使生理上的感覺沒有真的發(fā)生，這種條件刺激也會讓人們產生對應的情緒。

一位來自哈佛大學的心理學教授斯金納（Burrhus Frederic Skinner），通過一個實驗將這種生理上和心理上的條件性刺激，同時變得可操作化。他設計了一個箱子，里面有一個可以按鈕，同時在箱子的底部擺放著一個是食物盤。

在箱子的外部，按鈕與提供食物的裝置相連，只要箱內的動物按下按鈕，食物就會出現在食物盤內。然后他將一只饑餓的老鼠放在箱子里，當老鼠按下按鈕時，它就能獲得食物。

同時，當實驗人員不再投放食物，老鼠按下按鈕也不會獲得食物時，老鼠已建立的行為習慣就會很快地消失。在另外一個對照實驗中，實驗人員將食物的出現機制改成了隨機掉落，老鼠同樣也學會了不停的按下按鈕。即便是按下不確定的幾十次才會掉落一個食物，老鼠仍然會在很長的一段時間里，保持這一行為習慣。

因此斯金納認為，動物不僅會受到刺激而給出反應，還會受事后刺激的持續(xù)影響；只要動物明白：想要獲得獎賞就需要完成所需的條件，他們的行為就可以被操作和影響。斯納金同樣也專門研究了行為模式的消退速度。他發(fā)現，相比起固定間隔的刺激與操作，隨機間隔的刺激會讓個體以最長的時間持續(xù)發(fā)生某種行為。

除此之外，斯金納也提出了強化物的概念，用以描述各種需求，它們能讓個體被不斷刺激從而強化對應的行為。在實驗中，如果我們把老鼠按下按鈕視為一個想要其不斷執(zhí)行的操作，那作為獎勵的食物就是“積極強化物”。而當個體為消除某種刺激而做出某種重復的行為時，這個刺激就叫“消極強化物”。

一級強化物主要解決人的基本生理需求，比如呼吸、進食、休息等，它們具有較強的邊際效益。同時，當人們對于這一類需求的滿足感達到一個上限后，短期內，一級強化物對行為的刺激和強化作用將會大幅減弱。

二級強化物（刺激強化物）本身是一個中性刺激，一開始對行為沒有強化作用，但它可以和一系列的一級強化物產生關聯(lián)，從而發(fā)揮作用，比如金錢本來只是一堆紙或者數字，但它可以基于貨幣的屬性換取更多人們想要的東西。

當二級強化物和一級強化物組合后，二級強化物所產生的邊際效益會減弱很多，從而人們會在更長的時間里為這種強化物進行付出。

另外，斯金納還做使用鴿子做了一個有趣的實驗。在鴿子每次成功轉圈飛行后，他給鴿子提供食物進行獎勵，讓鴿子學會了轉圈。

當他不定時地進行投喂時，發(fā)現其中有幾只鴿子會在投食的食物會做出某些特定動作，認為這些動作會和食物的出現有一定管關聯(lián)，比如點頭、搖擺、將頭伸向某個固定方向等。這種迷信的行為，其實在人類身上也經常出現。

人們的行為在不斷地被強化過程中，也會在心理上獲得一系列的情緒波動，從而產生心流般的愉悅體驗。這些理論被提出后，被我們廣泛地應用在各行各業(yè)，產品設計者們使用這些方法讓用戶和玩家感到持續(xù)的快樂。

三、源于不確定的快樂：游戲中的收集

2019 年 11 月，泡泡瑪特在天貓“雙十一”當天的銷量為 8252 萬，斬獲天貓玩具類目第一名。一年后，2020 年 12 月 11 日，泡泡瑪特（Pop Mart）在香港上市，公司市值破 1000 億港元。憑借著對潮流文化的理解和玩具IP的成功孵化，泡泡瑪特讓產品進入了用戶的習慣區(qū)間，從而讓現實化的虛擬形象獲得了持續(xù)的生命力。

在消費者購買盲盒之前，廠商就提供了對應的幻想，告訴消費者他可能獲得的對象。在打開盒子之前，消費者的期待值會一直累加，并在打開盒子的一瞬間達到頂峰。隨后而來的只有兩種情況，沒有獲得期望中物品的消費者，收獲了失望但立馬想要翻盤；期望實現的消費者將會獲得巨大的快樂，并想要讓這種快樂繼續(xù)下去。

在感性驅動下，消費者除了將盲盒視為滿足自身占有欲的載體，更是將其當作展示自我優(yōu)勢的實現方式。在此基礎上，他們也會和其他人進行炫耀和比較，從而獲得進一步的快感和滿足。

事實上，在 20 世紀初，糖果生產商們就推出了具有蒸汽挖掘機外表的糖果販賣機，也就是最原始的抓娃娃機，人們只要按一下，百分之百會有糖果出來。后來，當糖果機在美國和日本流行時，人們能抓的東西就不僅僅是糖果了，而是會有很多小型的玩具。20 世紀中后期，經濟的發(fā)展，也讓娃娃機中的物品加入了各種各樣的文化和娛樂形象，風靡一時。

如果說玩家在體驗娃娃機時，能夠精準地通過按鍵控制機器的橫縱移動來抓起商品，是一種可以被訓練的技術，那么之后出現的扭蛋機，則是在游戲化的體驗中真正引入了抽獎概念。扭蛋機前的宣傳卡會清楚地展示里面賣的是什么，只要玩家投入硬幣然后扭動開關，裝有圖示中隨機一款玩具的扭蛋就會從出口落下。

相比起扭蛋這種依賴于固定場所和機器的抽獎方式，美國數學教授 Richard Garfield 在 1993 年發(fā)明了萬智牌，它不僅代表著交換式卡牌游戲誕生的里程碑，也代表了“抽獎+收集+應用”的鐵三角模式。

在商店出售的每一個包里都有數量和稀有度固定的隨機卡牌，只有當玩家購買后才知道卡牌具體是什么型，為了組成自己的組合，很多玩家會通過交換來換得自己想要的實體卡牌，這也就是交換式卡牌（TCG, trading card game) 的由來。

事實上，除了像神奇寶貝、游戲王這種通過抽獎獲取并具有收藏屬性的卡牌外，很多消費品也包含了這兩種屬性，比如在十幾年前小浣熊干脆面出的水滸系列卡牌，和現在很多口紅廠商使用的禮盒套裝等。這一類收集的對象往往是實體，人們對其收藏價值能有較為直觀的認知。

雖然通過不確定的獲取來完成物品的收藏能給人們自己帶來持續(xù)的滿足感，但人們更關注是否能使用物品來獲得人與人之間的比較優(yōu)勢。當收集和養(yǎng)成、對抗等應用型功能所結合，人們就會更將其視為自己實現差異化的方式。

在信息時代，收藏對象的實體載體在完成數字化的同時，也承載了更加多樣的關系。電腦游戲誕生后，玩家之間的交易變成了玩家和游戲廠商之間的交易，也就從交換式卡牌（TCG, trading card game) 慢慢的變成了收集式卡牌 (CCG, collectible card game)。

當用戶使用這些數字內容進行交互時，這些關系會以更高的頻次和更快的速度對人們的期望進行刺激、反饋和滿足，并在這樣的過程中建立越來越穩(wěn)固的情感鏈接。

對于中國玩家來說，大部分人最早是通過《擴散性百萬亞瑟王》這款游戲接觸到“抽獎+收集+應用”的模式。在過去十年里，日本動漫對于國內市場的影響逐漸增大，玩家和用戶在接受二次元風格的游戲內容時，也推動了后續(xù)國內一眾廠商選擇了這種以抽卡為主的 F2P+IAP 模式。

隨著這種商業(yè)模式在中國游戲市場成為主流，傳統(tǒng)的 copy sales、內容直購等模式也在逐漸向抽獎靠攏，比如 RPG 游戲《魔獸世界》中的抽坐騎、FPS游戲《CS:GO》中的抽槍械皮膚等。

當實體對象變成了數字內容，不僅解決了供給的限制，也降低了流動的障礙，從而將收集本身變得更有效，數字技術也將內容的其他屬性實現了更多元化的呈現。

設計者們不僅在卡牌本身內容上，也在角色、裝備、技能等游戲元素中加上了不確定性，讓玩家不斷地產生預期，從而在一次次地靠近預期過程中，獲得不確定的快樂。

同時，為了更好地將斯金納的強化理論應用在游戲中，設計者們也將集換式的內容加上了如同對抗、養(yǎng)成、社交等游戲機制和玩法，不僅通過其他玩家強化自身和數字內容的關系，也通過數字內容本身進一步地將人與人之間的各種需求放大。

這些常見的抽卡類游戲，就是基于人們的反饋機制，滿足玩家這種由不確定和預期產生的快樂。當玩家預期自己能獲得想抽到的角色時，大腦就已經開始分泌多巴胺，而不是真的等好事情發(fā)生才開始分泌。

對于人們來說，“差一點就贏/獲得”引起的多巴胺分泌程度只比“真的贏/獲得”稍低一點而已，并且“差一點就贏/獲得”為人們提供了不確定的引導，從而不斷地強化玩家的行為。

玩家的期望就是隨機出現的強化物，玩家偶然實現一次期望，接下來就會渴望下一次實現，如此循環(huán)往復。

在人工智能領域中的強化學習，不僅是心理學和計算科學交叉的產物，也是我們通過機器了解自己的重要方式，其核心在于讓機器通過通過正確的行為來獲得正確預測的獎勵。

雖然機器和人們在預測未來的時候總會發(fā)生偏差，但事實上我們從自己身上發(fā)生了可以通過多次執(zhí)行來不斷地讓我們的行為逼近正確。在強化學習的理論中，雖然我們無法獲得絕對準確的預測，但我們可以通過環(huán)境的反饋不斷地調整策略。

當我們讓目前行為和預期行為所帶來的獎勵預測誤差逐步趨近于零，這就達到了強化學習的最優(yōu)狀態(tài)。

在經典的強化學習理論中，機器最終學習的目標不是獲得最大的獎勵，而是獲得最小的預測誤差，并可以很好地解釋心理學中的條件反射現象。同時，它也告訴我們快樂并不是來源于獎勵的絕對值，并不是獲得越大的獎勵就會越快樂，其實我們要的是獎勵的相對變化預期。

即使如此，經典的強化學習理論默認了未來發(fā)生的獎勵是一定的，而沒有考慮不確定的預期。為了解決這個問題，分布式的強化學習理論指出，我們和機器不僅需要考慮未來獎勵的期望，同樣要考慮期望的整個分布。它代表了不確定性的大小也會影響到決策的發(fā)生，我們需要將期望的分布作為獎勵的一部分。

當不同的個體具有不同的對未來的獎勵預期分布，那么它在正向或負向的誤差反饋中會得到不對稱的刺激，從而表現出具體的性格。根據這個想法，Deepmind 也對多巴胺神經細胞進行了實驗，觀測到了性質相同的現象：不同的細胞對正向或負向的預期獎勵具有不確定的反應。

因此，我們的神經系統(tǒng)會不停地預測此刻的行為和下一刻獎勵的關系。當這種預測出現了偏差，就要通過一個神經遞質，來讓所有做出預測的神經元改變預期，而這種神經遞質就是多巴胺。

只要我們有行為，神經系統(tǒng)就會基于我們的認知產生預期。事實和預期的絕對偏差將會產生多巴胺，從而改變我們的下一次預期。如果這個預期恰好是我們所需求的，預期的偏差和調整就會給我們帶來所謂的快樂，即源于不確定的快樂。

四、發(fā)現未知的快樂：游戲中的探索

人類十分擅長使用現有的邏輯系統(tǒng)識別一系列的現象，并嘗試去發(fā)現與總結規(guī)律，以至于有時我們會經常誤認為，在完全隨機的事情背后也存在規(guī)律。

當某種行為提供了一種反饋，我們總是會不由自主地將它與其他事情聯(lián)系起來，非常希望找到一個與結果相關的原因，從而弄明白怎么做才能實現我們的想法、獲得想要的東西。

期望和不確定性確實會給人帶來實現愿望的快樂，但斯金納的理論同樣告訴我們，如果我們通過“假想”的推理或儀式獲得反饋，很可能會讓我們進入通過自我強化來獲得愉悅的誤區(qū)。

我們想要的愉悅感，其實是獎勵的一種表現形式。這種感覺來源于做出的行為和對應的結果之間的關系。然而，獎勵不等同于愉悅感，也不等同于快樂。

雖然愉悅感會伴隨多巴胺的出現而產生，但準確地說，多巴胺并不是獎勵本身產生的，而是來源于我們對獎勵的期望和實際發(fā)生情況的差距。

在行為的參與下，這種獎勵的預測誤差會引起多巴胺的釋放，并在反饋機制的作用下，促使我們發(fā)生更多的行為將偶然的獎勵變成必然。因此，從不確定中產生快樂的路徑為：確定的行為，以不確定的發(fā)生概率，發(fā)生確定的可能結果。

事實上，同樣是從不確定中獲得快樂，我們可以通過修改發(fā)生的路徑，從而帶來不一樣的結果。當我們不斷地發(fā)生某個確定的行為時，如果我們每次獲得的結果是不一樣的，并且無法預測到結果是什么，那么每一次的實際結果所帶來的獎勵都是和事先預期具有差距的，也會因此產生多巴胺和愉悅感。

這就是在探索和發(fā)現未知過程中，通過獲得超出預期的結果而帶來快樂和滿足。

我們在游戲中進行探索時，會進入到不同的地圖、遇到不同的怪物和 NPC、產生不同的對話和故事。但目前大部分的這些內容都是靠人力產出的，從而在投入產出效率的約束下，無法在嚴格意義上給予玩家持續(xù)提供超出預期的體驗。玩家在逐漸熟悉這些有限的內容時，就將自己的期望快速地消耗完畢，從而失去了心流體驗。

很明顯的一點是，如果我們想給玩家或用戶帶來持續(xù)的超越預期，并讓其感到持續(xù)的快樂，使用傳統(tǒng)的技術、生產方式是永遠無法實現的，人們消耗內容的速度會遠大于生產內容的速度。

因此，在人工智能的協(xié)助下，人們才有可能生產出能夠持續(xù)地給用戶提供超出預期的結果，進一步可以在條件反射機制上，通過將這種結果作為神經系統(tǒng)的獎勵，來鼓勵人們去探索未知，去嘗試新的體驗。

事實上，涌現式體驗就是在這個方向上的一種嘗試，從康威生命游戲 (Conway's Game of Life) 到荒野大鏢客 2（RDR 2），基于簡單規(guī)則下的復雜系統(tǒng)為我們提供了獲得快樂的另一種方式。

在每一次的交互中，即使我們執(zhí)行同樣的行為和操作，數字內容也會給我們提供不同的反應，這種反應同時還是我們無法進行預期的，自然也就不存在概率問題。

我們不僅會因為預期的超越而感到快樂，也會很迷信地嘗試從結果反向尋找規(guī)律，并在尋找的過程中因為再次超越預期產生更多的快樂。

寫在最后

無論是科學還是游戲，人們在骨子里似乎就藏著對完美和完整的追求。事實上，正如絕對的完美是不存在的，我們也無法對未來做出絕對準確的預測。

大自然讓我們熱愛冒險，從而能更好地生存和繁衍。人們要敢于冒險，才能獲得更大的收益。雖然冒險就意味著未知，但不確定的獎勵會格外的誘人，也能在關鍵時刻幫助我們做出決定。

雖然我們能通過重復地做某件事情，來嘗試建立認知并獲取世界的規(guī)律，但單向前進的人生使得我們在每一次的決定中都無法完全還原所有因素，我們也因此會更加在乎不確定性的識別和期望的管理。

在以游戲和社交為主的數字世界中，當我們一次次地產生期望、獲得反饋和調整期望時，我們不僅獲得了認知，也收獲了快樂。事實上，在短暫的生命里，如何獲得更多的快樂也成為了很多人想要解決的問題，而在大多情況下，我們總是在用新方法解決舊問題。

概率可以給予我們期望并產生愉悅，但又會將這種快樂約束在有限目標的無盡嘗試中。當我們跳出概率的固有約束，就能在創(chuàng)造和探索未知中，獲得更加深層次的快樂與滿足。

關于 rct

rct 成立于 2018 年，Y Combinator W19 成員，匯聚了來自人工智能、游戲、設計和商業(yè)化等領域的人才。rct 致力于使用人工智能打造下一代交互式娛樂體驗，我們的使命是幫助人類更多地了解自己。至今 rct 已獲得來自星瀚資本、Y Combinator 和 Makers Fund 的投資。