Rationalitelimiteetjeuxdemachine Beal 2005

Rationalité limitée et jeux de machines
Sylvain Béal*

Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

BOUNDED RATIONALITY AND MACHINE GAME
We study one aspect of the rationality of players in repeated games. The central
assumption is that player’s choice is limited to strategies that can be computed by
a model of computation (or machine). We investigate two of such models : the finite
automaton and the perceptron. Each model of computation gives its own abilities
to the player that uses it. We consider several possible measures for the complexity
of a machine. We survey in this article the most important results on the complexity
of strategies for the class of machine games.
Classification JEL : C72

INTRODUCTION
Dans un jeu non coopératif, la rationalité d’un joueur peut être scindée en rationalité cognitive et en rationalité instrumentale. Selon Walliser [1989], la première
exprime la capacité de l’individu à utiliser l’information de son environnement
afin de construire ses anticipations. Lorsqu’un joueur possède une rationalité cognitive parfaite, il est capable de former des anticipations parfaites. La deuxième
traduit la capacité de l’individu à utiliser les moyens dont il dispose pour atteindre
ses objectifs. Lorsqu’un joueur possède une rationalité instrumentale parfaite, il se

comporte en agent maximisateur. Lorsque les rationalités cognitive et instrumentale d’un joueur sont parfaites, il parvient instantanément à la solution d’un
problème. Dans ce contexte, l’analyse d’un jeu peut se résumer à la démonstration
* CREUSET, Université de Saint-Étienne, 6, rue Basse des Rives, 42023 Saint-Étienne, France.
Courriel : sylvain.beal@univ-st-etienne.fr
Je remercie Richard Baron, Jacques Durieu, Philippe Solal, Bernard Walliser et trois rapporteurs
anonymes pour leurs commentaires et suggestions. Je remercie également le ministère de la
Recherche pour son soutien financier dans le cadre de l’Action Concertée Incitative SCSHS-200404. Je reste seul responsable des erreurs subsistantes.

1033
Revue économique — vol. 56, N° 5, septembre 2005, p. 1033-1064

Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

On s’intéresse à un aspect de la rationalité des joueurs dans le cadre de la théorie des jeux répétés. L’hypothèse centrale est que le choix des joueurs est limité
aux stratégies calculables par un modèle de calcul (ou machine). Nous considérons
deux modèles de calcul : l’automate fini et le perceptron. Les capacités d’un modèle
de calcul sont associées à celles du joueur qui utilise ce modèle. Plusieurs critères
de mesure de la complexité d’une machine sont envisageables. L’objectif de cet
article est de présenter les principaux résultats liés à l’étude de la complexité des
stratégies pour la classe des jeux de machines.


Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

d’un théorème d’existence d’une solution. Cependant, montrer l’existence d’une
solution et exhiber cette solution sont deux exercices différents. Dans l’esprit de
Simon [1987], un joueur dont la rationalité est limitée met en place une procédure
qui calcule une solution au problème. Si l’on s’accorde à dire qu’un modèle de
calcul est une extension de la rationalité du joueur, alors ce type de procédure sera
implémentée par le modèle de calcul en question. Notre objectif, dans cet article,
est d’étudier ces procédures de calcul pour la classe des jeux répétés et ses applications en économie. La particularité de cette classe de jeux est que l’espace des
stratégies des joueurs augmente exponentiellement avec le nombre de périodes de
jeu. Il est donc peu probable qu’un joueur dont la rationalité est limitée puisse, en
pratique, considérer autant de comportements différents. C’est pour cette raison
qu’il semble raisonnable de faire l’hypothèse que l’ensemble des choix du joueur
se réduise aux stratégies implémentables par un modèle de calcul. D’une manière
générale, on peut se poser plusieurs questions liées à la rationalité des joueurs.
Nous les abordons successivement à travers les trois situations suivantes.
Considérons tout d’abord une situation dans laquelle le joueur sait que le
problème auquel il fait face possède une solution. Ce joueur doit s’efforcer de
trouver une procédure constructive lui permettant d’exhiber une solution. C’est

à cet effet que nous utilisons la théorie de la décidabilité, laquelle détermine s’il
existe une procédure constructive susceptible de répondre à la question de l’existence de solution d’un problème. Cette procédure de calcul de la solution doit
être implémentable par le modèle de calcul qui matérialise la rationalité du
joueur. On dit alors qu’un problème est décidable si l’exécution d’une procédure
constructive implémentée par le modèle de la machine de Turing s’arrête et
répond à la question de l’existence d’une solution au problème considéré. Ceci
signifie que la rationalité des joueurs est limitée dans sa dimension cognitive
par les capacités de fonctionnement du modèle de la machine de Turing. En
revanche, la rationalité instrumentale du joueur reste parfaite car il cherche une
solution optimale au problème en utilisant au mieux ses capacités. Cette question
a été étudiée en théorie des jeux par Rabin [1957] et Sofronidis [2004], et en
économie par Velupillai [2000]. Notons que, si le problème considéré n’est pas
décidable, le joueur est incapable d’identifier une solution même si les propriétés
mathématiques du problème en garantissent l’existence.
Si le problème considéré est décidable, cela ne signifie pas automatiquement
que la procédure calcule une solution en temps raisonnable. La théorie de la
complexité algorithmique examine cette question du temps de calcul de la solution d’un problème. On dit qu’une solution est calculée efficacement par une
machine de Turing (le problème est dit « facile ») si le temps d’exécution de la
procédure de calcul est un polynôme de la taille du problème1. Cette appréciation
de la complexité du fonctionnement d’un modèle de calcul constitue une

première mesure possible de la complexité d’une solution d’un jeu non coopératif. Ici, les limites de la rationalité cognitive des joueurs sont celles du modèle
de la machine de Turing. La rationalité instrumentale des joueurs est limitée dans
la mesure où la recherche de la solution optimale prend du temps. Une liste de
problèmes « faciles » et « difficiles » a été établie en théorie des jeux sous
l’impulsion des travaux de Sahni [1974] et Gilboa et Zemel [1989].

1. Le lecteur est renvoyé à Garey et Johnson [1979] pour une présentation complète de la théorie
de la complexité algorithmique.

1034
Revue économique — vol. 56, N° 5, septembre 2005, p. 1033-1064

Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

Revue économique

Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

Considérons enfin une situation dans laquelle le joueur s’intéresse aux stratégies calculables lui permettant d’atteindre une solution du jeu. La théorie de la
complexité des stratégies étudie cette question. Dans cette situation, nous considérons la complexité propre du modèle de calcul. Aumann [1981] et Abreu et

Rubinstein [1988] proposent, par exemple, d’évaluer la complexité d’une stratégie par le nombre d’états du plus petit automate fini capable de la mettre en
œuvre. Dans ce cas, la rationalité cognitive du joueur correspond aux capacités
du modèle de calcul. En revanche, compte tenu de ses moyens d’actions, le
joueur recherche toujours une solution optimale au problème auquel il fait face.
En ce sens, sa rationalité instrumentale est parfaite. L’utilisation d’un modèle de
calcul rend de facto décidable le problème de calcul de la solution, mais n’assure
pas que le temps nécessaire au calcul d’une solution soit raisonnable1. L’examen
de la complexité des stratégies se présente donc comme une démarche complémentaire aux deux précédentes.
Dans cet article, nous présentons de manière détaillée cette dernière classe de
modèles. La section 2 rappelle les notions nécessaires de théorie des jeux. Nous
introduisons le jeu répété du dilemme du prisonnier qui nous servira à illustrer les
concepts essentiels et à donner l’intuition des principaux résultats. Dans la
section 3, nous reviendrons en détail sur le fonctionnement du modèle de l’automate fini et nous présenterons un deuxième modèle de calcul, le modèle du
perceptron. Nous verrons que les modèles de calcul confèrent des aptitudes différentes aux joueurs, que ce soit dans leurs capacités à mémoriser de l’information
ou à construire des anticipations sophistiquées. La section 4 est consacrée à la
présentation des principaux résultats liés à l’étude de la rationalité limitée dans la
classe des jeux répétés. Nous envisagerons plusieurs paramètres permettant
d’évaluer la complexité d’un modèle de calcul. Nous verrons également qu’il
existe, pour chaque modèle de calcul, deux types d’approche de la complexité
d’implémentation des stratégies. On peut introduire un coût de complexité dont

les joueurs tiennent compte dans leurs préférences. Cela permet de sélectionner
un sous-ensemble des équilibres d’un jeu répété. On peut aussi borner la taille des
machines que peuvent choisir les joueurs. Dans le jeu du dilemme du prisonnier
répété sur un horizon fini, cette deuxième approche peut engendrer des équilibres
de Nash dans lesquels les joueurs coopèrent à chaque période. Plusieurs modèles
d’applications économiques viendront enrichir cette section. Dans la section 5,
trois exemples serviront de points de comparaison entre les modèles de l’automate et du perceptron. Nous conclurons par quelques remarques.

PRÉLIMINAIRES
Jeu sous forme normale
Pour faciliter la lecture de l’article, les définitions et résultats sont donnés pour
le cas 2 joueurs et il sera précisé lorsque le résultat est valable pour un nombre

1. Papadimitriou [1992] montre que le problème consistant à trouver l’automate optimal pour
jouer un jeu répété face à la stratégie de l’opposant est un problème « difficile » lorsqu’une borne est
imposée sur la taille de l’automate.

1035
Revue économique — vol. 56, N° 5, septembre 2005, p. 1033-1064


Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

Sylvain Béal

Revue économique
n > 2 de joueurs. Un jeu fini sous forme normale G, appelé jeu de base, est défini
par les éléments suivants :
1. Un ensemble fini N = { 1, 2 } de joueurs. Le symbole – i désigne l’adversaire
du joueur i ;
2. Un ensemble fini d’actions A i pour chaque joueur i. Sur un profil d’actions
a = ( a 1, a 2 ) du jeu de base G, a i ∈ A i désigne l’action du joueur i. L’ensemble
des profils d’actions est noté Ꮽ = A 1 × A 2 ;
3. Pour chaque joueur i = 1, 2 une fonction de gain π i : Ꮽ → ⺢ qui associe à
chaque profil d’actions a ∈ Ꮽ un gain π i ( a ) ∈ ⺢.

Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

π i ( a * ) ⭓ π i ( a i, a –* i ).

Jeu répété

Un jeu répété est la répétition du jeu de base G aux périodes t = 1, 2, …, T.
Lorsque T = ∞ (respectivement T < ∞), on parle de jeu répété à horizon infini
(respectivement à horizon fini) noté G ∞ (respectivement G T). Nous donnons la
suite des définitions pour G ∞ mais il est facile de les adapter à G T.
Une histoire h t = ( a 1, …, a t – 1 ) du jeu répété à la période t est la succession
des profils d’actions joués de la période 1 à la période t – 1. On note H t = Ꮽ t – 1
 ∞ t
l’ensemble des histoires possibles à la période t et Ᏼ = { ∅ } ∪ 
H
t = 2 


l’ensemble de toutes les histoires possibles de G ∞.
Une stratégie pure s i du joueur i dans le jeu répété G ∞ est une suite de fonctions ( s it ) t∞= 1. Pour chaque période t ⭓ 1, la fonction s it : H t → A i associe une
action s it ( h t ) ∈ A i à chaque histoire h t . On note s = ( s 1, s 2 ) un profil en stratégies pures, S i l’ensemble des stratégies pures du joueur i = 1, 2, et ᏿ l’ensemble
des profils en stratégies pures du jeu répété.
Chaque profil s ∈ ᏿ induit une unique suite de profils d’actions ( a t ) t∞= 1. Nous
considérons deux formulations distinctes du gain du joueur i dans G ∞1 :
1. Le gain moyen π˜ i défini par
1 T

π i ( a t ).
π˜ i ( s ) = lim inf --T
T→∞





t=1

2. Le gain moyen πˆ i actualisé au taux δ ∈ ( 0, 1 ) défini par
πˆ i ( s, δ ) = ( 1 – δ ) lim inf
T→∞

T

∑ δ t – 1 πi ( a t ).
t=1

1. On considère la limite inférieure car le gain moyen peut ne pas converger.


1036
Revue économique — vol. 56, N° 5, septembre 2005, p. 1033-1064

Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

Le gain minmax v i = min a – i ∈ A– i max a i ∈ Ai π i ( a i, a – i ) du joueur i = 1, 2
reflète le gain de sécurité que le joueur i peut se garantir contre toutes les actions
de l’opposant. La paire de gains minmax est notée v .
Un profil d’actions a * ∈ Ꮽ est un équilibre de Nash de G = ( N, Ꮽ, π 1, π 2 )
si pour tout i = 1, 2, et tout a i ∈ A i \ { a i* },

Sylvain Béal
Dans la première formulation, les joueurs sont infiniment patients. Ainsi, une
perte de gain sur un nombre fini de périodes n’a pas d’incidence sur le gain
moyen total du joueur. Ce n’est pas le cas dans la seconde formulation, puisque
les joueurs accordent davantage d’importance aux gains qu’ils obtiennent dans
les premières périodes.
Un profil en stratégies pures s * ∈ ᏿ est un équilibre de Nash de G ∞ si pour
tout i = 1, 2, et tout s i ∈ S i \ { s i* },1

π˜ i ( s * ) ⭓ π˜ i ( s i, s –* i ).

« Folk » théorème

THÉORÈME 1 (« folk » théorème – gain moyen non actualisé). Dans un jeu G ∞
à deux joueurs, pour toute paire v > v réalisable, il existe un équilibre de
Nash s * qui garantit une paire de gains π˜ ( s * ) = v aux joueurs.
THÉORÈME 2 (« folk » théorème – gain moyen actualisé). Dans un jeu G ∞ à
deux joueurs, pour toute paire v > v réalisable, ∃δ < 1 tel que, si δ < δ < 1, il
existe un équilibre de Nash s * qui garantit une paire de gains πˆ ( s * ) = v aux
joueurs.
Les deux théorèmes sont aussi valables pour n > 2 joueurs2. Nous introduisons l’exemple du jeu répété du dilemme du prisonnier qui nous permettra
par la suite d’illustrer plusieurs résultats.
Exemple 1. Dans le jeu du dilemme du prisonnier à deux joueurs, chaque joueur
a le choix entre une action C de coopération et une action D de défection. La
matrice des gains du jeu de base est la suivante :
joueur 2

joueur 1

C

D

C

3,3

0,4

D

4,0

1,1

(1)

Le profil d’actions ( D, D ) est le seul équilibre de Nash du jeu mais la paire
de gains obtenue du profil d’actions ( C, C ) (le gain coopératif) domine au sens
de Pareto. Lorsque ce jeu de base est répété sur un horizon infini, on peut représenter graphiquement la zone des gains intertemporels des deux joueurs dans un

1. La définition est semblable lorsque les joueurs actualisent leurs gains futurs.
2. Voir, par exemple, Fundenberg et Maskin [1986].

1037
Revue économique — vol. 56, N° 5, septembre 2005, p. 1033-1064

Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

Dans un jeu répété, on dit qu’une paire de gains π˜ ( s ) = ( π˜ 1 ( s ), π˜ 2 ( s ) ) est
strictement individuellement rationnelle si π˜ ( s ) > v , c’est-à-dire π˜ i ( s ) > v i pour
tout i = 1, 2.

Revue économique
plan en deux dimensions, ici ( π˜ 1 ( s ), π˜ 2 ( s ) ), où le point ( D, D ) est la paire de
gains minmax. La zone grisée représente l’ensemble des gains atteignables à
l’équilibre (Théorème 1). Maintenant, nous allons présenter deux stratégies du
jeu répété du dilemme du prisonnier auxquelles nous ferons régulièrement appel.
Ces stratégies sont définies, pour t = 1, par s i1 ( ∅ ) = C , et, pour t > 1, par :
si a –t –i 1 = C

C
1. TIT-FOR-TAT : s it ( h t ) = 
D

si a –t –i 1 = D.
si a –τ i = C ∀τ = 1, …, t – 1
sinon.

Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

Figure 1. Gains moyens d’équilibre du
jeu répété du dilemme du prisonnier

~
π2(s)
(C, D)
4
(C, C)

3

1
(D, D)
0

1

(D, C)
3

4

~
π1(s)

Un joueur i, qui utilise la stratégie TIT-FOR-TAT, débute en jouant une action
coopérative et joue ensuite, à la période t, l’action jouée par son adversaire à la
période t – 1. Le joueur i pardonne à son adversaire : lorsque ce dernier dévie
de l’action coopérative, le joueur i le punit mais lui laisse la possibilité de
revenir sur le chemin de coopération s’il joue à nouveau l’action coopérative
C. Par contre, le joueur i, qui met en œuvre la stratégie GRIM TRIGGER, ne
pardonne aucune erreur. Il joue l’action C à la première période et continue à
jouer l’action C tant que son opposant joue également l’action C. En revanche,
dès que son adversaire choisit l’action D, le joueur i déclenche des représailles
définitives.

Lorsqu’un joueur met en œuvre une de ces stratégies, il laisse la possibilité à
l’opposant, s’il coopère, de générer une histoire complète de profils d’actions
coopératifs. En ce sens, lorsque deux stratégies produisent une suite de T profils
d’actions ( C, C ), on dit indifféremment que ce sont deux stratégies coopératives,
qu’elles génèrent une histoire coopérative, ou qu’elles procurent aux joueurs un
gain moyen coopératif. TIT-FOR-TAT et GRIM TRIGGER sont deux stratégies
coopératives.
1038
Revue économique — vol. 56, N° 5, septembre 2005, p. 1033-1064

Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

C
2. GRIM TRIGGER : s it ( h t ) = 
D

Sylvain Béal

IMPLÉMENTATION DES STRATÉGIES
PAR UN MODÈLE DE CALCUL

Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

La procédure de décision d’un joueur comprend les étapes suivantes : le
joueur emmagasine de l’information factuelle, puis il traite cette information afin
de prendre ses décisions. Cette procédure peut être vue comme un processus
d’entrée/sortie au cours duquel l’individu effectue la tâche de traitement de
l’information. Aumann [1981] suggère d’utiliser les outils de l’informatique
théorique afin de modéliser ce processus par un modèle de calcul ou machine.
Dans le cadre de la théorie des jeux répétés, une machine est un mécanisme qui
reçoit en entrée de l’information sur l’histoire du jeu, traite cette information et,
ensuite, associe en sortie une action à chaque histoire du jeu. Le fonctionnement
de la machine dans son ensemble correspond au calcul d’une stratégie. On parle
alors de jeu de machines pour décrire un jeu répété dans lequel les joueurs sont
amenés à choisir une machine à laquelle ils délèguent la tâche de jouer le jeu. On
mesure la complexité d’une machine par un paramètre lié à sa taille. De cette
manière, nous nous intéressons à un aspect de la rationalité des joueurs dans la
mesure où ils considèrent la complexité de leurs stratégies. Lorsqu’un coût est
associé à la complexité d’une stratégie, ils auront une incitation à mettre en
œuvre des stratégies simples.

Rationalité et machines
À ce stade, il faut préciser quel type de rationalité intervient lorsqu’on étudie
un jeu de machines, ce qui revient à spécifier les capacités des joueurs.
Avant chaque exécution, une machine finie se trouve dans une configuration
particulière. Par hypothèse, à partir d’une entrée donnée, le nombre de configurations atteignables par la machine est fini. Lorsque le jeu est répété indéfiniment, le fonctionnement dynamique de la machine finit nécessairement par
décrire un cycle de configurations de longueur l ⭓ 1. Par conséquent, un modèle
de calcul peut implémenter uniquement un sous-ensemble des stratégies d’un jeu
répété à horizon infini. Autrement dit, chaque joueur doit s’accommoder des
capacités de la machine sélectionnée pour implémenter sa stratégie. Un joueur
ne peut pas engager une stratégie que sa machine ne peut pas calculer. Pour
chaque modèle de calcul examiné, nous verrons qu’une machine implémente
bien une stratégie pure d’un jeu répété. Ainsi, nous pourrons utiliser le terme de
machine pure ou simplement de machine pour signifier qu’elle implémente une
stratégie pure.
À chaque période t d’un jeu répété, l’action choisie par un joueur dépend
(i) du comportement passé observé de l’opposant,
(ii) du comportement futur anticipé de l’opposant.
Le point (i) renvoie à la capacité du joueur à mémoriser les choix effectués
par l’opposant dans le passé. Lorsque la rationalité du joueur est parfaite, il se
rappelle exactement les actions choisies par l’opposant depuis le commencement
1039
Revue économique — vol. 56, N° 5, septembre 2005, p. 1033-1064

Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

Modèle de calcul

Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

du jeu. Dans le cadre des jeux de machines, nous verrons, dans l’exemple 8, que
certaines machines sont parfois incapables de mémoriser l’intégralité ou même
un sous-ensemble des actions jouées par l’opposant.
Le point (ii) fait référence à la capacité d’anticipation du joueur. Lorsque la
rationalité cognitive d’un joueur est parfaite, il peut anticiper exactement le
comportement futur de son adversaire, pour toutes les périodes de jeu à venir.
Une machine n’est pas forcément capable de réaliser une telle tâche.
Par exemple, l’automate d’un joueur ne peut anticiper les actions de son opposant que pour un nombre fini de périodes lorsque celui-ci utilise une stratégie qui
ne cycle pas. Cette contrainte n’existe pas lorsque deux machines aux capacités
identiques s’affrontent. Cependant, lorsqu’un joueur rencontre un adversaire
dont la rationalité est parfaite, ce n’est plus le cas. Il est possible de construire
un exemple dans lequel le joueur i, dont la rationalité est parfaite, met en œuvre
une stratégie que la machine du joueur – i ne peut pas reconnaître. La rationalité
cognitive du joueur – i est dite limitée dans la mesure où il est incapable d’anticiper les choix futurs de son opposant face à ses propres actions. Nous illustrerons ce point à l’aide de l’exemple 3.
Par contre, dans un jeu de machines, les joueurs possèdent une rationalité
instrumentale parfaite. Ils utilisent tous les moyens dont ils disposent pour
atteindre leurs objectifs. Ils calculent la solution d’un problème d’optimisation
dynamique. Il est vrai que l’utilisation d’un modèle de calcul réduit l’espace des
stratégies des joueurs à l’espace des stratégies implémentables par le modèle de
calcul en question, mais cette limitation des stratégies intervient comme une
contrainte dans le programme d’optimisation. Ce sont les limites de la rationalité
cognitive des joueurs qui définissent la contrainte que doit satisfaire le
programme d’optimisation. Précisément, la rationalité cognitive d’un joueur est
ici indissociable de sa rationalité instrumentale. La rationalité cognitive définit
une contrainte sur le programme d’optimisation du joueur mais elle n’a pas
d’effet sur le degré de perfection de la rationalité instrumentale.
Nous allons maintenant définir les trois principaux modèles utilisés pour
rendre compte de certains aspects de la rationalité limitée des joueurs.

Automates
Un automate pour le joueur i est un quadruplet M i = ( Q i, q i0, λ i, µ i ) où :
1. Q i est l’ensemble fini des m i états de la machine M i avec q i un élément typique
de Q i ;
2. q i0 ∈ Q i est l’état initial ;
3. λ i : Q i → A i est la fonction de sortie qui associe une action λ i ( q i ) ∈ A i à
chaque état q i ∈ Q i de l’automate. Le résultat λ i ( q i ) indique au joueur i l’action
à jouer chaque fois que l’automate se trouve dans l’état q i ;
4. µ i : Q i × A – i → Q i est la fonction de transition. À la période t, si l’automate
M i est dans l’état q i ∈ Q i et que le joueur adverse a joué l’action a – i ∈ A – i , alors
l’automate transite vers l’état µ i ( q i, a – i ).
Dans un modèle de théorie des jeux répétés, un automate correctement défini doit
spécifier une transition µ i ( q i, a – i ) pour chaque joueur i = 1, 2 et pour chaque paire
1040
Revue économique — vol. 56, N° 5, septembre 2005, p. 1033-1064

Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

Revue économique

Sylvain Béal
( q i, a – i ) ∈ Q i × A – i 1. Dans la paire M = ( M 1, M 2 ), M i est l’automate choisit par
le joueur i = 1, 2. L’ensemble des paires d’automates finis est noté ᏹ. On note ᏹ im
l’ensemble des automates du joueur i dont le nombre d’états est au plus m.
Considérons le jeu répété du dilemme du prisonnier. Les plus petits automates
M1 et M2 capables d’implémenter les stratégies TIT-FOR-TAT et GRIM TRIGGER
sont décrits par la figure 2. Ils comportent deux états. Lorsqu’on représente
graphiquement un automate, un cercle correspond à un état. Ici, nous identifions
un état par le symbole inscrit à l’intérieur de cet état indiquant l’action jouée dans
cet état. Une flèche correspond à une transition et le symbole inscrit au dessus
de cette flèche indique l’action jouée par l’adversaire et observée par le joueur.
L’état initial est signalé par la flèche ne possédant pas d’état prédécesseur.
Figure 2. Automates implémentant deux stratégies du dilemme du prisonnier

D

Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

D

D
C

C

C, D

C

D

M1 : TIT-FOR-TAT

C

D

M2 : GRIM TRIGGER

Une mesure possible de la complexité d’une stratégie est le nombre d’états du
plus petit automate capable de l’implémenter. Les stratégies GRIM TRIGGER et
TIT-FOR-TAT ont donc une complexité de 2. À chaque période, le fonctionnement
de l’automate dépend de l’état dans lequel il se trouve et de l’action jouée par
l’opposant. Une histoire du jeu s’exprime à travers une suite de transitions.
Chaque transition conduit à un nouvel état de l’automate qui indique au joueur i
l’action à jouer. À toute histoire du jeu, un automate associe une action. Un automate implémente bien une stratégie.
Nous introduisons deux exemples mettant en évidence les limites de la rationalité cognitive d’un joueur. L’exemple 2 identifie les limites de la rationalité
d’un joueur dont le choix de stratégies est restreint aux automates d’une certaine
taille, alors que son adversaire peut sélectionner des automates d’une taille supérieure. L’exemple 3 souligne les limites de la rationalité d’un joueur dont le
choix de machines est réduit au modèle de l’automate alors que son adversaire
n’est pas limité dans le choix de ses stratégies.
Exemple 2. Considérons le jeu de machines du dilemme du prisonnier répété sur
un horizon infini et dans lequel les joueurs considèrent le gain actualisé moyen.
Les choix de stratégies des joueurs 1 et 2 sont limités aux automates de taille 2
et 4 respectivement. Supposons que le joueur 2 emploie la stratégie suivante :
jouer l’action C tant que le joueur 1 n’a pas joué l’action D plus de deux fois,
sinon jouer l’action D. L’automate M3 implémente cette stratégie.

1. Lorsqu’un automate est doté d’une fonction de sortie λi, on le qualifie de machine de Moore.
Dans le cadre des jeux répétés, l’évidente utilité de sa fonction de sortie plaide en faveur de l’usage
de la machine de Moore.

1041
Revue économique — vol. 56, N° 5, septembre 2005, p. 1033-1064

Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

C

Revue économique
Figure 3. Automate infligeant des représailles minmax après trois défections

C

C
D

M3

:

C

D
C

C, D

C
D
C

D

Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

Exemple 3. Considérons le jeu du dilemme du prisonnier répété indéfiniment. Dans cet
exemple, le joueur 1 doit choisir un automate d’une taille quelconque, alors que le
choix de stratégies du joueur 2 n’est pas limité. La stratégie s 2 du joueur 2 est la
suivante. Il construit une suite de Fibonacci dont les deux premiers termes sont u 1 = 1
et u 2 = 1 et de récurrence u n + 2 = u n + 1 + u n indépendante de l’indice t des périodes
du jeu. Le joueur 2 joue l’action C si les deux conditions suivantes sont vérifiées :
1. soit t = 1, soit il n’existe pas d’entier n tel que u n + 2 = t , c’est-à-dire chaque
fois que l’indice de la période de jeu n’est pas un terme de la suite de Fibonacci ;
2. a 1τ = a 2τ, ∀τ = 1, …, t – 1 c’est-à-dire que le joueur 1 a exécuté à chaque
période passée τ < t la même action que le joueur 2 (parfait mimétisme).
Dans les autres cas, le joueur 2 joue l’action D. Autrement dit, le joueur 1 doit
coordonner ses choix d’actions avec ceux de son adversaire, sinon celui-ci lui
inflige des représailles minmax définitives. Si le joueur 1 coopère, la fréquence
d’apparition du profil d’actions ( C, C ) dans l’histoire du jeu augmente au fil du
temps si bien que le gain moyen obtenu par chaque joueur tend vers 3. Néanmoins, par définition de la suite de Fibonacci, la stratégie du joueur 2 ne
comporte pas de cycle sur le chemin d’une telle coordination. L’automate du
joueur 1 est donc incapable de coordonner ses choix d’actions avec ceux de
l’opposant, exception faite d’une suite infinie d’actions D. En effet, à chaque
période t, il lui faudrait au moins t états pour déterminer si t appartient à
l’ensemble des valeurs de la suite de Fibonacci. Comme l’horizon de jeu n’est
pas borné, un nombre infini d’états serait nécessaire alors que par définition
l’automate du joueur est fini. Le joueur 1 ne peut donc pas anticiper correctement
les actions futures de son adversaire.

Dans la section suivante, nous allons présenter un modèle de calcul dont le
fonctionnement est complètement différent de celui du modèle de l’automate. Le
modèle du perceptron amène le joueur à choisir ses actions sur la base d’un
résumé statistique de l’histoire du jeu.

Perceptrons
Dans le cadre d’un jeu répété à deux joueurs et deux actions { C, D }, un
perceptron pour le joueur i = 1, 2 est le triplet ψ = ( f, ᏷, r ) où
1042
Revue économique — vol. 56, N° 5, septembre 2005, p. 1033-1064

Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

Face à cette stratégie, lorsque δ > 1 ⁄ 3, la meilleure réponse possible consiste
à coopérer à toutes les périodes, excepté aux deux premières. Or, cette stratégie
n’est pas implémentable par un automate à deux états. Mettre en œuvre une telle
stratégie requiert un état dans lequel est jouée l’action D (aux périodes t = 1, 2 )
puis un autre état dans lequel est jouée l’action C (pour toute autre période).
Cependant, il est impossible de construire un tel automate jouant l’action C à
toutes les périodes t > 2. La rationalité cognitive du joueur 1 est limitée dans la
mesure où sa machine est incapable d’anticiper que son adversaire le punira s’il
dévie trois fois de l’action C.


Sylvain Béal
1. Une fonction résumée f : A × H t → ⺢ définie par
1
f ( a, h t ) = ---------- { τ ⭐ t – 1 : a τ = a }
t–1
associe à chaque profil d’actions a ∈ A sa fréquence d’apparition dans l’histoire
h t . Par définition,
f ( a, h t ) = 1 pour tout h t ∈ H t ;



Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

2. Une collection finie ᏷ de classificateurs. Un classificateur k l ∈ ᏷ est défini
par le triplet
k l = ( α l, V lt, d l ),
où la fonction α l : Ꮽ → ⺢ associe un réel à chaque profil d’actions du jeu de
base. Le classificateur agrège les informations issues de l’histoire du jeu et résumées par la fonction f en les pondérant par les poids de la fonction α l . On obtient
une valeur réelle que le classificateur compare à un seuil, souvent fixé à 0. Précisément, la valeur du classificateur k l au début de la période t ⭓ 1 est :
V l1
V lt =
α l ( a ) f ( a, h t ) + ------,
t



a∈A

où V l1 ∈ ⺢ exprime la valeur initiale du classificateur. Finalement, l’unité de
décision est la fonction à seuil d l : ⺢ → { 0, 1 } définie comme suit :
t
 1 si V l ⭓ 0
dl = 
 0 si V lt < 0.
3. La règle de comportement à la période t du perceptron ψ du joueur i est une
fonction r : { 0, 1 } ᏷ → A i qui associe une action a i ∈ A i à tout vecteur
( d 1, …, d ᏷ ). Elle indique au joueur i l’action à jouer à la période t en fonction
des valeurs prises par l’ensemble des classificateurs.

Grâce à son unité de décision, chaque classificateur donne une valeur 0 ou 1
à l’information factuelle enregistrée jusqu’ici selon le seuil fixé. Ensuite, le
perceptron agrège les valeurs des classificateurs, et la règle de comportement les
classe en deux zones ; l’une où est jouée l’action C, l’autre où est jouée l’action
D. Nous décrirons ce processus au cours de la section 4.
Par la suite, ψ ( h t ) ∈ { C, D } désignera l’action choisie par le perceptron ψ
suite à une histoire h t . Pour une histoire du jeu à la période t, un perceptron muni
de ᏷ classificateurs peut être représenté par le schéma suivant :
Figure 4. Le calcul du choix d’une action à la période t par le modèle du perceptron

f ((C, C), ht)

␣1(C, C)
␣2(C, C)

V1t

V2t

f ((D, C), ht)

d2僆{0,1}
d2
r : {0,1}|᏷|Æ{C, D}

f ((C, D), ht)

f ((D, D), ht)

␣|᏷|(C, C)
␣|᏷|(D, D)

t
V|᏷|

d|᏷|

1043
Revue économique — vol. 56, N° 5, septembre 2005, p. 1033-1064

Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

a∈A

Revue économique
Notons, d’ores et déjà, que lorsque le nombre d’unités de décision augmente,
la classification devient plus fine. De cette manière, la règle de comportement
gagne en précision lorsque κ augmente. Nous utiliserons le nombre de classificateurs comme une mesure de la complexité du perceptron.
Exemple 4. Dans le cadre du jeu répété du dilemme du prisonnier, pour le joueur 1,
les stratégies TIT-FOR-TAT et GRIM TRIGGER sont implémentées par les perceptrons
k 1 et k 2 munis chacun d’un seul classificateur et définis de la manière suivante :
α 1 ( C, C )
α 1 ( C, D )
α 1 ( D, C )
α 1 ( D, D )

=
=
=
=

0
–2
+2
0

k2 :

V 11 = 1

α 2 ( C, C )
α 2 ( C, D )
α 2 ( D, C )
α 2 ( D, D )

=
=
=
=

0
–2
0
–2

V 21 = 1

Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

et une unité de décision identique, ∀l = 1, 2 :
1
d1 = 
0

si V lt ⭓ 0
si V lt < 0.

Pour chaque t, la fonction r fait correspondre l’action C à 1 et l’action D à 0.
Examinons plus en détail le perceptron qui implémente TIT-FOR-TAT. La valeur
initiale du perceptron V 11 est positive, ce qui amène le perceptron à jouer l’action
C à la première période conformément à la définition de l’unité de décision. Si le
joueur adverse joue aussi initialement l’action C, alors la valeur du classificateur
k 1 reste positive et le perceptron joue à nouveau l’action C. Tant que le joueur
adverse joue l’action C, ce processus se reproduit. Par contre, une déviation de
l’opposant est évaluée à un poids α 1 ( C, D ) = – 2 par le perceptron et fait passer
la valeur du classificateur en dessous du seuil 0. Le perceptron joue alors l’action
D en représailles. Tant que le joueur adverse continue de jouer l’action D,
le poids associé au profil d’actions (D, D) maintient V 1t < 0 et le perceptron
joue l’action D. En revanche, si l’opposant coopérère à nouveau, un poids
α 1 ( D, C ) = + 2 entre dans le calcul de la valeur du classificateur qui repasse au
dessus du seuil 0. Le perceptron répond à ce basculement en jouant l’action C à la
période suivante. Le fonctionnement d’un tel perceptron implémente bien la stratégie TIT-FOR-TAT. Pour le joueur 2, la construction de ces deux stratégies est
similaire.

Chaque classificateur kl résume une histoire du jeu en une simple valeur via
la fonction V 1t . L’unité de décision puis la règle de comportement associent
ensuite une action à toute histoire du jeu. Le modèle du perceptron implémente
donc une stratégie.

COMPLEXITÉ D’IMPLÉMENTATION DES STRATÉGIES
Dans cette section, nous présentons les principaux résultats liés à l’étude des
jeux de machines. Quel que soit le modèle utilisé, il est possible de regrouper
l’ensemble des travaux en deux grandes catégories :
1044
Revue économique — vol. 56, N° 5, septembre 2005, p. 1033-1064

Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

k1 :

Sylvain Béal

Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

Jeux d’automates
Complexité endogène
Nous abordons deux mesures distinctes de la complexité d’un automate. Nous
considérons tout d’abord le nombre d’états de l’automate, puis le nombre d’états
et de transitions de l’automate.
Mesure de la complexité par le nombre d’états
Rubinstein [1986] et Abreu et Rubinstein [1988] étudient la classe des jeux de
machines à deux joueurs dans lesquels le choix des joueurs est limité aux stratégies
implémentables par le modèle de l’automate. Le modèle repose essentiellement sur
la prise en compte du coût de complexité des stratégies. Ce coût est mesuré par le
nombre d’états de l’automate qui implémente la stratégie en question et entre de
manière lexicographique dans la fonction de préférence du joueur. Dans un
premier temps, le joueur maximise son gain moyen sans escompte en fonction de la
stratégie adverse anticipée. Ensuite, il cherche à minimiser le coût de sa stratégie,
c’est-à-dire la taille de son automate. Lorsque deux stratégies lui procurent le
même gain, le joueur opte pour la stratégie la moins complexe.
Précisons la définition d’un cycle. Le nombre d’états d’un automate étant fini,
il existe forcément une paire d’états q = ( q 1, q 2 ) qui apparaît une deuxième fois
dans l’histoire du jeu, disons à la période t c2 . Notons t c1 la période à laquelle
cette paire d’états est apparue pour la première fois. La suite de paires d’états
( q tc1, …, q tc2 – 1 ) décrit un cycle de longueur t c2 – t c1. Puisque le jeu est répété
indéfiniment, le gain moyen de chaque joueur est le gain moyen qu’il obtient au
cours du cycle.
Abreu et Rubinstein [1988] montrent que tout équilibre de Nash ( M 1, M 2 ) de
leur jeu de machines possède les propriétés suivantes.
PROPOSITION 1 (Abreu et Rubinstein [1988]). (i) Toute histoire du jeu se
décompose en une phase 1 d’introduction qui comprend des états tous
distincts visités une seule fois et n’étant ensuite jamais réutilisés ; une phase 2
1045
Revue économique — vol. 56, N° 5, septembre 2005, p. 1033-1064

Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

1. Complexité endogène. Le coût de complexité d’une stratégie est assimilé à la
taille de la machine qui l’implémente. Les préférences des joueurs tiennent
compte de ce coût. On examine les conséquences de cette modification sur
l’ensemble des équilibres du jeu de machines. Dans ce type de modèle, les
joueurs prennent des décisions avec des limites computationnelles (contrainte
coût/taille de la machine) bien que la taille de leurs machines puisse être arbitrairement grande.
2. Complexité exogène. On opère une restriction supplémentaire sur l’espace des
stratégies en bornant la taille des machines que peuvent sélectionner les joueurs.
Dans un jeu répété sur un horizon fini, on cherche à obtenir des équilibres coopératifs. Il est également possible d’étudier une situation de complexité asymétrique dans laquelle la rationalité des deux joueurs est soumise à des bornes différentes. Dans ce type de modèle, la taille de la machine des joueurs est fixée. Les
stratégies des joueurs sont donc computationnellement limitées (les anticipations
sont bornées) mais la rationalité instrumentale des joueurs reste parfaite sous
cette contrainte.

Revue économique

Exemple 5. Considérons le jeu de base à deux joueurs dont la matrice des gains
est la suivante :
joueur 2
joueur 1

C
D

C
0,0
2,2

D
2,2
0,0

Ce jeu est doublement symétrique et possède deux équilibres de Nash stricts
en stratégies pures, (C, D) et (D, C), qui procurent la même paire de gains aux
joueurs. Notons que le gain moyen que chaque joueur obtient sur chaque équilibre de Nash est le gain maximum du jeu. Supposons que les joueurs 1 et 2 choisissent les automates M 4 et M 5 respectivement :
Figure 5. Deux automates illustrant la phase 2

D

C
C, D

D
M4

:

C

C, D

D

M5

:

C

C

D

Ces deux automates débutent chacun par l’action C, alors que chaque joueur
a intérêt à choisir l’action alternative à celle sélectionnée par l’adversaire.
Ensuite, les deux automates décrivent un cycle (C, D), (D, C) :
1
2 3 4 5 …
t
C
λ 14 ( q 1t )
C D C D …
λ 25 ( q 2t )
C
D C D C …













Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

La suite d’états générée par chaque automate Mi finit inévitablement par cycler
à partir de la période t c1. Par définition, les états visités entre la première période
et la période t c1 – 1 ne peuvent pas faire partie du cycle. Les états de la phase 1
apparaissent donc une unique fois. À l’équilibre, l’existence de la phase 2
provient du fait que deux machines possédant une structure de fonctionnement
identique n’ont pas forcément le même état de début de cycle. La coordination
des actions n’est pas immédiate et la phase 2 sert de période d’ajustement.
Ensuite, la phase 3 débute. Notons que les phases 1 et 2 peuvent être vides.
L’exemple 5 illustre le rôle de la phase 2.

phase 2

phase 3

1046
Revue économique — vol. 56, N° 5, septembre 2005, p. 1033-1064

Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

de transition au cours de laquelle les états du cycle sont utilisés mais pas de
manière coordonnée ; une phase 3 de cycle se répétant indéfiniment et
composée d’états tous distincts.
(ii) m 1 = m 2 , les deux automates ont la même taille. Ils possèdent également
le même nombre d’états cycliques et non cycliques.
(iii) Lors de la phase 3, les deux joueurs coordonnent parfaitement leurs
actions, c’est-à-dire que pour tout τ ∈ ⺞ tel que τ < t c2 – t c1 et pour tout t,
λ 1 ( q 1t ) = λ 1 ( q 1t + τ ) si et seulement si λ 2 ( q 2t ) = λ 2 ( q 2t + τ ) .

Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

La phase 2 permet d’ajuster la dynamique de fonctionnement des automates
pour que la phase 3 de cycle puisse débuter. À chaque période du cycle, les deux
joueurs reçoivent le gain maximum du jeu. De plus, si le joueur i choisit la
machine M i4, son opposant ne peut pas obtenir le même gain moyen en optant
pour un automate muni d’un seul état1. Les joueurs n’ont pas intérêt à dévier de
leurs stratégies. La paire ( M 14, M 25 ) est donc un équilibre de Nash.
Une fois la phase de cycle initiée, chaque joueur connaît exactement l’état
dans lequel se trouve l’automate adverse. Les joueurs se coordonnent parfaitement dans leurs choix d’actions (condition (iii)).
Lorsqu’on considère le gain moyen non actualisé, la phase 2 n’a pas
d’influence sur le gain moyen du joueur puisque seul compte le gain obtenu en
moyenne lors du cycle. Par contre, lorsqu’on considère le gain actualisé moyen,
la présence d’une phase d’ajustement a une répercution négative sur le gain
moyen des joueurs. Dans cette situation, la phase 2 est vide à l’équilibre. Par
exemple, le joueur 2 a intérêt à choisir une machine M 25 ′ dont la seule différence
avec M 25 est que l’état initial est l’état jouant l’action D. Avec la paire ( M 14, M 25 ′ ),
la phase de cycle (C, D), (D, C) débute immédiatement.

La condition (ii) s’explique par le fait qu’il suffit d’un automate M i à m états
pour obtenir une meilleure réponse face à un autre automate M – i à m états. On
peut montrer que si un automate comporte un état non utilisé, cet état peut être
supprimé sans entraîner une perte de gain. À l’équilibre, tous les états de l’automate sont utilisés.
Pour la classe des jeux de machines 2 × 2, la proposition 1 implique que les
gains à l’équilibre sont nécessairement des combinaisons linéaires des gains
obtenus des profils d’actions inscrits dans les diagonales de la représentation
matricielle du jeu. Pour le jeu de machines du dilemme du prisonnier, tout équilibre de Nash est une combinaison linéaire des profils d’actions (C, C) et (D, D)
ou des profils d’actions (C, D) et (D, C). La zone des gains moyens rationnels du
théorème 1 est réduite à la « croix » représentée par la figure 6.
~
π2(s)

Figure 6. La « croix » dans le jeu
répété du dilemme du prisonnier

(C, D)
4
(C, C)

3

1
(D, D)
0

1

(D, C)
3

4

~
π1(s)

1. Les deux joueurs peuvent néanmoins parvenir au même résultat avec une paire d’automates
à un état.

1047
Revue économique — vol. 56, N° 5, septembre 2005, p. 1033-1064

Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

Sylvain Béal

Revue économique
Les stratégies GRIM TRIGGER et TIT-FOR-TAT ne sont pas des stratégies du jeu
de machines à l’équilibre. Les deux automates de la figure 2 qui implémentent
ces stratégies comportent chacun un état utilisé dans l’unique but de punir le
joueur adverse lorsqu’il dévie de l’action coopérative. Cet état sert de menace et,
par conséquent, n’est jamais visité sur le chemin d’équilibre. Lorsque cet état est
supprimé, l’automate est moins coûteux pour le joueur alors que son gain reste
inchangé. Dans ce jeu de machines, les menaces hors du chemin d’équilibre
n’existent pas. Par contre, l’exemple suivant montre que la phase 1 d’introduction peut jouer le rôle de menace.
Exemple 6. Considérons le jeu de machines du dilemme du prisonnier répété
indéfiniment et supposons que le joueur 1 utilise l’automate suivant :
Figure 7. Automate comportant une menace
sur le chemin d’équilibre

:

D

D

C

Face à la stratégie M 16 employée par le joueur 1, la meilleure réponse du
joueur 2 consiste à jouer une fois l’action D puis à coopérer afin d’obtenir en
moyenne le gain coopératif. Cette meilleure réponse est implémentée par la
machine M 6 . La paire ( M 16, M 26 ) produit l’histoire du jeu suivante :
t
λ 16 ( q 1t )
λ 26 ( q 2t )

1
D
D

2 3 4 5 …
C C C C …
C C C C …














Document téléchargé depuis www.cairn.info - SKEMA - - 92.103.198.242 - 01/09/2014 15h27. © Presses de Sciences Po

D
M6

phase 1

phase 3

La phase 1 d’introduction comporte un seul état. Ensuite, la phase 3
commence et chaque automate cycle sur l’état C. Si l’opposant dévie, il est
possible de revenir à l’état de la phase 1. Cela signifie que la période initiale joue
le rôle de la menace dans la mesure où elle inflige