桃鉄ハワイで、ゴールするまで何回さいころを振るかの期待値

はじめに
問題設定
回答

「前進できるときは前進する」という戦術について検討する
前進すべきでない場合を考える：手作業
前進すべきでない場合を考える：探索する
結論

（大幅更新：2017.3.3、2021.5.15）

はじめに

これはもともと、科学系ソーシャルコミュニティ「なぞらぼ」（nazolab.net）に提示された問題で、私もこれに回答をしたのですが、なぞらぼのサービスが終了したため、こちらに私の回答を残しておくものです。なお、そのときにやっていなかった全探索による最適な戦術の確定は、2021.5.15の更新で追加しました。

なお、なぞらぼの内容はWayback Machineには残っています。こちらもご覧ください。（提示された問題と私の回答の箇所だけ残ってました）
http://web.archive.org/web/20150731075048/http://nazolab.net/qa/q/75

問題設定

桃鉄（桃太郎電鉄）は、いわゆるすごろくゲームなのだが、「サイコロを振って出た数を、折り返すことなく進まないとならない」という制約がある。
そのため、ゴール地点が行き止まりになっている場合（この代表例が「ハワイがゴール地点」である）、サイコロの出目によってはゴールに近づかず戻らないとならない場合もある。

例

[ゴール]─[A]─[B]─[C]─[D]─[E]─[F]─[G]─…

[D]にいる場合、
サイコロが4以下なら前進できる（ゴールに近づける）一方、
5以上ならゴールから離れるしかない。

問題は、このように「ゴールまで一本道で、ゴールは行き止まりにあり、戻る長さは十分あるとする。このとき、各地点にいる場合（上図では[A]～[G]）のゴールするまでの回数の期待値を求めよ。ただし、ゴールするまでの回数をなるべく減らすよう行動するものとする（ゲーム中では青マス赤マスなどがあるがそれは無視する）」というものである。

回答

「前進できるときは前進する」という戦術について検討する

「ゴールからnマス前にいる場合に、ゴールするまでにサイコロを振る回数の期待値」を x_n と書く。このとき、もし「前進できるときは前進する」とするならば、回数の期待値は以下のようになる。

現在地	1	2	3	4	5	6
x₁	1	1 + x₃	1 + x₄	1 + x₅	1 + x₆	1 + x₇
x₂	1 + x₁	1	1 + x₅	1 + x₆	1 + x₇	1 + x₈
x₃	1 + x₂	1 + x₁	1	1 + x₇	1 + x₈	1 + x₉
x₄	1 + x₃	1 + x₂	1 + x₁	1	1 + x₉	1 + x₁₀
x₅	1 + x₄	1 + x₃	1 + x₂	1 + x₁	1	1 + x₁₁
x₆	1 + x₅	1 + x₄	1 + x₃	1 + x₂	1 + x₁	1
x₇	1 + x₆	1 + x₅	1 + x₄	1 + x₃	1 + x₂	1 + x₁
x₈	1 + x₇	1 + x₆	1 + x₅	1 + x₄	1 + x₃	1 + x₂
x₉	1 + x₈	1 + x₇	1 + x₆	1 + x₅	1 + x₄	1 + x₃
x₁₀	1 + x₉	1 + x₈	1 + x₇	1 + x₆	1 + x₅	1 + x₄
x₁₁	1 + x₁₀	1 + x₉	1 + x₈	1 + x₇	1 + x₆	1 + x₅

「1」としか書いてない箇所は、それでゴールできる、すなわちそのサイコロを振った1回が期待値として算定されるという意味である。それ以外の場合は、別のマスに移って同様の処理を継続するため、いま振ったサイコロの1回に、別のマスを起点としたときの期待値を加算することになる。
ちなみに、x₁₁ までを考えているのは、この戦術でゴールから一番遠くまで戻されるのが x₁₁ だからである（x₅ にいるときにサイコロで6を出した場合）。

さて、上記の表の各行について、サイコロのそれぞれの目が6分の1の確率で出ることを考えると、これらの和を行単位で取ってそれぞれ6で割れば期待値となる。すなわち、

x₁ = 1 + [x₃ + x₄ + x₅ + x₆ + x₇] / 6
x₂ = 1 + [x₁ + x₅ + x₆ + x₇ + x₈] / 6
x₃ = 1 + [x₂ + x₁ + x₇ + x₈ + x₉] / 6
x₄ = 1 + [x₃ + x₂ + x₁ + x₉ + x₁₀] / 6
x₅ = 1 + [x₄ + x₃ + x₂ + x₁ + x₁₁] / 6
x₆ = 1 + [x₅ + x₄ + x₃ + x₂ + x₁] / 6
x₇ = 1 + [x₆ + x₅ + x₄ + x₃ + x₂ + x₁] / 6
x₈ = 1 + [x₇ + x₆ + x₅ + x₄ + x₃ + x₂] / 6
x₉ = 1 + [x₈ + x₇ + x₆ + x₅ + x₄ + x₃] / 6
x₁₀ = 1 + [x₉ + x₈ + x₇ + x₆ + x₅ + x₄] / 6
x₁₁ = 1 + [x₁₀ + x₉ + x₈ + x₇ + x₆ + x₅] / 6

という連立方程式を解けば x₁ から x₁₁ がわかる。実際に解くと、

x₁ = [9322998 / 1190509] ≒ 7.8311
x₂ = [9448236 / 1190509] ≒ 7.9362
x₃ = [9770670 / 1190509] ≒ 8.2071
x₄ = [9698604 / 1190509] ≒ 8.1466
x₅ = [9504846 / 1190509] ≒ 7.9838
x₆ = [9148068 / 1190509] ≒ 7.6841
x₇ = [10672746 / 1190509] ≒ 8.9648
x₈ = [10897704 / 1190509] ≒ 9.1538
x₉ = [11139282 / 1190509] ≒ 9.3567
x₁₀ = [11367384 / 1190509] ≒ 9.5483
x₁₁ = [11645514 / 1190509] ≒ 9.7819

となる。

前進すべきでない場合を考える：手作業

上記の結果を見ると、単に前進しないほうがよい場合というのも存在しそうと判断できる。例えば現在 x₄ にいるとして、サイコロで1を出した場合は、前進した場合（x₃）よりも後退した場合（x₅）のほうが、ゴールまでの回数の期待値が下がっている。この方法で「前進できる場合でも後退したほうがよい」と判断される状況は、以下のものが存在する（他は存在しない）。

x₄ にいるときに、サイコロで1を出す（x₃ > x₅）
x₄ にいるときに、サイコロで2を出す（x₂ > x₆）
x₅ にいるときに、サイコロで1を出す（x₄ > x₆）

そこで、このことを組み込んで再度計算をする。具体的には表を以下のように更新する（赤文字が更新箇所）。

現在地	1	2	3	4	5	6
x₁	1	1 + x₃	1 + x₄	1 + x₅	1 + x₆	1 + x₇
x₂	1 + x₁	1	1 + x₅	1 + x₆	1 + x₇	1 + x₈
x₃	1 + x₂	1 + x₁	1	1 + x₇	1 + x₈	1 + x₉
x₄	1 + x₅	1 + x₆	1 + x₁	1	1 + x₉	1 + x₁₀
x₅	1 + x₆	1 + x₃	1 + x₂	1 + x₁	1	1 + x₁₁
x₆	1 + x₅	1 + x₄	1 + x₃	1 + x₂	1 + x₁	1
x₇	1 + x₆	1 + x₅	1 + x₄	1 + x₃	1 + x₂	1 + x₁
x₈	1 + x₇	1 + x₆	1 + x₅	1 + x₄	1 + x₃	1 + x₂
x₉	1 + x₈	1 + x₇	1 + x₆	1 + x₅	1 + x₄	1 + x₃
x₁₀	1 + x₉	1 + x₈	1 + x₇	1 + x₆	1 + x₅	1 + x₄
x₁₁	1 + x₁₀	1 + x₉	1 + x₈	1 + x₇	1 + x₆	1 + x₅

同様に期待値を計算すると、

x₁ = [644175 / 83674] ≒ 7.6986
x₂ = [653562 / 83674] ≒ 7.8108
x₃ = [676686 / 83674] ≒ 8.0871
x₄ = [664269 / 83674] ≒ 7.9387
x₅ = [652332 / 83674] ≒ 7.7961
x₆ = [632178 / 83674] ≒ 7.5552
x₇ = [737541 / 83674] ≒ 8.8144
x₈ = [753102 / 83674] ≒ 9.0004
x₉ = [769692 / 83674] ≒ 9.1986
x₁₀ = [785193 / 83674] ≒ 9.3839
x₁₁ = [805347 / 83674] ≒ 9.6248

この結果を見ると、すべての期待値が最初に示したものより小さく、また今回定めた後退の条件を使うと前進よりも期待値が下がることも確認できる。

前進すべきでない場合を考える：探索する

厳密には、すべての後退の条件について確かめたうえでこれが最適と証明する必要がある。そこで以下のことを試す。

ゴールまで6マス以内の場合で、後退するしかないときは、後退する。
ゴールまで6マス以内の場合で、前進するか後退するか選べる場合は、考えうる戦術をすべて試す。ただし、ゴールできる場合はそのままゴールする。
ゴールまで7マス以上ある場合は必ず前進する。

この「すべて試す」というのは、

ゴールまで2マスで、かつサイコロで1を出したとき
ゴールまで3マスで、かつサイコロで1か2を出したとき
ゴールまで4マスで、かつサイコロで1か2か3を出したとき
ゴールまで5マスで、かつサイコロで1か2か3か4を出したとき
ゴールまで6マスで、かつサイコロで1か2か3か4か5を出したとき

の15個について前進か後退か選択肢があるため、試す戦術は2¹⁵ = 32768通りある。

これらすべてについて計算したところ、前述の戦術が最善であった（x₁からx₁₁のすべてについて、さいころを振る回数の期待値を減らすことのできる他の戦術が存在しなかった）。

結論

前進できるにもかかわらず後退すべき場合は、以下のもののみである（他の場合は前進すればよい）。

ゴールから4マス手前にいて、サイコロで1か2を出した場合
ゴールから5マス手前にいて、サイコロで1を出した場合