楽しみながら学ぶベイズ統計

【最新 – ベイズ統計学を学ぶためのおすすめ本 – 入門から応用まで】も確認する

ベイズ統計とは何か

本書は、ベイズ統計を解説している本です。ベイズ統計の基本的な考え方から始まり、革新の程度や不確実さの論理、分布の解説、ベイズの定理と事前確率などベイズ統計の入門的な内容が一通り説明されています。他の入門書よりも内容が豊富ですが、高校の基本的な代数を事前に理解している必要があります。

ウィル・カート (著), 水谷 淳 (翻訳)
出版社 : SBクリエイティブ (2020/7/8)、出典:出版社HP


言葉に対する情熱を思い出させてくれたメラニーへ

目次

謝辞

はしがき
統計を学ぶ意味
「ベイズ」統計とは何か?
本書の内容
パートⅠ:確率論入門
パートⅡ:ベイズ確率と事前確率
パートⅢ:パラメータ推定
パートⅣ:仮説検定統計学の真髄
本書を読むのに必要な予備知識
冒険に旅立とう!

パートⅠ:確率入門

第1章 ベイズ的思考と日常の推論
奇妙な体験に関する推論
データを観察する
事前の信念と条件付き確率
仮説を立てる
日々の発言に仮説を見出す
さらなる証拠を集めて考えを更新する
仮説どうしを比較する
データが考えを左右するのであって、考えがデータを左右すべきではない
まとめ
練習問題

第2章 確信のなさを測る
確率とは何か?
出来事の結果を数え上げることで確率を計算する
信じる程度の比として確率を計算する
オッズから確率を導く
確率を求める
コイン投げにおける信念の強さを測る
まとめ
練習問題

第3章 不確実さの論理
ANDで確率を組み合わせる
2つの確率を組み合わせる
確率の乗法定理
例:遅刻する確率を計算する
ORで確率を組み合わせる
互いに排反な出来事においてORを計算する
互いに排反でない出来事に加法定理を使う
例:高い罰金を取られる確率を計算する
まとめ
練習問題

第4章 二項分布を作る
二項分布の構造
問題の詳細を理解して抽象化する
二項係数を使って結果を数え上げる
組み合わせ論―二項係数を使った高度な数え方
目的の結果が起こる確率を計算する
例:ガチャゲーム
まとめ
練習問題

第5章 ベータ分布
ある奇妙なシナリオ―データを得る
確率と統計と推定を区別する
データを集める
確率の確率を計算する
ベータ分布
確率密度関数を分解する
確率密度関数を先ほどの問題に当てはめる
連続分布を積分で定量化する
ガチャゲームのリバースエンジニアリング
まとめ
練習問題

パートⅡ:ベイズ確率と事前確率

第6章 条件付き確率
条件付き確率を導入する
条件付き確率はなぜ重要か
独立性と改良版の確率の定理
逆の条件付き確率とベイズの定理
ベイズの定理
まとめ
練習問題

第7章 レゴを使ってベイズの定理を導く
条件付き確率を視覚的に導く
数学を使って薄く
まとめ
練習問題

第8章 ベイズの定理における
事前確率、尤度、事後確率
3つの部品
犯罪現場を調べる
尤度を求める
事前確率を計算する
データを正規化する
対立仮説を考える
対立仮説における尤度
対立仮説における事前確率
対立仮説の事後確率
正規化前の事後確率を比較する
まとめ
練習問題

第9章 ベイズ事前確率と確率分布の利用
小惑星帯に関するC-3POの心配
C-3POの考えを見極める
ハン・ソロのつわものぶりを見積もる
事後確率でスリルを演出する
まとめ
練習問題

パートⅢ:パラメータ推定

第10章 平均化とパラメータ推定の入門
積雪量の推定
測定値を平均化して誤差を最小にする
単純化した問題を解く
もっと極端なケース
重み付けをした確率で真の値を推定する
期待値と平均の定義
測定のための平均と集計のための平均
まとめ
練習問題

第11章 データの散らばり具合を測る
井戸にコインを落とす
平均絶対偏差を求める
分散を求める
標準偏差を求める
まとめ
練習問題

第12章 正規分布
爆弾の導火線の長さを測る
正規分布
導火線の問題を解く
ちょっとした便法と直観
「nシグマ」の出来事
ベータ分布と正規分布
まとめ
練習問題

第13章 パラメータ推定の道具——確率密度関数、累積分布関数、文位関数
メールマガジンのコンバージョン率を推定する
確率密度関数
確率密度関数をグラフで表現して解釈する
Rで確率密度関数を使う
累積分布関数を導入する
累積分布関数をグラフで表現して解釈する
中央値を求める
積分値を視覚的に近似する
信頼区間を見積もる
Rで累積分布関数を使う
分位関数
分位関数をグラフで表現して理解する
Rで分位を計算する
まとめ
練習問題

第14章 事前確率によるパラメータ推定
メールマガジンのコンバージョン率を予測する
事前確率を使って視野を広げる
経験を定量化する手段としての事前分布
何も分からない場合に使える公平な事前分布はあるか?
まとめ
練習問題

パートⅣ:仮説検定——統計学の真髄

第15章 パラメータ推定から仮説検定へ——ベイズ的A/Bテストを設定する
ベイズ的A/Bテストを設定する
事前確率を定める
データを集める
モンテカルロ・シミュレーション
いくつの世界でタイプBのほうが優れているか?
タイプBはタイプAよりどれだけ優れているか?
まとめ
練習問題

第16章 ベイズ因子と事後オッズの導入——考えどうしを競わせる
再びベイズの定理
事後確率比を使って仮説検定をおこなう
ベイス因子
事前オッズ
事後オッズ
まとめ
練習問題

第17章 『トワイライトゾーン』でのベイズ的推論
『トワイライトゾーン』におけるベイズ的推定
ベイス因子を使ってミスティック・シーアを理解する
ベイス因子を求める
事前の信念を考慮する
自分のサイキックパワーを高める
まとめ
練習問題

第18章 データに納得してくれないとき
超能力者の友人がサイコロを振る
尤度を比較する
事前オッズを組み込む
対立仮説を考える
親戚や陰謀論者と議論する
まとめ
練習問題

第19章 仮説検定からパラメータ推定へ
この屋台ゲームは本当に公平か?
多数の仮説を考慮する
Rを使ってさらなる仮説を探索する
尤度比に事前オッズを追加する
確率分布を求める
ベイズ因子からパラメータ推定へ
まとめ
練習問題

●付録A R入門
RとRStudio
Rスクリプトの作成
Rの基本概念
データ型
欠損値
ベクトル
関数
基本的な関数
ランダムサンプリング
runif()関数
rnorm()関数
sample()関数
set.seed()関数を使って予測可能な乱数を生成する
独自の関数を定義する
基本的なグラフを描く
練習:株価のシミュレーション
まとめ

●付録B 読みこなすのに必要な微積分
関数
走行距離を求める
曲線より下側の面積を求める一積分
変化の割合を求める一微分
微積分の基本定理

●付録C 練習問題の解答
訳者あとがき
索引

ウィル・カート (著), 水谷 淳 (翻訳)
出版社 : SBクリエイティブ (2020/7/8)、出典:出版社HP

謝辞

本を書くというのは本当に大変な取り組みで、何人もの人が汗水流さなければならない。以下に挙げる名前だけでは、本書を形にしてくれた大勢の人の一部にしか触れられていない。まずは、いつも好奇心をかき立てて元気づけてくれる息子のアーチャーに感謝したい。

私の以前からの愛読書の中にはノー・スターチ社の本が何冊かあり、この出版社の素晴らしいチームと仕事をして本書を作り上げられたのはまさに光栄である。ノー・スターチ社の担当編集者、校正者、そして優秀なチームに心から感謝する。最初に本書の制作の話を持ちかけてくれたリズ・チャドウィックは、全体を通じて編集上の的確な指摘と手ほどきをしてくれた。ローレル・チューンは、Rに関する私の書き散らかたノートを信じられないほど円滑に立派な本へとまとめ上げてくれた。チェルシー・パーレット・ベレリティは、技術校正者の役割をはるかに超えて、本書をできるだけ最高なものに仕上げる手助けをしてくれた。フランシスソーは、後のほうの章について数々の的確なコメントをくれた。そしてもちろん、このような魅力的な出版社を立ち上げてくれたビル・ポロックに感謝する。

学部で英文学を専攻した私が数学の本を書くなんて、以前ならけっして想像できなかったはずだ。数学の驚異に目を向ける上で本当に欠かせなかった人が何人かいる。英文学にのめり込む学生に数学の世界が刺激的でおもしろいことを教えてくれた、大学時代のルームメイト、グレッグ・ミュラーには、生涯感謝しつづけたい。ボストン大学のアナトリーテムキン教授は、私が「これはどういう意味なのか」と質問するたびに必ず答えてくれて、数学的思考への扉を開いてくれた。そしてもちろん、何年ものあいだまるで砂漠をさまよっていたかのような私に、数学に関する会話と手ほどきというオアシスを与えてくれた、リチャード・ケリーに心から感謝する。また、ボンボラ社のデータサイエンスチーム、とくに、本書に取り入れたものを含めたくさんの素晴らしい疑問や会話を提供してくれたパトリック・ケリーに、感謝の言葉を捧げたい。さらに、私のブログ”Count Bayesie”にいつも素晴らしい質問や指摘を投稿してくれる読者たちにも、ずっと感謝していきたい。読者の中でもとくに、私が初めのうちに抱いていた誤解を正してくれた投稿者のネヴィンに感謝する。

最後に、私自身がベイズ統計を学ぶ上で素晴らしい道案内になった何冊かの本の偉大な著者らに感謝したい。ジョン・クラスチケ著Doing Bayesian Data Analysis[「ベイズ統計モデリング』共立出版] とアンドリュー・ゲルマンら著Bayesian Data Analysisは、必読書である。私自身の思考に飛び抜けて大きな影響を与えたのは、E・T・ジェインズの驚くべき本Probability Theory: The Logic of Scienceだ。歯ごたえのあるこの本に関する連続講義を開いてくれて、私が完全に理解するための手ほどきをしてくれた、オーブリー・クレイトンにも感謝したい。

ウィル・カート (著), 水谷 淳 (翻訳)
出版社 : SBクリエイティブ (2020/7/8)、出典:出版社HP

はしがき

生活の中で起こる出来事はほぼすべて、多かれ少なかれ不確実である。少し大げさに聞こえるかもしれないが、ちょっとした実験をしてみればそれが真実だと分かる。一日の初めに、30分後、1時間後、3時間後、6時間後何が起こると思うかを書き留めておく。そして、予想どおりの出来事がいくつ起こったかを数えてほしい。あなたの一日が不確実な事柄ばかりであることが、たちどころに分かるだろう。「歯を磨く」や「コーヒーを飲む」といった予測可能な事柄でさえ、何らかの理由で予想どおりにはならないかもしれない。

生活の中での不確実な事柄のほとんどは、一日の計画を立てることでかなりうまく対処できる。たとえば、道が混んでいて朝の通勤に普段より長くかかることがあっても、遅刻せずに会社に着くには何時に家を出ればいいかはかなり良く予測できる。朝にものすごく重要な会議があれば、通勤時間が伸びてもかまわないよう早く家を出ればいい。我々は誰しも、不確実な状況に対処して、不確実な事柄について推論するための本能的な感覚を持っている。その感覚に従って考えていけば、確率論的な思考を始められる。

統計を学ぶ意味

本書のテーマであるベイズ統計は、不確実な事柄についてより良く推論するための手助けになる。ちょうど、学校で論理を学べば日々の論理的思考の過ちに気づけるようになるのと同じだ。先ほど述べたように、ほぼ誰もが日常生活で不確実な事柄に向き合っているのだから、本書の対象読者はかなり幅広いはずだ。すでに統計を駆使しているデータサイエンティストや研究者にとっては、ベイズ統計の道具のしくみをさらに深く理解してものにすることがためになるだろう。技術者やプログラマなら、下すべき決定を定量的にさらにうまく評価する方法を多く学べるだろう(私はペイズ解析を使ってソフトウエアのバグの原因を特定したことがある!)。マーケティング担当者やセールスマンなら、A/Bテストをおこなうときや、顧客の行動を理解するとき、あるいはビジネスチャンスの価値を評価するときに、本書の考え方を使うことができる。高度な決定を下している人なら誰しも、確率に対して少なくとも基本的な感覚を持っていて、不確実な決定に伴うメリットとデメリットをざっと見積もることができるはずだ。願わくはCEOのみなさんも、飛行機の中で本書を学んで、着陸する頃には、確率や不確実さが関わる選択肢をより良く評価するための基礎を固めてもらいたい。

さまざまな問題についてベイズ的な方法で考えれば、誰もが恩恵を受けられると、私は心から信じている。ベイズ統計を身につければ、不確実な事柄を数学でモデル化して、限られた情報の中でもより良い選択をすることができる。たとえば、特別重要な会議に間に合うよう出勤しなければならないが、選べるルートが2通りあったとしよう。普段は第1のルートのほうが早く着くが、時々渋滞が発生して大幅に遅れることがある。第2のルートは普段は時間がかかるが、交通状況に左右されにくい。どちらのルートを選ぶべきか?決めるにはどのような情報が必要か?そして、自分の選択にどの程度確信が持てるか?ちょっとした要素が加わっただけでも、必要な手法が増えて余計に考えなければならなくなる。

ふつうの人は統計と聞くと、新薬を開発する科学者や、市場の動向を追跡するエコノミスト、次の選挙の結果を予測するアナリスト、手の込んだ数学で最強のチームを組もうとする球団経営者といった人を思い浮かべるものだ。もちろん彼らもみな統計を見事に活用しているが、日常生活のもっとずっと数多くの分野でも、ベイズ的推論の基礎を頭に入れておけば役に立つ。新発見のニュースに首をひねったり、自分が稀な病気にかかっているのではないかと思って夜遅くまでネット検索をしたり、この世界に関する不合理な思い込みをめぐって親戚と議論したりしたことのある人なら、ベイズ統計を学ぶことでより良く考えられるようになるはずだ。

「ベイズ」統計とは何か?

そもそも「ベイズ」とは何なのかと思った人もいるだろう。あなたが受けた統計の授業は、おそらく頻度論的統計学に基づいていた。頻度論的統計学の基礎をなす考え方は、「確率とは何かが起こる頻度である」というものだ。コインを1回投げて表が出る確率が0.5であるというのは、1回投げると表が半分出ると予想できるという意味である(「2回投げると表が1回出る」と言ったほうが分かりやすいか)。

それに対してベイズ統計では、ある情報に関して自分がどれだけ確信を持っていないか、それを確率で表現することを考える。ベイズ統計の言い回しでは、コインを1回投げて表が出る確率が0.5であるというのは、自分は表が出るとは確信できないし、それと同程度で裏が出るとも確信できないという意味である。コイン投げのような問題の場合には、頻度論的方法とベイズ的方法のどちらも筋が通っているように思える。しかし、次の選挙で最豆の候補が勝つとどれだけ強く信じているか、それを定量化しようとしたら、ベイズ的解釈のほうがはるかに理にかなっている。そもそもその選挙は1回しかおこなわれないのだから、贔屓の候補が勝つ頻度について論じても意味がない。ベイズ統計を使う際には、この世界について自分が何を信じるかを、すでに持っている情報に基づいて正確に表現しようとすればいいのだ。

ベイズ統計には大きな長所が一つある。ベイズ統計は不確実な事柄に関する推論としてとらえられるので、ベイズ統計の道具や手法はすべて直観と合致しているのだ。

ベイズ統計とは、直面した問題を見つめ、自分がそれを数学的にどのように表現したいかを定め、推論によってそれを解決することにほかならない。謎めいた検定法から納得できない結果が出てくることもないし、さまざまな頻度分布を丸暗記する必要もないし、伝統的な実験手法を完璧に再現する必要もない。あなたは、ウェブページを新たなデザインにすると顧客が増える確率や、最屓のチームが次の試合で勝つ確率、あるいは人類がこの宇宙で本当にひとりぼっちである確率を知りたいかもしれない。ベイズ統計は、片手で数えられるほどの単純な法則と、問題の新たなとらえ方だけを使って、それらの事柄を数学的に推論するためのきっかけを与えてくれるのだ。

ウィル・カート (著), 水谷 淳 (翻訳)
出版社 : SBクリエイティブ (2020/7/8)、出典:出版社HP

本書の内容

本書に書かれている事柄を以下に簡単にまとめておこう。

●パートⅠ:確率入門

第1章:ベイズ的思考と日常の推論
この最初の章では、ベイズ的思考がどんなものかを紹介し、我々が物事を鵜呑みにしないために日々使っている方法と似ていることを示す。夜に窓の外に見えた明るい光がUFOである確率を、すでに分かっている事柄と、世界についてあなたが信じている事柄に基づいて掘り下げる。

第2章:確信のなさを測る
この章ではコイン投げの例を使って、あなたの確信のなさの程度に、確率という形で実際の数値を当てはめる。ある事柄に関するあなたの考えに自分がどの程度確信があるかを、0から1までの数値で表す。

第3章:不確実さの論理
論理学では、AND,NOT,ORという演算を使って、真または偽である事実を組み合わせていく。実は確率論にもこれらの演算に似た概念がある。約束に間に合うための最適の交通手段や、交通違反切符を切られる可能性について、どのように推論していけば良いかを考察する。

第4章:二項分布を作る
この章では、論理としての確率の法則を使って、二項分布という確率分布を自力で組み立てる。この二項分布は、同様の構造を持つ多くの確率問題に応用できる。ガチャゲームで有名統計学者のカードを引き当てる確率を予測してみよう。

第5章:ベータ分布
ここでは連続確率分布の最初の例を学び、統計学と確率論との違いを知ってもらう。統計学では、データに基づいて未知の確率をはじき出そうとする。この章の例では、コインを吐き出す謎の箱と、入れたお金よりも多くのお金が戻ってくる可能性について調べていく。

●パートⅡ:ベイズ確率と事前確率

第6章:条件付き確率
この章では、すでに分かっている情報に基づいて、その条件のもとでの確率を決定する。たとえば、ある人の性別が分かれば、その人が色覚異常である確率が分かる。また、条件付き確率を逆転させるためのベイズの定理も紹介する。

第7章:レゴを使ってペイズの定理を導く
ここでは、ベイズの定理をもっと直観的に理解するために、レゴを使って考えてみる。ペイズの定理が数学的に何をしているかを、幾何学的に感じ取れるようになるだろう。

第8章:ベイズの定理における事前確率、尤度、事後確率
ベイズの定理は通常3つの部分からなっていて、そのそれぞれがベイズ的推論において独自の役割を果たしている。この章では、それらの呼び名と使い方を学ぶために、空き巣とおぼしき状況が本当の犯罪なのか、それとも単に偶然が重なっただけなのかを調べていく。

第9章:ベイズ事前確率と確率分布の利用
この章では、「スター・ウォーズ/帝国の逆襲」の有名な小惑星帯のシーンをベイズの定理でより良く理解する方法を探り、それを通じてべイズ統計における事前確率の理解を深めてもらう。また、確率分布全体を事前確率として使う方法も説明する。

●パートⅢ:パラメータ推定

第10章:平均化とパラメータ推定の入門
パラメータ推定とは、不確実な値をできるだけ精確に推測するための方法である。パラメータ推定のもっとも基本的な道具が、観察結果を単純に平均化すること。この章では、それでうまくいく理由を積雪量の分析を通じて説明する。

第11章:データの散らばり具合を測る
平均を取ることはパラメータ推定の第一段階として有用だが、それとともに、観察結果がどの程度散らばっているかを示す方法も必要となる。ここでは、観察結果の散らばり具合を表す尺度として、平均絶対偏差、分散、標準偏差を紹介する。

第12章:正規分布
平均と標準偏差を組み合わせることで得られる正規分布は、推定をおこなう上できわめて有用な確率分布である。この章では、正規分布を使って未知の値を推定する方法だけでなく、その推定値にどの程度確信が持てるかを知る方法も学ぶ。その新たな道具を使えば、銀行強盗が逃げ出せるタイミングを計ることができる。

第13章:パラメータ推定の道具——確率密度関数、累積分布関数、分位関数
ここでは、パラメータ推定の結果をより良く理解するための、確率密度関数、累積分布関数、分位関数について学ぶ。これらの道具を使って広告メールのコンバージョン率(リンクをクリックする割合)を推定し、それぞれの道具から何が読み取れるかを理解する。

第14章:事前確率によるパラメータ推定
より良いパラメータ推定をおこなう最良の方法は、事前確率を組み込むことである。この章では、過去の広告メールのコンバージョン率に関する事前情報を追加することで、新たな広告メールのコンバージョン率をより良く推定できるようになることを示す。

●パートⅣ:仮説検定——統計学の真髄

第15章:パラメータ推定から仮説検定へーベイズ的A/Bテストを設定する
不確実な値を推定できるようになったので、次に、2つの不確実な値を比較して仮説を検定する方法が必要となる。広告メールによるマーケティングの新たな方法にどの程度自信が持てるかを、A/Bテストを設定して見極める。

第16章:ベイズ因子と事後オッズの導入—考えどうしを競わせる
自分がごく稀な病気にかかってはいないかと心配になって、夜遅くまでネット検索したことはないだろうか?この章では、実際にどの程度心配すべきかを仮説の検定によって見極める、もう一つの方法を紹介する!

第17章:「トワイライトゾーン」でのベイズ的推論
あなたは超常現象をどのくらい信じているだろうか?この章では、『トワイライトゾーン』のある有名なエピソードに登場する場面を分析することで、あなた自身の読心術を磨くことができる。

第18章:データに納得してくれないとき
データを示しただけでは、誰かの考えを変えさせたり、論争に勝ったりできないことがある。あなたと違う考えを持った友人を心変わりさせるにはどうすればいいか、強情な親戚と議論するのが時間の無駄であるのはなぜか、それを学んでいこう!

第19章:仮説検定からパラメータ推定へ
最後にパラメータ推定に話を戻し、ある範囲にわたる仮説を比較する方法に目を向ける。ここまでに説明した道具を使って、最初に取り上げた例であるベータ分布を改めて導き、屋台でおこなわれるあるゲームの公正さを単純な仮説検定によって分析してみよう。

付録A:R入門
この短い付録では、プログラミング言語Rの基本を教える。

付録B:読みこなすのに必要な微積分
ここでは、本書で使われている数学に慣れるのに必要十分な微積分を説明する。

付録C:練習問題の解答
各章末の練習問題の解答を解説する。

本書を読むのに必要な予備知識

本書に必要な知識は、高校の基本的な代数だけである。ページをめくっていくといくつか数式が出てくるが、とくに厄介なものはない。プログラミング言語Rで書かれた短いコードも使うが、そのつど説明するので、前もってRを学んでおく必要はない。微積分も多少使うが、やはり経験は必要なく、必要十分な情報は付録に示してある。

このように本書は、高度な数学の予備知識がなくても、さまざまな問題について数学的に考えるためのきっかけをつかめることを目指している。読み終わる頃には、日常生活で出くわすさまざまな問題をいつの間にか数式で表現するようになっていることだろう!

統計学(さらにはベイズ統計)の知識が豊富な人でも、本書を楽しんで読んでもらえると信じている。私の経験上、ある分野を深く理解するための最善の方法は、何度も基本に立ち返ってそのたびに違う方向から考えてみることである。本書の著者でさえ、書き進めている最中にいくつもの驚きに出くわしたくらいなのだから!

冒険に旅立とう!

すぐに分かってもらえると思うが、ベイズ統計はとても役に立つだけでなく、とても楽しい!本書ではベイズ的推論について学ぶために、レゴブロック、『トワイライトゾーン」、「スター・ウォーズ」などが登場する。さまざまな問題について確率論的に考えるようになれば、至るところでベイズ統計を使いはじめられる。本書は楽しみながらすらすら読めるように書いてある。ページをめくってベイズ統計の冒険に乗り出そう!

ウィル・カート (著), 水谷 淳 (翻訳)
出版社 : SBクリエイティブ (2020/7/8)、出典:出版社HP