【最新】ベイズ統計学を学ぶためのおすすめ本 – 入門から応用まで

ページコンテンツ

ベイズ統計学とは?普通の統計とどう違う?

ベイズ統計の理論は、「ベイズの定理」を出発点とした確率・統計論です。「主観的な確率」を扱うというその性質から、経済学や心理学などの社会科学で使われるだけでなく、人工知能・機械学習等にも応用されています。しかし、統計学や確率論の難しい話も出てくるため、初心者が理解するのはなかなか難しいです。ここでは、初心者や予備知識がゼロの人でもベイズ統計学を学ぶことのできる本をご紹介します。

ランキングも確認する
出典:出版社HP

史上最強図解 これならわかる!ベイズ統計学

ベイズ統計学の入門書

本書は、一般的にとっつきにくいとされるベイズ検定を、初めて学ぶ方が理解できるように一から解説しています。図が多く、視覚的に理解できるようになっています。マンガで説明されている部分もあるため、とりあえず概要を掴みたい方でも入りやすい構成となっています。

涌井 良幸 (著), 涌井 貞美 (著)
出版社 : ナツメ社 (2012/2/21)、出典:出版社HP

はじめに

近年、データ解析や統計学の世界で、「ベイズ確率論」や「ベイズ統計学」などと、ベイズの名を冠した言葉が頻繁に用いられています。更には、経済学や心理学、人工知能等、幅広い分野で、「ベイズ」という言葉をよく耳にするようになりました。

さて、このベイズの名を冠した理論とはどんな理論なのでしょうか。これは18世紀のイギリス人牧師トーマス・ベイズによって発見された数学の定理「ベイズの定理」を出発点とした確率・統計論です。200年以上前に発見された定理がいま脚光を浴び、活用され始めたのです。

ベイズ理論はデータによって「もとの確率」がどう変化するかを与える理論です。もとの確率を様々に読み替えることで幅広い分野で活用されます。例えば、「もとの確率」を「信念」と読み替えれば、入手したデータがその「信念」にどう影響したかの分析を可能にします。この性質から、経済学や心理学では人間の行動分析に応用されます。

また、データがもとの確率を変化させることを「原因と結果」と捉えることができます。すると、ベイズ理論はデータから原因を探る理論として利用できます。ベイズ理論が算出した確率が「原因の確率」と呼ばれる所以ですが、この性質は生産管理やシステムトラブルの分析など、複雑な確率現象の分析に応用されます。

さて、ベイズ理論では、データを得る前の「もとの確率」の設定に裁量が入ります。そこに常識や経験を取り入れられるのです。これまでの確率・統計論では、このような人間味のあるデータ分析は困難でした。この性質から、ベイズ理論は人工知能等にも応用されています。
このように近年人気を集めるベイズ理論ですが、これまでの統計論に親しんだ人には、敷居が高い理論です。発想が異なるからです。また、学ぶにしても入門から記述された文献はわずかなのが現状です。

そこで、本書は初めてベイズ理論に触れる人を対象に、一からベイズ理論を解説しました。できるだけ数学や統計用語を用いず、イラストと日本語の解説でベイズ理論のエッセンスを紹介します。ベイズ理論は、ある意味で単純で、発想さえ理解されれば応用は容易です。本書はその最初の部分に焦点を当て、解説します。

本書がベイズ理論の発展に少しでも貢献できることを希望します。最後になりましたが、本書を作成するに際しましてナツメ出版企画(株)の伊藤雄三氏に御指導を仰ぎました。この場をお借りして感謝の意を表させて頂きます。

2012年 早春 著者

涌井 良幸 (著), 涌井 貞美 (著)
出版社 : ナツメ社 (2012/2/21)、出典:出版社HP

CONTENTS

第1章 ベイズ理論の考え方
§1 1つの公式から始まるベイズ理論
§2 21世紀に入って花開いたベイズ理論
§3 ベイズ理論の考え方
§4 ベイズ理論の計算法のしくみ
§5 従来の統計学とベイズ統計学

第2章 ベイズ理論のための確率入門
§1 ベイズ理論のための確率の基本
§2 ベイズ理論の出発点となる条件付き確率
§3 条件付き確率の公式化
§4 確率の乗法定理
§5 事象の独立
§6 確率変数と確率分布
§7 平均値と分散
2章のまとめ

第3章 ベイズの定理の基本
§1 ベイズ理論の出発点となる「ベイズの定理」
§2 ベイズの定理の使い方を確認
§3 ベイズの定理に味付けを加えた「ペイズの基本公式」
§4 ベイズ理論をイメージさせる図の表現法
§5 応用の主役となる「ベイズの展開公式」
§6 「ベイズの展開公式」の意味をホテルのアナロジーで理解
§7 例題を用いた「ベイズの展開公式」導出
§8 ベイズの展開公式を使ってみよう(I)〜天気予報
§9 ベイズの展開公式を使ってみよう(II)〜壺と玉の問題
§10 ベイズの展開公式を使ってみよう(II)〜理由不十分の原則
§11 ベイズの展開公式を使ってみよう(IV)〜ベイズ更新
§12 「ベイズ更新」による逐次合理性
3章のまとめ

第4章 ベイズ理論の応用
§1 事前確率のパワーを体感する
§2 迷惑メールを簡単に判別するナイーブベイズフィルター
§3 確率分布をベイズ推定
§4 MAP推定を利用したベイズ推定法
§5 損失表が与えられたときのベイズ意思決定
§6 ベイジアンネットワーク入門
§7 ベイジアンネットワークの計算
4章のまとめ

第5章 ベイズ統計学のための準備
§1 確率変数と確率分布は統計モデルの柱
§2 ベイズ理論で多用される有名な確率分布(I)〜一様分布
§3 ベイズ理論で多用される有名な確率分布(II)〜ベルヌーイ分布
§4 ベイズ理論で多用される有名な確率分布(Ⅲ)〜正規分布
§5 ベイズ理論で多用される有名な確率分布(IV)〜ベータ分布
§6 確率分布の母数
5章のまとめ

第6章 ベイズ統計学入門
§1 ベイズ統計学のための基本知識のまとめ
§2 ベイズ統計学における母数の扱い
§3 連続的な値を取る母数のためのベイズ統計学
§4 ベイズ統計学の基本公式の意味と使い方
§5 ベイズ統計学の有名な問題(I)〜データがベルヌーイ分布に従うとき
§6 ベイズ統計学の有名な問題(II)〜データが正規分布に従うとき
6章のまとめ

付録A 規格化の条件
付録B 最尤推定法
用語解説
索引

涌井 良幸 (著), 涌井 貞美 (著)
出版社 : ナツメ社 (2012/2/21)、出典:出版社HP

利用上の注意

●掲載の資料は仮想のものです。
●厳密性よりも分かりやすさを目標としているので、できるだけ日常的な言葉で解説をしています。
●ベイズ統計学では微分積分が多用されますが、本書はその知識を仮定しません。ただし、表記上、微分・積分の記号を含む式が示されている箇所があります。不得手な読者は軽く読み流してください。
●見やすさを優先しているため、数値の扱いにおいて、有効桁等多少の不具合がありますが御容赦ください。
●本書でいうExcelは、マイクロソフト社の表計算ソフトウェアExcelのことです。また、グラフ等もそのExcelで作成しています。
●コインやサイコロで確率現象を説明する箇所がありますが、注記のない限り、これらは理想的に作られているものとします。また、抽出操作は当然無作為であることを前提としています。

涌井 良幸 (著), 涌井 貞美 (著)
出版社 : ナツメ社 (2012/2/21)、出典:出版社HP

完全独習 ベイズ統計学入門

四則計算だけでベイズ統計学を理解する

本書は、ベイズ統計学の初心者向けの本です。予備知識がなくても理解できるようになっており、初心者が意欲を削がれる要因になる難しい表記や計算は除いています。面積図と四則計算を使った解説により、視覚的、直感的にベイズ統計学の考え方に触れることができます。

小島 寛之 (著)
出版社 : ダイヤモンド社 (2015/11/20)、出典:出版社HP

第0講 四則計算だけで理解するベイズ統計学
本書の特長

0-1 予備知識ゼロから実用レベルに到達できる

本書は、「ベイズ統計学」と呼ばれる統計手法の超入門書です。「超」とはどういう意味か、というと、

●予備知識ゼロからのスタート
●難しい記号や計算なしに、ベイズ統計が使えるようになる
●“お話”だけでごまかすのではなく、免許皆伝レベルを達成する

ということです。
ベイズ統計は、多くの社会人が関心を持っているにもかかわらず、これまでの教科書は、導入部は平易なものの、途中から急に難しくなって、たいていの読者が挫折を余儀なくされます。それは、読者がベイズ統計の本質を感覚的に把握できる前の時点で、確率記号が乱舞する世界に巻き込まれ、理解が追いつかなくなってしまうからです。
本書では、その轍を踏まないように、いくつかの工夫をしました。以下、その工夫について説明していきます。

0-2 使うのは面積図と算数だけ

ベイズ統計は、「ペイズの公式」という確率公式を下敷きに展開します。これは、「条件付確率」という確率の発展事項に立脚しています。「ベイズの公式」は一応高校数学で習うものなのですが、とてもわかりにくい概念です。なぜわかりにくいか、というと、理由は2つあります。第一は、公式が複雑な形をしていて直観的でないこと、第二は、そもそも条件付確率というのが、ある意味では「うさん臭い」概念で、慎重にものを考える人は「なんか変な感じがする」と疑問を持ってしまうこと、です。

実は、この第二の点は、ベイズ統計にとってとても大切です。その「うさん臭さ」こそが、ベイズ統計の本質であり、利便性とつながっているからです。あとで詳しく解説しますが、その「うさん臭さ」が批判を浴び、ベイズ統計は20世紀初頭に、いったん統計学から葬り去られてしまうことになりました。しかし、ベイズ統計の「うさん臭さ」と「利便性」とは表裏一体の関係にあり、「うさん臭いからこそ使える」のです。その「利便性」のほうに注目した学者たちによって、ベイズ統計は、20世紀後半に復権することとなりました。21世紀現在、ベイズ統計は逆に統計学の主流派と成り代わりました。

そこで、本書では、この2つの点を考慮し、次のような工夫をしました。

工夫その1 ごく一部を除き「ベイズの公式」は表に出さない方針を貫いた

代わりに、「面積図で図解する」という方針をとりました。本質的にはベイズの公式と同じことをしているのですが、多くの読者にとって、図解のほうが直観に訴え、理解が簡単になると考えたからです。さらには、「面積図」を使うことで、「ペイズの公式」のどこがどううさん臭いか、どこがどう利便性に富んでいるか、それらもはっきりするのです。

工夫その2 計算は算数レベルで済ませる

つまり、すべてが四則計算だけで済みます。ルートや文字式計算さえ不要です。その四則計算も、手計算が不得意な人は、電卓を使えば苦労せず実行できます。

もちろん、本書でも最後のほうに、「ベータ分布」や「正規分布」などの高度な概念が登場します。ここまで到達しないと「免許皆伝」とは言えないので仕方ありません。これらの概念については、完璧に解説しようとすると大学レベルの微分積分が必要になってしまいます。それは、読者の多くに非常に大きな負担を強いることになります。そこで本書ではやむなく、これらの解説は「簡易的」に済ませることにしました。

つまり、四則計算だけで実行できる公式を天下り的に与える方針としました。これも、本書の工夫の1つです。そういう意味で本書は、「自己充足的(self-contained)ではない」です。しかし、そういう「完全理解」を欲する人も、本書を読んでから専門書に挑戦したほうが得策だと思います。本書では、高度な数学を削除しているため、かえって、「ベイズ統計の背景にある本質」が浮き彫りになっているからです。

0-3 ビル・ゲイツも注目!ビジネスに使えるベイズ統計

ベイズ統計は、インターネットの普及とシンクロする形でビジネスに使われるようになりました。インターネットでは、顧客の購買行動や検索行動が自動的に履歴として収集されますが、そこから顧客の「タイプ」を推定するには、スタンダードな統計学よりもベイズ統計のほうが圧倒的に優れているからです。

現在、多くのネット系企業が実際にベイズ統計を利用しています。中でもマイクロソフトは、早くからベイズ統計をビジネス利用していることで有名です。ウィンドウズのOSのヘルプ機能には、ベイズ統計が導入されています。また、ウェブ上でユーザーが「子供の病気の症状」などを検索したとき、有望な指針を優先して表示するソフトウェアなども開発しました。マイクロソフトの元代表ビル・ゲイツ氏は、1996年に、自社が競争上優位にあるのはベイズ統計によることを新聞で宣言しました。また、2001年の基調講演でも、21世紀のマイクロソフトの戦略はベイズ統計であること、また、すでに世界中からベイズ統計の研究者を多数ヘッドハントしたことを公言したのは有名です。

一方、グーグルも、自社の検索エンジンの自動翻訳システムにおいて、ベイズ統計の技術を活かしていることが知られています。
もちろん、ベイズ統計の技術は、IT企業以外でもさまざまな分野で応用されています。例えば、ファクシミリでは送られた画像のノイズを修正して、正しい画像に近づけるのに、ベイズ統計を使っています。また、医療分野でも「自動診断システム」などにベイズ統計が使われています。

本書を読んでいけばわかることですが、ベイズ統計の強みは、「データが少なくても推測でき、データが多くなるほど正確になる」という性質と、「入ってくる情報に瞬時に反応して、自動的に推測をアップデートする」という学習機能にあります。これを知れば誰もが、先端のビジネスに最適、と納得することでしょう。
したがって、今世紀のビジネスに従事する人は、ベイズ統計を使いこなせるようになると最強でしょう。本書は、そういうビジネスパーソンの実用に役立つような例・解説を心がけました。

0-4 ベイズ統計は、人間の心理に依存する

「ベイズ統計には、ある種のうさん臭さがある」ということを0-2節に書きました。これはどういうことでしょうか。それは、ベイズ統計が扱う確率が「主観的」だ、ということです。つまり、ベイズ統計で導かれる確率は、客観的な数値ではなく、「人間の心理」に依存する主観的な数値だ、ということなのです。そういう意味で、ベイズ統計は「思想的」な面を備えています。このため、客観性を重んじる科学界から、ベイズ統計は「まがいもの」という烙印を押され、いったんは葬り去られることとなったのです。

たいていのベイズ統計の本には、残念ながら、このことが書かれていません。著者たちがこのことを「表沙汰にしたくない」と思っているからなのか、あるいは、彼らに単に知識がないからかわかりませんが、とにかく、このことを正面から解説している教科書は滅多にありません。でも、このベイズ統計の「主観性」「思想性」は、ベイズ統計の本質であり利便性の源泉です。だから、このことに目をつぶって解説をするならば、ベイズ統計の本質は絶対に読者に伝わらないでしょう。

そこで本書では、ベイズ統計の「主観性」「思想性」を包み隠さず、むしろ、白日の下にさらして、解説を進めることにしました。とりわけ、スタンダードな統計学とどこがどう違うのか、について丁寧に解説しました。きっと多くの読者が、「ベイズ統計ってスゴイ!面白い!」と拍手してくれるのではないか、と期待しています。

0-5 穴埋め式の簡単な練習問題があるので独習に最適

本書でも、前作『完全独習統計学入門』(ダイヤモンド社)の書き方を踏襲して、言葉を尽くして説明し、各講に簡単な穴埋め式の練習問題をつけました。数学的な技術を習得するには、自力で解ける簡単な練習問題をやってみるのが一番です。収録した練習問題は、応用的なものではなく、講義した内容の確認的なものなので、是非とも利用して理解を深めていただければ、と思います。

読み終わったあなたは、きっと、こう思うに違いありません。
「あれ、登山のトレーニングなんか一切しなかったのに、いつのまにか山頂に立ってるぞ!」
それでは、山頂を目指して、出発するとしましょう。

小島 寛之 (著)
出版社 : ダイヤモンド社 (2015/11/20)、出典:出版社HP

目次

第0講 四則計算だけで理解するベイズ統計学
本書の特長
0-1 予備知識ゼロから実用レベルに到達できる
0-2 使うのは面積図と算数だけ
0-3 ビル・ゲイツも注目!ビジネスに使えるベイズ統計
0-4 ベイズ統計は、人間の心理に依存する
0-5 穴埋め式の簡単な練習問題があるので独習に最適

第1部
速習!ベイズ統計学のエッセンスを理解する

第1講
情報を得ると確率が変わる
「ベイズ推定」の基本的な使い方
第1講のまとめ
練習問題

第2講
ベイズ推定はときに直感に大きく反する①
客観的なデータを使うときの注意点
第2講のまとめ
練習問題

第3講
主観的な数字でも推定ができる
困ったときの「理由不十分の原理」
第3講のまとめ
練習問題

第4講
「確率の確率」を使って推定の幅を広げる
第4講のまとめ
練習問題
column>ベイズはどんな人だったか

第5講
推論のプロセスから浮き彫りになる
ベイズ推定の特徴
第5講のまとめ
練習問題

第6講
明快で厳格だが、使いどころが限られる
ネイマン・ピアソン式推定
第6講のまとめ
練習問題

第7講
ベイズ推定は少ない情報で
もっともらしい結論を出す
ネイマン・ピアソン式推定との違い
第7講のまとめ
練習問題

第8講
ベイズ推定は「最尤原理」にもとづいている
ベイズ統計学とネイマン・ピアソン統計学の接点
第8講のまとめ
練習問題

第9講
ベイズ推定はときに直感に大きく反する②
モンティ・ホール問題と3囚人の間題
第9講のまとめ
練習問題
column▶︎「ツキ」についての2つの法則

第10講
複数の情報を得た場合の推定①
「独立試行の確率の乗法公式」を使う
第10講のまとめ
練習問題

朝11講
複数の情報を得た場合の推定②
迷惑メールフィルターの例
第11講のまとめ
練習問題

第12講
ベイズ推定では
情報を順繰りに使うことができる
「逐次合理性」
第12講のまとめ
練習問題

第13講
ベイズ推定は情報を得るたびに正確になる
第13講のまとめ
練習問題
column▶︎ベイズを復権させた学者たち

第2部
完全独習!「確率論」から第2部「正規分布による推定」まで

第14講
「確率」は「面積」と同じ性質を持っている
確率論の基本
第14講のまとめ
練習問題

第15講
情報が得られた下での確率の表し方
「条件付確率」の基本的な性質
第15請のまとめ
練習問題

第16講
より汎用的な推定をするための「確率分布図」
第16講のまとめ
練習問題

第17講
2つの数字で性格が決まる「ベータ分布」
第17講のまとめ
練習問題

第18講
確率分布図の性格を決める「期待値」
第18講のまとめ
練習問題
column▶︎主観確率とは、どんな確率か

第19講
確率分布図を使った高度な推定①
「ベータ分布」の場合
第19講のまとめ
練習問題

第20講
コイン投げや天体観測で観察される
「正規分布」
第20講のまとめ
練習問題

第21講
確率分布図を使った高度な推定②
「正規分布」の場合
第21講のまとめ
練習問題
補講▶︎ベータ分布の積の計算

おわりに
もっと学びたい人へ
練習問題解答
索引

小島 寛之 (著)
出版社 : ダイヤモンド社 (2015/11/20)、出典:出版社HP

楽しみながら学ぶベイズ統計

ベイズ統計とは何か

本書は、ベイズ統計を解説している本です。ベイズ統計の基本的な考え方から始まり、革新の程度や不確実さの論理、分布の解説、ベイズの定理と事前確率などベイズ統計の入門的な内容が一通り説明されています。他の入門書よりも内容が豊富ですが、高校の基本的な代数を事前に理解している必要があります。

ウィル・カート (著), 水谷 淳 (翻訳)
出版社 : SBクリエイティブ (2020/7/8)、出典:出版社HP


言葉に対する情熱を思い出させてくれたメラニーへ

目次

謝辞

はしがき
統計を学ぶ意味
「ベイズ」統計とは何か?
本書の内容
パートⅠ:確率論入門
パートⅡ:ベイズ確率と事前確率
パートⅢ:パラメータ推定
パートⅣ:仮説検定統計学の真髄
本書を読むのに必要な予備知識
冒険に旅立とう!

パートⅠ:確率入門

第1章 ベイズ的思考と日常の推論
奇妙な体験に関する推論
データを観察する
事前の信念と条件付き確率
仮説を立てる
日々の発言に仮説を見出す
さらなる証拠を集めて考えを更新する
仮説どうしを比較する
データが考えを左右するのであって、考えがデータを左右すべきではない
まとめ
練習問題

第2章 確信のなさを測る
確率とは何か?
出来事の結果を数え上げることで確率を計算する
信じる程度の比として確率を計算する
オッズから確率を導く
確率を求める
コイン投げにおける信念の強さを測る
まとめ
練習問題

第3章 不確実さの論理
ANDで確率を組み合わせる
2つの確率を組み合わせる
確率の乗法定理
例:遅刻する確率を計算する
ORで確率を組み合わせる
互いに排反な出来事においてORを計算する
互いに排反でない出来事に加法定理を使う
例:高い罰金を取られる確率を計算する
まとめ
練習問題

第4章 二項分布を作る
二項分布の構造
問題の詳細を理解して抽象化する
二項係数を使って結果を数え上げる
組み合わせ論―二項係数を使った高度な数え方
目的の結果が起こる確率を計算する
例:ガチャゲーム
まとめ
練習問題

第5章 ベータ分布
ある奇妙なシナリオ―データを得る
確率と統計と推定を区別する
データを集める
確率の確率を計算する
ベータ分布
確率密度関数を分解する
確率密度関数を先ほどの問題に当てはめる
連続分布を積分で定量化する
ガチャゲームのリバースエンジニアリング
まとめ
練習問題

パートⅡ:ベイズ確率と事前確率

第6章 条件付き確率
条件付き確率を導入する
条件付き確率はなぜ重要か
独立性と改良版の確率の定理
逆の条件付き確率とベイズの定理
ベイズの定理
まとめ
練習問題

第7章 レゴを使ってベイズの定理を導く
条件付き確率を視覚的に導く
数学を使って薄く
まとめ
練習問題

第8章 ベイズの定理における
事前確率、尤度、事後確率
3つの部品
犯罪現場を調べる
尤度を求める
事前確率を計算する
データを正規化する
対立仮説を考える
対立仮説における尤度
対立仮説における事前確率
対立仮説の事後確率
正規化前の事後確率を比較する
まとめ
練習問題

第9章 ベイズ事前確率と確率分布の利用
小惑星帯に関するC-3POの心配
C-3POの考えを見極める
ハン・ソロのつわものぶりを見積もる
事後確率でスリルを演出する
まとめ
練習問題

パートⅢ:パラメータ推定

第10章 平均化とパラメータ推定の入門
積雪量の推定
測定値を平均化して誤差を最小にする
単純化した問題を解く
もっと極端なケース
重み付けをした確率で真の値を推定する
期待値と平均の定義
測定のための平均と集計のための平均
まとめ
練習問題

第11章 データの散らばり具合を測る
井戸にコインを落とす
平均絶対偏差を求める
分散を求める
標準偏差を求める
まとめ
練習問題

第12章 正規分布
爆弾の導火線の長さを測る
正規分布
導火線の問題を解く
ちょっとした便法と直観
「nシグマ」の出来事
ベータ分布と正規分布
まとめ
練習問題

第13章 パラメータ推定の道具——確率密度関数、累積分布関数、文位関数
メールマガジンのコンバージョン率を推定する
確率密度関数
確率密度関数をグラフで表現して解釈する
Rで確率密度関数を使う
累積分布関数を導入する
累積分布関数をグラフで表現して解釈する
中央値を求める
積分値を視覚的に近似する
信頼区間を見積もる
Rで累積分布関数を使う
分位関数
分位関数をグラフで表現して理解する
Rで分位を計算する
まとめ
練習問題

第14章 事前確率によるパラメータ推定
メールマガジンのコンバージョン率を予測する
事前確率を使って視野を広げる
経験を定量化する手段としての事前分布
何も分からない場合に使える公平な事前分布はあるか?
まとめ
練習問題

パートⅣ:仮説検定——統計学の真髄

第15章 パラメータ推定から仮説検定へ——ベイズ的A/Bテストを設定する
ベイズ的A/Bテストを設定する
事前確率を定める
データを集める
モンテカルロ・シミュレーション
いくつの世界でタイプBのほうが優れているか?
タイプBはタイプAよりどれだけ優れているか?
まとめ
練習問題

第16章 ベイズ因子と事後オッズの導入——考えどうしを競わせる
再びベイズの定理
事後確率比を使って仮説検定をおこなう
ベイス因子
事前オッズ
事後オッズ
まとめ
練習問題

第17章 『トワイライトゾーン』でのベイズ的推論
『トワイライトゾーン』におけるベイズ的推定
ベイス因子を使ってミスティック・シーアを理解する
ベイス因子を求める
事前の信念を考慮する
自分のサイキックパワーを高める
まとめ
練習問題

第18章 データに納得してくれないとき
超能力者の友人がサイコロを振る
尤度を比較する
事前オッズを組み込む
対立仮説を考える
親戚や陰謀論者と議論する
まとめ
練習問題

第19章 仮説検定からパラメータ推定へ
この屋台ゲームは本当に公平か?
多数の仮説を考慮する
Rを使ってさらなる仮説を探索する
尤度比に事前オッズを追加する
確率分布を求める
ベイズ因子からパラメータ推定へ
まとめ
練習問題

●付録A R入門
RとRStudio
Rスクリプトの作成
Rの基本概念
データ型
欠損値
ベクトル
関数
基本的な関数
ランダムサンプリング
runif()関数
rnorm()関数
sample()関数
set.seed()関数を使って予測可能な乱数を生成する
独自の関数を定義する
基本的なグラフを描く
練習:株価のシミュレーション
まとめ

●付録B 読みこなすのに必要な微積分
関数
走行距離を求める
曲線より下側の面積を求める一積分
変化の割合を求める一微分
微積分の基本定理

●付録C 練習問題の解答
訳者あとがき
索引

ウィル・カート (著), 水谷 淳 (翻訳)
出版社 : SBクリエイティブ (2020/7/8)、出典:出版社HP

謝辞

本を書くというのは本当に大変な取り組みで、何人もの人が汗水流さなければならない。以下に挙げる名前だけでは、本書を形にしてくれた大勢の人の一部にしか触れられていない。まずは、いつも好奇心をかき立てて元気づけてくれる息子のアーチャーに感謝したい。

私の以前からの愛読書の中にはノー・スターチ社の本が何冊かあり、この出版社の素晴らしいチームと仕事をして本書を作り上げられたのはまさに光栄である。ノー・スターチ社の担当編集者、校正者、そして優秀なチームに心から感謝する。最初に本書の制作の話を持ちかけてくれたリズ・チャドウィックは、全体を通じて編集上の的確な指摘と手ほどきをしてくれた。ローレル・チューンは、Rに関する私の書き散らかたノートを信じられないほど円滑に立派な本へとまとめ上げてくれた。チェルシー・パーレット・ベレリティは、技術校正者の役割をはるかに超えて、本書をできるだけ最高なものに仕上げる手助けをしてくれた。フランシスソーは、後のほうの章について数々の的確なコメントをくれた。そしてもちろん、このような魅力的な出版社を立ち上げてくれたビル・ポロックに感謝する。

学部で英文学を専攻した私が数学の本を書くなんて、以前ならけっして想像できなかったはずだ。数学の驚異に目を向ける上で本当に欠かせなかった人が何人かいる。英文学にのめり込む学生に数学の世界が刺激的でおもしろいことを教えてくれた、大学時代のルームメイト、グレッグ・ミュラーには、生涯感謝しつづけたい。ボストン大学のアナトリーテムキン教授は、私が「これはどういう意味なのか」と質問するたびに必ず答えてくれて、数学的思考への扉を開いてくれた。そしてもちろん、何年ものあいだまるで砂漠をさまよっていたかのような私に、数学に関する会話と手ほどきというオアシスを与えてくれた、リチャード・ケリーに心から感謝する。また、ボンボラ社のデータサイエンスチーム、とくに、本書に取り入れたものを含めたくさんの素晴らしい疑問や会話を提供してくれたパトリック・ケリーに、感謝の言葉を捧げたい。さらに、私のブログ”Count Bayesie”にいつも素晴らしい質問や指摘を投稿してくれる読者たちにも、ずっと感謝していきたい。読者の中でもとくに、私が初めのうちに抱いていた誤解を正してくれた投稿者のネヴィンに感謝する。

最後に、私自身がベイズ統計を学ぶ上で素晴らしい道案内になった何冊かの本の偉大な著者らに感謝したい。ジョン・クラスチケ著Doing Bayesian Data Analysis[「ベイズ統計モデリング』共立出版] とアンドリュー・ゲルマンら著Bayesian Data Analysisは、必読書である。私自身の思考に飛び抜けて大きな影響を与えたのは、E・T・ジェインズの驚くべき本Probability Theory: The Logic of Scienceだ。歯ごたえのあるこの本に関する連続講義を開いてくれて、私が完全に理解するための手ほどきをしてくれた、オーブリー・クレイトンにも感謝したい。

ウィル・カート (著), 水谷 淳 (翻訳)
出版社 : SBクリエイティブ (2020/7/8)、出典:出版社HP

はしがき

生活の中で起こる出来事はほぼすべて、多かれ少なかれ不確実である。少し大げさに聞こえるかもしれないが、ちょっとした実験をしてみればそれが真実だと分かる。一日の初めに、30分後、1時間後、3時間後、6時間後何が起こると思うかを書き留めておく。そして、予想どおりの出来事がいくつ起こったかを数えてほしい。あなたの一日が不確実な事柄ばかりであることが、たちどころに分かるだろう。「歯を磨く」や「コーヒーを飲む」といった予測可能な事柄でさえ、何らかの理由で予想どおりにはならないかもしれない。

生活の中での不確実な事柄のほとんどは、一日の計画を立てることでかなりうまく対処できる。たとえば、道が混んでいて朝の通勤に普段より長くかかることがあっても、遅刻せずに会社に着くには何時に家を出ればいいかはかなり良く予測できる。朝にものすごく重要な会議があれば、通勤時間が伸びてもかまわないよう早く家を出ればいい。我々は誰しも、不確実な状況に対処して、不確実な事柄について推論するための本能的な感覚を持っている。その感覚に従って考えていけば、確率論的な思考を始められる。

統計を学ぶ意味

本書のテーマであるベイズ統計は、不確実な事柄についてより良く推論するための手助けになる。ちょうど、学校で論理を学べば日々の論理的思考の過ちに気づけるようになるのと同じだ。先ほど述べたように、ほぼ誰もが日常生活で不確実な事柄に向き合っているのだから、本書の対象読者はかなり幅広いはずだ。すでに統計を駆使しているデータサイエンティストや研究者にとっては、ベイズ統計の道具のしくみをさらに深く理解してものにすることがためになるだろう。技術者やプログラマなら、下すべき決定を定量的にさらにうまく評価する方法を多く学べるだろう(私はペイズ解析を使ってソフトウエアのバグの原因を特定したことがある!)。マーケティング担当者やセールスマンなら、A/Bテストをおこなうときや、顧客の行動を理解するとき、あるいはビジネスチャンスの価値を評価するときに、本書の考え方を使うことができる。高度な決定を下している人なら誰しも、確率に対して少なくとも基本的な感覚を持っていて、不確実な決定に伴うメリットとデメリットをざっと見積もることができるはずだ。願わくはCEOのみなさんも、飛行機の中で本書を学んで、着陸する頃には、確率や不確実さが関わる選択肢をより良く評価するための基礎を固めてもらいたい。

さまざまな問題についてベイズ的な方法で考えれば、誰もが恩恵を受けられると、私は心から信じている。ベイズ統計を身につければ、不確実な事柄を数学でモデル化して、限られた情報の中でもより良い選択をすることができる。たとえば、特別重要な会議に間に合うよう出勤しなければならないが、選べるルートが2通りあったとしよう。普段は第1のルートのほうが早く着くが、時々渋滞が発生して大幅に遅れることがある。第2のルートは普段は時間がかかるが、交通状況に左右されにくい。どちらのルートを選ぶべきか?決めるにはどのような情報が必要か?そして、自分の選択にどの程度確信が持てるか?ちょっとした要素が加わっただけでも、必要な手法が増えて余計に考えなければならなくなる。

ふつうの人は統計と聞くと、新薬を開発する科学者や、市場の動向を追跡するエコノミスト、次の選挙の結果を予測するアナリスト、手の込んだ数学で最強のチームを組もうとする球団経営者といった人を思い浮かべるものだ。もちろん彼らもみな統計を見事に活用しているが、日常生活のもっとずっと数多くの分野でも、ベイズ的推論の基礎を頭に入れておけば役に立つ。新発見のニュースに首をひねったり、自分が稀な病気にかかっているのではないかと思って夜遅くまでネット検索をしたり、この世界に関する不合理な思い込みをめぐって親戚と議論したりしたことのある人なら、ベイズ統計を学ぶことでより良く考えられるようになるはずだ。

「ベイズ」統計とは何か?

そもそも「ベイズ」とは何なのかと思った人もいるだろう。あなたが受けた統計の授業は、おそらく頻度論的統計学に基づいていた。頻度論的統計学の基礎をなす考え方は、「確率とは何かが起こる頻度である」というものだ。コインを1回投げて表が出る確率が0.5であるというのは、1回投げると表が半分出ると予想できるという意味である(「2回投げると表が1回出る」と言ったほうが分かりやすいか)。

それに対してベイズ統計では、ある情報に関して自分がどれだけ確信を持っていないか、それを確率で表現することを考える。ベイズ統計の言い回しでは、コインを1回投げて表が出る確率が0.5であるというのは、自分は表が出るとは確信できないし、それと同程度で裏が出るとも確信できないという意味である。コイン投げのような問題の場合には、頻度論的方法とベイズ的方法のどちらも筋が通っているように思える。しかし、次の選挙で最豆の候補が勝つとどれだけ強く信じているか、それを定量化しようとしたら、ベイズ的解釈のほうがはるかに理にかなっている。そもそもその選挙は1回しかおこなわれないのだから、贔屓の候補が勝つ頻度について論じても意味がない。ベイズ統計を使う際には、この世界について自分が何を信じるかを、すでに持っている情報に基づいて正確に表現しようとすればいいのだ。

ベイズ統計には大きな長所が一つある。ベイズ統計は不確実な事柄に関する推論としてとらえられるので、ベイズ統計の道具や手法はすべて直観と合致しているのだ。

ベイズ統計とは、直面した問題を見つめ、自分がそれを数学的にどのように表現したいかを定め、推論によってそれを解決することにほかならない。謎めいた検定法から納得できない結果が出てくることもないし、さまざまな頻度分布を丸暗記する必要もないし、伝統的な実験手法を完璧に再現する必要もない。あなたは、ウェブページを新たなデザインにすると顧客が増える確率や、最屓のチームが次の試合で勝つ確率、あるいは人類がこの宇宙で本当にひとりぼっちである確率を知りたいかもしれない。ベイズ統計は、片手で数えられるほどの単純な法則と、問題の新たなとらえ方だけを使って、それらの事柄を数学的に推論するためのきっかけを与えてくれるのだ。

ウィル・カート (著), 水谷 淳 (翻訳)
出版社 : SBクリエイティブ (2020/7/8)、出典:出版社HP

本書の内容

本書に書かれている事柄を以下に簡単にまとめておこう。

●パートⅠ:確率入門

第1章:ベイズ的思考と日常の推論
この最初の章では、ベイズ的思考がどんなものかを紹介し、我々が物事を鵜呑みにしないために日々使っている方法と似ていることを示す。夜に窓の外に見えた明るい光がUFOである確率を、すでに分かっている事柄と、世界についてあなたが信じている事柄に基づいて掘り下げる。

第2章:確信のなさを測る
この章ではコイン投げの例を使って、あなたの確信のなさの程度に、確率という形で実際の数値を当てはめる。ある事柄に関するあなたの考えに自分がどの程度確信があるかを、0から1までの数値で表す。

第3章:不確実さの論理
論理学では、AND,NOT,ORという演算を使って、真または偽である事実を組み合わせていく。実は確率論にもこれらの演算に似た概念がある。約束に間に合うための最適の交通手段や、交通違反切符を切られる可能性について、どのように推論していけば良いかを考察する。

第4章:二項分布を作る
この章では、論理としての確率の法則を使って、二項分布という確率分布を自力で組み立てる。この二項分布は、同様の構造を持つ多くの確率問題に応用できる。ガチャゲームで有名統計学者のカードを引き当てる確率を予測してみよう。

第5章:ベータ分布
ここでは連続確率分布の最初の例を学び、統計学と確率論との違いを知ってもらう。統計学では、データに基づいて未知の確率をはじき出そうとする。この章の例では、コインを吐き出す謎の箱と、入れたお金よりも多くのお金が戻ってくる可能性について調べていく。

●パートⅡ:ベイズ確率と事前確率

第6章:条件付き確率
この章では、すでに分かっている情報に基づいて、その条件のもとでの確率を決定する。たとえば、ある人の性別が分かれば、その人が色覚異常である確率が分かる。また、条件付き確率を逆転させるためのベイズの定理も紹介する。

第7章:レゴを使ってペイズの定理を導く
ここでは、ベイズの定理をもっと直観的に理解するために、レゴを使って考えてみる。ペイズの定理が数学的に何をしているかを、幾何学的に感じ取れるようになるだろう。

第8章:ベイズの定理における事前確率、尤度、事後確率
ベイズの定理は通常3つの部分からなっていて、そのそれぞれがベイズ的推論において独自の役割を果たしている。この章では、それらの呼び名と使い方を学ぶために、空き巣とおぼしき状況が本当の犯罪なのか、それとも単に偶然が重なっただけなのかを調べていく。

第9章:ベイズ事前確率と確率分布の利用
この章では、「スター・ウォーズ/帝国の逆襲」の有名な小惑星帯のシーンをベイズの定理でより良く理解する方法を探り、それを通じてべイズ統計における事前確率の理解を深めてもらう。また、確率分布全体を事前確率として使う方法も説明する。

●パートⅢ:パラメータ推定

第10章:平均化とパラメータ推定の入門
パラメータ推定とは、不確実な値をできるだけ精確に推測するための方法である。パラメータ推定のもっとも基本的な道具が、観察結果を単純に平均化すること。この章では、それでうまくいく理由を積雪量の分析を通じて説明する。

第11章:データの散らばり具合を測る
平均を取ることはパラメータ推定の第一段階として有用だが、それとともに、観察結果がどの程度散らばっているかを示す方法も必要となる。ここでは、観察結果の散らばり具合を表す尺度として、平均絶対偏差、分散、標準偏差を紹介する。

第12章:正規分布
平均と標準偏差を組み合わせることで得られる正規分布は、推定をおこなう上できわめて有用な確率分布である。この章では、正規分布を使って未知の値を推定する方法だけでなく、その推定値にどの程度確信が持てるかを知る方法も学ぶ。その新たな道具を使えば、銀行強盗が逃げ出せるタイミングを計ることができる。

第13章:パラメータ推定の道具——確率密度関数、累積分布関数、分位関数
ここでは、パラメータ推定の結果をより良く理解するための、確率密度関数、累積分布関数、分位関数について学ぶ。これらの道具を使って広告メールのコンバージョン率(リンクをクリックする割合)を推定し、それぞれの道具から何が読み取れるかを理解する。

第14章:事前確率によるパラメータ推定
より良いパラメータ推定をおこなう最良の方法は、事前確率を組み込むことである。この章では、過去の広告メールのコンバージョン率に関する事前情報を追加することで、新たな広告メールのコンバージョン率をより良く推定できるようになることを示す。

●パートⅣ:仮説検定——統計学の真髄

第15章:パラメータ推定から仮説検定へーベイズ的A/Bテストを設定する
不確実な値を推定できるようになったので、次に、2つの不確実な値を比較して仮説を検定する方法が必要となる。広告メールによるマーケティングの新たな方法にどの程度自信が持てるかを、A/Bテストを設定して見極める。

第16章:ベイズ因子と事後オッズの導入—考えどうしを競わせる
自分がごく稀な病気にかかってはいないかと心配になって、夜遅くまでネット検索したことはないだろうか?この章では、実際にどの程度心配すべきかを仮説の検定によって見極める、もう一つの方法を紹介する!

第17章:「トワイライトゾーン」でのベイズ的推論
あなたは超常現象をどのくらい信じているだろうか?この章では、『トワイライトゾーン』のある有名なエピソードに登場する場面を分析することで、あなた自身の読心術を磨くことができる。

第18章:データに納得してくれないとき
データを示しただけでは、誰かの考えを変えさせたり、論争に勝ったりできないことがある。あなたと違う考えを持った友人を心変わりさせるにはどうすればいいか、強情な親戚と議論するのが時間の無駄であるのはなぜか、それを学んでいこう!

第19章:仮説検定からパラメータ推定へ
最後にパラメータ推定に話を戻し、ある範囲にわたる仮説を比較する方法に目を向ける。ここまでに説明した道具を使って、最初に取り上げた例であるベータ分布を改めて導き、屋台でおこなわれるあるゲームの公正さを単純な仮説検定によって分析してみよう。

付録A:R入門
この短い付録では、プログラミング言語Rの基本を教える。

付録B:読みこなすのに必要な微積分
ここでは、本書で使われている数学に慣れるのに必要十分な微積分を説明する。

付録C:練習問題の解答
各章末の練習問題の解答を解説する。

本書を読むのに必要な予備知識

本書に必要な知識は、高校の基本的な代数だけである。ページをめくっていくといくつか数式が出てくるが、とくに厄介なものはない。プログラミング言語Rで書かれた短いコードも使うが、そのつど説明するので、前もってRを学んでおく必要はない。微積分も多少使うが、やはり経験は必要なく、必要十分な情報は付録に示してある。

このように本書は、高度な数学の予備知識がなくても、さまざまな問題について数学的に考えるためのきっかけをつかめることを目指している。読み終わる頃には、日常生活で出くわすさまざまな問題をいつの間にか数式で表現するようになっていることだろう!

統計学(さらにはベイズ統計)の知識が豊富な人でも、本書を楽しんで読んでもらえると信じている。私の経験上、ある分野を深く理解するための最善の方法は、何度も基本に立ち返ってそのたびに違う方向から考えてみることである。本書の著者でさえ、書き進めている最中にいくつもの驚きに出くわしたくらいなのだから!

冒険に旅立とう!

すぐに分かってもらえると思うが、ベイズ統計はとても役に立つだけでなく、とても楽しい!本書ではベイズ的推論について学ぶために、レゴブロック、『トワイライトゾーン」、「スター・ウォーズ」などが登場する。さまざまな問題について確率論的に考えるようになれば、至るところでベイズ統計を使いはじめられる。本書は楽しみながらすらすら読めるように書いてある。ページをめくってベイズ統計の冒険に乗り出そう!

ウィル・カート (著), 水谷 淳 (翻訳)
出版社 : SBクリエイティブ (2020/7/8)、出典:出版社HP

結果から原因を推理する 「超」入門 ベイズ統計 (ブルーバックス)

ベイズ統計を推理ストーリーで学ぶ

本書は、ベイズ統計のポイントを推理ストーリーによって、紹介している本です。ベイズ統計の目的やデータの扱い方、計算の手順などが、殺人事件の推理とリンクさせて説明されています。ある程度の数学の基礎知識を持っていないとついていけない内容になっています。

石村 貞夫 (著)
出版社 : 講談社 (2016/12/14)、出典:出版社HP

本文デザイン/増田佳明(next door design)
本文図版/朝日メディアインターナショナル

もくじ

まえがき

第Ⅰ部 推理編

第1章 ベイズ警部、殺人事件を捜査する
1.1 美しい田舎町で起きた殺人事件
オープンガーデンとは?
ニュートンとリンゴの木
1.2 ロンドン警視庁鑑識課
1.3 ベイズ警部、捜査開始
プロファイリングとは?

第2章 ベイズ警部、データを収集する
2.1 ベイズ警部の聞き込み捜査
データ収集の方法
アンケート調査法と聞き取り調査法
名義データのときはダミー変数を!
2.2 3人の容疑者

第3章 ベイズ警部、関連性について考える
3.1 殺害方法と性別の関連性は?
殺人事件の手口に男女差がある?
3.2 “関連がない”ということ!
競馬のオッズ
3.3 オッズとオッズ比で悩む
オッズの定義
オッズ比の定義
3.4 オッズ比と“独立である”ということ!?
独立の定義
3.5 モース教授、独立性の検定をおこなう
「検定統計量14.286は棄却域に入っている」とは?
3.6 決定木とはなんの木??

第4章 ベイズ警部、予測確率を計算する
4.1 因果についての大考察
ビッグフット事件
単回帰分析
2変数x,yのデータ
散布図
相関係数
Excelによる相関係数の求め方
単回帰式とExcelの「分析ツール」
4.2 重回帰式でつまずく
多変量解析
4.3 バーナビ教授によるロジスティック回帰式
ロジスティック回帰式の性質
4.4 ベイズ警部、毒殺の予測確率を計算する
表4.4.4の見方
4.5 ニューラルネットワークによる頭痛
ニューラルネットワーク

第5章 ベイズ警部、原因の確率を計算する
5.1 古びた教会にたたずむ
ヨーロッパ中世一暗黒の時代一
トーマス・ペイズ
5.2 古文書の発見と解読
2×2クロス集計表についての一言
5.3 古文書のさらなる解読
5.4 原因の確率?結果の確率?
5.5 ベイズ警部のルール一その1ー
ペイズ警部のルール一その1一
5.6 ベイズ警部のルール一その2一
表5.6.2についての注意
ペイズ警部のルール一その2ー
5.7 確率で真犯人をつきとめる!?
ペイズ警部のルール一その3一
確率の意味
5.8 エピローグ

第Ⅱ部数学編

第6章 ベイズの定理を理解する
6.1 確率の定義一ベイズの定理への道一
確率の定義一その1一
確率の定義一その2一
確率の定義一その3一
確率の定義一その4一
多数回の実験に基づいた確率の定義
確率の求め方
試行と事象の定義
大学数学での確率の定義
6.2 ベイズの定理

石村 貞夫 (著)
出版社 : 講談社 (2016/12/14)、出典:出版社HP

ベイズ統計学 やさしく知りたい先端科学シリーズ1

ベイズ統計学の基本と応用が一冊で学べる

本書は、社会人や大学生、高校生がターゲットになっているベイズ統計学の入門書です。人工知能でどのように応用されているのかの説明がされており、その他にも応用される実例や物理と組み合わせ方の解説もあり、ベイズ統計学が現実でどのように使われるかを学びたい方に向いているでしょう。

松原 望 (著)
出版社 : 創元社 (2017/12/20)、出典:出版社HP

ようこそ

近頃、「ベイズ統計学」という言葉をよく聞きます。今までの統計学とは何が違うのでしょうか。日常のいろいろな局面で使わているらしいけれど、一体どんなところで使われているのでしょうか。人工知能・AIが「ベイズ統計学」の力で大きく発展した、と聞くけれど、どういうしくみになっているのでしょうか。

「わからない」ということからまず一歩踏み出して、自分の考えから世界を知ろうとする、それが「ベイズ統計学」です。これは科学の姿勢そのものでもあります。

ではさっそく、不思議なほどシンプルな「ベイズ統計学」の世界へ踏み出してみましょう。

「やさしく知りたい先端科学シリーズ」は、現代を生きる私たちの身の回りにある高度な科学や技術、その周囲にある出来事や物事をできるだけ平易な説明とイラストで解説するものです。

目次

はじめに

CHAPTER1 ベイズ統計学の紹介

1-1 ベイズで磨く直観と感性
確率を知ることで新しい世界を知る
1-2 夢や期待を数字にしてみた
宝くじの本当の価値はおいくら?
1-3 幸運の組み合わせは何通りか
ロイヤル・ストレート・フラッシュの数学
1-4 キモチを確率する
チョコレートに込められた何%の想い
1-5 ベイズ推定で想定する
本当にガンの確率を計算する
1-6 ベイズの定理で世界を知る
壺と玉の問題

練習問題

CHAPTER2 ベイズ統計学で人工知能入門
2-1 四則演算でOK!
エクセルで人工知能を自作
2-2 キモチとは文系?理系?その両方
気持ちの変化こそベイズ更新
2-3 キモチがフィット、心はシグモイド関数
刺激と反応の関係
2-4 有利・不利の「スコア」を定める
前向きと後向きでは歩幅が違う
2-5 量的なエビデンスへの応用
ベイズの定理を分布へ拡張

練習問題

CHAPTER3 ベイズ統計と確率分布

3-1 ベイズ統計学の7つ道具
まずは確率分布から
3-2 パラメーター
データの中に潜む宝石はあるか
3-3 事前分布
まずは、自分で決めることにした
3-4 事後分布
考えが改まるのがベイズ
3-5 ポアソン分布に対するベイズ推論
滅多にないことでも、気をつけて!
3-6 正規分布に対するベイズ推論
なぜか、そういう形になってしまう
3-7 階層モデル(ハイアラーキ型)
複数の「分布」をまとめる「分布」

練習問題

CHAPTER4 ベイズ統計学の応用と具体的実例

1-1 因果のネットワーク
やはり因果関係は大切
1-2 あなたもベイズ探偵
確率で決めてみよう
1-3 医学的意思決定判断
人工知能はベイズで命を救う
1-4 あやめのベイズ判別
線形判別関数で「かたち」の認識を行う
1-5 判別分析でワイン・テイスティング
判別分析でヒトの味覚に迫る

練習問題

CHAPTER5 運動と制御とベイズ統計学

5-1 ナビゲーション・システム
変化しつづけるイマとココを追う
5-2 運動方程式と観測方程式
状態の動き方を方程式にする
5-3 カルマン・フィルターのアルゴリズム
ベイズで高精度にイマとココを知る
5-4 自動運転
ベイズ統計学搭載の夢の技術
5-5 意思決定
ベイズ意思決定とシステム制御問題

練習問題

CHAPTER6 ベイズ統計学まとめと発展

6-1 学習の心構え
統計学と人工知能の行き先
6-2 研究課題
これからの興味や問題のために
LESSON
おわりに
さくいん
参考書籍

松原 望 (著)
出版社 : 創元社 (2017/12/20)、出典:出版社HP

はじめに

水準が高くわかりやすいベイズ統計学への入り口

この本のおすすめ先は、社会人、大学生そして好奇心のある高校生です。すなわち、高等教育を受けた人、受けている人、これから受けようとしている人々に、水準の高いベイズ統計学の学問の面白さ、有用性をお伝えするものです。水準が高いから難しいと誤解するかもしれませんが、本当の意味で水準が高いことは、読者のために「わかりやすい」ことを含みます。なぜなら、難しければ内容は理解されませんから、水準が高い低い以前ではありませんか。この本の特徴は「わかりやすく」「面白く」「ためになる」、いわゆる「松原3モットー」です。

すくっと伸びる大樹も地下ではAIに

ベイズ統計学は統計学の新機軸です(実はそのルーツは1700年代までさかのぼるので、「リバイバル」とも言えましょう)。これは従来の統計学、普通皆さんが大学で学んだ統計学が古いとか、役立たずという意味ではなく、かえってそれも理解力の基盤となるということですが、ベイズ統計学は「ペイズの定理」だけがただ一つの仮定で、シンプルでわかりやすく人間的、さらに個人主義的とさえ言えます。理論的にもあいまいな点が少なく、太い幹がすくっと空に向かって伸び、大きな枝や葉を張っている感じです。非常に成長力が旺盛で、地下ではAIにつながっていると考え、そこをしっかりと解説したのがこの本のメリットです。

この本の説明

この本では確率は0(0%)から1(100%)の実数の値で表記しています。たとえば10回に1回の確率、10%なら0.1です。また、統計上の計算にMicrosoft Excel(以下、エクセル)を使用しています。自宅や職場、学校でもエクセルに慣れ親しんでいる人も多いかと思います。ベイズ統計学に親しめるように、出力結果は厳密な数字で表記せず、統計学的に有効なわかりやすい値で、四捨五入したり丸めたりしています。この本で使用している統計データは仮想のもので、できるだけわかりやすい形に整理したものです。実際のものとは異なります。
なお、この本ならびに統計学の基礎に関する総合的情報は下記に掲載しております。
https://www.qms.jp/portal

松原 望 (著)
出版社 : 創元社 (2017/12/20)、出典:出版社HP

身につく ベイズ統計学

ベイズ統計学を丁寧に解説

本書は、ベイズの理論をわかりやすく解説することを目指した入門書です。応用的な内容も含まれており、しっかり学びたい方にもある程度対応できるようにしています。高度な数学は避けて、グラフを多く使うことで、視覚的に理解できるようにしています。

涌井 良幸 (著), 涌井 貞美 (著)
出版社 : 技術評論社 (2016/4/13)、出典:出版社HP

はじめに

本書はベイズの理論についての標準的な入門テキストになることを意図して作成されました。
ベイズの理論に関して、「わかりにくい」、「複雑だ」といった話をよく耳にします。確かに、ベイズの理論に関する文献をひも解くと、たくさんの数学記号が紙面を埋めていたり、著者の研究分野に偏った内容に主眼が置かれたりしていて、けっして易しいという印象は受けません。統計や数理科学に長けている研究者は別かもしれませんが、これからベイズ理論を学ぼうとする人には、とっつきにくい内容になっています。

ところで、この10年、ベイズの理論は幅広い分野で活用されるようになりました。例えば、ホームページの検索で有名なグーグルでは、効率の良い検索ができる論理としてベイズの理論が利用されています。また、電子メールの迷惑メールの振り分けに、この考え方が活かされています。「感情が経済を動かしている」と主張する行動経済学などの分野でも、盛んに利用されるようになってきました。したがって、ベイズの理論について、「難しい」といって逃げることができない時代に突入しているのです。
本書は、このような時代の中で企画されたベイズ理論の入門書・応用書です。できるだけ高度の数学は回避し、直観的な記述を採用しています。また、グラフを多用し、視覚的な理解が得やすいように構成されています。また、冗長という批判を恐れず、記述をできるだけパターン化して繰り返し、原理が記憶に残るようにしました。

近年、マスコミ界ではAI(人工知能)の研究やビッグデータ、IoT(モノのインターネット)など、情報理論の言葉が日常的に飛び交っています。その最新の世界にもベイズの理論は活躍の場を広げています。このように脚光を浴びるペイズの理論の普及に本書が少しでも役立つことを希望します。

最後になりましたが、技術評論社の渡邊悦司氏に本書作成のすべての過程で丁寧なご指導を仰ぎました。この場をお借りして、お礼を述べさせていただきます。

2016年春 著者

涌井 良幸 (著), 涌井 貞美 (著)
出版社 : 技術評論社 (2016/4/13)、出典:出版社HP

contents

序章 ベイズの理論の考え方
参考 ベイズの理論の歴史

第1章 ベイズ理論のための確率・統計の基本
1.1 確率の定義と公理
1.2 条件付き確率と乗法定理
1.3 試行の独立と反復試行の確率の定理
1.4 確率変数と確率分布
1.5 尤度関数と最尤推定法
1.6 同時分布と周辺確率、周辺分布

第2章 ベイズの定理とその応用
2.1 ベイズの定理
2.2 ベイズの定理の変形とペイズの基本公式
2.3 事前確率の大切さ
2.4 理由不十分の原則とベイズ更新
2.5 ナイーブベイズ分類
2.6 パターン認識とMAP推定
参考 最尤推定法とMAP推定法の違い

第3章 ベイジアンネットワーク
3.1 ベイジアンネットワークとは
3.2 簡単なベイジアンネットワークの計算法
3.3 ベイジアンネットワークの実際の計算

第4章 ベイズ統計学の基本
4.1 ベイズ統計学の基本公式
4.2 ベイズ統計学の簡単な例(1)
…離散的な母数の場合
4.3 ベイズ統計学の簡単な例(2)
…コインの表裏の出方
4.4 ペイズ統計学の簡単な例(3)
…缶ビールの内容量
参考 正規分布の形の積分公式

第5章 ベイズ統計学の応用
5.1 ベルヌーイ分布とベイズ統計学
5.2 二項分布とベイズ統計学
5.3 正規母集団の母平均とベイズ統計学
5.4 頻度論の推定とベイズ統計学
5.5 MAP推定法とペイズ統計学
5.6 モデルの評価とベイズ因子
5.7 回帰分析とベイズ統計学

第6章 自然な共役事前分布
6.1 ベイズ統計学と自然な共役事前分布
6.2 ベルヌーイ分布、二項分布の自然な共役事前分布
6.3 二項分布と自然な共役事前分布の有名な応用例
6.4 正規分布の自然な共役事前分布
(母分散既知の場合)
6.5 正規分布の自然な共役事前分布
(母分散未知の場合)
6.6 ポアソン分布の自然な共役事前分布

第7章 階層ベイズ法とMCMC法
7.1 古典的統計モデルと最尤推定法
7.2 階層ベイズ法の考え方
7.3 階層ベイズ法の具体例
7.4 階層ベイズ法をMCMC法により計算

付録A 7章の§7.1、7.3の例題のデータ
付録B ベイズ統計で利用されるExcel関数
付録C 一般的な線形回帰モデルの事後分布の算出
付録D 正規母集団の標本平均の扱い方(母分散既知のとき)
付録E 逆ガンマ分布とガンマ分布の関係
付録F 正規母集団の標本平均の扱い方(母分散未知のとき)
付録G MCMC法のしくみ
付録H 階層ベイズ法の問題をMCMC法で計算

●索引

■利用上の注意

・本章はベイズ統計学の基本と応用をわかりやすく解説したものです。わかりやすさを優先しているので、表現において数学的に多少ゆるい箇所がありますがお許し下さい。
・データという言葉には多様な定義があります。本書では確率現象から得られた値やその集まりを単純にデータと呼んでいます。ちなみに、データ(data)はdatumの複数形ですが、「1つのデータ」という表現もお許しください。
・「正規分布に従うデータDが得られた」などという簡略表現を利用しています。正式には「正規分布に従う確率変数Xの値としてデータDが得られた」などと表現しなければならないのですが、冗長になるので簡略表現で代用しています。
・資料やデータは、注記のない限り、仮想的なものです。そこで、数値処理において、有効桁について厳密には扱っていません。
・数値の丸めのために、小数の最後の位で計算結果が一致しないことがあります。
・計算にはマイクロソフトExcelを用いています。なお、わかりやすさを優先したため、計算処理の高速化は考えていません。(本書に掲載したExcelのバージョンはExcel2013です。)

涌井 良幸 (著), 涌井 貞美 (著)
出版社 : 技術評論社 (2016/4/13)、出典:出版社HP

序章 ベイズ理論の考え方

簡単な例を通して、ペイズの理論の考え方とその特徴を調べることにします。ベイズ統計学のイントロとして軽くお目通しください。

細かい話しは後に回すことにして、この章では大まかなベイズの理論の考え方を紹介します。その理論の面白さの一端が垣間見えるでしょう。

いろいろな確率の考え方

一つの事例を考えます。X氏が通勤途上の宝くじ売り場Aで宝くじを1枚買ったところ、1万円の当たりくじとなりました。幾日かおいて、その売り場Aで再度1枚買ったところ、また1万円の当たりくじとなりました。また数日置いて、X氏はその売り場Aの前で足を止めました。そして、次の3つの考え方にぶつかり、悩むことになりました。
①「2度あることは3度ある」という格言から、3回目もこの宝くじ売り場Aで購入すると、当たる確率は高い。
②「いいことは何度も続かない」の格言から、3回目にその宝くじ売り場Aで購入すると、当たる確率は低い。
③「明日は明日の風が吹く」の格言があるように確率現象は気まぐれであり、3回目はどこで買っても当たる確率は同じ。
これら3つの考え方のどれを採用するのが正しいでしょうか?

日本の宝くじは「公正」に運営されています。したがって、この事例の場合には正しい考え方は③です。どこで売られた宝くじでも、その1本の当選確率は等しいのです。
しかし、人の感性はそうではありません。多くの人は①の考え方を採用します。宝くじ売り場に掲げられた「当店から1億円当選者続出」などの宣伝文句が説得性を持つのはそのためです。では、多くの人は誤った感性を持っているのでしょうか?「2度あることは3度ある」という格言は間違いなのでしょうか?
周知のように、一つの論理の正否は依って立つ仮定の成否にかかっています。宝くじの場合に③が正しいのは「日本の宝くじは『公正』に運営されている」という仮定が成立するからです。もしその仮定が疑われるならば③が正しい保障はありません。いかがわしい団体が運営する「くじ」については、③が正しいとは限らないのです。
仮定の成否によって、確率は色々な風に解釈できます。確率論は一つではないのです。そして、ペイズの理論は色々ある確率論の中の一つです。「2度あることはきっと3度ある」と考える人を正当化する確率論なのです。

頻度論

宝くじの例では「③が正しい」とされます。くじは「公正」と仮定しているので、くじを引く前にそのくじの「当たる確率」は「ある値」に確定していると考えるからです。このように、「予め確率は一定値」と考える確率論は、中学校や高等学校で教える確率論です。
この考え方を見るには中学の教科書に必ず載っている「サイコロ」の例が最適でしょう。1個のサイコロを投げるとき、「1の目の出る確率は1/6である」ことが仮定されます。どの目も同じ確からしさで現れるという公正さが仮定されているからです。
また、その教科書に必ず載っている「コイン」の例もしかりです。1枚のコインを投げるとき、「表の出る確率は1/2である」ことが仮定されます。表も裏も同じような確からしさで現れるという公正さが前提とされているからです。

ところで、サイコロやコインの場合、「予め確率は一定値」とされることの正しさはどのように確かめられるでしょうか。それは実験を繰り返し行うことで確かめられます。例えばコインの場合には、そのコインを何回も投げ、結果として表裏が半々出れば「表裏の出る確率は各々1/2」といえることになります。サイコロもしかりです。
このように、何回も実験して確かめられることを前提とする確率論を頻度論と呼びます。中学校や高等学校で扱う確率論はこの頻度論です。20世紀までの確率・統計学の主流の論理です。現代を支える生産管理や疫学、実験計画などで大いに活躍しています。

頻度論で扱えない確率

いま述べたように、頻度論の基底にあるのは「何度も試行を繰り返せる」という仮定ですが、それが不可能の場合にはどうすればよいでしょうか。実際、この仮定が満たされない場合が多々あります。例えば、次のような日常の例を考えてみましょう。
(例1)A君のB大学合格確率は50%
(例2)明日の株価が上昇する確率は80%
(例3)僕が彼女の愛を射止める確率10%
(例4)新開発の抗癌薬Cが末期患者に効く確率は50%
日常会話で用いる限り、これらの例文は何の違和感もないでしょう。しかし、「頻度論」的な立場で見直すと問題が生じます。
(例1)の「大学合格確率」50%を確かめるには、頻度論的にはA君は何回もB大学を受験しなければなりません。しかし、大学入試の機会はそれほど多くはありません。すると、この合格確率50%は何を意味するのでしょうか?(例2)、(例3)も同様です。明日の株価は1回限りのものですし、人の愛を射止めるかどうかも繰り返せるものではありません。(例4)の新薬についても、命に直接関わる薬の場合には多くの人にその効能をテストすることは出来ないでしょう。
このように、日常的に用いられる「確率」概念は、学校で教えられる類度論とは相容れない場合があります。これらを取り込める新しい理論が求められます。その代表がベイズの理論です。

ベイズの理論の考え方

ベイズの理論の考え方を見るために、1枚のコインを1回投げ、「表」が出る事象の確率(略して「表の出る確率」)を考えてみましょう。
繰り返しますが、頻度論では「表の出る確率」は例えば1/2と固定して考えます。それに対してベイズの理論では、「表の出る確率」を変数(すなわち確率変数)と捉えます。そして、例えば「表」が出たというデータを得て始めて確率変数の様子(すなわち確率分布)が解明されると考えるのです。

頻度論とベイズの理論では、この例からわかるように、出発点が異なります。頻度論は「固定した確率」からデータが生まれ、ベイズの理論ではデータから確率分布が得られると考えるのです。

ベイズの理論は様々な確率概念を包含

「データから確率分布が得られる」というペイズの理論の考え方は、頻度論よりも拡張性に富みます。頻度論は仮定した確率値が正しいかを確かめるために、試行を何回も繰り返す必要があります。それに対してベイズの理論では、たった1個のデータからも妥当な結論を引き出すことが出来るのです。この性質のお陰で、先の(例1)〜(例4)などの確率現象を十分に分析対象とすることが出来ます。人間の信念や確信、理解度など、更に抽象的な内容についてもベイズの理論は研究対象にすることが可能なのです。現代においてAI(人工知能)や経済学、心理学でベイズの理論が多用される理由はここにあります。

「とりあえず」を認めるベイズ統計

いくらベイズの理論が様々な確率現象の分析に柔軟に対応できるからといっても、当然それを適用する際には仮定が必要です。ベイズの理論は「データが得られるたびに確率分布が変化する」という考え方をとるのですが、データを得る前の確率分布の初期値に仮定が必要です。データを得る前の確率分布を事前分布といいます。具体的なデータがないときにも、それを適当にセットしなければならないのです。
事前分布は先見的に決定できるものではありません。ある意味、いい加減に仮定するのです。この「いい加減さ」「曖昧さ」がベイズの理論が忌み嫌われてきた最大の理由でした。ところが最近では、この「暖味さ」が「魅力」に変化しました。そこに人間の経験やカンを取り入れる余地があるからです。「とりあえず経験やカンで事前分布を決める」というこの発想は、数学的に受け入れられないかもしれませんが、複雑なデータに果敢に対応できる自由度として認められるようになったのです。事前分布を自在に操ることで、ベイズの理論は魔法の剣になるのです。

多様化の時代に応えるベイズ統計学

頻度論の統計学の出発点は農業データの分析です。どんな肥料が何に効くか、どんな環境が飼育に適しているか、などに応えるための統計学です。この統計学は、分析の対象があまり強い個性を持つことが嫌われます。例えば麦の栽培テストをするときに、その麦の種が個性豊かなものでは良いデータが得られず、分析は困難になるでしょう。
データの「均一性」というこの条件は、工場生産のための品質管理(QC)には有効です。一様な品質を工場生産は前提とするからです。そこで、類度論を土台にしたQCは大量生産時代には大きな成果を挙げることになります。日本の製品の品質が良くなったのも、この成果のおかげと言われています。
しかし、現代は多様化と個性化の時代です。例えば、消費の世界において、「均一性」の条件などは期待できません。麦などを対象にした従来の統計学は、個性豊かな人間の消費行動には対応しづらいのです。個性あるデータに対してもっと自由度の高い統計学が現代のマーケッティングの分析に必要なのです。そこにベイズ統計学が活かされます。
既に述べたように、ベイズ統計学は「事前分布」というアイデアを導入します。この事前確率の導入によって個々の分析対象を汎用の部分と個性の部分に分け、個性の部分をその事前分布で統率するということが可能になります。「階層ベイズ法」と呼ばれる技法ですが、こうして個性豊かなデータ集団に対して、統計分析が可能になるのです。

涌井 良幸 (著), 涌井 貞美 (著)
出版社 : 技術評論社 (2016/4/13)、出典:出版社HP