Rによるセイバーメトリクス入門

【最新 セイバーメトリクスについて学ぶためのおすすめ本 – 統計を用いた野球の戦略分析】も確認する

野球×データ分析

野球データを利用して戦術を分析することを、セイバーメトリクスと言います。本書では、最新のセイバーメトリクスの風潮を理解しつつ、Rを使いながら分析の手法を学ぶことができます。セイバーメトリクスの初心者から上級者まで満足できる1冊です。

Max Marchi (著), Jim Albert (著), Benjamin S. Baumer (著), 露崎博之 (翻訳), Yoshihiro Nishiwaki (翻訳)
出版社 : 技術評論社 (2020/11/13)、出典:出版社HP

ご利用の前に必ずお読みください

本書は紙書籍「Rによるセイバーメトリクス入門」(ISBN978-4-297-11684-2)を元に製作した電子書籍です。紙書籍とはデザインやレイアウトが異なり、ご覧になる端末により表示が異なる場合があります。表示設定は端末の標準設定を推奨します。配信後に補足訂正等でデータの再配布を行う場合があります。更新方法は購入先の電子書店のヘルプ等をご確認ください。
本書は情報提供のみを目的としており、掲載内容の運用結果について技術評論社および著者は一切の責任を負いません。掲載内容は特に断りのない限り執筆時点より以前の情報のため、変更される場合があります。特に、ソフトウェアはバージョンアップされる場合があり、本書での説明とは機能内容や画面図などが異なってしまうこともありえます。以上をあらかじめご承諾の上、ご利用をお願いします。本文中に記載されている製品の名称は、すべて関係各組織、各社の商標または登録商標です。

Analyzing Baseball Data with R Second Edition by Jim Albert, Benjamin S. Baumer, Max Marchi
Copyright © 2019 by Taylor & Francis Group, LLC ALL Rights Reserved. Authorised translation from the English language edition published
by CRC Press, a member of the Taylor & Francis Group LLC
Japanese translation rights arranged with Taylor & Francis Group, LLC., New York
through Tuttle-Mori Agency, Inc., Tokyo

免責

本書に記載された内容は、情報の提供のみを目的としています。したがって、本書を用いた運用は、必ずお客様自身の 責任と判断によって行ってください。これらの情報の運用の結果について、技術評論社および著者はいかなる責任も負いません。
本書に記載がない限り、記載の情報は2020年10月1日現在のものですので、ご利用時には変更されている場合もありま す。また、ソフトウェアに関する記述は、特に断わりのない限り、2020年10月1日現在での最新バージョンをもとにし ています。ソフトウェアはバージョンアップされる場合があり、本書での説明とは機能内容や画面図などが異なってし まうこともあり得ます。
以上の注意事項をご承諾いただいた上で、本書をご利用願います。これらの注意事項をお読みいただかずにお問い合わ せいただいても、技術評論社および著者は対処しかねます。あらかじめご承知おきください。
本文中に記載されている会社名、製品名等は、一般に、関係各社/団体の商標または登録商標です。本文中では TM、 B、Cなどのマークは特に明記していません。

Max Marchi (著), Jim Albert (著), Benjamin S. Baumer (著), 露崎博之 (翻訳), Yoshihiro Nishiwaki (翻訳)
出版社 : 技術評論社 (2020/11/13)、出典:出版社HP

はじめに

本書の初版を出版してからの5年間で、多くの新しいパッケージが作られたことも含め、Rは新たな発展を遂げました(この「はじめに」を書いている時点で、12,765のパッケージがCRANパッケージリポジトリで利用可能です。特に、tidyverseはデータの可視化や操作のワークフローをかなりスムーズにしてくれます。この2版では、tidyverseで利用可能な新機能やパラダイムを享受するため、初版のすべてのRのコードを抜本的に見直しました。
これらの変更は、単なる構文の置き換えではありません。多くのコードは完全に再考し書き換える必要がありました。その結果、コードは概念的にはシンプルになりましたが、一方ですべてが短くなったわけではありません。この2版では、パイプ演算子を多用しています。私たちの考え方はどちらかというとdata.frameを中心とし、マトリックスやベクトルにはそれほど重点を置いていません。また私たちは、tidyverseで扱いやすい命名規則やスタイル(ガイド)にしたがうように努めています。より詳細には、データの可視化にはggplot2を使うことに焦点を置いています。また、データの操作には、aggregate関数やby関数などのplyrパッケージではなく、dplyrを使っています。反復的なワークフローについては、コアパッケージであるbaseのlapply関数に代わり、purrrパッケージのmap関数を使用しています。DBIとdbplyrの開発により、データベースへの接続についても2版ではアップデートされています。また、データはreadr関数、rvest関数、xml2関数で読み込みます。モデリングについては、可能な場合にはbroomとmodelrを使用しています。
2版では、まったく新しい2つの章(と付録)を加筆し収録しています。これらの加筆収録は新しいデータソースによって可能となった近年のセイバーメトリクスの発展を反映しています。例えば7章では、MLBチームのキャッチャーの能力を測定する方法を大きく変えたとされるキャッチャーのフレーミングについて取り上げます。また12章では、Statcastによる打球角度と打球速度のデータを用いた分析を行います。新旧含め、本書で取り上げるデータセットについては1章と付録Cで詳細に解説します。

野球は常に統計と密接に関わっていました。Schwarz[2004]は、19世紀の「ベースボール」の成立時からチームと選手を量的に計測していたと指摘しています。1971年の「Society of Baseball Research」の設立以来、プレイヤーの攻撃と守備の貢献度を測るため、多くの指標が開発され続けています。近年のセイバーメトリクスの発展については、https://www.baseballprospectus.com/、https://tht.fangraphs.com/、そしてhttps://www.fangraphs.com/、などを参照すれば理解できます。
インターネットの登場以来、野球のデータの量や精度は爆発的に発展しています。初期のデータは、TOPPSベースボールカードの裏面にあるようなプレイヤーやチームのシーズンごとのデータでした。Scoresheetと呼ばれるボランティアのプロジェクトが打席ごとのデータを収集し、現在データは無料でRetrosheetにおいて公開されています(https://www.retrosheet.org/)。2006年からは、PITCHf/xデータがすべての投球の軌道やスピードを計測し、2015年からはStatcastが打球の速度や位置、ランナーや野手の位置や動きをコンマ数秒の世界で計測しています。
これらのすぐに利用できる大規模なデータセットは、野球愛好家にとって野球に関する疑問を解決する機会を提供しています。しかし、時には困難にぶつかることがあります。例えば、データのダウンロードやデータの集計や整理が難しいことがあります。なぜなら一般的な統計ソフトウェアは、特定のフォーマットの比較的小規模なデータセットには適しているかもしれません。しかし異なるタイプのデータセットの結合やPITCHf/xデータの可視化に有用な等高線プロットのような特定のタイプの分析などには向いていないからです。
幸いにも、オープンソースの統計ソフトRは統計・データサイエンス・コンピューターサイエンスのコミュニティで知名度が上がってきています。Rは統計計算と可視化のための環境で、一般的かつ専門的な統計や可視化のために開発されたプログラミング言語です(https://www.r-project.org/で、Linux、Windows、macOS向けのRソフトウェアをダウンロードできます)。
一般に公開されていて、誰でも利用できる野球データとオープンソースのRは魅力的な組み合わせです。Rでは大規模データの読み込み、編集、整理など幅広い範囲のツールを使うことができます。Rの標準機能やRのユーザコミュニティが開発したパッケージ群を使うことで、さまざまなデータ操作と可視化ができます。また、インターネットを通じて他の熱意のある野球ファンと自身が行った分析について簡単にやりとりできます。2014年には、私たちはいくつかのMLBチームの分析グループにRの使用について質問したところ、以下のような返答が得られました。

●RやMySQL、Oracle、Perl、PHPを使っています
●Rをかなり活用していて、Rが私たちの主要な分析ツールです。他の有名なツールといえばExcelくらいです
●PythonでNumPyを使う例外を除いて、Rは我々が使う唯一のプログラミング言語です
●分析用途でRとExcelを使っています

ここから、MLBのチームにおいてRが主要な分析ツールであることがわかります。
本書の目的は、セイバーメトリシャン、熱狂的な野球ファン、野球データを探索したい学生にRを紹介することです。1章では一般公開されている野球のデータの概要を説明し、2章ではいくつかの種類のデータ構造、Rでのデータ探索やデータの管理についてやさしく紹介します。Rの機能で特に評判が良いものは可視化能力です。3章では、Rの可視化パッケージであるggplot2の概要を紹介をします。
本書の他の章では、セイバーメトリシャンの間で話題になるトピックについて、Rで分析する方法を紹介します。セイバーメトリクスにおいて根本的な2つの考え方は、得点と勝利の関係と、イベント(プレー)における得点貢献の計測です。4章では、BillJamesによって考案された有名なピタゴラス勝率について、5章と6章では、得点期待値を用いたプレーの価値とピッチシークエンス(投球の組み立て)について詳しく解説します。プレイヤーのキーャリアにおける能力を分析するのは大変魅力的です。8章ではプレイヤーのパフォーマンスの変遷について、二次元モデルを用いてRで表現する方法を説明します。9章では、マルコフ連鎖を用いた試合シミュレーションやシーズンのシミュレーションを例として、Rにおけるシミュレーション機能を説明します。野球ファンはチームやプレイヤーの調子の変化パターンにも大変興味があるでしょう。10章では、打撃の調子の変遷が重要であることを記述・理解するための方法を詳しく解説します。野球のデータセットのサイズがかなり大きいことを考慮すると、リレーショナルデータベースを使った方が便利です。そのため11章ではMySQLデーターベースを扱ういくつかのRのパッケージを紹介します。Retrosheet(付録A)、MLBAMGameday、PITCHE/X(付録B)、そしてStatcast(付録C)から得られるデータは比較的洗練されているので、これらのデータをダウンロードし、Rで読み込む方法についても本書では詳しく解説します。

各章を読みながら、本文で紹介したデータセットやコードを、自分自身で使ってみることをお勧めします。本書で使うすべてのコードはGitHubリポジトリ(https://github.com/beanumber/baseballR/)で公開しています。加えて、Exploring Baseball with Rのブログ(https://baseballwithr.wordpress.com/)では、著者らがRで行うセイバーメトリクスの分析のアドバイスやRのソフトウェアや野球のデータセットの新情報などを紹介しています。
本書の初版に寄せられたすべての肯定的なコメントや改善点の指摘に感謝申し上げます。本書は自分自身の分析のためにRを学びたい定量的志向を持つ野球ファンに最適です。Donoho[2017]が紹介しているように、Tangoら[2007]の著書と本書は、野球という文脈において、データの準備とデータの探索のイントロダクションという意味ではとても素晴らしい本です。
本書の内容を改善する上で大変有効なレビューなど、執筆の過程で非常に重要な役割を果たしてくれた編集者である、JohnKimmelに感謝申し上げます。また、常に励まし、インスピレーションをくれた我々著者のパートナーである、Anne、Romana、そしてCory、私たちの子供達、Lynne、Bethany、Steven、Alice、Arloに感謝の意を示します。我々著者3人は数千マイルも離れたところで暮らしています。しかし我々は統計や野球への情熱、そして何よりデータを探索することで理解できる野球の試合についての知識への情熱を共有しています。

ノーサンプトン、マイアミそしてボーリンググリーン、オハイオ
2018年7月20日

訳者まえがき

訳者の1人である僕は、幼い頃、早起きして新聞のスポーツ欄に載っている昨晩の試合のスコアをシーズン中は毎日欠かすことなく眺めていました。当然試合のない日は新聞を開いてがっかりすることになります。今日では、大部分のデータはオンラインでリアルタイムに見ることができます。技術の発展と野球好きコミュニティの努力には頭が下がります(試合のない日もがっかりする必要がないからです)。

野球のデータを使って可視化や分析をしてみたいと思った方も多いのではないでしょうか。野球の本やデータ分析の本は世間にあふれています。しかし、残念なことに「野球×データ分析の本」の数はあまり多くありません。(況や日本語の本をや)。分析や可視化を始めてみたいものの「統計や分析のお作法がわからない」「野球のデータを分析したいけど、やり方がわからない」「分析のアイディアが思いつかない」と感じている方は多いのではないでしょうか。
本書は、Rのインストール方法・基本的な使い方から高度なモデリングまでの幅広いトピックスを「野球のデータ」という観点から解説しています。本書の内容を一通り学習すれば、Rの基本的な使い方や分析のアイディアなどを得られます。本に頼らず独力で学習を始めたときにおそらく感じる「やり方がわからない」などの問題は、本書で解消されるはずです。その意味で、本書は良い教則本と言えます(ある程度の可視化ができると思ったので本書の翻訳を引き受けた訳ですが、何度読んでも新たな分析のインスピレーションを得ることができます。個人的には6章のスイング確率のモデリング手法には特に感銘を受けました)。
本書における分析はMLBのデータを使っているため、日本であまり馴染みのない事柄や野球用語が頻出します。これらには可能な限り訳注を付け、読みやすくしました。一方で、原著者に配慮し、できるだけ意訳をしないように原文のニュアンスを伝えることも意識しています。

「To understand the causes of things」という言葉があります。これは日本語にすると「因縁を理解する」といった意味でしょうか。データの可視化や統計分析では直接的に因縁を理解することはできないかもしれません。しかし本書がきっかけとなって、物事の根本原因を追求する姿勢を得て、一般的に信じられていること(例えば、「バントの意味はあるない論争」や「アウトコース低めは一番安全論争」)に自分なりの解を得る一助になれば、訳者冥利に尽きます。
本書を通してRや野球のデータについて学んだ後、ぜひオリジナルな分析や可視化を「#野球分析」のハッシュタグをつけてツイートしてください。ここから野球コミニュティに資する新たな発見が生まれることを楽しみにしています。

Yoshihiro Nishiwaki

近年、スポーツデータ分析が日本でも進みはじめ、やっとデータを溜める”フェーズから(ほんの一部のスポーツ、一部のチームですが)”活用する”フェーズに移ってきたと感じています。なかでも野球はセイバーメトリクスという語があるように、比較的データ活用が進んでいるスポーツだと思います。本書ではMLBの詳細なデータを用いて分析していきますが、Rやデータベースの扱い方、データの整形方法にもふれています。
これからはスポーツデータ活用がスタンダードになり、戦略だけでなく育成・ケガの予防など選手のための活用が増えてくるはずです。真の意味でデータ活用をするにはスポーツに関する知識だけでなく、ツールを使いこなすエンジニアリング技術も必要になります。来たるスポーツデータ活用の波に乗るために、(野球だけでなく)好きなスポーツのことをより深く知るために本書を活用していただけると嬉しいです。
Hiroyuki Tsuyuzaki

0.1本書の使い方

統計の知識やRの使い方にある程度の自信がある人は、興味のある章から読むことをお勧めします。「はじめに」では、それぞれの章で扱うテーマについて簡単に説明していますので、参考にしてください。一方で、Rの初学者や基礎から復習したい方は、本書をはじめから読むことをお勧めします。はじめから順に学習することで、知識を体系的に習得することができるでしょう。どちらにせよ、本書が野球を題材にRや分析を学ぶ上で最短ルートになることを信じています。
野球の分析をしたいけれど、「Rはちょっと」という方にも本書はお勧めです。本書を通読することで分析や可視化のアイディアを得ることができます。

0.2お断り

本書に掲載するすべての情報およびコード(Rスクリプト)は「Analyzing Baseball Data with R, Second Edition」(2018年11月29日出版)に準拠しています。そのため、内容や情報およびコード(Rスクリプト)は2018年11月29日現在のものであり、Rのアップデートや読者様の環境によっては、コード(Rスクリプト)の実行結果が原著者のものと異なる場合があります。
また、本文にて使用されている関数などについて、原著者が詳細な説明を省いている箇所があります。Rの基本的な操作方法や関数の使い方など、本書を読み進める前に、もしくは並行して学習されることをお勧めします。加えて、本書の題材が野球であることから、野球についての最低限の知識およびルールを理解していることが前提で、本書の説明はなされています。
日本語版の出版にあたり、訳者一同できる限りの内容の補足やアップデートに万全の配慮を、また、本文内の訳者注釈にて、原著では省かれていた統計用語や分析手法をできる限り平易に解説いたしましたが、その内容に関する正確性および完全性について保証せず、また責任を負いません。
本書内で使用しているコードは、原著者のリポジトリ(https://github.com/beanumber/baseballR)を参考に訳者が整理しました。本書の2章で記載しているRStudioをインストール後、こちらをダウンロードし、ABDWR.Rprojを開いてコード(Rscript)を実行してください。

●サポート:https://github.com/ghmagazine/r_analyzing_baseball/

0.3参考書籍

本書は、統計学や野球について、ある程度の知識がある前提で記載されています。本書を読み進める前に、もしくは並行して、下記に記載の参考書籍を活用されることをお勧めいたします。
統計
●東京大学教養学部統計学教室編集「統計学入門(基礎統計学)」(東京大学出版会,1991年)統計の基礎を学ぶための本です。
●山田剛史,杉澤武俊,村井潤一郎著「Rによるやさしい統計学」(オーム社,2008年)Rと統計学の基礎を同時に学べる
一石二鳥の本です。
プログラミング
●Winston Chang著,石井弓美子,河内崇,瀬戸山雅人翻訳「Rグラフィックスクックブック第2版-ggplot2によるグラフ作成のレシピ集」(オライリージャパン,2019年)
ggplot2を活用する際に、参考になる本です。
セイバーメトリクス
●蛭川皓平著,岡田友輔監修「セイバーメトリクス入門脱常識で野球を科学する」(水曜社,2019年)
セイバーメトリクスの指標について、詳細に解説されています。
●Sawchik Travis著,梨田健翻訳「ビッグデータベースボール」(角川書店,2019年)机上の空論としてのデータ分析ではなく、分析が現場で活用された成功例を理解できます。

0.4謝辞

本書の翻訳にあたり、中川伸一(@shinyorke)さん、今泉拓(@nowismsports)さんにはレビュアーとして、非常に意義深いコメントをいただきました。また技術評論社の高屋卓也さんには1年以上に渡る長い間、担当編集者として多大なるサポートをいただきました。この場をお借りして、訳者一同御礼申し上げます。

Max Marchi (著), Jim Albert (著), Benjamin S. Baumer (著), 露崎博之 (翻訳), Yoshihiro Nishiwaki (翻訳)
出版社 : 技術評論社 (2020/11/13)、出典:出版社HP

目次

はじめに
訳者まえがき
0.1本書の使い方
0.2お断り
0.3参考書籍
0.4謝辞

第1章野球データセット
1.1イントロダクション
1.2 Lahmanデータベース:シーズンごとのデータ
1.2.1スラッガーたちのホームラン数の推移
1.2.2データの取得
1.2.3 Masterテーブル
1.2.4 Battingテーブル
1.2.5 Pitchingテープル
1.2.6 Fieldingテーブル
1.2.7 Teamsテーブル
1.2.8クイズ
1.3 Game-by-Game(試合ごとのデータ)
1.3.1 1998年のMcGwireとSosaのホームラン王争い
1.3.2 Retrosheet
1.3.3 GameLogs
1.3.4 RetrosheetからGamelogを取得
1.3.5 Gamelogの例
1.3.6クイズ
1.4 Play-by-Play(打席ごとのデータ)
1.4.1Eventfiles
1.4.2イベントの例
1.4.3クイズ
1.5投球ごとのデータ
1.5.1 MLBAM GamedayとPITCHf/x
1.5.2 PITCHf/xの例
1.5.3クイズ
1.6プレイヤーの動きと打球のデータ
1.6.1 Statcast
1.6.2 BaseballSavantdata
1.6.3クイズ
1.7まとめ
1.8参考文献
1.9演習

第2章R入門
2.1イントロダクション
2.2RとRStudioのインストール
2.3 Tidyverse
2.3.1 dplyr
2.3.2 Pipe
2.3.3 ggplot2
2.3.4他のパッケージ
2.4データフレーム
2.4.1 WarrenSpahnのキャリア
2.4.2データフレーム
2.5データフレームの操作
2.5.1データフレームの結合・抽出
2.6ベクトル
2.6.1ベクトルの定義・計算
2.6.2ペクトルに関する関数群
2.6.3ベクトルインデックスと論理変数
2.7 Rにおけるオブジェクトとコンテナ
2.7.1 Characterデータとデータフレーム
2.7.2 Factors
2.7.3 Lists
2.8まとまったRコマンド
2.8.1 Rのスクリプト
2.8.2 Rの関数
2.9データの読み込みと書き込み
2.9.1ファイルから読み込む
2.9.2データセットの保存
2.10パッケージ
2.11データの分割、適用、結合
2.11.1 map関数を使った繰り返し処理
2.11.2他の例
2.12ヘルプの活用
2.13参考文献
2.14演習

第3章グラフィックス
3.1イントロダクション
3.2 Character変数
3.2.1棒グラフ
3.2.2軸のラペルとタイトルを追加する
3.2.3 Character変数を使った他の種類のグラフ
3.3グラフの保存
3.4Numeric変数:一次元の散布図とヒストグラム
3.52つのNumeric変数
3.5.1散布図
3.5.2グラフの作成
3.6 NumericとFactor関数
3.6.1並列一次元散布図
3.6.2並列箱ひげ図
3.7 Ruth、Aaron、Bonds、A-Rodの比較
3.7.1データの取得
3.7.2プレイヤーのデータフレームの作成
3.7.3グラフの作成
3.8 1998年のホームラン王争い
3.8.1データの取得
3.8.2変数の抽出
3.8.3グラフの作成
3.9参考文献
3.10演習

第4章得点と勝利の関係
4.1イントロダクション
4.2 Lahman DatabaseにおけるTeamsテーブル
4.3線形回帰
4.4ピタゴラス勝率
4.4.1ピタゴラスモデルの指数
4.4.2ピタゴラスモデルの良い予測と悪い予測
4.51勝に必要な得点数
4.6参考文献
4.7演習

第5章得点期待値を用いたプレーの価値
5.1得点期待値行列
5.2イニングの残りで記録された得点
5.3行列の作成
5.4打撃プレーの価値の把握
5.5 JoseAltuve
5.6全バッターの打撃機会とパフォーマンス
5.7打順
5.8ヒットの種類による得点価値の違い
5.8.1ホームランの価値
5.8.2シングルヒットの価値
5.9盗塁の価値
5.10参考文献とソフトウェア
5.11演習

第6章ボール球とストライク球の効果
6.1イントロダクション
6.2バッターのカウントとピッチャーのカウント
6.2.1あるピッチャーの例
6.2.2 Retrosheetからピッチシークエンスを検討する
6.2.3カウントごとの予測される得点価値
6.2.4打席における「経過したカウント」の重要性
6.3カウントによる行動
6.3.1カウントによるスイングの傾向
6.3.2ポール/ストライクカウントの影響
6.3.3カウントによる投球の選択
6.3.4カウントによる球審の行動
6.4参考文献
6.5演習

第7章フレーミング
7.1イントロダクション
7.2投球の詳細データ(pitch-level)の取得
7.3ストライクゾーンはどこか
7.4ストライク判定確率をモデリング
7.4.1推定結果の可視化
7.4.2推定した平面の可視化
7.4.3利き腕の調整
7.5フレーミングのモデリング
7.6参考文献
7.7演習

第8章選手の成績推移
8.1イントロダクション
8.2 Mickey Mantleの打撃成績推移
8.3成績推移の比較
8.3.1事前準備
8.3.2通算成績のを計算
8.3.3類似性スコアの計算
8.3.4年齢、OBP(出塁率)、SLG(長打率)、OPSの定義
8.3.5成績推移に対するフィッティングとプロット
8.4ピーク時の年齢の一般的なパターン
8.4.1全選手に対する成績推移の推定
8.4.2ピーク時の年齢の変化
8.4.3ピーク時の年齢と通算打数
8.5成績推移とポジション
8.6参考文献
8.7演習

第9章シミュレーション

9.1イントロダクション
9.2イニング途中のシミュレーション
9.2.1マルコフ連鎖
9.2.2得点期待値を使った評価
9.2.3遷移確率の計算
9.2.4マルコフ連鎖によるシミュレーション
9.2.5得点期待値のその先
9.2.6チームごとの運移確率シーズンのシミュレーション
9.3.1 Bradley-Terryモデル
9.3.2スケジュールを組み立てる
9.3.3素質のシミュレーションと勝率の計算
9.3.4レギュラーシーズンのシミュレーション
9.3.5ポストシーズンのシミュレーション
9.3.6 1シーズンをシミュレーションする関数
9.3.7たくさんのシーズンをシミュレーションする
9.4参考文献
9.5演習

第10章バッターの好不調分析
10.1イントロダクション
10.2好調
10.2.1連続試合安打を見つける
10.2.2移動平均を考慮した打率
10.3各選手の打数レベルでの連続安打
10.3.1安打とアウトの連続
10.3.2移動平均打率
10.3.3全選手のスランプを見つける
10.3.4イチローとMike Troutの連続安打は異常か?
10.4 Statcastにおける打球速度の特有パターン
10.5参考文献
10.6演習

第11章データベースを利用したパークファクターの計算
11.1イントロダクション
11.2 MySQLのインストールとデータベースの作成
11.3 RからMySQLへの接続
11.3.1 RMySQLを使った接続
11.3.2 Rから他のデータベースへの接続
11.4 RからMySQLのGamelogデータベースへの入力
11.4.1 RetrosheetからRへ
11.4.2 RからMySQLへ
11.5 Rからクエリを実行する
11.5.1イントロダクション
11.5.2 CoorsFieldと得点の関係
11.6独自の野球データベースの構築
11.6.1 Lahmanのデータベース
11.6.2 Retrosheetのデータベース
11.6.3 PITCHf/xのデータベース
11.6.4 Statcastのデータベース
11.7基本的なパークファクターの計算
11.7.1 Rにデータを読み込む
11.7.2ホームランに与えるパークファクターの影響
11.7.3提案アプローチの仮定
11.7.4パークファクターの適用
11.8参考文献
11.9演習

第12章Statcastの打球データ
12.1イントロダクション
12.2スプレーチャート
12.2.11年分のStatcastデータの取得
12.2.2打球方向の傾向と内野守備
12.3打球角度と打球速度
12.3.1打球角度vs打球速度の散布図
12.4ホームラン確率のモデリング
12.4.1一般化加法モデル(GAM)
12.4.2滑らかな予測
12.4.32017シーズンのホームランを推定
12.5打球角度は能力なのか
12.5.1打球角度の分布
12.5.2シーズン前半の打球角度とシーズン後半の打球角度の相関
12.6参考文献
12.7演習

付録A Retrosheetファイルの説明
A.1打席ごとのデータファイルのダウンロード
A.1.1イントロダクション
A.1.2セットアップ
A.1.3特定シーズンへの関数の使用
A.1.4ファイルの読み込み
A.1.5parse_retrosheet_pbp関数
A.2eventfile:簡潔なリファレンス
A.2.1試合とイベントの識別子
A.2.2試合の状態
A.3ピッチシークエンスのパース
A.3.1イントロダクション
A.3.2セットアップ
A.3.3全カウントの評価

付録BMLBAM Gameday・PITCHf/xデータの活用
B.1イントロダクション
B.2データが保存されている場所
B.3PITCHf/xデータを用いた分析
B.3.1オンラインリソースからデータを取得
B.3.2Rによる解析
B.3.3XMLの展開
B.3.4pitchRx:PITCHf/xデータのためのR関数
B.4データの詳細
B.4.1atbatに関する要素
B.4.2pitchに関する要素
B.4.3hipに関する要素(打球位置のデータ)
B.5Game day and PITCHf/xデータに関するメモ
B.6雑集
B.6.1投球の軌道を計算
B.6.2他のデータソースとのクロスリファレンス
B.6.3オンラインリソース

付録C Statcastデータの活用
C.1イントロダクション
C.2試合のシチュエーション変数
C.3投球に関する変数
C.4プレーのイベント変数
C.5打球に関する変数
C.6導出される変数
C7守備变数

参考文献
索引

Max Marchi (著), Jim Albert (著), Benjamin S. Baumer (著), 露崎博之 (翻訳), Yoshihiro Nishiwaki (翻訳)
出版社 : 技術評論社 (2020/11/13)、出典:出版社HP