目次
  • はじめに
  • 第1章 なぜ統計学が最強の学問なのか?
  • 第2章 サンプリングが情報コストを激減させる
  • 第3章 誤差と因果関係が統計学のキモである
  • 第4章 「ランダム化」という最強の武器
  • 第5章 ランダム化ができなかったらどうするか?
  • 第6章 統計家たちの仁義なき戦い
  • 終章 巨人の肩に立つ方法
  • おわりに
  • 参考文献


読書日記人気ランキング


本書の出版は2013年。当時ベストセラーになっているのを記憶しています。統計リテラシーの重要性を説いたわけですが、それから8年、日本人の統計リテラシーが向上したかというと、コロナ騒動で統計を無視した言説が飛び交っている状況を見ている限り、ほとんど進歩がなかったと言わざるを得ません。


6つの分野

本書では、統計学の応用分野は6つあると言っています。


  • 実態把握を行う社会調査法
  • 原因究明のための疫学・生物統計学
  • 抽象的なものを測定する心理統計学
  • 機械的分類のためのデータマイニング
  • 自然言語処理のためのテキストマイニング
  • 演繹に関心をよせる計量経済学


著者・西内啓氏は、東京大学医学部卒業で、生物統計学が専門です。彼はこのコロナ騒動をどう見ているのでしょうか?


冒頭、「統計リテラシーのない者がカモられる時代がやってきた」で始まる本書。コロナで右往左往している人たちはカモ、ということになります。


ビッグデータ・人工知能への過度な期待に釘を刺す

さて、8年前の2013年を振り返ります。当時、ビッグデータという言葉がもてはやされた時期でした。統計学を用いることにより「エビデンスは議論をぶっ飛ばして最善の答えを提示する」と、その利点を強調しながらも過信は禁物で、ビッグデータやこの後到来するであろう人工知能ブームへの警鐘が本書の目的の一つであったろうと推察できます。


データがビッグであること、あるいはデータをビッグなまま解析することが、どれだけの価値を生むのかどうか、果たして投資するコストに見合うだけのベネフィットが得られるのかどうか、わかっているのだろうか。 ー 37ページ


人工知能のアルゴリズムの一種であるニューラルネットワークやサポートベクターマシンに対しても、過度の期待に釘を刺します。


単純なロジスティック回帰ではもとの説明変数と結果変数の関連性を簡単に把握することができる。(中略)

これに対して、ニューラルネットワークの複雑な矢印がそれぞれどの程度の関連性を示しているか、あるいはサポートベクターマシンの曲線がどのような式で表されるか、といった結果は人間の目でわかりやすいものにはなっていない。そうすると、いくら予測の精度が高くても、「では実際にどうすればいいのか」というアクションが見えてこないということになる。 ー 242ページ


専門家の意見は最下層のエビデンス

また、仕事をしていると、専門家に聞く、知見者に聞くという場面が多々あります。しかし、不確かな領域において、専門が近いからと専門家にきいてばかりいるのは禁物です。専門家の意見よりデータだ、と常々思っているのですが、西内氏もそのものずばり証言しています。


(科学的根拠のヒエラルキー)一番最下層に属するエビデンスは「専門家の意見」と「基礎実験の結果」である。

専門家の意見がエビデンスとして最低限の信頼性しかないというのは今さら書くまでもないと思う。 ー 279ページ


読書日記人気ランキング


まとめ

標準偏差


シグマ記号やルート記号に拒否反応を示す方も多いのではないでしょうか。しかしこれからの時代、ますますデータ処理・統計が必要で、統計学の素養がないと、まさにカモにされかねません。


本書ではp値・信頼区間・回帰分析・ベイズ統計などの概念も出てきますが、まずは平均値・中央値・最頻値の違い(中学数学レベル)・標準偏差(高校数学レベル)・回帰係数などを押さえておけば、ほとんどの場合、用を足すのではないでしょうか。


読書日記人気ランキング



↓↓参考になったらクリック願います↓↓
ブログランキング・にほんブログ村へ
にほんブログ村