うちゅうてきなとりで

the cosmological fort 無職戦闘員による本メモ、創作、外国語の勉強その他

『マンガでわかる統計学』

 推測統計学は「標本の情報から母集団の状況を推測する学問」である。はじめから母集団が計測可能なものは記述統計学という。

 データには測れない「カテゴリーデータ」と測れる「数量データ」とがある。カテゴリーデータとは「おもしろいかつまらないか」という感覚的なものや、柔道の段位、血液型、出身県のように等間隔で区切られていないものをさす。これに数値を与えて数量データ化とみなすことが少なくない。快適に感じる温度は、温度が等間隔の目盛りなので数量データである。

  ***

 データを数量ごとに区切ったものを階級といい(100~200まで等)、それぞれの階級の中央を階級値という。各階級に含まれるデータの個数を度数といい、全体のなかの度数の割合を相対度数という。これを度数分布表やヒストグラムにあらわすことができる。これは雰囲気をつかむためのものである。

 

 平均には一般的に用いられる算術平均のほかに、幾何平均、調和平均というものがある。

 データの大小にばらつきがある場合平均より中央値を求めるほうが妥当である。これは小から大にかけて並べたときの中央にくる値のことである。データ数が偶数の場合は中央の二人の平均が中央値となる。

 標準偏差はデータの「散らばりの程度」を表す際にもちいられる。数式はメモしておくこと。

  ***

 カテゴリーデータの雰囲気をつかむものとして、度数(データの個数)と割合を示す「単純集計表」の作成がある。

  ***

 平均からの離れ具合やデータの散らばり程度をもとに、データの価値を検討しやすくするデータ変換を「基準化」という。基準化を通してできてた数値を基準値という。

 基準値は、いかなる変数、いかなる領域の場合にも平均がかならず0、標準偏差が1である。これを使うと異なる科目のおたがいの価値をはかる、すなわち「満点が異なる/単位が異なる変数の比較」が可能になる。

 これを応用したものが偏差値である。偏差値の場合は必ず基準値の平均が50、標準偏差が10である。

  ***

 確率

 ヒストグラムにおける階級の幅を極限まで狭めた曲線式を「確率密度関数」という。平均を中心に左右対称であり、平均と標準偏差の影響を受けるという特徴がある。

 

 この関数は「英語テスト結果は、平均53で標準偏差10の正規分布にしたがう」と表現される。基準化した基準値を用いると「標準正規分布」となる。

 この標準正規分布の分布表を用いることで、「グラフと横軸とで囲まれた面積」がわかる。この面積=割合および確率である。「面積=割合=確率」を覚えること。
カイ二乗分布とは……カイ二乗分布における自由度はグラフの形状に影響をおよぼす。

  ***

 実際の計算はExelか統計ソフトでやればいい。

 二変数間の相関を分析するには、数量対数量、数量対カテゴリ、カテゴリ対カテゴリでそれぞれ異なる式を用いる。1から-1までの値が出るが、1に近いほど相関していて、0に近いほど相関していない。正確な基準はない。

  ***

 検定……検定とは母集団について分析者が立てた仮説が正しいかどうかを標本のデータから推測する分析手法のことである。

 独立性の検定はカイ二乗検定ともいう。

 有意水準(通常0.05, 0.01)を定め、帰無仮説と対立仮説をたてる。帰無仮説は棄却されるためにある。「立証が難しそうで肯定的な仮説を帰無仮説にあて、そのような帰無仮説に対立する仮説を対立仮説にあてる」。

 検定の際の結論のくだしかたは、1検定統計量の値が棄却域に入っているかどうか、2有意水準よりもP値が小さいかどうか、が根拠になる。

 

マンガでわかる統計学

マンガでわかる統計学