統計学の基礎を学ぶ 2004.12.13修正版


1. 基礎統計でもっとも大切なこと —— 正規分布

2. 基礎統計のためのExcelの関数を知る Nov. 23,30, 2019, Jan. 5, 2020 追加  修正

3. あえて標準誤差について  Dec. 23, 2015追加

 

1. 基礎統計でもっとも大切なこと —— 正規分布

 統計学では数値の分布傾向をつかむことが重要で、たとえば学校の1クラスの生徒の身長の分布をとらえようとすると、まずはヒストグラムを作成することになる。身長と体重の関係について分布をとらえるには散布図を利用する。データは柳井久江氏の「4 Steps エクセル統計」(オーエムエス)付属CDのデータを利用した。基礎統計を理解する上で,適切なサンプルデータを得ることは難しい。幸い,前述の柳井さんが用意したものがあるので,ここにzipファイルのリンクを用意した。残念ながら氏が用意したadd-inは,最近のExcelでは動かない。となると,自分で式を考えて,計算する必要がある。Excelに組み込まれた関数はかなりのクセがあり,これを使う場合,そのクセを知る必要がある。
 平均値や標準偏差が意味を持つためにはデータが正規性を持つことが必要で、これを開自乗検定で確かめる必要がある。その上で、2変数の関係に直線性があるのかどうか、をまずは確かめるのであるが、それには相関係数を求めればいい。その直線関係を具体化して示す方法が回帰分析である。これが統計解析のはじまり。

 上記のことを,一般的に表現するのであれば,次のようになるであろう。

 変数群(1変数も含めて)のデータから何らかの特徴をとらえたいというのが,データを収集する目的である。それを達成するには,分布の何らかの傾向をとらえればいい。つまり,個々の変数についてはヒストグラム,2変数間については散布図ということになる。 これらの図から,目で感じるものの確かさを表現する必要があり,その手法が統計学の推計や検定である。
 個々の変数の分布が正規性を持たない場合,その変数に関する統計学的分析過程はピリオドを迎えることになる。正規性の検定をするには階級分けをする必要がある。それが始めに実行したヒストグラムである。正規性が約束されない場合,データの質を再度検討し,データのランダム性を引き出すべく,再度再々度,データを収集したり,データを加工する必要がある。
 2変数間の散布図を作成して,直線性が得られる,つまり高い相関が得られると基礎統計学を生かすことができる。直線性がなくても,変数を対数化すると,直線性が得られる場合がある。また,直線以外の曲線を想定できる場合もあり,その曲線の回帰式を求めることができることが多い。
 多変量解析法は,個々の変数間でのこのような作業を一括して処理するものである。このソフトを入手することは一般に容易であり,エクセルにもその個々の計算をする関数群が用意されている。しかしながら,基礎統計の知識なくして,ただ多変量解析の結果を使用して,ある種の結論に達することは極めて危険なことである。多変量解析についても,後にこのサイトにアップしたいと考えている。

注意点:

 ヒストグラムについて:エクセルでは階級区分値が終値表示になっている。Statcelでは始値になっているから注意すること。数値の分布は最大値,最小値が他の構成値から見ると懸け離れていることが多々あるので,エクセルのヒストグラムを作成する際には最小値のみで一つの階級を構成することがある。
 参考文献として,地理学からすると,奥野隆史「計量地理学の基礎」(大明堂)がいい。ただ,初歩的ミスが多々見られる。

 正規性連続分布データだけが、パラメトリック検定が可能である。それゆえ、正規性の検定は必ず実施する必要がある。特にデータ数が少ない時に。データ数が多くなると中心極限定理と呼ばれる現象から正規分布に近づく。
二つの確率分布曲線が同一と考えることができるか、できないか、ここでは、
  帰無仮説: データの分布は正規分布と見なすことができる
  対立仮説: 正規分布と見なせない(上側確率)
を検定する場合に、χ2検定が役立つ。χ2の表示はここでは不適切で,ギリシャ文字のχに,自乗の意味の2を付けている。
 適合検定は,j番目の階級の現実にみられる度数をOj、理論的な度数をEjとするとき、次の統計量は近似的に自由度φ=k-1のχ2分布に従う。ただし、kは階級の個数。
  χ2 = (j=1〜k)Σ[(Oj-Ej)2/Ej]
この式もここでは適切な表現ができていない。Σの下にj=1で上にkを表示すべきである。
 統計アドインstatcelでは、「統計→正規性の検定」で選ぶ。この「検定の結果」についていうと,境界値による判定では、χ2値が境界値以上のときχ2値は棄却域に入り、帰無仮説は棄却される。P値による判定では、P値が目的とする危険率(危険率5%の時0.05、危険率1%の時は0.01)以下のとき、帰無仮説は棄却される。
 なお,Statcelのアドインを使わずに,エクセルの関数だけを使う場合、期待度数の計算で、正規母集団の平均と分散を標本集団のそれに代用しているために自由度は、φ= k-1-2と小さくなる。ちなみに,稀ではあるが,母集団の平均と分散がわかっている場合には,φ= k-1である。階級数kから1引くのは,例えば6階級に分ける場合,全体の頻度は承知しているから,5階級の頻度を決めたら自動的に設定される。
 χ2検定は、chitestを使わずに、上の式を使って、求めること。Excelのchitestはこの場合には使えない。χ2分布のχ2値は、chiinv(危険率eg. 0.05、自由度)で,p値は、chidist(χ2値、自由度)で求める。

2. 基礎統計のためのExcelの関数を知る  Nov. 23, 30, 2019追加

0. 表の基本とアドイン
 研究者でもほとんど,表とは何かを知らない。先日,経済学の研究者が作成した表?について,その修正を迫ったが理解してもらえなかった。添付のExcelファイルのスプレッドシート「ヒストグラム練習ExcelOnly_1」に示した身長と体重の列挙データを示している。この形が表の基本である。罫線の使い方にも注意して欲しい。Excelのホームタブレットの見出しに罫線入力ボタンが’あるので,それを使ってみよう。
 メニュー/ツール/Excelアドイン,を開くと,有効なアドイン:,として,Solver Add-inと分析ツール,にチェックが入っていることを確認すること。
注記: ぼくのサイトからダウンロードした統計解析Statcelはデスクトップなどに置いて,このアドイン画面の左下の,参照,ボタンを押して,登録することができ,ホーム,挿入,……………,アドイン,の,アドインタブを開くと,統計,というメニューが表示されるが,実際には機能しない。
 分析ツールをmacで使うには,ホーム,挿入,……………,アドイン,のうちの,データタブを選ぶと,データ分析とソルバー,が表れる。そこで,ヒストグラムなど,を選択すると,入力テーブルが表れるので,入力などして実行する。
 メニューから,ツール/データ分析,というアプローチもある。なお,Excelのヘルプは全く役立たず。
 なお,Windowsの場合は,

Excel で分析ツールを読み込む
  1. [ファイル] タブをクリックします。 [オプション] をクリックし、[アドイン] カテゴリをクリックします。 ... 
  2. [管理] ボックスの一覧の [Excel アドイン] をクリックし、[設定] をクリックします。 ... 
  3. [アドイン] ボックスで、[分析ツール] チェック ボックスをオンにし、[OK] をクリックします

 

1. ヒストグラム

1.1 Excelによるヒストグラムの作成の前に
 ヒストグラムとは何か。A市で成人式を迎えた女性の身長,を例にすると,ただ,数字を並べてもその分布を把握できない。そこで,横軸を身長,縦軸を頻度で,階級分けして表示したら,と考えられたのがこのヒストグラムである。棒グラフとは違う。次にそれに言及した一つのサイトを紹介する。
 ヒストグラムと棒グラフの違い
https://www.edrawsoft.com/jp/histogram-vs-bar-chart.php?gclid=EAIaIQobChMI-Ozarb7_5QIVTD5gCh3pZA3TEAAYASAAEgKNK_D_BwE
 階級分けの前に,サンプル数,最大値,最小値,最大値ー最小値,をまずは求める必要がある。問題は階級数と階級幅を決定する必要があり,それには,スタージェスの公式Sturges'ruleが使われる。
 nをサンプル数,kを階級数とすると、次のように計算することができる。
階級数 k = 1+log n / log2
階級幅 = (最大値 - 最小値)/ k
 ただし,注意すべきことがある。階級数は必ずしも整数値にならない。たとえば,5.3333などの場合,階級数は切り上げて,6にする必要がある。ここの例では,階級数の計算結果は6という整数になっている。階級幅は,この場合,4.43333となる。階級幅を4.43にしてしまうと,最大値がこの6階級に入ってこない。それを回避するために,階級幅を4.44とする工夫がいる。

1.2 分析ツールで
 分析ツールで実行することになる。データリボンの中の,データ分析/ヒストグラム,を選ぶ。
入力範囲,は列挙データの身長をタイトルごと選ぶ。ラベルにチェックを入れること。
データ区間は,これもタイトルごと,階級区間をすべて選ぶ。
出力先,としては,その範囲の左上のセルのみ選ぶ。オプションとして,累積度数分布の表示,グラフ作成,を選ぶ。

1.3. グラフの整理
 作成されたグラフは,表現的観点から見ると,ヒストグラムの要件を満たしていない。ヒストグラムの階級幅に隙間は無いので,まずは,柱状部のそれぞれの間をゼロにする。
 柱状部のどこでもいいので,クリックすると,データ系列の書式設定,のパネルがでる。グラフのタブで,棒の重なり,を0%に。
 その他,修正したのを図に示している。ヒストグラムからすると,およそ,正規分布をしているように見える。

1.4  君たちの演習として,体重を使って実行しなさい。

2. 正規性の検定

  これには今だ,確立した方法がない。しかし,次のサイトが最も有効な情報と思う。これを踏まえて,計算方法を次に示す。Excelファイルを直接出してしまうと,君たちが考えを放棄してしまうので,授業が終わるまで出さない。

—Real Statistics Using Excel— http://www.real-statistics.com/
Goodness of Fit
http://www.real-statistics.com/chi-square-and-f-distributions/goodness-of-fit/
Chi-square Test for Normality
http://www.real-statistics.com/tests-normality-and-symmetry/statistical-tests-normality-symmetry/chi-square-test-for-normality/

(上側検定)
帰無仮説:データの分布は正規分布とみなせる。
対立仮説:データの分布は正規分布とみなせない

2.1 ヒストグラムから階級分けの準備をする
 1.すでに作成したヒストグラムでは,6階級であった。ラスト2階級の頻度が他と比べて低いので,まずは統合してしまう。up to 170.0, up to 174.4の2階級を統合して,over 165.6にしてしまうのである。
 そして,データ区間それぞれの上限値を標準化する。そのためには,前もって,平均と標準偏差を求める必要がある。標準偏差はサンプル用のもので,√(Σ(xi-average)^2/n)を使う。ここでaverage, nは, それぞれ標本の平均と標本数である。
 Excelの表に示したように,標準化数の階級幅は,0.7587となっている。
 なお, 階級上限値を標準化するには,(xi-average)/sを実施する。 ここでaverage, sはそれぞれ, 標本データの平均, 標準偏差である。

2.2 理論確率を求めて期待度数を併せた表を作成する
 標準化値の,-0.9565,-0.1978,0.5609,1.3196,そしてover 1.3196の標準正規分布の確率を求める。
 関数normdist(標準化値,平均,標準偏差,true)を使う。標準化しているので,平均=0,標準偏差=1だから,関数normdist(標準化値,0,1,true)となる。この関数は標準化値以下の確率値を出力する。それゆえ,それぞれの理論確率を得るには,次のような計算式を作成する必要がある。
 なお,関数normdist(標準化値,平均,標準偏差,true) によって,確率密度関数の横軸値に当たる標準化値以下の面積が得られる。そこで,次のような計算式を得ることができる。

-0.9565以下: =normdist(-0.9565,0,1,true)
-0.9565より大きく-0.1978以下: =normdist(-0.1978,0,1,true)-normdist(-0.9565,0,1,true)
-0.1978より大きく0.5609以下: =normdist(0.5609,0,1,true)-normdist(-0.1978,0,1,true)
0.5609より大きく1.3196以下: =normdist(1.3196,0,1,true)-normdist(0.5609,0,1,true)
over 1.3196: =1-normdist(1.3196,0,1,true)

なお,over 1.3196の理論確率は,確率密度関数の全面積は1だから,全体からnormdist(1.3196,0,1,true)を引くことで得られる。

2.3 理論確率の表に並べて期待度数を求める
 理論確率に観察度数の合計値32を掛けることで得られる。

2.4 χ2値の計算
 各階級毎の観察度数と期待度数からχ2値を求めて,
χ2値 < χ2(0.95)ならば,帰無仮説が棄却されないので,データの分布は正規分布と見なせることになる。
 なお, χ2値は,[(観察度数 - 期待度数)^2/期待度数]の和=Σ[(O - E)^2/E],で表すことができる。
 2.2と2.3の表をまとめて,χ2値を計算することになる。

2.5 上側検定χ2分布の棄却域5%と, P値による仮説の検証

帰無仮説:データの分布は正規分布とみなせる。
対立仮説:データの分布は正規分布とみなせない(上側検定)

 のχ2検定を実施する。χ2値(検定統計量)=3.91となる。χ2分布表またはExcelの関数CHIINV,  the inverse probability of the chi-squared distribution, を使って,χ2分布での危険率5%で上側検定をすることになる。
 例えば,次のMEDICALのサイトのValues of the Chi-squared distributionのページにχ2分布表が掲載されている。
 https://www.medcalc.org/manual/chi-square-table.php
 A市で成人式を迎えた女性は全員で,まさか32名というのはありえず,成人になった女性は少なくともこの10倍さらには100倍のオーダーであろう。それを考えると,このデータは標本集団のものであることがわかる。自由度d.f.は,ここでは,平均と標準偏差は標本集団のものなので,パラメータと考えられ,階級数5-1ではなくて,さらに-2,つまり,2となる。この表では,棄却域は5%(信頼度95%) = 0.05とした場合,5.99が得られる。χ2値がこれ以上だと帰無仮説は棄却されるが,これより小さいので,帰無仮説が棄却されないことになる。
 この境界値による判定だけでなく,P値による判定も実施する。P値はchidist(χ2値,自由度)=0.1641>0.05(棄却域)なので,上記同様,帰無仮説は棄却されないことになる。

 正規性が棄却される場合は,パラメトリックの世界に入らざるを得ない。

データ科学便覧/パラメトリックとノンパラメトリック
https://data-science.gr.jp/theory/tbs_parametric.html

2.6 グラフの作成
 観察度数と期待度数の両軸グラフを作成。ぼくはmacユーザーなので,Windowsとはちょっと違うかも知れません。この作成法はネット上に掲載されていますが,実際は極めて簡便なものです。

2.6 グラフの作成
標準化値 観察度数 期待度数
-0.9565 5 5.4211
-0.1978 11 8.0701
0.5609 5 9.3109
1.3196 8 6.2064
over 1.3196 3 2.9915

1. 計算結果の数値だけコピーして上のような表を作成します。そして,タイトル行を含めて3列6行を選んで,グラフ挿入を実行します。
2. Excelのリボンで「挿入」を選択。その中の「棒グラフ」,そしてそのうち最も単純な「集合縦棒」を選択。
3. 表示されているグラフの期待度数の方の棒グラフの一つをクリック。
4. データ系列の書式設定,が出る。「使用する軸」を第2軸に換える。
5. この「期待度数の方の棒グラフ」を右クリック。グラフの種類を,折れ線ーマーカー付き折れ線,に変更。これで両軸グラフは完成。
6. 観察度数の棒グラフを選んで棒の間隔を0%にセット。
7. グラフのタイトル,を,正規性の検定,とする。
8. 両軸の表示などの作業が残っているので,適宜,みかけをよくすること。

なお,この分野で参考になるサイトのリンクを示す。
MEDCALC
https://www.medcalc.org/index.php
ここにはWindows用のソフトもダウンロードできる。
書籍も販売されている。

Chi-Square Distribution, ScienceDirect
https://www.sciencedirect.com/topics/mathematics/chi-square-distribution

高校数学の基本問題
http://www.geisya.or.jp/~mwm48961/statistics/kai2.htm

 

3. 相関係数

  この説明には, 整った式の形が必要であり,Wordファイルを用意した。相関係数と併せて回帰直線が必要であるが,時間が許せばここに教材を用意するつもりではある。演習用Excelファイルを用意します。

 

3. あえて標準誤差について  Dec. 23, 2015追加

 なお,このアドインで出力される計算値のうち,標準偏差と標準誤差の違いを確認したい。いずれも正規分布の母集団に適用される。標準偏差は,サンプル集団のバラツキの指標なので,なんらかのデータ取得の手法の変更によって,バラツキが小さくなれば,その新たな手法はより優れていると,統計学的観点からは,判断できる。標準誤差は,データのバラツキよりも母平均 μ の区間推定値を求めることを重視する。それゆえ,標本平均エックスバーではなく,母平均 ミューμ の区間推定をしたい場合は標準誤差が適切と考えられる。標本平均値そのものよりも,母集団の平均値を求めたいという思いは実験系の研究では強く,標準誤差が使われることが多い。

 なお,標準誤差を使った母集団の区間推定式は,次のようになる。標準偏差σ、要素数Nの母集団からn個の標本を抽出するとき、標準誤差は次の式により推定される:
√((N - n)/(N - 1))*(σ/√n)
標準偏差σを標本データから計算した標準偏差sで推定する場合は(√ = sqrt),
√((N - n)/N)*(s/√n)
となる。
Nが十分大きい場合には
σ/(√n) または s/(√n)
としてよい。Nは考え方によっては際限が無くなるので,まあ,Nは十分に大きいと考えてよいだろう。

 標本平均ーσ/√n < μ < 標本平均 +σ/√n
この上の式は,母平均が,標本平均±σ/√n内にある確率が68%であることを示している。
 標本平均ー2σ/√n < μ < 標本平均 +2σ/√n
だと,95%になる。要するに正規確率分布である。これらの式には,σ/√n,が見えるが,これが標準誤差であるから,簡単に母集団の平均の区間推定ができる訳である。σ,つまり母集団の標準偏差の代わりに,s,つまり標本集団の標準偏差を実際の計算に使用しても問題はない。σ/(√n)の代わりに,s/(√n)が使える。この分母√nは,標本集団の試行回数なので,試行回数が多いほど,誤差値は小さくなってゆく。10回だと1/3.16,100回だと1/10になる。

  さて。この理由だが,試行回数nの標本集団を繰り返し作成した場合,それらの母集団のμもσも同じだから,その平均値は次のように表せる。ただし,x i = m i ±Δiと表せる。miは実験などの測定値で,εiは測定の際の誤差を表す。で,

母集団の平均は,μ=(x1+x2+……………+xn)/n,で表せるから,

μ= [ (m1±Δ1) + (m2±Δ2) +……………+ (mn ±Δn) ] /n
= [ (m1+ m2 …………… + mn) ] /n ± [ (Δ1 +Δ2……………Δn) ] /n,となる。
 さて,この式の±のあとの項について, 誤差伝播法則(後述)の加算,を使うと,
[ (Δ1 +Δ2……………Δn) ] /n = [ √(Δ1^2 +Δ2^2……………Δn^2)] /n
 となる。さて,Δ1,Δ2,……………,Δnは,まとまると,母集団の標準偏差σまたは標本集団の標準偏差 s と考えて良いので,
 Δ1=Δ2 =……………=Δn =σまたは s,しても問題はない。それゆえ,
[ √(σ1^2 +σ2^2……………σn^2)] /n = [ √(nσ^2 )] /n = σ / √n
 となる。

 なお,誤差伝播法則については,次のサイトを参照願いたい。石島研一氏のリストには他の統計学情報についても参考になることが多い。


                                  以 上