標準化 残 差 エクセル | カイ二乗検定の後の「残差分析」をエクセルでやる方法 상위 190개 답변

당신은 주제를 찾고 있습니까 “標準化 残 差 エクセル – カイ二乗検定の後の「残差分析」をエクセルでやる方法“? 다음 카테고리의 웹사이트 Chewathai27.com/you 에서 귀하의 모든 질문에 답변해 드립니다: Chewathai27.com/you/blog. 바로 아래에서 답을 찾을 수 있습니다. 작성자 リーン・シックスシグマ VBA 이(가) 작성한 기사에는 조회수 1,594회 및 좋아요 40개 개의 좋아요가 있습니다.

標準化 残 差 エクセル 주제에 대한 동영상 보기

여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!

d여기에서 カイ二乗検定の後の「残差分析」をエクセルでやる方法 – 標準化 残 差 エクセル 주제에 대한 세부정보를 참조하세요

カイ二乗検定の実施後にその中の項目のどこに違いがあったかを統計的に知る方法が「残差分析」です。その残差分析をエクセルで実施する方法を実演しています。しかし、この残差分析の関数や分析ツールがエクセルに無いですので、公式を続けて計算していきます。そこで学習用テンプレートを作ったのでそれに沿って説明しています。そのファイルをダウンロードしてご自分で実施してみて下さい。
<<カイ二乗検定と残差分析の学習用テンプレート無料ダウンロード>>
https://econoshift.com/wp-content/uploads/2021/03/カイ二乗検定と残差分析テンプレート.xlsx
<<ハンバーガーショップで学ぶ楽しい統計学のサイトのカイ二乗検定のページ>>
http://kogolab.chillout.jp/elearn/hamburger/chap3/sec4.html
<<生物科学研究所 井口研究室のサイトのカイ二乗検定のページ>>
https://biolab.sakura.ne.jp/chi-square-residual-analysis.html
<<業務改善コンサルのお問い合わせ>>
https://econoshift.com/ja/contact-2/
(サービス業の生産性向上手法、プロジェクトマネージメント、プロマネ、Lean Six Sigma、エクセル、VBA、業務改善、ダッシュボード構築、業務システム: Episode 162)
<<この動画をブログで読む>>
https://econoshift.com/ja/chi-square-residual-analysis/
<<カイ二乗動画シリーズ>>
第一話: カイ二乗検定とは?エクセルでわかりやすく実演←この動画
https://youtu.be/5g8XJp8bmaw
第二話:← この動画
第三話:カイ二乗検定の超基本を確率分布から考える。(一行データの適合度検定も)
https://youtu.be/gGgOmrsblfc
<<このチャンネルについて>>
「世界のカイゼンを学び、仕事と自分を改善して行こう。」
このチャンネルは仕事が大好きで自分の仕事と自分自身を改善したいという人達の場所です。
チャンネル登録をお願いします。(下記リンクをクリックして下さい。)
https://www.youtube.com/channel/UCdDNR1od-6dKpvao2XaIiAw?sub_confirmation=1
<<動画配信スケジュール>>
最新動画は隔週で、日本時間の日曜日の午後8時にアップしています。ぜひチャンネル登録して頂き一緒に学んでいきましょう。
<<マイク根上>>
ブログサイト:https://econoshift.com/ja/
フェイスブックページ:https://www.facebook.com/LeanSixSigmaVBA/
無料エクセルテンプレートダウンロード: 
https://econoshift.com/ja/free-downloads-2/

標準化 残 差 エクセル 주제에 대한 자세한 내용은 여기를 참조하세요.

カイ二乗検定の後の「残差分析」をエクセルでやる方法

それをステップバイステップでやってみましょう。 「残差」と「標準化残差」を求める. 各データの「実測値ー期待値」 …

+ 여기에 더 보기

Source: econoshift.com

Date Published: 1/6/2022

View: 9287

残差分析とは?使い方やエクセルでの計算方法をわかりやすく …

調整済み標準化残差からp値を算出する。 期待値の詳しい説明はカイ二乗検定と同じですので省きますが、期待値は“変数間にまったく差 …

+ 더 읽기

Source: best-biostatistics.com

Date Published: 2/15/2022

View: 4276

クロス集計表の残差分析 | 統計解析ソフト エクセル統計

残差は観測度数から期待度数を引くことで求められます。他のセルの残差と比較するため各残差を標準化し、正規分布を用いてP値を求めます。

+ 자세한 내용은 여기를 클릭하십시오

Source: bellcurve.jp

Date Published: 2/21/2021

View: 1673

残差の検討 – エクセルQC館

残差の検討review of resuals. (目次) 1. 残差とは 2. 残差のバラツキ、標準化 3. 標準化偏差の算出 4. 予測値と標準化偏差の散布図 …

+ 여기에 표시

Source: excelshogikan.com

Date Published: 9/28/2021

View: 3758

Excelで統計分析① カイ二乗検定(2/2) – Qiita

Excelで統計分析① カイ二乗検定(2/2) … 残差分析を行う際に使用するのが「調整済み標準化残差」であり、それを正規近似して p 値を計算する.

+ 여기에 자세히 보기

Source: qiita.com

Date Published: 11/21/2022

View: 1762

Excel VBAでクロス表の残差分析ができる関数を作ってみた

次に、標準化残差。残差を期待値の平方根で割って標準化します。はて? f::cyclo-commuter:20171212102047j:plain

+ 자세한 내용은 여기를 클릭하십시오

Source: cyclo-commuter.hatenablog.jp

Date Published: 6/24/2022

View: 4233

EXCELの分析ツールの標準残差とは – 教えて!goo

EXCELの分析ツールで回帰分析(一次回帰分析)をしますと、残差について標準残差というものが出てきます。数字を見ると残差の定数倍になっているよう …

+ 여기에 자세히 보기

Source: oshiete.goo.ne.jp

Date Published: 2/7/2022

View: 6967

【エクセル回帰分析結果の見方】出力される4つの表をすべて …

残差分散. 回帰式とはxからyを推測する式です。 あくまで推測ですので、観測されたyとは誤差が …

+ 더 읽기

Source: rikei-logistics.com

Date Published: 12/12/2021

View: 8155

EXCELの分析ツールの標準残差とは – OKWave

EXCELの分析ツールで回帰分析(一次回帰分析)をしますと、残差について標準残差というものが出てきます。数字を見ると残差の定数倍になっているよう …

+ 여기에 표시

Source: okwave.jp

Date Published: 4/28/2021

View: 5940

주제와 관련된 이미지 標準化 残 差 エクセル

주제와 관련된 더 많은 사진을 참조하십시오 カイ二乗検定の後の「残差分析」をエクセルでやる方法. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.

カイ二乗検定の後の「残差分析」をエクセルでやる方法
カイ二乗検定の後の「残差分析」をエクセルでやる方法

주제에 대한 기사 평가 標準化 残 差 エクセル

  • Author: リーン・シックスシグマ VBA
  • Views: 조회수 1,594회
  • Likes: 좋아요 40개
  • Date Published: 2021. 3. 14.
  • Video Url link: https://www.youtube.com/watch?v=b4Sc-vbyFNo

残差分析の計算方法は?

残差分析計算方法
  1. 観測値から期待値を引いた残差を算出する
  2. 残差を標準偏差と残差分散で割り、調整済み標準化残差というものを算出する
  3. 調整済み標準化残差からp値を算出する。

調整済み残差の有意水準は?

しかし、この標準残差は値が大きいセルの影響を受けやすいため、列の合計と行の合計を用いて値を調整した調整済み標準化残差が用いられます、調整済み標準残差は、その絶対値が1.96以上であればp<0.05水準有意、2.56以上であればp<0.01水準有意、3.29以上であればp<0.001水準有意であると言われています。

残差分析 何がわかる?

残差のもつ何らかの傾向(増加している、減少している等)の有無や、飛び抜けた値の有無を確認し、推定されたモデルの妥当性を検証すること。 どのセルの残差が有意に大きいかを分析すること。 残差の値同士を単純に比較することはできないため、残差を標準化しP値から判断を行う。

残差分析の有意確率は?

残差分析の結果、調整済み残差の絶対値 が5%の標準正規偏差値 1.96 以上であれば5%水準で有意であるということができる。

残差の相関係数は?

相関係数残差相関係数

ある変数とある変数が相関する場合、相関係数が1や-1でなければ必ず相関する部分と相関していない部分に分かれます。 この変数間で相関していない部分のことを”残差”といいます。

残差の定義は?

一方、「残差」は標本集団のデータを用いて推計された回帰式から得られた値(予測値)と実際に測定された値(実測値)とのを表す。 従って、誤差は計算で求められないが、残差は計算で求められる。

残差 正規分布 なぜ?

残差正規分布している必要がある理由は、回帰モデルの有意性確認に使う分散分析のF検定の検定統計量の分母に該当するから。 F分布は、分母・分子とも正規分布していることが前提だからだ。

予測値の定義は?

説明変数をモデルにあてはめたときの予測結果。

誤差項の意味は?

実際には、回帰分析における「誤差項」というのは、「偶然によるバラツキ」というよりも「回帰モデル内に含まれていない要因に起因するバラツキ」を表すものと言えます。

カイ二乗検定 何がわかる?

カイ二乗検定を行うと、クロス集計表に見られる数値の偏りが、誤差や偶然によって、たまたま生じる確率がわかります。 そして、慣例的にこの確率が5%より小さいとき、偶然ではなく「意味のある偏り」だったと判断できるのです。 (ちなみにこの確率が、統計学でよく耳にするp値になります。)

カイ二乗検定の標本数は?

カイ二乗検定chi-square test) はデータの分布への適合性の検定方法です. サンプルをいくつかのクラスに分類して行います. 近似的な方法であるため,サンプルが十分に大きくなくてはなりません. 一般的に,サンプルは30以上必要と言われます.

残差 正規分布 なぜ?

残差正規分布している必要がある理由は、回帰モデルの有意性確認に使う分散分析のF検定の検定統計量の分母に該当するから。 F分布は、分母・分子とも正規分布していることが前提だからだ。

予測値の定義は?

説明変数をモデルにあてはめたときの予測結果。

カイ二乗検定 何がわかる?

カイ二乗検定を行うと、クロス集計表に見られる数値の偏りが、誤差や偶然によって、たまたま生じる確率がわかります。 そして、慣例的にこの確率が5%より小さいとき、偶然ではなく「意味のある偏り」だったと判断できるのです。 (ちなみにこの確率が、統計学でよく耳にするp値になります。)

分散分析 どんなとき?

分散分析:全群で差がないことを積極的に知りたいとき。 2群検定の多重比較:どこかで差があることを積極的に知りたいとき

カイ二乗検定の後の「残差分析」をエクセルでやる方法

カイ二乗検定の後の「残差分析」をエクセルでやる方法

カイ二乗検定の実施後にその中の項目のどこに違いがあったかを統計的に知る方法が「残差分析」です。その残差分析をエクセルで実施する方法を図解しています。また学習用テンプレートをダウンロードしてご自分で実施してみて下さい。

(動画時間:9:19)

ダウンロード ←これをクリックして「カイ二乗検定と残差分析」エクセルテンプレートをダウンロード出来ます。

カイ二乗検定の残差分析とは?

こんにちは、リーンシグマ、ブラックベルトのマイク根上です。

業務改善コンサルをしています。

今日はこの動画リクエストからです。

「カイ二乗検定の残差分析をエクセルで行う方法を教えていただければ幸いです。」

Hawgleさん、動画リクエストありがとうございました。

ちょうど統計学の動画を作りたいと思っていましたので良かったです。

カイ二乗検定の記事は以前配信して、

その検定では複数のデータ群の集計の間に

無視できない大きな違いがあるかどうか、

統計的に調べる事ができる事を学びました。

⇒「カイ二乗検定とは?エクセルでわかりやすく実演」

しかし、カイ二乗検定で有意な違いがあったと分かったとしても、

複数の項目のどこに違いがあるかは分かりません。

そこで今回のリクエストの

残差分析をすればそれが分かるのです。

今日はそれをエクセルでやる方法をお見せします。

通常僕のサイトでは極力数式を使わずに説明をしていますが、

残念ながらこの残差分析の関数や

分析ツールがエクセルに無いですので、

今回はいくつか数式が出てくる事をご了承下さい。

2×2のカイ二乗検定では残差分析をやっても意味がない

先のカイ二乗検定の記事では

「ハンバーガーショップで学ぶ楽しい統計学」のサイトの

シナリオとサンプルデータをお借りしました。

⇒「ハンバーガーショップで学ぶ楽しい統計学のサイトのカイ二乗検定のページ」

ワクワクバーガーの店員さんがポテトの売上は良いんだけど

フライドチキンの売上が低いのではないかと心配していて、

ライバルのモグモグバーガーの売上のデータと共に

カイ二乗検定を実施しました。

結果は心配してた通りワクワクバーガーのチキンの売上の割合は

統計的に低い事が分かりました。

それでこの後、残差分析をしたいところですが、

このシナリオでは2店舗の2商品(2×2)のデータで、

ワクワクバーガーのチキンの売上が悪いなら、

ポテトの売上が良い事が確定し、

逆にモグモグバーガーのポテトの売上は悪くて、

チキンの売上が良い事が確定します。

つまり、2×2のカイ二乗検定では残差分析は使えません。

分析をしても良いのですがやる前から結果は分かっています。

ですので、2×3や3×2以上のカイ二乗検定の後に

この残差分析をやるのです。

今回はポテトとチキンに

ハンバーガーの売上データを加えてやってみます。

前回のカイ二乗検定のやり方をおさらいする

先ほどと同じサイトの実践編ページのデータをお借りします。

⇒「楽しい統計学のサイトのカイ二乗検定の実践編のページ」

まず普通にカイ二乗検定をやってみます。

今回は学習用のテンプレートを作りましたので、

それに則ってやっていきます。無料ですのでダウンロードしてみて下さい。

⇒「カイ二乗検定と残差分析」エクセルテンプレートのダウンロード

上図がその実測値のデータです。

まず上図セルJ4とJ5で

この各店舗合計、それを横周辺和(セルI4とI5)と言いますが、

それの全体(セルI6)との割合を先に求めます。

ちなみにセルをダブルクリックすると上図の様に、

その場で数式が見えるし、参照しているセルに色が付くので便利です。

セルF12で期待値を求めるのにその各割合(J4)と

各メニューの合計、これを縦周辺和(セルF6)と言いますが、

それらを掛けて期待値を完成させます。

この計算方法は前回の動画で詳しくやりました。

⇒「カイ二乗検定とは?エクセルでわかりやすく実演」

期待値の表が完成したら、

CHISQ.TEST関数で、実測値範囲と期待値範囲を選べば、

カイ二乗検定のP値が計算できます。

結果は0.71%と出ました。

1%の有意水準でも「違いが無い」と言う帰無仮説を棄却できますので、

かなりの違いがありました。

しかし、今回は2x3のデータですので、

その中のどのメニューに大きな違いがあったのかは分かりません。

ですので、ここで残差分析をするのです。

カイ二乗検定の残差分析のやり方

まず、残差とは何でしょう?

漢字からは「残りの差」ですが、

カイ二乗検定での残差分析の中では

各「実測値と期待値の差」を比べて分析すると言う事です。

それをステップバイステップでやってみましょう。

「残差」と「標準化残差」を求める

各データの「実測値ー期待値」で全ての残差を求めます。(下図参照)

この残差の結果を見たらハンバーガーの残差が一番大きいですね。

しかしその売上自体も大きいですので何とも言えません。

そこで、この残差を標準化する必要があります。

それを標準化残差と言い、

残差÷期待値の平方根で求められます。(下図参照)

平方根は英語でSquare Rootですので

エクセルの平方根の関数はSQRT関数となります。

この結果を見ると一つ問題があるのです。

理論上残差の様にメニュー毎に絶対値が同じで正負逆の数字に

ならなければいけないのですが、

この標準化残差はそうなっていません。

「残差分散」を求める

そこで残差分散を求めてそれを使って

標準化残差を調整します。

残差分散は上図の数式で求められ、

全て実測値を対象にします。

図内の左の表は実測値で、

右の表で残差分散を求めていきます。

ワクワクのポテトを例に式を見るとこうなります。

残差分散 =(1ー1250÷2000)×(1ー700÷2000)

セル内の数式は次の式になりますが、

コピペする時に絶対参照にするドルマークを上手く付ける必要があります。

=(1-$F47/$F$49)*(1-C$49/$F$49)

この数式をコピペした後に、

この1250のF47は下にはずれてほしいけど

F列から左右にはずれてほしくないのでFの横にドルマークを付けますが、

この2000のF49は横にも縦にもずれてほしくないので両方ともドルマークを付けます。

次の700のC49は横にはずれてほしいけど、

49行より上下にずれてほしくないので、

この49の前にドルマークを付けます。

最後の総数は同じ2000ですので、両方ドルマークを付けます。

これを全てのセルにコピペをしたら

ちゃんと思ったようにコピーされます。

残差分散から「調整済み標準化残差」を求める

この残差分散を使って必要な「調整済み標準化残差」を

求める事ができるのです。下図内の式がそれです。

ワクワクのポテトのセル内の式はこれです。

=I20/SQRT(F12*I47)

これをコピペすると、さっきの標準化残差が調整されて

全ての列で絶対値が全く同じの正負が逆の値になりました。(上図参照)

この中で絶対値が大きいほど違いがあるので、

やっぱりワクワクのチキンの売上の割合が一番低いみたいです。

各列のP値を求め、答えを見つける

最後にエクセル関数を使ってメニュー毎にP値を求めてみます。

その数式と計算結果が下図内の式と表になります。

NORMSDIST関数の説明を見ると

「標準正規分布の累積分布関数の値を返します。」という事です。

ABS関数は英語のAbsoluteから、絶対値を取得します。

これでチキンのP値が0.36%で「違いが無い」と言う帰無仮説を完全に棄却できますし、

ワクワクバーガーのチキンの残差がマイナスなので、

その売上の割合が一番低い事が分かります。

しかし、ハンバーガーの残差はプラスで、P値が2.09%で、

これは5%の有意水準でしたら棄却できます。

ですのでハンバーガーの売上の割合は良いみたいです。

今言った有意水準はやはり、検定をやる前に

有意水準5%か1%どちらにするかを先に決めておいた方が良いでしょう。

参考までにこの残差分析を2×2のデータでやってみました。

カイ二乗検定のP値は3.46%で、

残差分析によるポテトもチキンのP値も同じ3.46%でした。

2×2のデータでやるといつも同じP値になります。

これで2×2のデータでは残差分析をする必要がない事がはっきりしましたね。

今回の計算方法は生物科学研究所 井口研究室のページを参考にさせて頂きました。

⇒「生物科学研究所 井口研究室のサイトのカイ二乗検定のページ」

皆さんどうでしたか?

ちょっと難しかったかもしれませんが、

ご自分でデータを入れて数式を書いていったらもっとご理解できるので、

今日お見せしたエクセルファイルを学習用として

ダウンロード可能にして実際にやってみて下さい。

⇒「カイ二乗検定と残差分析」エクセルテンプレートのダウンロード

<<カイ二乗の記事シリーズ>>

残差分析とは?使い方やエクセルでの計算方法をわかりやすく解説!|いちばんやさしい、医療統計

残差分析はカイ二乗検定の後に行われる分析です。

カイ二乗検定の欠点を補う分析ですが、カイ二乗検定ほどの知名度はありません。

そのため

「残差分析って一体何?」

「エクセルで残差分析をしたい場合、どうやったらいいの?」

といった疑問を持っている方も多いはずです。

本記事では残差分析の意味やエクセルでの実施方法を解説します。

残差分析とは?わかりやすく解説!

まずは残差分析について確認していきましょう!

残差分析とは?

残差分析とは、カイ二乗検定の後にどのカテゴリーの比率に有意差があったのか分析する手法です。

カイ二乗検定は2種類のカテゴリー変数間の比率に差があるかどうか確かめる検定です。

カイ二乗検定について詳しく知りたい方はこちらの記事をご覧ください。

カイ二乗検定を実施すれば、たとえば男女で疾患A、疾患B、疾患Cの罹患率に差があるか確かめることができます。

しかしカイ二乗検定だけでは、どの疾患の罹患率に差があったのか分かりません。

もしかしたら疾患Aだけかもしれないですし、全部の疾患で差があったのかもしれません。

せっかくならどの疾患に差があったのか確かめたいですよね。

そこで役に立つのが残差分析です。

残差分析を使えば疾患A、疾患B、疾患Cの罹患率に差があるかそれぞれp値で算出できますので、どこに差があるのか確かめることができます。

残差分析の計算方法

残差分析の計算方法の概要は以下の流れになります。

残差分析の流れ 観測値から期待値を引いた残差を算出する 残差を標準偏差と残差分散で割り、調整済み標準化残差というものを算出する 調整済み標準化残差からp値を算出する。

期待値の詳しい説明はカイ二乗検定と同じですので省きますが、期待値は“変数間にまったく差がなかった時にとる理論上の値”です。

カイ二乗検定では、期待値とのズレが大きければ大きいほど、変数間に差があると判定していました。

残差分析でもこの期待値とのズレを”残差”と呼び、使用していきます。

残差が大きければ大きいほど変数間に差があると判定すればいいだけなのですが、一つ問題があります。

残差は人数が多ければ多いほど大きくなっていってしまうからです。

先ほどの例を使うと、各カテゴリー(疾患A~C)で男女の罹患率が同じだったとしても、罹患しやすい疾患は数が多くなるため、残差が大きくなります。

つまり残差を見ただけでは、どれくらい変数間に差があるのか分かりません。

そこで人数の多さに左右されないように残差を変換したものが調整済み標準化残差というものです。

調整済み標準化残差の計算式は以下のようになります。

調整済み標準化残差は標準化された正規分布になります。

もう少し分かりやすく言うと、調整済み標準化残差の絶対値が1.96を超えればp値が5%未満であると判定できます。

ですので調整済み標準化残差が算出できれば、あとはエクセルを使って簡単にp値を算出することができます。

残差分析が必要ない場面

ここまで残差分析の有用性についてお話してきましたが、残差分析が必要ない場面もあります。

それは2×2のクロス集計表に対してカイ二乗検定をかけている場面です。

つまり”男女”と”疾患A、疾患B”のようなカテゴリーが2つしかない変数同士を検定にかけた時です。

このような場合では、カイ二乗検定だけで完結できるため残差分析は必要ありません。

残差分析が必要になるのは、3つ以上のカテゴリーがある変数を扱う場合のみです。

では実際に例を用いて、3群比較で残差分析を行ってみましょう。

3群比較でのカイ二乗検定を残差分析で評価してみる

それでは実際に残差分析を具体的な数値を踏まえて確認してみましょう!

残差分析が使えるケース

カイ二乗検定と残差分析を使って、”男女で疾患A、疾患B、疾患Cの罹患率に差があるか”確かめてみましょう。

今回観測したデータをクロス集計表にまとめると、以下のようになりました。

カイ二乗検定を実行した結果、p値は0.025となりました。

ひとまず疾患によって性別の比率に有意に差があるといえそうです。

ただしまだどの疾患で差があるのか分かっていません。

さらに検証するため残差分析を実行してみましょう。

残差分析の結果

残差分析の結果、各疾患のp値は以下のようになりました。

今回のケースでは疾患Cのみp値が0.05を下回っています。

以上の結果から、”疾患C”に罹患する患者の男女比は全体に対して有意に差があるといえます。

結果の解釈

残差分析の結果の解釈で一つ注意しておきたい点があります。

“残差分析はデータ全体に対する差しか分析していない”という点です。

似たような解析に多重比較というものがあります。

多重比較は「疾患A vs 疾患B」「疾患B vs 疾患C」「疾患C vs 疾患A」というように1対1で比較していきます。

これに対して残差分析は「全体 vs 疾患A」「全体 vs 疾患B」「全体 vs 疾患C」というように比較しています。

つまり検討したカテゴリーの中に、一つでも極端なカテゴリーがあると全て有意になります。

例えば疾患Cだけ異常な男女比の差があり、疾患Aと疾患Bは同じ男女比だとしましょう。

多重比較では「疾患B vs 疾患C」「疾患C vs 疾患A」のみ有意差があると出ます。

しかし残差分析では全ての疾患で有意差が出てしまいますので、あたかも疾患Aと疾患Bにも差があるように捉えてしまいがちです。

このように残差分析では捉えきれない情報もあるため、論文では多重比較が使われることが多いように思います。

注意しておきましょう。

多重比較の詳細はこちらの記事をご覧ください。

残差分析をエクセルで実施!

残差分析はエクセルでも実施できますので、実際にやってみましょう!

残差のクロス集計表を作成

観測値のクロス集計表を作成

観測値のクロス集計表は以下のようになります。

後ほど使用するので”合計”の列も作っておきましょう。

期待値のクロス集計表を作成

次に期待値のクロス集計表を作成します。

期待値は”横列の合計”×”縦列の合計”÷”全体の合計”で計算します。

エクセルの数式は以下のようになります。

残差のクロス集計表を作成

残差は”観測値”-“期待値”で計算します。

調整済み標準化残差を算出

残差分散を算出

残差分散の計算式は以下になります。

エクセルの数式は以下のようになります。

調整済み標準化残差を算出

最後に調整済み標準化残差の計算式を再度確認しておきましょう。

エクセルの数式は以下のようになります。

上下のマスで絶対値が同じ値になるはずです。

p値を算出

p値はNORM.S.DIST関数を使用して算出します。

上下どちらも絶対値が同じ値ですので、どちらを使用しても構いません。

今回は上の列(“男”の行)だけ使います。

エクセルの式は以下のようになります。

以上で残差分析を使って各カテゴリーのp値を算出できました。

お疲れさまでした。

まとめ

最後におさらいをしましょう。

残差分析は3カテゴリー以上のカイ二乗検定と合わせて使用する分析

各カテゴリーのp値を出すことで、どのカテゴリーに差があるか確認できる

残差分析と多重比較とは結果の解釈が異なる点に注意が必要

残差分析は観測値のクロス集計表が作れればエクセルで可能

残差分析はカイ二乗検定と同様にエクセルで手軽に計算できます。

カテゴリー数が多いものに対してカイ二乗検定を実行する際は、一緒に分析するようにしましょう。

最後までお読みいただきありがとうございました。

統計解析ソフト エクセル統計

クロス集計表の残差分析 : Residual Analysis

概要

クロス集計表(分割表)について独立性の検定(カイ二乗検定)を行い「2変数に連関がある」とわかったとき、残差分析によりどのセルの残差が有意に大きいかを分析することで、「2変数にどのような連関があるか」を調べることができます。

残差は観測度数から期待度数を引くことで求められます。他のセルの残差と比較するため各残差を標準化し、正規分布を用いてP値を求めます。

処理対象データ 集計表形式 データサイズ範囲 処理対象データ 行数 列数 数値 文字列 空白 2~60行 2~60列 ○ 欠 欠 ※:○…処理可、×…処理不可、欠…0として処理 集計表概要 負の数を含まないこと

データは整数であること

エクセルQC館

(解説)

1.残差について、説明して行きます。

2.残差は、実測値から予測値を引いた値です。

3.残差を数値で表現すると、以下の通りになります。

・残差e i =実測値y i −予測値y hati

4.残差は、左式の様に回帰式を用いて算出します。

5.残差で、回帰式の妥当性を評価します。

(解説)

1.残差のバラツキ、標準化について、説明して行き

ます。

2.残差で回帰式の妥当性を評価しますが、残差の

バラツキを求め、さらに標準化する必要が有り

ます。

3.残差のバラツキは、分散の平方根から算出します。

(標準偏差)

・σ hate =V e 0.5

・ここで、V e を算出する時の自由度φ e =n−2

に注意。

4.残差の標準化は、残差を分散の平方根で割ります。(標準化残差)・e’=e/V5.残差の標準化を行う理由は、特性値によって残差の絶対値が大きく変わり、残差そのものでは回帰式の妥当性が評価できない為です。

(解説)

1.標準化偏差の算出について、説明して行きます。

2.左表の様に、下記項目を記述及び算出します。

・要因 : x i1

・実測値 : y i

・予測値 : y hati

・残差 : e i

・標準化残差: e i ’

3.標準化残差が、−3〜3の間で有れば正常と判断

します。

(解説)

1.予測値と標準化偏差の散布図について、説明して

行きます。

2.左図の様に、横軸にyの予測値、縦軸に標準化残差

を取り、散布図を作成します。

3.散布図の見方は、大きくは下記の2つが有ります。

・標準化残差が、−3〜3から外れていないか?

・増加、減少、周期性などの現象はないか?

4.上記の2つで異常が無ければ、回帰式は妥当と判断

します。

本館:エクセル将棋館(品質管理ソフト)

品質管理ソフトは、下記をクリックして下さい。

Excelで統計分析① カイ二乗検定(2/2)

前回の記事で記載した[カイ二乗検定]では、クロス表全体に対して関係性があるかどうかの検証ができた。

P値が有意水準以下となり「関係性がある」と言えた場合に、具体的にどの組み合わせで関係性があるかを分析する方法が「残差分析」。

1. 残差分析

残差とは「観測値−期待値」のことであり、残差分析を行うことで期待度数と観測値のずれが特に大きいセルを知ることが出来る

残差分析を行う際に使用するのが「調整済み標準化残差」であり、それを正規近似して 𝑝 値を計算する

調整済み標準化残差=\frac{O_{ij} – E_{ij}}{\sqrt{E_{ij}\cdot(1 – n_{i\cdot}/N)(1 – n_{\cdot j}/N)}}

※𝑂は観測度数、𝐸は期待度数、𝑛は行または列の観測値の合計値、𝑁が観測値の合計値

2. 調整済み標準化残差の詳細

調整済み標準化残差を算出するには、標準化残差を計算する必要がある。

標準化残差とは残差を標準偏差で割ったもので、近似的に正規分布𝑁(0,𝑣𝑖𝑗)に従うことが知られている

標準化残差=\frac{O_{ij} – E_{ij}}{\sqrt{E_{ij}}}

\upsilon_{ij}=(1 – n_{i\cdot}/N)(1 – n_{\cdot j}/N)

調整済み残差というのは、標準化残差とその分散を用いて標準化変換を行ったもの

調整済み残差=\frac{e_{ij}}{\sqrt{\upsilon_{ij}}}

したがって調整済み残差の分布は、近似的に平均0,標準偏差1の標準正規分布としてP値を算出できる

3. Excelを使用した算出方法

B1 B2 合計 A1 X11 X12 a1 A2 X21 X22 a2 合計 b1 b2 N

①クロス集計表の行合計の構成比率を計算する

B1 B2 合計 合計 b1/N b2/N 1

②周辺和の積を総数で割って期待度数を算出する

B1 B2 合計 A1 a1×b1/N a1×b2/N a1×1 A2 a2×b1/N a2×b2/N a2×1

③調整済み標準化残差を算出する

調整済み標準化残差 = (観測度数-期待度数) / {期待度数 ×(行の周辺和/総数)×(列の周辺和/総数)}

④NORM.S.DIST関数を使用して有意確率(P値)を算出する

ノーマル・スタンダード・ディストリビューション

P値 = NORM.S.DIST(ABS(調整済み標準化残差),TRUE)

上記で算出された有意確率(P値)が事前に決めた有意水準(誤判断リスクの上限)より低い場合に

そのセルがカイ二乗検定の有意な検定結果に寄与していると判断できます。

References

統計WEB

Excelで学ぶ 実践ビジネスデータ分析

Excel VBAでクロス表の残差分析ができる関数を作ってみた

前回、以下の表についてカイ二乗検定を行い、クラメールのVを計算して、学年と満足度の間には何らかの関連があるらしいことがわかりました。*1

しかし、具体的にどのような関連があるのでしょうか?

このような疑問を持ったときに行なうのがクロス集計表の残差分析です。

今回は、Exel VBAで関数を作って残差分析を行います。

クロス集計表の残差分析は、表中の各セルについて調整済み標準化残差を計算して行われる由。「調整済み」「標準化」「残差」とはなんぞ?

前回までは、いきなりソースコードをベタッと貼り付けていましたが、理解を深めるため、手順を一つ一つ追ってみようと思います。以下、B列を例に。

まず、残差。これは「観測値-期待値」のこと。B3セルの残差をr 1 、以下r 2 、r 3 として、r 1 = 10-(22*60/150) = 1.2 、r 2 = 3-(22*50/150) = -4.33…、r 3 = 9-(22*40/150) = 3.13…となりますね。r 1 + r 2 + r 3 = 0 となるのを覚えておきます。

次に、標準化残差。残差を期待値の平方根で割って標準化します。はて?

なぜ期待値の平方根で割ると標準化されるのでしょう? ネットで調べると「期待値の平方根は残差の標準偏差」とありますが、何故そうなるかの解説が見当たりません。ここが統計学を勉強していて辛いところで、わかっている人は当然のこととして計算を進めていくので、初学者はたいてい置いてきぼりです。やむを得ないので割り切って計算を進めますが、概念としては、残差はもともとバラバラの度数を元に計算されていてセル同士の比較ができないので、比較できるように統一基準に合わせる(=標準化する)、と理解します。B3セルの標準化残差をsr 1 、以下sr 2 、sr 3 として、

sr 1 = 1.2 / √(22*60/150) = 0.40、sr 2 = -4.33 / √(22*50/150) = -1.60、sr 3 = 3.13 / √ (22*40/150) = 1.29…となりますね。sr 1 + sr 2 + sr 3 ≠ 0 になりました。

最後に、調整済み標準化残差。標準化残差をさらに[標準化残差の分散の平方根]で割ったのが、調整済み標準化残差。こうすると、2×j表の縦計が 0 になるそうです。でも、i×j表(i>2)では、縦計は 0 になりません。それでも調整はするみたいです。

この式も何の脈絡もなく「こうである」と来るのですが、なぜそうなるのかはわかりません。標準化残差は近似的に正規分布に従うそうです(これはなんとなくわかります)ので、もしかすると正規分布の定義から導出できるのかもしれません。私には無理ですが。ともかく、式を完成させます。

B3セルの調整済み標準化残差をasr 1 、以下asr 2 、asr 3 として、

asr 1 = 1.2 / √(22*60/150)(1-22/150)(1-60/150) = 0.57、asr 2 = -4.33 / √(22*50/150)(1-22/150)(1-50/150) = -2.12、asr 3 = 3.13 / √ (22*40/150)(1-22/150)(1-40/150) = 1.64 となりました。

ところどころ式の意味がわからないのに、計算それ自体は中学までの算数・数学でできてしまうのだから、統計学ってたちが悪いです。結局、たいして理解は深まりませんでした・・・

関数のソースコードは以下のとおりです。*2

‘クロス表の残差分析(調整済み標準化残差z値または両側p値を返す) Function Resid_Anal(実測値範囲, 参照, 種類 As Boolean) Dim o_Row As Integer ‘行数 Dim o_Clm As Integer ‘列数 Dim o_R_Sum() As Long ‘行合計 Dim o_C_Sum() As Long ‘列合計 Dim o_Sum As Long ‘N Dim i As Integer Dim j As Integer Dim o As Double ‘実測値 Dim e As Double ‘期待値 o_Row = 実測値範囲.Rows.Count o_Clm = 実測値範囲.Columns.Count ReDim o_R_Sum(1 To o_Row) ReDim o_C_Sum(1 To o_Clm) For i = 1 To o_Row For j = 1 To o_Clm o_R_Sum(i) = o_R_Sum(i) + 実測値範囲(1).Offset(i – 1, j – 1) o_C_Sum(j) = o_C_Sum(j) + 実測値範囲(1).Offset(i – 1, j – 1) o_Sum = o_Sum + 実測値範囲(1).Offset(i – 1, j – 1) Next Next i = 参照.Row – 実測値範囲(1).Row j = 参照.Column – 実測値範囲(1).Column o = 実測値範囲(1).Offset(i, j) e = o_C_Sum(j + 1) * o_R_Sum(i + 1) / o_Sum If 種類 = True Then Resid_Anal = (1 – WorksheetFunction.Norm_S_Dist(Abs( (o – e) / Sqr(e * (1 – o_C_Sum(j + 1) / o_Sum) * (1 – o_R_Sum(i + 1) / o_Sum))), True)) * 2 Else Resid_Anal = (o – e) / Sqr(e * (1 – o_C_Sum(j + 1) / o_Sum) * (1 – o_R_Sum(i + 1) / o_Sum)) End If End Function

引数が3つになったので、わかりやすいように日本語名称にしました。

実測値範囲:クロス表のラベルと計を除く範囲

参照 :計算対象となるセル

種類 :True 両側検定のp値を返す False z値を返す

入力例 :B13セルには、=Resid_Anal($B$3:$F$5,B3,FALSE) と入力

見出しを付け忘れましたが、上(12:15行)が調整済み標準化残差の表、下(17:20行)が有意確率(両側)の表です。

セルのフォントカラーと背景色は、条件付き書式を使って有意水準0.05で色分けしました。

結果を見ると、2年生は他の学年よりも[大変満足]が少なく、[少し不満]が多い。また、3年生は他の学年よりも[だいたい満足]が多いことがわかります。

どうでしょう、だいぶ分析っぽくなってきたのではないでしょうか。

数ある統計分析ソフトは皆<コマンド→結果出力>タイプですが、Excel上で完結できるユーザー定義関数って、重宝する場面は多いと思うのです。

残差分析とは?使い方やエクセルでの計算方法をわかりやすく解説!|いちばんやさしい、医療統計

残差分析はカイ二乗検定の後に行われる分析です。

カイ二乗検定の欠点を補う分析ですが、カイ二乗検定ほどの知名度はありません。

そのため

「残差分析って一体何?」

「エクセルで残差分析をしたい場合、どうやったらいいの?」

といった疑問を持っている方も多いはずです。

本記事では残差分析の意味やエクセルでの実施方法を解説します。

残差分析とは?わかりやすく解説!

まずは残差分析について確認していきましょう!

残差分析とは?

残差分析とは、カイ二乗検定の後にどのカテゴリーの比率に有意差があったのか分析する手法です。

カイ二乗検定は2種類のカテゴリー変数間の比率に差があるかどうか確かめる検定です。

カイ二乗検定について詳しく知りたい方はこちらの記事をご覧ください。

カイ二乗検定を実施すれば、たとえば男女で疾患A、疾患B、疾患Cの罹患率に差があるか確かめることができます。

しかしカイ二乗検定だけでは、どの疾患の罹患率に差があったのか分かりません。

もしかしたら疾患Aだけかもしれないですし、全部の疾患で差があったのかもしれません。

せっかくならどの疾患に差があったのか確かめたいですよね。

そこで役に立つのが残差分析です。

残差分析を使えば疾患A、疾患B、疾患Cの罹患率に差があるかそれぞれp値で算出できますので、どこに差があるのか確かめることができます。

残差分析の計算方法

残差分析の計算方法の概要は以下の流れになります。

残差分析の流れ 観測値から期待値を引いた残差を算出する 残差を標準偏差と残差分散で割り、調整済み標準化残差というものを算出する 調整済み標準化残差からp値を算出する。

期待値の詳しい説明はカイ二乗検定と同じですので省きますが、期待値は“変数間にまったく差がなかった時にとる理論上の値”です。

カイ二乗検定では、期待値とのズレが大きければ大きいほど、変数間に差があると判定していました。

残差分析でもこの期待値とのズレを”残差”と呼び、使用していきます。

残差が大きければ大きいほど変数間に差があると判定すればいいだけなのですが、一つ問題があります。

残差は人数が多ければ多いほど大きくなっていってしまうからです。

先ほどの例を使うと、各カテゴリー(疾患A~C)で男女の罹患率が同じだったとしても、罹患しやすい疾患は数が多くなるため、残差が大きくなります。

つまり残差を見ただけでは、どれくらい変数間に差があるのか分かりません。

そこで人数の多さに左右されないように残差を変換したものが調整済み標準化残差というものです。

調整済み標準化残差の計算式は以下のようになります。

調整済み標準化残差は標準化された正規分布になります。

もう少し分かりやすく言うと、調整済み標準化残差の絶対値が1.96を超えればp値が5%未満であると判定できます。

ですので調整済み標準化残差が算出できれば、あとはエクセルを使って簡単にp値を算出することができます。

残差分析が必要ない場面

ここまで残差分析の有用性についてお話してきましたが、残差分析が必要ない場面もあります。

それは2×2のクロス集計表に対してカイ二乗検定をかけている場面です。

つまり”男女”と”疾患A、疾患B”のようなカテゴリーが2つしかない変数同士を検定にかけた時です。

このような場合では、カイ二乗検定だけで完結できるため残差分析は必要ありません。

残差分析が必要になるのは、3つ以上のカテゴリーがある変数を扱う場合のみです。

では実際に例を用いて、3群比較で残差分析を行ってみましょう。

3群比較でのカイ二乗検定を残差分析で評価してみる

それでは実際に残差分析を具体的な数値を踏まえて確認してみましょう!

残差分析が使えるケース

カイ二乗検定と残差分析を使って、”男女で疾患A、疾患B、疾患Cの罹患率に差があるか”確かめてみましょう。

今回観測したデータをクロス集計表にまとめると、以下のようになりました。

カイ二乗検定を実行した結果、p値は0.025となりました。

ひとまず疾患によって性別の比率に有意に差があるといえそうです。

ただしまだどの疾患で差があるのか分かっていません。

さらに検証するため残差分析を実行してみましょう。

残差分析の結果

残差分析の結果、各疾患のp値は以下のようになりました。

今回のケースでは疾患Cのみp値が0.05を下回っています。

以上の結果から、”疾患C”に罹患する患者の男女比は全体に対して有意に差があるといえます。

結果の解釈

残差分析の結果の解釈で一つ注意しておきたい点があります。

“残差分析はデータ全体に対する差しか分析していない”という点です。

似たような解析に多重比較というものがあります。

多重比較は「疾患A vs 疾患B」「疾患B vs 疾患C」「疾患C vs 疾患A」というように1対1で比較していきます。

これに対して残差分析は「全体 vs 疾患A」「全体 vs 疾患B」「全体 vs 疾患C」というように比較しています。

つまり検討したカテゴリーの中に、一つでも極端なカテゴリーがあると全て有意になります。

例えば疾患Cだけ異常な男女比の差があり、疾患Aと疾患Bは同じ男女比だとしましょう。

多重比較では「疾患B vs 疾患C」「疾患C vs 疾患A」のみ有意差があると出ます。

しかし残差分析では全ての疾患で有意差が出てしまいますので、あたかも疾患Aと疾患Bにも差があるように捉えてしまいがちです。

このように残差分析では捉えきれない情報もあるため、論文では多重比較が使われることが多いように思います。

注意しておきましょう。

多重比較の詳細はこちらの記事をご覧ください。

残差分析をエクセルで実施!

残差分析はエクセルでも実施できますので、実際にやってみましょう!

残差のクロス集計表を作成

観測値のクロス集計表を作成

観測値のクロス集計表は以下のようになります。

後ほど使用するので”合計”の列も作っておきましょう。

期待値のクロス集計表を作成

次に期待値のクロス集計表を作成します。

期待値は”横列の合計”×”縦列の合計”÷”全体の合計”で計算します。

エクセルの数式は以下のようになります。

残差のクロス集計表を作成

残差は”観測値”-“期待値”で計算します。

調整済み標準化残差を算出

残差分散を算出

残差分散の計算式は以下になります。

エクセルの数式は以下のようになります。

調整済み標準化残差を算出

最後に調整済み標準化残差の計算式を再度確認しておきましょう。

エクセルの数式は以下のようになります。

上下のマスで絶対値が同じ値になるはずです。

p値を算出

p値はNORM.S.DIST関数を使用して算出します。

上下どちらも絶対値が同じ値ですので、どちらを使用しても構いません。

今回は上の列(“男”の行)だけ使います。

エクセルの式は以下のようになります。

以上で残差分析を使って各カテゴリーのp値を算出できました。

お疲れさまでした。

まとめ

最後におさらいをしましょう。

残差分析は3カテゴリー以上のカイ二乗検定と合わせて使用する分析

各カテゴリーのp値を出すことで、どのカテゴリーに差があるか確認できる

残差分析と多重比較とは結果の解釈が異なる点に注意が必要

残差分析は観測値のクロス集計表が作れればエクセルで可能

残差分析はカイ二乗検定と同様にエクセルで手軽に計算できます。

カテゴリー数が多いものに対してカイ二乗検定を実行する際は、一緒に分析するようにしましょう。

最後までお読みいただきありがとうございました。

カイ二乗検定とは?その流れと注意点

カイ二乗検定とは?その流れと注意点

仮にあなたが学校の先生だとしましょう。そこであなたは「新しい指導法を導入したが、指導法(A)と指導法(B)で質問をする生徒の数に差があるのかを確かめたい」といったことを考えたとします。このような状況で、人数や回数などの値に差があるのかを主観に頼らず、統計的に確かめるために便利なのがカイ二乗検定です。

カイ二乗検定を行う際の前提条件

データの種類がカテゴリカルデータであるかを確認する:

カイ二乗検定はあるカテゴリーに対応する人数や回数といった、カテゴリカルデータを扱う分析手法です。カイ二乗検定はノンパラメトリックな分析手法の一つで、分析対象とするデータは正規分布に従っている必要はありません。しかし、分析対象とするデータが「質問の有無(あり、なし)」や「賛成の是非(賛成、反対)」といった特定のカテゴリーを表している必要があります。 これ以外のデータを扱う際には違う分析手法を検討することをお勧めします。

データの種類が累積頻度であるかを確認する:

カイ二乗検定は回数や人数といった累積頻度を扱う分析手法です。上の例を使えば、指導法(A)と指導法(B)における「質問をした生徒数」と「質問をしていない生徒数」の頻度を検討することになります。そこで次のようなデータが得られたと仮定しましょう。

指導法ごとの頻度表 質問あり 質問なし 指導法(A) 5 15 指導法(B) 15 5

ここでは指導法(A)での質問ありの生徒の数を「一人、二人、三人、…」と数えたものです。よって、指導法(A)での質問ありの生徒の数を4.5人であるということには意味がありません。もしも「質問あり」と「質問なし」に「ずっと寝ている」というような中間値を設定したいのであれば新しいカテゴリーを設定する必要があります。

また、上の例では指導法ごとに生徒を分類しました。この生徒の比率を比べたい際には別の検定手法を用いる必要があります。なぜなら、上のデータの行ごとの比率を求めると指導法(A)では0.25と0.75、指導法(B)では0.75と0.25という数値が得られます。既に述べたように、このデータはカイ二乗検定には不適切です。カイ二乗検定はあくまでカテゴリー毎の頻度を扱うもので、「指導法(A)では質問をした生徒が0.25人いました」という主張には意味がありません。

期待値を確認する:

カイ二乗検定量を求めるためには各データ毎の期待値を求める必要があります。この期待値は行の合計と列の合計を掛け合わせた値を全体の数で割って求めることができます。これを上のデータで求めると、全てのデータの期待値は全て10になります。 このようにして求めらた期待値が5を上回る場合は問題なくカイ二乗検定を行うことができます。しかし、これが5を下回る場合は (i) さらに多くのデータをとる、あるいは (ii) フィッシャーの正確性検定を使用します。フィッシャーの正確性検定の詳細はフィッシャーの正確性検定をご覧ください。

自由度を確認する:

一般的に、自由度が1の場合は「本当は差がないのに、差があるという主張をする」という第1種の誤りをおこる危険性が高くなります。よって、上にあげたような2 × 2の頻度表の分析を行うさいにはイエーツの補正と呼ばれる補正をかけるか、上にあげたフィッシャーの正確性検定を利用することをお勧めします。フィッシャーの正確性検定の詳細はフィッシャーの正確性検定をご覧ください。

カイ二乗検定の流れ

カイ二乗検定の流れは次のようになります。

データの種類の確認: データがカテゴリカルデータであるかを確認する データの種類が累積頻度であるかを確認する 期待値を確認する カイ二乗検定を行う

カイ二乗検定量の求め方

この流れに従い、無事にカイ二乗検定を行うことができたと仮定しましょう。カイ二乗検定量は「実測値と期待値の差を二乗し、期待値で割ったものの和」として定義されます。こうして得られたカイ二乗検定量が統計的に有意なものであるかを確認するには、与えられた自由度を使ってカイ二乗分布と呼ばれる確率分布を参照する必要があります。

上のデータでカイ二乗検定を行うとχ2 = 8.1, 自由度 = 1, p 値 = 0.004427という結果が得られます。p < 0.05水準で有意な結果となりましたが、この段階では全体のどこかに差があるということしかわかりません。全体のどこに差があるのかを確かめるには残差分析を行う必要があります。 残差分析の求め方 カイ二乗検定において、残差とは実測値と期待値の差のことを指します。この残差を調べることで、どのカテゴリーにおいて差が生じているのかを確認することができます。標準残差は観測値と期待値の差を期待値で割ることで求めることができます。しかし、この標準残差は値が大きいセルの影響を受けやすいため、列の合計と行の合計を用いて値を調整した調整済み標準化残差が用いられます、調整済み標準残差は、その絶対値が1.96以上であればp<0.05水準で有意、2.56以上であればp<0.01水準で有意、3.29以上であればp<0.001水準で有意であると言われています。 CHRONOGISTを使えば簡単にカイ二乗が可能です CHRONOGISTはアカデミック向けのWebアプリケーションです。残差分析などを含めたカイ二乗検定もワンクリックで一瞬で終わります。 登録は無料です。

【エクセル回帰分析結果の見方】出力される4つの表をすべて検証してみた。

回帰分析はエクセルで一瞬にして計算され、素晴らしい結果表が出力されますが、理解するのが難しい項目も含まれていますね。

「観測された分散比」や「合計」などは英語を日本語に翻訳する段階で意味が分かりにくくなっています。

また「変動」や「残差」などは定義がはっきりしません。

こういう時には、同じ結果になるように自分で計算してみれば意味がはっきりするでしょう。

そこで、すべての項目を自分で計算して確かめてみました。

同じような疑問を持っている人も多いと思いますので、結果を公開します。

理解の足しにして下さい。

スポンサーリンク

★専門実践教育訓練給付金制度により受講料の最大70%が支給されます(条件あり)★

エクセル分析ツールで回帰分析の結果表を出力する

物流センターにおけるピッキング作業への投入人数と、ピッキング処理数のデータを使いました。

12日間の結果は次の通りです。

投入人数 処理数 69 1,324 57 1,110 51 866 48 854 48 773 61 937 41 773 41 629 53 987 45 831 56 971 48 740

散布図はこのようになります。

比較的、相関は高そうです。

そこで、投入人数から処理数を推測する回帰式を求めることを考えます。

まずは、回帰分析の結果を出してみましょう。

データ>データ分析をクリックします。

続いて出てくるポップアップ画面で「回帰」を選択した後、OKをクリックします。

続いて出てくるポップアップ画面ではデータの範囲を選択します。

投入人数から処理数を推測したいので、投入人数が説明変数x、処理数が目的変数yになります。

それぞれを選択した後、「残差」も選択してOKをクリックします。

すると、次のような結果表ができますので、これについて一つひとつ計算して意味を理解していきます。

基本統計量を求めておく

基本統計量

まず元データについて平均、標準偏差、分散、偏差平方和、平方和の基本統計量を、下図のように求めておきましょう。

続いてy偏差、x偏差、積和、残差の二乗も、それぞれのデータにつき求めておきます。

回帰の統計量

そして、これらの統計量を元に回帰の統計量を計算します。

これを【図1】とします。

後で出てきます。

傾きと切片

これは前回の記事

相関|回帰|分散|共分散|標準偏差の関係をまとめて直観的に理解する

で解説したように、次の式で計算できます。

傾き=積和/xの偏差平方和=Σ(x-x̄)(y-ȳ)/Σ(x-x̄)2

切片=ȳ-傾き×x̄

x̄とȳは、それぞれxとyの平均です。

残差分散

回帰式とはxからyを推測する式です。

あくまで推測ですので、観測されたyとは誤差があります。

これを残差と言います。

残差の分散とは、全観測データ(この場合12個)についての残差の二乗を足して自由度で割ったものです。

回帰分析での自由度はN-k-1になります。

Nは観測データの数でこの例では12、kは説明変数の数でこの例ではxだけなので1です。

ですので自由度は10になり、残差の二乗を10で割っています。

従って残差分散は次式で計算できます。

σ2= Σ(y-(βx+α))2 /(N-k-1)

傾きと切片の標準誤差

回帰直線の傾きと切片は先ほどの式で計算できますが、この式は一次関数の式のように唯一無二のものではありません。

観測されたデータから最も当てはまりが良さそうな式を選んだに過ぎません。

一次関数のように100%の確信がある式なのか、あまり相関関係はないのだけれども仕方なしに作った式なのか、式を見ただけでは見分けが付きませんね。

そこで、この確信度を表すために、標準誤差を使います。

回帰直線の傾きを求めるには、次式のように積和をxの偏差平方和で割りました。

傾き=積和/xの偏差平方和=Σ(x-x̄)(y-ȳ)/Σ(x-x̄)2

積和はx方向、y方向の偏差を合成した情報を持っているので、それをx方向の偏差で割るとy方向の偏差が出てきます。

それはつまりxが平均から少し動くと、それにつれてyがどれくらい動くかを表すので傾きになります。

回帰式で推測した結果と観測値との差は先に出てきた残差分散で計算できました。

この残差分散は、xとyの残差の情報を集約していると考えられます。

従って、傾きと同じようにxの偏差平方和で割ると、y方向の残差が求まります。

この平方根が傾きの標準誤差で、次式で計算できます。

傾きの標準誤差=√(残差分散/xの偏差平方和)=√(Σ(y-(βx+α))2 /Σ(x-x̄)2)

また切片の標準偏差は次式で計算できることが知られています。

切片の標準誤差=√(残差分散/データ数×xの平方和/xの偏差平方和)

=√(Σ(y-(βx+α))2 /(N-k-1)×Σx2/Σ(x-x̄)2)

回帰分析の4つの結果表を検証する

それでは前準備ができましたので、先ほど出力した結果表の項目を一つずつ検証していきましょう。

3番目の表

まず、4つある表のうちの3番目、「傾き」と「切片」の表から見ていきます。

傾きと切片の係数とは、回帰式

ŷ=βx+α

におけるβとαのことです。

ŷは回帰式でxの値から推定したyの値のことで、yハットと読みます。

これは先ほど求めた傾きと切片のことです。

また傾きと切片の標準誤差も、先ほど求めた値と一致していることが分かります。

【図1】と見比べてみて下さい。

「t」とはt値のことで、傾き、切片ともに係数÷標準誤差になっています。

これは係数とゼロが標準誤差何個分離れているかを意味します。

例えば傾きの係数βは約20で標準誤差は約3なので、標準誤差約7個分離れていることが分かります。

t値についてもっと知りたい方はこちらも参考にしてみて下さい。

>> 【対応がある2郡】改善効果をt検定で検証する方法を具体例でわかりやすく解説します。

「P値」とはt値に対応する確率のことです。

Pは確率Probabilityの頭文字です。

P値とt値の対応は t 分布表 を見れば分かりますが、エクセル関数でも計算できます。

=T.DIST(t値、自由度、TRUE)

を使って上記のように計算できます。

今回の例では傾きのP値は0.0056%なので、とても小さいですね。

これは、傾きが0である確率は極めて小さいことを意味します。

つまり、傾きは0ではなくて20.27570093と考えてほぼ間違いないということです。

通常は5%より小さければ有意差あり、つまり傾きの係数には意味があると判断します。

「下限95%」と「上限95%」は95%信頼区間の下限と上限のことです。

下限は

係数-標準誤差×下側2.5%点

上限は

係数+標準誤差×上側2.5%点

で求まります。

信頼度95%ということは両側2.5%を除くということなので、下側、上側ともに2.5%点になります。

これもエクセルにあるt分布の逆関数で求められますが、自由度がN-k-1=10になることに注意です。

=T.INV(確率、自由度)

傾きの係数βは20.27570093と計算されていますが、これは100%の確信がある値ではなく、

13.49979111から27.05161076の間であることが95%の確信度でいえるということです。

4番目の表

次に、一番下に表示される「残差出力」の表を見てみましょう。

赤で囲んだ箇所が自動で出力された表で、それ以外は管理人が付け加えた箇所です。

表の中の「予測y」は、回帰式ŷ=βx+αから計算されるŷのことです。

「残差」は観測値yとŷの差のことで、y-ŷで計算できます。

「標準誤差」は各残差を残差の標準偏差で割った値で、残差が標準偏差何個分かを表します。

「回帰」は回帰式で推測値ŷとŷの平均値ŷ̄との差のことです。

ŷ̄はȳと等しくなります。

「合計」は観測値yとyの平均ȳとの差のことで、次式が成り立ちます。

残差+回帰=y-ŷ + ŷ-ŷ̄=y-ŷ + ŷ-ȳ=y-ȳ=合計

これは何を言っているかというと、各観測値yと平均値ȳの差(合計)は、回帰式による誤差(回帰)と回帰式に関係ない残差(残差)の和になるということです。

1番目の表

次に一番上の表、概要を見てみましょう。

「重相関R」とは相関係数のことです。

相関係数=共分散/(xの標準偏差×yの標準偏差)

で計算できます。

先のシートに基本統計量がありますので、そのシートで計算しましょう。

共分散は√(積和÷自由度)ですが、xとyの標準偏差は今回は不偏標準偏差で計算していますので、自由度を一つ落としたN-1、つまり11で計算していることに注意です。

不偏標準偏差について曖昧な方はこちらも読んでみて下さい。

>> 標準偏差はnで割るの?n-1で割るの?【誰もが一度は疑問を持つ】

「重決定R2」は決定係数のことで、次式で定義されます。

決定係数=1-(残差の平方和/合計の平方和)

先ほど

残差+回帰=合計

であることを説明しましたが、決定係数は全体のばらつきのうち回帰のばらつきがどれくらいの割合を占めるかを表す指標です。

この指標の値が大きいほど、回帰式の精度が高いことを意味します。

また、

決定係数=相関係数2

という性質があります。

R2という名称はここから来ています。

「補正R2」は自由度を調整した決定係数です。

どういうことかというと、決定係数は回帰式の精度を見るための指標ですが、説明変数の数が増えるだけでも大きな値になるという性質があります。

これでは公平な指標になりませんので、自由度を使って調整します。

自由度調整済み決定係数は次式で定義されます。

自由度調整済み決定係数=1-{残差の平方和/(N-k-1)}/(合計の平方和/N-1)

「標準誤差」は残差の平方和を自由度N-k-1で割って平方根を取った値です。

2番目の表

最後に分散分析表を見てみましょう。

「回帰」、「残差」、「合計」それぞれの「変動」とは、それぞれの平方和のことです。

そして「分散」はそれぞれの平方和を自由度で割った値です。

「観測された分散比」とは、回帰による分散と残差の分散との比のことです。

回帰式によって推測されるyの範囲と、計算式では推定しようがない残差の範囲を比較しているので、前者が後者に対して十分に大きくないと回帰式の意味があまりないことになります。

これを判定するために、両者の差がないという仮説(帰無仮説)を置いたF検定を行います。

F検定についてもっと知りたい方はこちらも読んでみて下さい。

>> 【具体例でわかりやすく解説!】F検定は何に使えるの?|商品分類の仕方で実演

観測された分散比とは、F検定におけるF値のことです。

「有意F」とはF値に対する確率、すなわちP値のことです。

これはエクセルにあるF分布の関数F.DISTで求められます。

=F.DIST(F値、分子の自由度、分母の自由度、TRUE)

この例ではP値が0.0056%ですので、回帰式によって推定されるyの範囲と、計算式では推定しようがない残差の範囲が同じである確率は極めて低い、つまり誤差は十分に小さく、回帰式の精度は高いという意味になります。

以上、結果表の項目をすべて検証できました。

EXCELの分析ツールの標準残差とは -EXCELの分析ツールで回帰分析(-

いつもお世話になっております。 有る事象を説明するために大昔聞いたことが有る重回帰分析による複数の要因の影響の大小比較(項目の寄与率の数値化)をやってみようとNETで調べまくり、エクセルのアドインのインストールから初めて、どうやら私は「標準偏回帰係数を求めたい」というところまで分かったのですがエクセルの回帰分析の結果では当該項目が表示されていません。 言葉の定義をアレコレ調べたところ、エクセルでは何故かこの項目は算出されない、とのショックな事態。 但し、下記の式で計算できるとのことなのですが、この式の項目がエクセルの回帰分析結果のどの項目に該当するか分からず調べてみても同じページの堂々巡り状態。 標準偏回帰係数=偏回帰係数×説明変数の標準偏差÷目的変数の標準偏差 どなたか各項目が、エクセルの回帰分析結果に表示されているどの項目に該当するのか教えていただたく。 調べれば調べるほど意味不明となりつつあり、 >標準偏回帰係数は重回帰式における各変数の重要性を表す指標であり、標準化偏回帰係数どうしの大小を比較できます。 という表記が有るのですが、標準偏回帰係数と標準化偏回帰係数は意味が違うのでしょうか? このレベルですのでご了承の上よろしくお願い致します。 またもっと簡単に求める方法があればぜひお願いします。 <エクセルの分析結果で表示される項目> <回帰統計> 重相関 重決定 R2 補正 R2 標準誤差 3 観測数 <分散分析表> 自由度 変動 分散 観測された分散比 有意 F 回帰 3 残差 43 合計 46 係数 標準誤差 t P-値 下限 95% 上限 95% 下限 95.0% 上限 95.0%

키워드에 대한 정보 標準化 残 差 エクセル

다음은 Bing에서 標準化 残 差 エクセル 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.

이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!

사람들이 주제에 대해 자주 검색하는 키워드 カイ二乗検定の後の「残差分析」をエクセルでやる方法

  • カイ二乗 残差分析
  • カイ二乗検定 残差分散
  • カイ二乗検定 残差分析
  • カイ二乗検定 エクセル 残差分析
  • 残差分析 エクセル
  • カイ二乗検定
  • X2検定
  • P値
  • カイ二乗検定 エクセル
  • econoshift.com
  • マイク根上
  • Mike Negami
  • Japan
  • econoshift
  • ブラックベルト
  • PMP
  • PMP
  • シックスシグマ
  • リーンシグマ
  • リーンシックスシグマ
  • 日本語
  • LSS
  • シックスシグマVBA
  • 世界のカイゼンを学ぼう
  • カイゼン
  • Kaizen
  • 改善
  • プロジェクトマネジメント
  • 業務改善

カイ二乗検定の後の「残差分析」をエクセルでやる方法


YouTube에서 標準化 残 差 エクセル 주제의 다른 동영상 보기

주제에 대한 기사를 시청해 주셔서 감사합니다 カイ二乗検定の後の「残差分析」をエクセルでやる方法 | 標準化 残 差 エクセル, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.

Leave a Comment