Top 45 P Value 란 The 89 Correct Answer

You are looking for information, articles, knowledge about the topic nail salons open on sunday near me p value 란 on Google, you do not find the information you need! Here are the best content compiled and compiled by the https://chewathai27.com/to team, along with other related topics such as: p value 란 p-value 쉽게, p-value 공식, 논문 p-value 표시, p-value 0.05 의미, p value 귀무가설, p-value 범위, p-value 작을수록, p-value 0 의미


1-3 왜 유의할까? – 도대체 p-값(p-value)는 무엇인가? –
1-3 왜 유의할까? – 도대체 p-값(p-value)는 무엇인가? –


p-value란 무엇인가

  • Article author: adnoctum.tistory.com
  • Reviews from users: 31802 ⭐ Ratings
  • Top rated: 4.3 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about p-value란 무엇인가 p-value는, 귀무가설(null hypothesis, H0)이 맞다는 전제 하에, 통계값(statistics)1이 실제로 관측된 값 이상일 확률을 의미한다. …
  • Most searched keywords: Whether you are looking for p-value란 무엇인가 p-value는, 귀무가설(null hypothesis, H0)이 맞다는 전제 하에, 통계값(statistics)1이 실제로 관측된 값 이상일 확률을 의미한다.  p-value는, 귀무가설(null hypothesis, H0)이 맞다는 전제 하에, 통계값(statistics)이 실제로 관측된 값 이상일 확률을 의미한다. 일반적으로 p-value는 어떤 가설을 전제로, 그 가설이 맞는다는 가정 하에, 내..
  • Table of Contents:
p-value란 무엇인가
p-value란 무엇인가

Read More

유의 확률 – 위키백과, 우리 모두의 백과사전

  • Article author: ko.wikipedia.org
  • Reviews from users: 30112 ⭐ Ratings
  • Top rated: 4.3 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 유의 확률 – 위키백과, 우리 모두의 백과사전 p-값(p-value)는 관찰된 데이터가 귀무가설과 양립하는 정도를 0에서 1 사이의 수치로 표현한 것이다. p-value가 작을수록 그 정도가 약하다고 보며, 특정 값 (대개 0.05나 … …
  • Most searched keywords: Whether you are looking for 유의 확률 – 위키백과, 우리 모두의 백과사전 p-값(p-value)는 관찰된 데이터가 귀무가설과 양립하는 정도를 0에서 1 사이의 수치로 표현한 것이다. p-value가 작을수록 그 정도가 약하다고 보며, 특정 값 (대개 0.05나 …
  • Table of Contents:

정의[편집]

p값[편집]

같이 보기[편집]

각주[편집]

외부 링크[편집]

유의 확률 - 위키백과, 우리 모두의 백과사전
유의 확률 – 위키백과, 우리 모두의 백과사전

Read More

p-value의 의미 – 공돌이의 수학정리노트

  • Article author: angeloyeo.github.io
  • Reviews from users: 1011 ⭐ Ratings
  • Top rated: 3.3 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about p-value의 의미 – 공돌이의 수학정리노트 p-value는 이 검정 통계량에 관한 확률인데, 우리가 얻은 검정 통계량보다 크거나 같은 값을 얻을 수 있을 확률을 의미한다. 한 가지 짚고 넘어가야할 … …
  • Most searched keywords: Whether you are looking for p-value의 의미 – 공돌이의 수학정리노트 p-value는 이 검정 통계량에 관한 확률인데, 우리가 얻은 검정 통계량보다 크거나 같은 값을 얻을 수 있을 확률을 의미한다. 한 가지 짚고 넘어가야할 … p-value를 이용한 가설 검증 방법의 문제를 재밌게 보여주고 있는 만화 원본 그림: https://imgs.xkcd.com/comics/significant.pngp-value는 통계학에 기반한 과학적인 방법으로 연구를 수행하고 그 결과의 유의성을 확인하기 위해 매우 필요한…
  • Table of Contents:
p-value의 의미 - 공돌이의 수학정리노트
p-value의 의미 – 공돌이의 수학정리노트

Read More

[가설검정] P-value란?(어떤 사건이 우연히 발생할 확률)

  • Article author: bodi.tistory.com
  • Reviews from users: 49963 ⭐ Ratings
  • Top rated: 4.4 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about [가설검정] P-value란?(어떤 사건이 우연히 발생할 확률) P-value는 Probability-value의 줄임말로 확률 값을 뜻하며 어떤 사건이 우연히 발생할 확률을 말합니다. 예를 들어, P값이 0.05보다 작다는 것은 어떤 … …
  • Most searched keywords: Whether you are looking for [가설검정] P-value란?(어떤 사건이 우연히 발생할 확률) P-value는 Probability-value의 줄임말로 확률 값을 뜻하며 어떤 사건이 우연히 발생할 확률을 말합니다. 예를 들어, P값이 0.05보다 작다는 것은 어떤 … 통계의 기본 P-value 편! 통계를 공부하다보면 P-value에 따라 이 값은 유의하다, 유의하지 않다를 판단하는데 도대체 P-value가 무엇일까요? [이미지 링크] 어떤 사건이 우연히 발생할 확률이 얼마일까? 우선..
  • Table of Contents:

가설검정

P-value란

그래서 P-value를 어디에 사용하나요

P-value의 한계

태그

관련글

댓글0

공지사항

최근글

인기글

최근댓글

태그

전체 방문자

티스토리툴바

[가설검정] P-value란?(어떤 사건이 우연히 발생할 확률)
[가설검정] P-value란?(어떤 사건이 우연히 발생할 확률)

Read More

[Statistics] p-value 란?

  • Article author: data-make.tistory.com
  • Reviews from users: 4711 ⭐ Ratings
  • Top rated: 3.7 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about [Statistics] p-value 란? p-value 는 모집단 추론의 가설 검정에서 기각 혹은 채택을 결정할 수 있는 확률을 의미합니다. 95%의 신뢰구간(표준정규분포의 값이 [-1.96 ~ 1.96]인 … …
  • Most searched keywords: Whether you are looking for [Statistics] p-value 란? p-value 는 모집단 추론의 가설 검정에서 기각 혹은 채택을 결정할 수 있는 확률을 의미합니다. 95%의 신뢰구간(표준정규분포의 값이 [-1.96 ~ 1.96]인 … 참고글 : [Statistics/R] 모집단 추론, 추정 [Statistics] 가설 검정 및 추정 p-value  p-value 는 모집단 추론의 가설 검정에서 기각 혹은 채택을 결정할 수 있는 확률을 의미합니다. 95%의 신뢰구간(표준정규분..
  • Table of Contents:

티스토리 뷰

티스토리툴바

[Statistics] p-value 란?
[Statistics] p-value 란?

Read More

p-value란?

  • Article author: velog.io
  • Reviews from users: 45047 ⭐ Ratings
  • Top rated: 4.7 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about p-value란? 귀무가설을 기본적으로 참으로 두고 이를 기각할 수 있느냐 없느냐를 판단하도록 하는 값을 p-value라고 합니다. 다시 말해 p-value는 귀무가설을 … …
  • Most searched keywords: Whether you are looking for p-value란? 귀무가설을 기본적으로 참으로 두고 이를 기각할 수 있느냐 없느냐를 판단하도록 하는 값을 p-value라고 합니다. 다시 말해 p-value는 귀무가설을 … Q: p-value를 모르는 사람에게 설명한다면 어떻게 설명하실 건가요?
  • Table of Contents:
p-value란?
p-value란?

Read More

기준에 관하여 – 기준이 있으면 흔들리지 않습니다. : 네이버 블로그

  • Article author: blog.naver.com
  • Reviews from users: 1935 ⭐ Ratings
  • Top rated: 3.6 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 기준에 관하여 – 기준이 있으면 흔들리지 않습니다. : 네이버 블로그 즉, p-value가 작으면 작을수록 a에서 일어났을 확률이 작다는 것이며, 따라서 b에서 뽑았을 가능성이 상대적으로 높아진다. 결과적으로 p-value가 작으면 … …
  • Most searched keywords: Whether you are looking for 기준에 관하여 – 기준이 있으면 흔들리지 않습니다. : 네이버 블로그 즉, p-value가 작으면 작을수록 a에서 일어났을 확률이 작다는 것이며, 따라서 b에서 뽑았을 가능성이 상대적으로 높아진다. 결과적으로 p-value가 작으면 …
  • Table of Contents:
기준에 관하여 - 기준이 있으면 흔들리지 않습니다. : 네이버 블로그
기준에 관하여 – 기준이 있으면 흔들리지 않습니다. : 네이버 블로그

Read More

[통계] p-value란 무엇인가? 짧고 굵은 기본개념!

  • Article author: pro-jm.tistory.com
  • Reviews from users: 43962 ⭐ Ratings
  • Top rated: 4.1 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about [통계] p-value란 무엇인가? 짧고 굵은 기본개념! p value란, 귀무가설이 맞다는 전제하에 통계값이 관측값 이상일 확률을 말한다. 가설검증이란 표본데이터의 평균이 전체 데이터의 평균을 잘 반영 … …
  • Most searched keywords: Whether you are looking for [통계] p-value란 무엇인가? 짧고 굵은 기본개념! p value란, 귀무가설이 맞다는 전제하에 통계값이 관측값 이상일 확률을 말한다. 가설검증이란 표본데이터의 평균이 전체 데이터의 평균을 잘 반영 … p value란, 귀무가설이 맞다는 전제하에 통계값이 관측값 이상일 확률을 말한다. 가설검증이란 표본데이터의 평균이 전체 데이터의 평균을 잘 반영한다는 가정 하에 데이터의 평균을 구하는것이다. 아무리 무작위..
  • Table of Contents:

‘통계통계지식’ Related Articles

티스토리툴바

[통계] p-value란 무엇인가? 짧고 굵은 기본개념!
[통계] p-value란 무엇인가? 짧고 굵은 기본개념!

Read More

p value의 의미 > BRIC

  • Article author: m.ibric.org
  • Reviews from users: 18534 ⭐ Ratings
  • Top rated: 3.6 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about p value의 의미 > BRIC P value에서 P는 probability를 의미합니다. P value는 0 ~ 1 사이의 값을 갖는데, 간단히 설명하면 P value가 낮으면 낮을수록 우연에 의해 얻어진 결과 … …
  • Most searched keywords: Whether you are looking for p value의 의미 > BRIC P value에서 P는 probability를 의미합니다. P value는 0 ~ 1 사이의 값을 갖는데, 간단히 설명하면 P value가 낮으면 낮을수록 우연에 의해 얻어진 결과 … 논문을 읽던 중, 신물질A, B에 대한 세포증식 테스트 실험에서 p<0.05 라는 표현이 있었습니다.이것이 의미하는 바는...BRIC, 생물학연구정보센터, p value
  • Table of Contents:
p value의 의미 > BRIC” style=”width:100%”><figcaption>p value의 의미 > BRIC</figcaption></figure>
<p style=Read More

갈아먹는 통계 기초[4] 가설, 검정, p-value

  • Article author: yeomko.tistory.com
  • Reviews from users: 46962 ⭐ Ratings
  • Top rated: 3.8 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 갈아먹는 통계 기초[4] 가설, 검정, p-value p-value를 쉬운 말로 간단히 설명하고 넘어가겠습니다. 유의 확률이라는 말에서 알 수 있듯이 이는 가설이 얼마나 그럴듯 한지를 나타내주는 값이며 0부터 … …
  • Most searched keywords: Whether you are looking for 갈아먹는 통계 기초[4] 가설, 검정, p-value p-value를 쉬운 말로 간단히 설명하고 넘어가겠습니다. 유의 확률이라는 말에서 알 수 있듯이 이는 가설이 얼마나 그럴듯 한지를 나타내주는 값이며 0부터 … 지난 글 갈아먹는 통계 기초[1] 확률 분포 정리 갈아먹는 통계 기초[2] 공분산과 피어슨 상관계수 갈아먹는 통계 기초[3] 표본 추출 들어가며 우리는 지금까지 데이터를 특정한 확률 분포를 가진 확률 변수로 모형..
  • Table of Contents:

갈아먹는 머신러닝

갈아먹는 통계 기초[4] 가설 검정 p-value 본문

갈아먹는 통계 기초[4] 가설, 검정, p-value
갈아먹는 통계 기초[4] 가설, 검정, p-value

Read More


See more articles in the same category here: https://chewathai27.com/to/blog.

p-value란 무엇인가

p-value는, 귀무가설(null hypothesis, H 0 )이 맞다는 전제 하에, 통계값(statistics) 이 실제로 관측된 값 이상일 확률을 의미한다.

일반적으로 p-value는 어떤 가설을 전제로, 그 가설이 맞는다는 가정 하에, 내가 현재 구한 통계값이 얼마나 자주 나올 것인가, 를 의미한다고 할 수 있다. p-value는 가설검정이라는 것이 전체 데이터를 갖고 하는 것이 아닌 sampling 된 데이터를 갖고 하는 것이기 때문에 필요하게 되는데, 다음과 같은 경우를 살펴 보자.

다음과 같이 모분포가 10,000 개의 값으로 되어 있다고 하자.

그림 1. 평균 100.3023 을 갖는 모분포의 도수분포표.

그림 1. 평균 100.3023 을 갖는 모분포의 도수분포표.

위 모분포의 평균은 100.3023 이다. 가설 검증이라는 것은 모분포를 전부 검증할 수 없기 때문에 모분포에서 일부만 추출하여(그렇게 추출된 것을 sample이라 하자) 검사한 후, sample로부터 모분포의 특성을 추정하는 절차이다. 위의 10,000 개가 전체인 모분포에서 100 개만을 sampling 한다고 해보자. 실제 통계검사라는 것이 그렇다. 인구 전체를 다 검사할 수 없으니 일부만을 추출하여 검사하는 것이다. 이 예에서도 전체 10,000 개를 다 검사할 수 없으니 100 개만 선택해서 검사한다고 해보자.100 개를 선택하여 구한 평균이 모분포의 평균과 유사할까? 그렇다고 말할 수 없다. 왜냐 하면, 내가 100 개를 고를 때 다음과 같은 곳에 있는 것들이 선택될 수도 있기 때문이다.

그림 2. sampling 의 예. 푸른 네모로 선택된 자료가 sampling 된다면

평균은 150 이 넘게 나올 것이다. 이것은 모분포의 평균과 많이 다르다.

sampling 된 데이터의 평균은 모분포의 평균과 얼마나 유사할 것인가?

위의 경우처럼, 내가 100 개를 선택했을 때 그 100 개의 평균이 모분포의 평균에 근접한 것이 골라졌다고 말할 수 없는 경우가 얼마든지 발생할 수 있다. 따라서, 문제는 이것이다.실제로 위의 예에서, 10,000 개의 모분포에서 100 개를 sampling 하는 과정을 1,000 번 반복하여 각각의 경우에 대한 평균의 분포를 그려 보면 다음과 같다.

그림 3. 100 개를 sampling 할 때마다 평균을 구하는 작업을 1,000 번

해서 100 개의 평균을 그때그때 구한 후, 그 1,000개의 값을 도수분포표로 나타낸 그림.

위의 예제를 위한 C++ 코드

접기 #include #include #include #include #include #include bool box_muller(int sampling_num, double* dest) { int i = 0; const double pi = 3.1415926535; double int_max = (double)(INT_MAX); // 윈도우즈의 경우 MAX_INT 사용. while(i < sampling_num){ double u1 = (rand()%INT_MAX)/int_max; // 윈도우즈의 경우 MAX_INT 사용. double u2 = (rand()%INT_MAX)/int_max; // 윈도우즈의 경우 MAX_INT 사용. double a = sqrt(-2.0*log(u1)); double b = 2*pi*u2; dest[i++] = a*sin(b); if(i == sampling_num) break; dest[i++] = a*cos(b); if(i == sampling_num) break; } return true; } int main(int argc, const char* argv[]) { srand(time(NULL)); double* norm_population = new double[10000]; box_muller(10000,norm_population); int i = 0; std::vector population; double v = 30; // variance. double m = 100; // average. std::ofstream out(“population.txt”); for(i = 0; i<10000; i++){ population.push_back(norm_population[i]*v + m); out << (double)(norm_population[i]*v + m) << std::endl; } delete norm_population; double var = 0; double mean = 0; get_mean_variance(population, &mean, &var); std::cout << "population " << mean << '\t' << var << std::endl; for(i = 0; i<1000; i++){ std::random_shuffle(population.begin(), population.end()); std::vector sample(population.begin(), population.begin() + 100); get_mean_variance(sample, &mean, &var); std::cout << mean << std::endl; } return 0; } 접기 위 코드에 필요한 statutil 파일들 statutil.cpp statutil.h 내가 sampling한 데이터의 평균이 96.95 인데, 이것이 모평균이 90 이라는 것을 지지할 수 있을까? 즉, 가끔이기는 하지만 내가 sampling 한 100 개의 데이터의 평균이 92 가 안 나올 때도 있고 가끔은 108 이 넘어갈 때도 있는 것이다. 물론 많은 경우 100 근처에서 나오기는 한다 . 이 상황에서 이제 다음과 같은 문제가 생긴다. 무턱대고 그럴 수는 없다. 왜냐 하면, sampling 된 데이터의 평균이 96.95 인 것은 평균이 100 인 위 예의 분포에서도 충분히 나올 수 있는 값이므로 모평균이 몇인지 명확히 알 수 없기 때문이다. 정리를 하면, 가설검증이라는 것은 전체 데이터의 일부만을 추출하여 평균을 내고, 그 평균이 전체 데이터의 평균을 잘 반영한다는 가정 하에 전체 데이터의 평균을 구하는 작업인데, 아무리 무작위 추출을 잘 한다 하더라도 추출된 데이터의 평균은 전체 데이터의 평균에서 멀어질 수 있게 된다. 따라서, 내가 추출한 이 데이터의 평균이 원래의 전체 데이터의 평균과 얼마나 다른 값인지를 알 수 있는 방법이 필요하게 된다. 이와 같은 문제 때문에 나온 값이 p-value 이다. 쉽게 알 수 있도록 극단적인 예를 하나 들어 보자. 만약 모분포가 그림 1 과 같아서 평균이 100 이고 분산이 30(실제로 30이다)인 데이터에서 50 개를 sampling 한다고 할 때, 그 50개의 평균이 1 이 나올 경우는 얼마나 될까? 실제 그림에서도 그렇고, 생각으로도 그렇고 아마 그런 경우는 나오긴 나와도 거의 안 나올 것이다. 반대로, sampling 된 50 개의 데이터의 평균이 500 일 확률은? 데이터에 500 이 넘는 자료가 없다면 모를까, 그런 경우가 아주 안 나온다고 말할 수는 없겠지만, 아주 희박하게 나온다는 것은 짐작할 수 있고, 실제로도 그렇다. 즉, 우리는 평균이 100 이라는 가정 하에서는 sampling 된 데이터의 평균이 100 근처에 있을 것이라는 생각을 하게 되고, 따라서, 역으로, sampling 된 데이터의 평균이 100 에서 멀면 멀수록 모분포의 평균이 100 이 아닐지도 모른다는 생각을 하게 된다. 이것이 정확히 p-value 가 나온 논리이며, 그 의미이다. 즉, "모분포의 평균이 100 이다"라는 귀무가설이 참이라는 가정 하에서, 100 개의 데이터를 sampling 할 때 이론적으로 나올 수 있는 평균의 분포에서, 지금 내가 갖고 있는 값인 95 보다 큰 값이 나올 수 있는 확률. 그것이 p-value 이다. 위의 예에서 본 것과 같이, 만약 그럴 확률이 매우 낮다면 우리는 귀무가설을 기각할 수 있게 된다. 왜냐 하면, 우리는, 우연히 발생할 가능성이 매우 희박한 사건이 실제로 발생했을 경우, 그것은 우연이 아니라고 생각하는 경향이 있고, p-value 역시 그와 같은 경향을 따른 것이기 때문이다. 시험에서 우연히 100 점을 받을 확률은 매우 낮은데 정말로 100 점을 받은 사람이 있다면, 그가 우연히 100 점을 받았다고 생각하기보다는 '우연히' 100 점을 받은 것은 아니라고 생각한다. 또한 로또를 연속 5번 맞춘 사람이 있다면, 우연히 그런 일이 일어날 가능성은 매우 작으므로 그 일은 우연이 아니라고 생각하고, 뭔가 모종의 음모가 있다고 의심해 보게 된다. 다시 예를 들면, 내가 50 개의 데이터를 추출했고 그 평균이 95 이다. 나는 아마도 이 데이터가 평균이 100 이고 분산이 30 인 모분포 P에서 왔을 것 같다. 그런데 평균이 100 이고 분산이 30 인 모분포에서 50 개를 추출할 때 그 50개의 평균이 95가 나올 확률(A)이 0.001 이라면? 즉, 평균이 100, 분산이 30인 모분포에서 50개를 선택했을 때 평균이 95가 나오는 경우가 매우 드물다면, 아마도 내가 갖고 있는 데이터는 P에서 왔다고 말하기 조금 꺼려진다. 반대로 그럴 확률(A)이 0.65 라면, 그렇다면 이런 경우는 그리 어려운 일이 아니므로 그럴듯 하다. 즉, 우리는 통계적으로 일어나기 매우 어려운 일이 일어났을 때, 그 일은 아마도 우연히 일어났다기 보다는 다른 이유 때문에 일어났다고 생각한다. 즉, 평균이 100, 분산이 30인 모분포에서 50개를 추출했는데 그 평균이 95였다, 그런데 이런 경우 평균이 95이거나 그보다 클 확률이 0.00001 밖에 안 된다면, 아마도 이렇게 확률이 적은 일이 지금 실제로 일어났다고 생각하기 보다는 애초에 가졌던 가설, 즉, 데이터 50개를 추출한 모분포가 평균이 100 이고 분산이 30 이다, 이 가설이 아닐 것이라고 생각한다는 것이다. 이쯤에서 다시 p-value의 정의를 살펴 보면, p-value는 귀무가설이 맞다는 전제 하에, 관측된 통계값 혹은 그 값보다 큰 값이 나올 확률이다. 따라서 p-value가 너무 낮으면, 그렇게 낮은 확률의 사건이 실제로 일어났다고 생각하기 보다는 귀무가설이 틀렸다고 생각하게 된다. 그래서 귀무가설을 기각하고 대립가설을 채택하게 된다. 그림으로 보면 다음과 같다. 그림 4. p-value의 개념. 이론적으로 가능한 통계값의 분포에서, 실제로 관측한 통계값 이상이 나올 확률. 그림에서 보면, 실제로 가능한 m(평균)의 분포가 위와 같을 때, 내가 구한 평균이 m2 라면 p-value가 매우 작다. 이럴 경우, 그렇게 희박한 일이 실제로 일어났다고 하기 보다는 저 이론적 분포를 가져온 가설(귀무가설)이 잘못되었다고 생각하겠지. 반대로 m1과 같이 귀무가설 하에선 별스럽지 않은 일이라면 아마도 귀무가설이 맞을 것이다. 위에서는 물론 주로 평균만을 갖고 예를 들었으나, 당연히 평균과 분산이 동시에 주어져야 위와 같은 가설검증을 할 수 있다. 또한, 모분포의 평균과 분산이 몇 일 것이다, 란 조건이 있으면, 거기서 n 개를 sampling 했을 때 그 n 개의 평균이 얼마나 잘 나올 수 있는 값인지는 중심극한정리와 표준정규분포의 성질을 이용하여 정확히 계산가능하다. 따라서 그 경우마다 p-value를 구할 수 있게 된다. 자, 그렇다면 p-value 에 대한 다음의 오해들 - 위키에서 가져옴 - 을 생각해 보자. 1. p-value는 귀무가설이 참일 확률이 아니다 : 귀무가설이 참일 확률은 구할 수 없다. 2. p-value는 통계값이 우연일 확률이 아니다 : p-value가 낮아도 귀무가설이 참일 수 있고, p-value가 높아도 귀무가설은 틀릴 수 있다. 3. p-value는 귀무가설을 기각하면 안되는데 기각할 확률이다 : 길어서 뒤로 뺌. 4. p-value는 반복실험을 했을 때 동일하지 않은 결론이 나오는 확률이 아니다 : 100 번을 sampling 하면 5번 정도는 p-value 0.05 에 걸리겠지. 이 경우, 95번은 귀무가설 채택, 5번은 기각, 이라는 것은 p-value 0.05 를 기준으로 그 이하는 좀 일어나기 어려우니까 그냥 귀무가설이 틀렸다고 하자, 라는 가정 때문이지 p-value 때문은 아니다. 5. 1-(p-value)는 대립가설이 맞을 확률이 아니다 : p-value와 대립가설은 별로 관련이 없다. 순전히 '귀무가설이 맞다는 전제 하에' 나온 값이 p-value이고, p-value를 구함에 있어 대립가설은 그 어디에서도 작용하지 않는다. 6. significance level은 p-value에 의해 결정되는 것이 아니다 : alpha는 연구자의 주관이며, 관례적으로 0.05, 0.01 을 사용할 뿐이지. 난 microarray 가 지저분하기 때문에 0.10 정도를 사용할 때도 있다. 7. 생략. 3. p-value는 귀무가설을 기각하면 안되는데 기각할 확률이다 : 아무래도 가장 혼란스러운 오해가 아닌가 십다. 귀무가설을 잘못 기각했는지, 아니면 맞게 기각했는지는 확인할 수 없다. 즉, 귀무가설을 잘못 기각했다는 것은 확률값이 아니다. 귀무가설이 맞다는 전제 하에 나온 분포에서 무엇인가를 하는 것이기 때문에, 그리고 p-value가 0.001 이에서 귀무가설을 기각했다고 해서 그것이 귀무가설이 맞음에도 불구하고 p-value가 낮았기 때문에 기각했다고는 말히기는 좀 어려운데 왜냐 하면 그 0.1%의 경우에 대해서 귀무가설이 사실은 맞은 가설인지를 확인할 방법이 없기 때문이다. 그리고 정의상 p-value는 그런 개념이 아니다. 만약 애초에 귀무가설이 틀렸다고 해보자. 그런 상황에서도 여전히 p-value는 구해지는데, 그런 p-value가 과연 귀무가설을 잘못 기각한 확률이 되는가? 아마도 3번과 같은 오류는, 귀무가설이 맞다는 전제 하에 모든 일이 이루어진다면 맞는 말이긴 한데, 애초부터 귀무가설이 틀릴 수도 있고, 그렇더라도 p-value는 여전히 구해지기 때문에 뭐라 말할 수 없게 되는 것이다. 자, 이제 위의 일반적인 경우에 더해서, pearson's correlation coefficient (PCC) 에 대한 p-value를 생각해 보자. 왜 이런 문제가 생기느냐 하면, 비록 모분포에서는 pcc가 거의 0 에 가깝다고 하더라도 우연히 PCC가 좀 크게 sampling 될 수도 있기 때문이다. 다음과 같다. 위의 데이터는 딱 봐도 PCC가 0에 가깝다는 것을 알 수 있다. 실제로 계산해 보면 0.00395613이 나온다. 위의 데이터를 모분포 라 하자. 데이터는 10,000 개 이다. 위와 같은 모분포에서 100 개의 데이터만 무작위로 선택하여 PCC를 계산하는 과정을 1,000 번을 하면 PCC의 분포는 다음과 같다. 위의 예제를 위한 C++ 코드 접기 #include #include #include #include #include int main(int argc, const char* argv[]) { srand(time(NULL)); std::vector x_list; std::vector y_list; std::vector idx; int i = 0; std::ofstream out(“scatter.txt”); for(i = 0; i<10000; i++){ double theta = rand()%360*3.1415926535/180.0; double r = rand()%50; double x = r*cos(theta); double y = r*sin(theta); x_list.push_back(x); y_list.push_back(y); out << x << '\t' << y << std::endl; idx.push_back(i); } double corr = 0; get_correlation(&x_list, &y_list, &corr, NULL, NULL, NULL); std::cout << "Population pcc : " << corr << std::endl; for(i = 0; i<1000; i++){ std::random_shuffle(idx.begin(), idx.end()); int j = 0; std::vector x; std::vector y; for(j = 0; j<100; j++){ x.push_back(x_list[idx[j]]); y.push_back(y_list[idx[j]]); } get_correlation(&x, &y, &corr, NULL, NULL, NULL); std::cout << corr << std::endl; } return 0; } 접기 내가 100 개의 데이터로부터 PCC를 구했더니 0.15가 나왔다. 이 0.15 라는 값은 통계적으로 유의미한 값인가? 즉, 원래의 모분포는 PCC가 0 인데 위의 경우처럼 우연히 0.15가 나온 것인가, 아니면 정말로 모분포의 PCC가 0 이 아니기 때문에 0.15가 나온 것인가? 즉, 전체 10,000 개의 데이터인 모분포는 비록 PCC가 0.00395613 이지만, 그 1만개의 모분포에서 100 개만을 sampling 해서 PCC를 계산한다면 가끔씩은 0.2가 넘는 값이 나올 수도 있는 것이다. 자, 이 예제에서 모분포의 PCC가 0.00395613 이 아니라 0 이라고 해보자. 그러더라도 100 개를 sampling 하는 작업을 한 PCC의 분포는 위의 분포와 크게 달라지지 않을 것이다. 이제, 다음과 같은 문제가 발생한다. 왜 위와 같은 문제가 발생하느냐 하면, 위 예제 데이터로 보여준 것과 같이 비록 PCC가 0 이더라도 sampling 을 하게 되면 우연히 PCC 가 0.2 가 넘게 나올 수도 있기 때문이다. 따라서 내가 현재 갖고 있는 0.15라는 값이 과연 그렇게 우연히 나온 값인지, 아니면 정말로 PCC가 0 이 아니기 때문에 나온 값인지 궁금하게 된다. 궁금해 할 수 있어야 한다. 바로 위와 같은 경우 때문에 pearson's correlation coefficient 에서도 p-value라는 것이 필요하게 되는 것이다. 그리고, 이 경우, 통계값으로 pcc 가 사용되었다. 만약 이와 같은 상황에서 pcc=0.35에 대한 p-value 가 0.001 이 나왔다면, 귀무가설인 pcc = 0 인 상황에서는 아무리 여러 번 sampling 해도 우연히 pcc가 0.35가 잘 나오기 힘드니까 그런 일이 지금 일어났다고 생각하기 보다는 애초에 pcc=0 이라는 가정이 틀린 것이고, 따라서 p == 0 은 아니라고 생각하는 편이 좀 더 합리적이라는 결론에 도달하게 된다.

위키백과, 우리 모두의 백과사전

양쪽 꼬리 유의 확률의 정의

오른쪽 꼬리 유의 확률의 정의

통계적 가설 검정에서 유의 확률(有意 確率, 영어: significance probability, asymptotic significance) 또는 p-값(영어: p-value, probability value)은 귀무가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률이다. 실험의 유의확률은 실험의 표본 공간에서 정의되는 확률변수로서, 0~1 사이의 값을 가진다.

p-값(p-value)은 귀무 가설(null hypothesis)이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 ‘같거나 더 극단적인’ 통계치가 관측될 확률이다. 여기서 말하는 확률은 ‘빈도주의’ (frequentist) 확률이다.

p-값(p-value)는 관찰된 데이터가 귀무가설과 양립하는 정도를 0에서 1 사이의 수치로 표현한 것이다. p-value가 작을수록 그 정도가 약하다고 보며, 특정 값 (대개 0.05나 0.01 등) 보다 작을 경우 귀무가설을 기각하는 것이 관례이나 여기에는 여러 가지 문제들이 있다.[1] 이러한 문제들로부터 일단의 과학자들은 유의확률(P값)을 0.05의 관례에서 0.005로 높일것을 권고하는 개선안의 실시를 촉구한바있다.[2] 이러한 재정의에 따른 교정의 효과는 기존의 0.05~0.005의 P값을 ‘제안적 증거'(suggestive evidence)로 표현하고 0.005이하의 P값에서 ‘유의미'(significant)하다는 표현을 사용할 것으로 권고하고있다.

정의 [ 편집 ]

주어진 표본의 유의 확률은 귀무가설을 가정하였을 때 표본 이상으로 극단적인 결과를 얻을 확률이다. 여기서 “더 극단적”이라는 것은 정의에 따라 다르다. 예를 들어, 정규분포의 경우, 귀무가설을 가정한 실수 확률변수 X : P → R {\displaystyle X\colon \mathbb {P} \to \mathbb {R} } 와 표본 x ∈ R {\displaystyle x\in \mathbb {R} } 에 대하여 왼쪽 꼬리 유의 확률(영어: left-tail p-value)

p L ( x ) = Pr ( X ≤ x ) {\displaystyle p_{\text{L}}(x)=\Pr(X\leq x)}

및 오른쪽 꼬리 유의 확률(영어: right-tail p-value)

p R ( x ) = Pr ( X ≥ x ) {\displaystyle p_{\text{R}}(x)=\Pr(X\geq x)}

및 양쪽 꼬리 유의 확률(영어: double-tail p-value)

p D ( x ) = Pr ( x ≥ X ∨ 2 E ⁡ ( X ) − x < X ) {\displaystyle p_{\text{D}}(x)=\Pr(x\geq X\lor 2\operatorname {E} (X)-x

p-value의 의미

p-value를 이용한 가설 검증 방법의 문제를 재밌게 보여주고 있는 만화

원본 그림: https://imgs.xkcd.com/comics/significant.png

p-value는 통계학에 기반한 과학적인 방법으로 연구를 수행하고 그 결과의 유의성을 확인하기 위해 매우 필요한 도구 중 하나이다. 하지만 많은 연구자들이 p-value를 잘못 사용하고 있거나, 어떤 경우 고의적으로 p-value의 특성을 이용해 연구 결과를 부풀리는 경우가 있다.

이번 article에서는 p-value의 의미와 대표적인 오용 사례에 대해 짚어보고자 한다.

p-value의 의미

우선은 조금은 딱딱하지만, p-value의 수학적 의미부터 짚고 넘어가보도록 하자. 그 후에 차근 차근 p-value에 대한 내용을 후려처서 좀 더 쉽게 이해해볼 수 있도록 하자.

가령 우리가 두 표본 집단의 특징값의 평균이 통계적으로 유의한 차이가 있는지 검증하자. 이 때, 두 표본 집단으로부터 검정 통계량(가령, t-value)을 계산해낼 수 있다.

p-value는 이 검정 통계량에 관한 확률인데, 우리가 얻은 검정 통계량보다 크거나 같은 값을 얻을 수 있을 확률을 의미한다.

한 가지 짚고 넘어가야할 매우 중요한 포인트 중 하나는 우리가 계산하는 검정 통계량들은 거의 대부분이 귀무가설을 가정하고 얻게되는 값이라는 것이다.

다시 말해 두 표본 평균의 차이를 검증한다고 할 때, 두 표본 집단의 모집단은 같다는 가정을 전제한다.

그러므로, p-value가 말하고자 하는 것을 대략적으로나마 가벼운 말로 풀어쓰자면 다음과 같다고 할 수 있다.

“우리가 얻은 데이터에 있는 두 표본 집단이 같은 모집단에서부터 나온거라고 치자.

그랬을 때, 우리가 이런 검정 통계량(가령, t-value)을 얻었는데 이게 얼마나 말이되는거냐?”

p-value의 편리함

사람들은 편리한 것을 좋아한다. 비단 생활에서 뿐만 아니라 연구분야에서도 마찬가지로 누구나 연구 결과를 복잡하게 설명하는 것 보다 최대한 쉽고, 간결하게 설명하는 것을 좋아한다.

두 표본 집단의 차이를 비교하여 결과를 낸 연구가 있다고 해보자. 우리는 여러가지 방법으로 두 표본 집단의 차이에 대해 서술할 수 있다.

모든 데이터 값들을 다 적어놓는 방식도 있을 수 있고, 두 데이터의 histogram을 그려서 시각적으로 보여주는 방법도 가능할 것 같다. 그렇지만, 이러한 방법들은 엄밀성이 배제되어 있다는 점에서 한계점이 분명하다.

그래서 엄밀성을 담보하기 위해 나온 개념이 검정 통계량이다.

검정 통계량 t-value를 어떻게 계산했더라?

다시 한번 생각해보면 상당히 일리가 있음을 알 수 있다. t-value는 두 표본에 대해서 표본 집단 평균 간의 차이에, 그 차이에 대한 불확실도를 나눠줌으로써 집단간의 차이와 이 차이가 얼마나 확실한지를 한꺼번에 설명해주고 있다.

그래서 검정 통계량만을 제시함으로써 엄밀하고도 편리한 방식으로 두 표본 집단간의 차이를 표현할 수 있게 되었다.

그런데 또 하나의 문제가 더 있었다. t-분포는 표본수(즉, 자유도)에 따라 모양이 다르다보니 같은 t-value라고 하더라도 표본 수에 따라서 표본 간의 차이가 충분히 크다고 할 수도 있고 그렇지 않다고도 할 수 있는 것이다.

이런 과정을 생각해보면 왜 p-value와 같은 ‘확률’로 유의성을 점검할 수 있는 지표로 기재했는지 알 수 있다. 표본수에 상관없이, 검정통계량의 분포의 모양에 상관없이 확률이라는 값 하나만 기재해두면 헷갈릴 이유가 없는 것이다.

확률은 정규화된 값이므로 하나의 기준치만 정해져있으면 실험 결과의 유의성을 한눈에 파악하기 좋다. 보통은 5% 기준을 많이 사용한다. 그래서 p-value가 5%보다 작으면 유의한 차이가 있다고 얘기한다.

편리함의 역효과

p-value는 검정통계량이 압축적으로 담고있던 정보를 더 압축했다.

즉, p-value는 효과의 크기(effect size)와 표본의 크기(n 수)의 정보를 한꺼번에 담고있다.

따라서 효과의 크기가 커지거나 표본의 크기가 커지거나 둘 중 하나만 변하더라도 p-value는 마치 유의한 차이를 담보할수 있을 것 마냥 작아지는 것을 알 수 있다.

효과의 크기(effect size) ex) 표본 평균간의 차이

그림 1. 동일한 n수에 대해 effect size가 변함으로써 p-value가 변한다.

표본의 크기(n 수) ex) t-value에서 표본의 크기는 불확실도, 자유도에 모두 포함된 개념이다.

그림 2. 동일한 effect size 대해 n수가 변함으로써 p-value가 변한다.

그림 1과 2를 보면 effect size가 변해서 p-value가 작아지는 현상 뿐만 아니라 n수가 커짐으로써 p-value가 작아지는 현상도 확인할 수 있다.

즉, 실제로 한 모집단에서 두 표본 집단이 나왔음에도 p-value는 0.05보다 낮을 수 있으며, 귀무가설이 기각되어 대립 가설이 채택됨에도 불구하고 대립 가설이 참이 아닐 수도 있다.

최근에는 과학 기술의 발전으로 수 많은 n수의 데이터를 쉽게 얻을 수 있게 되는 연구들도 많아지고 있으니 통계적 검증 단계에서 p-value를 맹신하지 않도록 특히 주의를 기울여야 할 것으로 보인다.

참고문헌

So you have finished reading the p value 란 topic article, if you find this article useful, please share it. Thank you very much. See more: p-value 쉽게, p-value 공식, 논문 p-value 표시, p-value 0.05 의미, p value 귀무가설, p-value 범위, p-value 작을수록, p-value 0 의미

Leave a Comment