Top 5 데이터 상관 관계 분석 All Answers

You are looking for information, articles, knowledge about the topic nail salons open on sunday near me 데이터 상관 관계 분석 on Google, you do not find the information you need! Here are the best content compiled and compiled by the Chewathai27.com/to team, along with other related topics such as: 데이터 상관 관계 분석 파이썬 데이터 상관관계 분석, 파이썬 시계열 데이터 상관 관계 분석, 엑셀 데이터 상관관계 분석, 상관관계 분석 예시, 다중상관분석, 피어슨 상관관계 분석, 파이썬 시계열 상관관계 분석, 다변수 상관관계 분석


상관관계분석feat.두 데이터 집합사이의 상관계수 구하기
상관관계분석feat.두 데이터 집합사이의 상관계수 구하기


데이터 상관 관계 분석

  • Article author: tech.onepredict.ai
  • Reviews from users: 9283 ⭐ Ratings
  • Top rated: 4.1 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 데이터 상관 관계 분석 시계열 데이터에도 다양한 전처리 방법들이 있지만, 데이터들 간의 연관성이 높은 터빈 데이터에서는 시간에 따른 상관관계의 변화를 파악하는 것이 중요합니다. …
  • Most searched keywords: Whether you are looking for 데이터 상관 관계 분석 시계열 데이터에도 다양한 전처리 방법들이 있지만, 데이터들 간의 연관성이 높은 터빈 데이터에서는 시간에 따른 상관관계의 변화를 파악하는 것이 중요합니다.
  • Table of Contents:
데이터 상관 관계 분석
데이터 상관 관계 분석

Read More

[SPSS 22] 상관분석(Correlation Analysis) : 네이버 블로그

  • Article author: blog.naver.com
  • Reviews from users: 34470 ⭐ Ratings
  • Top rated: 4.1 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about [SPSS 22] 상관분석(Correlation Analysis) : 네이버 블로그 상관분석에는 두 변수 사이의 선형적인 관계 정도를 나타내기 위해 상관계수(correlation coefficient)를 사용한다. 상관분석에는 측정 데이터에 따라 … …
  • Most searched keywords: Whether you are looking for [SPSS 22] 상관분석(Correlation Analysis) : 네이버 블로그 상관분석에는 두 변수 사이의 선형적인 관계 정도를 나타내기 위해 상관계수(correlation coefficient)를 사용한다. 상관분석에는 측정 데이터에 따라 …
  • Table of Contents:

blog

악성코드가 포함되어 있는 파일입니다

작성자 이외의 방문자에게는 이용이 제한되었습니다

[SPSS 22] 상관분석(Correlation Analysis) : 네이버 블로그
[SPSS 22] 상관분석(Correlation Analysis) : 네이버 블로그

Read More

상관관계란 무엇인가? | 통계 소개 | JMP

  • Article author: www.jmp.com
  • Reviews from users: 10395 ⭐ Ratings
  • Top rated: 4.0 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 상관관계란 무엇인가? | 통계 소개 | JMP 상관관계 분석의 제한 사항은 무엇인가요? 상관관계는 탐색되는 2개 변수 … 상관관계는 데이터 간 단순 관계를 설명하는 데 유용합니다. 예를 들어 산지 공원에 있는 … …
  • Most searched keywords: Whether you are looking for 상관관계란 무엇인가? | 통계 소개 | JMP 상관관계 분석의 제한 사항은 무엇인가요? 상관관계는 탐색되는 2개 변수 … 상관관계는 데이터 간 단순 관계를 설명하는 데 유용합니다. 예를 들어 산지 공원에 있는 … 상관관계는 두 개 변수가 일정 비율로 함께 변하는 정도를 나타내는 통계적 측도입니다.
  • Table of Contents:

상관관계란 무엇인가

상관관계는 어떻게 측정하나요

상관관계 분석의 제한 사항은 무엇인가요

상관관계는 데이터에 관련성이 있는지를 설명합니다

상관관계 수치는 무엇을 의미하나요

산점도를 사용하여 상관관계 시각화

좀 더 복잡한 관계는 어떨까요

상관관계란 무엇인가? | 통계 소개 | JMP
상관관계란 무엇인가? | 통계 소개 | JMP

Read More

[Data Analysis] 14. 상관분석 (Correlation Analysis)

  • Article author: velog.io
  • Reviews from users: 35006 ⭐ Ratings
  • Top rated: 3.9 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about [Data Analysis] 14. 상관분석 (Correlation Analysis) 1. 개요 두 양적 자료 간에 통계적으로 직선의 관계(선형의 관계)가 있는지 검정하는 방법 선형적으로 증가 혹은 감소하는지를 나타냄 두 변수간의 … …
  • Most searched keywords: Whether you are looking for [Data Analysis] 14. 상관분석 (Correlation Analysis) 1. 개요 두 양적 자료 간에 통계적으로 직선의 관계(선형의 관계)가 있는지 검정하는 방법 선형적으로 증가 혹은 감소하는지를 나타냄 두 변수간의 … 1. 개요
    두 양적 자료 간에 통계적으로 직선의 관계(선형의 관계)가 있는지 검정하는 방법
    선형적으로 증가 혹은 감소하는지를 나타냄
    두 변수간의 연관된 정도를 나타낼 뿐 인과관계를 설명하는 것이 아님
    인과관계는 회귀분석을 통해 확인할 수 있음

    2. 상관계수 행렬도

  • Table of Contents:

Data Analysis

1) 정규성 검정

2) 가설

3) 참고

[Data Analysis] 14. 상관분석 (Correlation Analysis)
[Data Analysis] 14. 상관분석 (Correlation Analysis)

Read More

[Python] 상관분석(Correlation Analysis), [산점도, 공분산, 상관계수, 검정]

  • Article author: ordo.tistory.com
  • Reviews from users: 36231 ⭐ Ratings
  • Top rated: 3.1 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about [Python] 상관분석(Correlation Analysis), [산점도, 공분산, 상관계수, 검정] 이번 예시에서는 당뇨와 그에 영향을 미치는 변수들 간의 관계를 분석해 보죠. 먼저 데이터는 sklearn에서 제공하는 datasets을 불러왔습니다. import … …
  • Most searched keywords: Whether you are looking for [Python] 상관분석(Correlation Analysis), [산점도, 공분산, 상관계수, 검정] 이번 예시에서는 당뇨와 그에 영향을 미치는 변수들 간의 관계를 분석해 보죠. 먼저 데이터는 sklearn에서 제공하는 datasets을 불러왔습니다. import … 안녕하세요. 우주신 입니다. 약 3년만에 포스팅을 하네요… 일을 하다보니 포스팅을 꾸준히 못 하고 있습니다..ㅠ 오늘은 블로그에서 가장 조회수가 높은 ‘[R] 상관분석…’ 글을 Python으로 빠르게 변환 해봤습..
  • Table of Contents:

태그

관련글

댓글0

공지사항

최근글

인기글

최근댓글

태그

전체 방문자

[Python] 상관분석(Correlation Analysis), [산점도, 공분산, 상관계수, 검정]
[Python] 상관분석(Correlation Analysis), [산점도, 공분산, 상관계수, 검정]

Read More

[Python Data Analysis 분석 4] 데이터 분석 – 파이썬 상관관계 분석(타이타닉)

  • Article author: tjansry354.tistory.com
  • Reviews from users: 7490 ⭐ Ratings
  • Top rated: 5.0 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about [Python Data Analysis 분석 4] 데이터 분석 – 파이썬 상관관계 분석(타이타닉) 상관관계 분석을 하는 이유는 데이터가 다른 데이터에 미치는 영향도를 알고, 분석 모델을 위한 데이터를 확정짓기 위함입니다. ​. 이번 글에서는 ‘ … …
  • Most searched keywords: Whether you are looking for [Python Data Analysis 분석 4] 데이터 분석 – 파이썬 상관관계 분석(타이타닉) 상관관계 분석을 하는 이유는 데이터가 다른 데이터에 미치는 영향도를 알고, 분석 모델을 위한 데이터를 확정짓기 위함입니다. ​. 이번 글에서는 ‘ … 네이버 블로그로 이전했습니다. https://blog.naver.com/moongda0404/222729501198 [Python Data Analysis 분석 4] 데이터 분석 – 파이썬 상관관계 분석(타이타닉) *본 글은 Python3을 이용한 데이터 분석(Data An..
  • Table of Contents:

태그

관련글

댓글1

공지사항

최근글

인기글

최근댓글

태그

전체 방문자

티스토리툴바

[Python Data Analysis 분석 4] 데이터 분석 - 파이썬 상관관계 분석(타이타닉)
[Python Data Analysis 분석 4] 데이터 분석 – 파이썬 상관관계 분석(타이타닉)

Read More

상관관계분석 1분컷

  • Article author: brunch.co.kr
  • Reviews from users: 41285 ⭐ Ratings
  • Top rated: 3.4 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 상관관계분석 1분컷 Correlation analysis | 상관관계 – Correlation 두 숫자 간 얽힌 관계 … 하기만 하면 클립보드에 있는 데이터를 가져와서 상관계수를 출력해 준다. …
  • Most searched keywords: Whether you are looking for 상관관계분석 1분컷 Correlation analysis | 상관관계 – Correlation 두 숫자 간 얽힌 관계 … 하기만 하면 클립보드에 있는 데이터를 가져와서 상관계수를 출력해 준다. Correlation analysis | 상관관계 – Correlation 두 숫자 간 얽힌 관계를 의미한다. 단 비교한 숫자는 연속인 배열의 형태이어야 하며 배열의 길이가 길어질수록 더 높은 상관관계 도출이 가능해진다. (2와 4의 상관관계는 뽑을 수 없지만, 10명의 키와 몸무게의 상관관계는 뽑을 수 있다는 말) 기본적으로 상관계수(Correlation coefficient, r)는 -1에서
  • Table of Contents:
상관관계분석 1분컷
상관관계분석 1분컷

Read More

데이터 상관 관계 분석

  • Article author: contents.kocw.net
  • Reviews from users: 34054 ⭐ Ratings
  • Top rated: 3.3 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 데이터 상관 관계 분석 노인인구<==> 국가발전간 상관관계는? 3. Page 4. 1. 상관관계분석의 변수 … 표시를 그래프 상에 관심 있는 데이터위에 올려서 클릭. …
  • Most searched keywords: Whether you are looking for 데이터 상관 관계 분석 노인인구<==> 국가발전간 상관관계는? 3. Page 4. 1. 상관관계분석의 변수 … 표시를 그래프 상에 관심 있는 데이터위에 올려서 클릭.
  • Table of Contents:
데이터 상관 관계 분석
데이터 상관 관계 분석

Read More

상관분석(Correlation Analysis) 쉽게 이해하기

  • Article author: rk1993.tistory.com
  • Reviews from users: 19171 ⭐ Ratings
  • Top rated: 3.3 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 상관분석(Correlation Analysis) 쉽게 이해하기 상관분석에는 두 변수 사이의 선형적인 관계 정도를 나타내기 위해 상관계수(correlation coefficient)를 사용한다. 상관분석에는 측정 데이터에 따라 … …
  • Most searched keywords: Whether you are looking for 상관분석(Correlation Analysis) 쉽게 이해하기 상관분석에는 두 변수 사이의 선형적인 관계 정도를 나타내기 위해 상관계수(correlation coefficient)를 사용한다. 상관분석에는 측정 데이터에 따라 … 상관분석이란 ? 상관분석은 연속형 변수로 측정된 두 변수 간의 선형적 관계를 분석하는 기법이다. 연속형 변수는 산술 평균을 계산할 수 있는 숫자형의 데이터이며, 선형적 관계라 함은 흔히 비례식이 성립되는..우주먼지의하루
  • Table of Contents:

우주먼지의 하루

상관분석(Correlation Analysis) 쉽게 이해하기

상관분석이란

공분산과 상관계수 관계

상관계수

상관계수의 종류

회귀분석과 상관분석의 차이

상관분석 예시

상관분석(Correlation Analysis) 쉽게 이해하기
상관분석(Correlation Analysis) 쉽게 이해하기

Read More


See more articles in the same category here: https://chewathai27.com/to/blog.

[SPSS 22] 상관분석(Correlation Analysis)

매우 오랜만에 블로그에 SPSS 통계 포스팅을 한다. 지금까지 바쁘다는 핑계로 미루어 왔는데 마침 오늘이 2015년 1월 1일이니 흐트러진 마음을 다잡고 통계 책을 펴 보았다. 역시 사람의 메모리는 시간이 지날수록 잊혀지고, 책은 오래둘수록 먼지가 쌓여간다. 언제쯤 이 블로그를 마무리 할 수 있을지 모르겠지만 오늘도 화이팅하며 시작해본다.

상관분석은 회귀분석을 하기 위한 전초전으로서 비교적 쉬운 분석 중의 하나이다. 어떻게 보면 연구자들이 가장 많이 시행하는 t-test 보다도 더 쉬운 분석이 아닐까 생각해본다. 물론 분석 방법 뿐만아니라 결과 해석까지 어렵지 않으니 한번만이라도 제대로 따라해보길 바란다.

상관분석은 연속형 변수로 측정된 두 변수 간의 선형적 관계를 분석하는 기법이다. 연속형 변수는 산술 평균을 계산할 수 있는 숫자형의 데이터이며, 선형적 관계라 함은 흔히 비례식이 성립되는 관계를 말한다. 예를들어 A 변수가 증가함에 따라 B 변수도 증가되는지 혹은 감소하는지를 분석하는 것이다.

상관분석에는 두 변수 사이의 선형적인 관계 정도를 나타내기 위해 상관계수(correlation coefficient)를 사용한다. 상관분석에는 측정 데이터에 따라 피어슨 상관분석, 스퍼만 상곤분석 등의 여러가지 분석 방법이 있지만, 일반적으로 상관계수라 함은 피어슨 상관계수(Pearson correlation coefficient)를 의미한다.

위에서 언급했듯이 상관분석 두 변수간의 밀접한 정도, 즉 상관관계를 분석하는 통계적 분석 방법으로, 키와 몸무게를 통해 예를들어 보면, 위와 같은 그래프를 얻을 수 있을 것이다. 위의 그래프를 통해 키가 증가할수록 몸무게 또한 증가하는 것을 볼 수 있으며, X와 Y축에 점으로 표시한 그래프를 산점도라 일컫는다. 상관분석을 하기 위해서는 반드시 산점도를 통하여 선형성을 확인하여야 한다.

다시한번 말하지만, 상관분석은 두 변수간의 선형적 관계에 초점을 두고 있으며 선형 관계를 갖는가? 어느 방향으로 형성되어 있는가? 그 관계의 정도는 얼마나 큰가? 와 같은 질문을 던지며 결과 해석을 해볼 수 있겠다.

모수통계는 일단, 데이터의 기본 가정사항을 확인해야 된다.

상관분석의 가정사항은 이변량 정규분포와 두 변수 사이의 선형성을 충족하면 된다.

이변량(bivariate)이란 두 개의 변수를 말하는 것이다.

두 변수 모두 정규분포를 하면 가장 좋겠지만, 적어도 하나의 변수만이라도 정규성을 만족하면 정규성에 대한 가정사항은 충족시킨다고 한다. 그런데 실제 분석에서 보면 정규성을 만족하지 못하는 경우가 많아 혹자는 현실적으로는 정규성 분석을 시행하지 않을 수도 있다고 한다. 어쨌든 제시된 기본가정 사항 중의 하나가 정규분포이므로 정규성 검정을 먼저 시행하고 다음으로 진행하도록 한다.

만약, 두 변수 모두 정규성을 만족하지 못한다면 Pearson 상관분석의 비모수검정에 해당하는 Spearman Correlation Analysis(스퍼만 상관분석)을 시행한다.

다음, 정규성을 만족한 경우 선형성을 확인하기 위해 산점도를 확인해야 하는데, 이는 SPSS의 산점도/점도표(S)… 의 메뉴를 통해 쉽게 확인이 가능하다.

산점도를 통해 나온 그래프를 살펴보자.

먼저 위의 왼쪽 그패프는 X가 증가함에 따라 Y도 같이 증가하는 정의 선형관계 또는 양의 선형관계를 나타내고 있다.

위의 오른쪽 그래프는 반대로서 부의 선형관계 또는 음의 선형관계를 나타내고 있다.

그리고 밑의 두 그래프는 선형적 관계가 없는 그래프로서, 이때는 피어슨 상관분석을 시행할 수 없다.

상관 관계의 크기를 나타내는 값을 상관계수라고 표현하며, -1 부터 +1 사이의 값을 가진다. 이때 +1 또는 -1의 경우 상관관계가 가장 크며, 0으로 나올 경우 상관관계가 전혀 없음을 나타낸다.

Dancey 등은 상관계수에 따라 Zero부터 Perfect까지 등급을 나뉘었으며, 논문의 고찰에서 결과 해석시 매우 유용하게 쓰일 수 있는 자료이므로 기억해두록 한다.

그런데 상관분석에는 측정된 데이터에 분석 방법이 달라진다. 지금까지 얘기한 피어슨 상관관계는 간격 척도 및 비율 척도와 같은 연속형의 데이터에 적용되며, 그외 서열척도에는 스퍼만 상관분석이나 켄달의 타우 상관분석이 주로 이용된다.

피어슨 상관분석은 연속형 데이터, 스퍼만 상관분석 및 켄달의 타우는 서열척도로 측정된 데이터 분석에 이용되므로 꼭 기억해둔다.

예제는 2014년에 RIP(Research India Publications) SCOPUS지에 게제된 내 논문의 데이터 중에서 일부를 발췌하였다.

VCW는 vena contracta width의 약자로서 대동맥 역류가 발생하는 지점의 너비를 측정하여 대동맥 역류의 정도를 간단하게 표현하는 방법이다. 심장초음파 영역에서는 오래전부터 사용되어 왔지만 심장 MRI를 이용한 대동맥판막 역류증 진단에는 보고된 바가 없어서 연구를 진행하였다.

예제 문제는, 심장 MRI로 측정한 VCW와 심장 초음파로 측정한 VCW 사이의 상관 정도를 비교하는 것으로, 심장 MRI와 심장초음파 모두 60개의 케이스로 구성되어 있다. 물론 데이터는 비율척도의 연속형 데이터이다.

상관분석에서의 연구가설은 차이가 없다, 있다의 개념이 아니라 선형적으로 관계가 없다, 있다의 개념을 도입해야 한다.

따라서, 영가설에 해당하는 귀무가설은 심장 MRI 측정한 VCW는 심장 초음파로 측정한 VCW와 선형적인 관계가 없다 이며, 기호로는 ρ=0 으로 표기한다.

반대로 대립가설은 심장 MRI로 측정한 VCW는 심장 초음파로 측정한 VCW와 선형적인 관계가 있다 라고 설정할 수 있다.

모수통계를 돌리기 위해서는 항상 모수통계의 기본 가정사항을 만족하는지 부터 확인해야 한다.

가장 먼저, 정규성 검정을 해본다.

“분석(A)” ==> “기술통계(E)” ==> “탐색(E)”

다음, 상관분석에서는 두 변수의 선형적인 관계가 있는지를 먼저 평가해야 되기 때문에 산점도를 그려서 확인해 본다.

산점도는 “그래프G)” ==> “레거시 대화 상자(L)” ==> “산점도/점도표(S)…” 의 과정을 통해 그려볼 수 있다.

그리고 “분석(A)” ==> “상관분석(C)” ==> “이변량 상관계수(B)…” 과정을 통해 상관분석이 가능하다.

첨부파일의 VCW.sav 파일을 SPSS로 불러온다.

처음 보여지는 “데이터 보기(D)” 화면이다.

2개의 필드와 각각 60개의 케이스로 이루어져 있으며 단위는 cm 이다.

바로 옆의 “변수 보기(V)” 를 클릭한다.

특별히 수정할 부분은 없으나 처음 설정 시 “측도” 항목에서 연속형 변수를 나타내는 “척도(S)”를 선택한다.

정규성 검정을 위해 “분석(A)” ==> “기술통계(E)” ==> “탐색(E)” 을 차례로 선택한다.

탐색 설정 창이다.

왼쪽의 두 변수를 “종속 목록(D):” 칸으로 이동한다.

그리고 “도표(T)…” 를 클릭한다.

도표 창에서 “검정과 함계 정규성 도표(O)” 를 위와같이 체크한다.

정규성 검정 결과표이다.

Kolmogorov-Smirnov(K-S)와 Shapiro-Wilk(S-W) 모두 정규성 검정에 주로 이용하는 통계법으로 K-S는 큰 샘플 수에, S-W는 작은 샘플 수에 주로 적용하지만, 서로 혼용이 가능하다. 두 방법 중 하나의 방법이라도 p 값이 0.05 이상으로 나오면 정규성을 만족하는 것으로 본다.

결과에서 K-S 방법의 심장초음파에서만 p=0.165 로서 유의수준 0.05 보다 높게 나왔으므로 정규성을 만족하였다.

그리고 선형성을 판단하기 위해 “그래프(G)” ==> “레거시 대화 상자(L)” ==> “산점도/점 도표(S)…” 을 차례로 클릭한다.

“단순 산점도” ==> “정의” 를 클릭한다.

단순 산점도 설정 창이다.

단순 산점도 창에서 2차원적인 산점도를 그리기 위해 X축과 Y축의 변수를 설정해야 한다.

각각의 축에 어떤 변수를 삽입하여도 “선형성”을 확인하는데 있어 별 문제는 없지만, 나는 X축에 기준이 되는 변수 “심장 초음파[VCW_Echo]” 변수를 삽입하고, Y축에 “심장 MRI(VCW_MRI)” 변수를 삽입하였다.

그리고 “확인” 을 클릭한다.

심장 초음파와 심장 MRI의 산점도 그래프가 만들어졌다.

이것은 눈으로 확인하는 것으로 대충 보아도 높은 상관성이 있는 것으로 판단된다.

그래프에서 심장 MRI는 심장 초음파의 증가에 따라 비례적으로 증가하는 것을 볼 수 있으며, 이는 양의 상관 즉, 선형성이 확인되었으므로 “상관분석”을 시행해도 된다.

상관분석을 시행하기 위해 “분석(A)” ==> “상관분석(C)” ==> “이변량 상관계수(B)…” 를 차례로 클릭한다.

“이변량 상관계수” 분석 창이 나타났다.

지금은 변수가 두개 뿐인데, 혹시 비교해야할 변수가 여러개라면 한꺼번에 옮겨놓으면 한번에 분석이 가능하다. 마치 교차분석과 같은 표가 나타나므로 여러번 하지 말고 한번에 분석하도록 한다.

“심장 MRI[VCW_MRI]” 와 “심장 초음파[VCW_Echo]” 두 변수를 모두 “변수:” 칸으로 이동한다.

“옵션(O)…” 를 클릭한 후 “통계” 칸의 “평균과 표준 편차(M)” 항목만 선택하고 “계속” 을 클릭한다.

상관분석의 결과표로서, 먼저 옵션에서 선택했던 평균과 표준편차가 나열되어 있다.

심장 MRI는 심장 초음파에 비해 평균적으로 약간 낮게 나타났지만, 매우 유사한 것을 볼 수 있다.

상관분석의 결과 표는 마치 교차분석의 표를 보는것 같다.

상관분석 결과, 유의확률 p=0.000 으로 유의수준 α=0.01 미만으로 나타나 귀무가설을 기각하고 대립가설을 지지한다. 이는 심장 초음파의 VCW는 심장 MRI의 VCW와 선형적으로 상관관계 있음을 알 수 있었고, 상관 관계의 정도를 나타내는 상관계수 R=0.864 로서 심장 MRI와 심장 초음파는 86.4% 만큼의 매우 높은 상관 관계가 있음을 알 수 있다.

이와같은 결과로 볼때, 심장 MRI 를 사용하여 대동맥판막 역류증을 진단하기 위해 VCW 를 추가적으로 측정함으로서 진단의 정확도를 높일 수 있을 것으로 판단된다.

[Python] 상관분석(Correlation Analysis), [산점도, 공분산, 상관계수, 검정]

안녕하세요. 우주신 입니다.

약 3년만에 포스팅을 하네요… 일을 하다보니 포스팅을 꾸준히 못 하고 있습니다..ㅠ

오늘은 블로그에서 가장 조회수가 높은 ‘[R] 상관분석…’ 글을 Python으로 빠르게 변환 해봤습니다.

이번 포스팅과 다음 포스팅에서는 상관분석과 회귀분석에 대해 정리해보겠습니다.

우리는 종종 어떤 두 사건 간의 연관성을 분석해야 할 경우가 많습니다.

둘 또는 그 이상의 변수들이 서로 관련성을 가지고 변화할 때 그 관계를 분석해야 하는데,

가장 잘 알려진 방법 중 하나가 상관분석과 회귀분석 입니다.

예를 들어, GDP와 기대수명 간의 관계, 키와 몸무게 간의 관계를 보자면,

각각 두 변수 간의 선형적 관계를 상관(Correlation)이라고 하며, 이러한 관계에 대한 분석을 상관분석(correlation analysis)라고 합니다.

이번 예시에서는 당뇨와 그에 영향을 미치는 변수들 간의 관계를 분석해 보죠.

먼저 데이터는 sklearn에서 제공하는 datasets을 불러왔습니다.

import pandas as pd import numpy as np from sklearn import datasets data = datsets.load_diabetes()

데이터가 dictionary 형태이므로 어떤 key를 가지는지 확인해보면 아래와 같이 나오고,

여기서 data, target, feature_names 세 가지 key만 쓰겠습니다. 당연히 데이터 형태의 길이가 같은지 부터 확인해야죠.

여기서 target이 당뇨병의 수치이고 나머지 feature names에 속하는 age, sex, bmi 등등은 변수라고 보면 됩니다.

즉, 442명의 사람들을 상대로 10가지의 특성들을 나열한거죠.

우리는 bmi(체질량지수) 변수와 당뇨병의 수치(target)가 어떤 관계를 가지는지 한번 살펴봅시다.

1. 산점도 (Scatter plot)

먼저, 상관계수를 파악하기 전에 산점도를 그려 두 변수 간에 관련성을 시각적으로 파악할 수 있습니다.

X = df.bmi.values Y = df.index.values import matplotlib.pyplot as plt plt.scatter(X, Y, alpha=0.5) plt.title(‘TARGET ~ BMI’) plt.xlabel(‘BMI’) plt.ylabel(‘TARGET’) plt.show()

matplotlib에서 제공하는 scatter()를 통해 그린 결과 입니다.

대략 봤을 때 두 변수는 서로 양의 관계를 이루고 있는 것 같죠?

2. 공분산(Covariance) 및 상관계수(Correlation Coefficient)

산점도를 이용하면 두 변수간의 직선적인 관계를 대략적으로 파악은 가능하지만, 두 변수 사이의 관계를 어떠한 수치로 표현하지는 않아요. 그렇기에 우리는 두 변수 간의 관계를 수치로 표현하기 위해 공분산 및 상관계수를 이용합니다.

공분산은 2개의 확률변수의 상관정도를 나타내는 값인데, 만약 2 개의 변수 중 하나의 값이 상승하는 경향을 보일 때 다른 값도 상승하면 공분산의 값은 양수, 반대로 다른 값이 하강하는 경향을 보이면 공분산의 값은 음수가 나옵니다.

여러가지 방식으로 구할 수 있는데,

직접 식을 계산하면,

더 편하게는 numpy의 cov()를 이용하면 되죠.

두 방법 모두 비슷한 값이 나왔고 양의 값이 나온 것을 볼 수 있죠.

그러나 공분산은 상관관계의 상승 혹은 하강하는 경향을 이해할 수는 있으나 2개 변수의 측정 단위의 크기에 따라 값이 달라지므로 절대적 정도를 파악하기에는 한계가 있습니다. 즉, 2.15가 어느 정도의 양의 상관관계인지를 가늠하기가 쉽지 않죠.

그래서 공분산을 표준화 시킨 상관계수를 보다 많이 이용합니다.

상관계수는 각 변수의 표준편차를 분모로 나눠주면 되죠.

당연히, numpy는 없는게 없죠. corrcoef() 함수를 이용하면,

상관계수는 -1에서 1 사이의 값을 가지기에 0일 경우에는 두 변수 간의 선형관계가 전혀 없다는 것을 뜻 합니다.

보통 0.3과 0.7 사이이면, 뚜렷한 양적 선형관계로 0.7과 1.0 사이는 강한 양적 선형관계로 간주한다고 합니다.

(그러나 데이터의 특성과 샘플의 대표성 등 상황에 따라 상관계수 값 자체를 해석하는데 있어 정확한 기준은 없습니다)

위에 나온 0.58은 BMI(체질량지수)와 당뇨병수치(Target)는 뚜렷한 양적 선형관계를 이루고 있다고 볼 수 있습니다.

주의할 점은 상관계수 분석 자체가 특이 값에 민감하게 반응하기 때문에 데이터 pre-processing에 항상 주의를 기울여야 합니다.

또한 상관관계는 두 변수 간의 관련성을 의미할 뿐, 원인과 결과의 방향을 알려주지는 않습니다.

3. 상관계수의 검정

상관계수 값 자체가 유의미한가를 검정할 수도 있습니다. 그 중 하나로 p-value를 많이 이용하는데,

scipy 패키지의 stats.pearsonr()을 이용하면 상관계수와 p-value를 동시에 얻을 수 있습니다.

import scipy.stats as stats stats.pearsonr(X,Y)

뒤 결과 값이 p-value인데, 귀무가설 “상관관계가 없다”에 대한 검정 결과 p-value가 3.46e-42라는 0에 아주 매우 가까운 값이 나왔으므로 귀무가설을 기각할 수 있음을 알 수 있습니다.

4. 그 외

그냥 궁금해서 나머지 변수들도 상관계수를 확인해 봤습니다.

당뇨병수치와 가장 상관관계가 높은 것은 bmi이고 age나 sex는 큰 관련이 없는 것으로 보이네요.

다음 시간에는 회귀분석에 대해 다뤄보겠습니다~

상관관계분석 1분컷

상관관계 – Correlation

두 숫자 간 얽힌 관계를 의미한다. 단 비교한 숫자는 연속인 배열의 형태이어야 하며 배열의 길이가 길어질수록 더 높은 상관관계 도출이 가능해진다. (2와 4의 상관관계는 뽑을 수 없지만, 10명의 키와 몸무게의 상관관계는 뽑을 수 있다는 말) 기본적으로 상관계수(Correlation coefficient, r)는 -1에서 1까지의 값을 가지게 되며, r이 -1 일 때는 두 배열이 정반대의 상관관계를 r이 1일 때는 그 반대의 관계를 갖게 된다.

예시를 들어보자면, 보유하고 있는 자산 (A)과 보유 자산에 대한 세금 (B)의 경우 A가 상승할 경우 B가 필시 상승하게 된다. 다만 ‘Co(상호)’ Relation인 관계이기 때문에 A와 B를 역치(易置) 해서, 세금이 증가할 경우 자산도 증가하느냐라고 했을 때는 자산의 종류나 보유기간에 따라 늘 같이 오르지는 않을 수도 있다. 하지만 대부분의 경우에 두 숫자 배열은 한쪽이 상승 시 나머지 한쪽이 동반 상승하고 하락 시 동반 하락하는 형태를 띠고 있는 관계를 보이기 때문에 양의 상관관계를 갖는다고 말할 수 있다. 모든 상황에서 등락의 방향이 같았다면 1의 r값을 갖게 되겠지만, 몇몇 케이스에서는 반대의 경우도 보였기 때문에 양수지만 1은 조금 못 미치는 뭐 그 정도의 값을 갖게 된다.

대략적인 설명은 이걸로 됐고, 그래서 이걸 어떻게 추출해야 하는지 알아보자.

1. 간단한 방법

위 파일 다운로드

환율과 한국 코스닥지수 간의 상관계수를 추출하는 방법을 엑셀을 통하면 정말 간단하다.

바로 CORREL 함수를 이용하는 것인데, 간단하게 두 숫자 배 열간의 상관계수를 알려준다. -0.31의 r값을 갖고 있는 두 지표 간의 관계는 음의 상관관계이며, 하나가 올라가면 나머지 하나는 하락하는 관계로 해석된다. 다만 0.3의 수치가 그렇게 명확한 수치는 아니긴 하다. 조금 그 관계를 명확하게 시각화하기 위해서 Scatter chart를 이용하면 아래와 같다.

뭔가 일관성 있게 점들이 붙어 있어 보이니, 상관관계가 있는 거 아닌가 생각할 수 있지만, 환율과 코스닥지수가 하루 만에 급등이나 급락을 반복하지 않기 때문에 연속성을 갖기 때문이다. 읽는 방법은 차트 내 점들이 우측으로 갈수록 (=x값이 상승할수록), 1180원선까지는 동반 상승하는 형태를 보이다, 그 이후 역행하며 많은 점들이 포진되어 있는 것을 보았을 때 도출된 r값의 의미와 일맥상통한다고 판단된다.

2. 조금은 더 복잡한 방법

상관관계라는 것이 기본적으로 두 지표 간의 관계를 의미하지만, 어디 서비스를 운영하는데 지표가 두 개뿐이랴. 지표들은 어쩔 수 없이 대단히 많을 수밖에 없고, 기온 – 불쾌지수와 같이 뻔한 것도 있지만, 뜬금없는 두 지표과 관계를 갖는 경우도 있다. 그럼 다중 상관관계를 해봐야 하는데, 물론 위 엑셀을 이용하는 방법으로 여러 칼럼을 여러 번 계산하면 되긴 하다. 그보다 조금은 복잡하지만, 익혀두면 너무 쉬운 방법은 파이선을 이용하는 것이다. 파이선은 설치 과정이 간편한 편이지만, 라이브러리 인스톨 등 번거로운 제반 작업이 있기 때문에 최초 구축 시 손이 많이 가는 편이다. 그런 부분을 간소화시켜줄 수 있는 것이 웹 IDE인데, 보편적으로 Jupyter Notebook을 많이들 이용한다.

Jupyter Notebook 설치

https://jupyter.org/install

설치 후 실행하게 되면, 이런저런 창들이 뜨고 나서 주 브라우저에 아래와 같은 탭이 추가된다.

우상단의 New를 눌러 새 파일을 만들고,

import pandas as pd

import numpy as np

import seaborn as sns

import matplotlib.pyplot as plt

% matplotlib inline

dd = pd.read_clipboard()

dd = dd.corr()

dd.to_clipboard()

sns.heatmap(dd, annot =True)

위 코드를 넣고, 실행 (Ctrl + Enter) 하면 바로 결과물이 나오게 되는데, 파이선을 이용하기 전 우려되었던 사항은 데이터를 어떻게 불러들이고 어떻게 읽히지? 였는데, 그 부분을 해결한 코드이다. 엑셀 같은 곳에서 데이터를 칼럼명을 포함해 복사한 상태에서 저 코드를 실행하기만 하면 클립보드에 있는 데이터를 가져와서 상관계수를 출력해 준다. 1번의 케이스를 적용해보면,

동일한 -0.31의 값을 보여준다. 조금 복잡한 테이블을 적용시킨다면

위와 같은 여러 지표들을 동시에 볼 수 있다. 특이한 점은 좌상단에서 우하단까지 1의 값을 갖는 선이 있고, 그 선을 축으로 양쪽이 대칭되는 형태이다. 모든 지표들끼리의 관계를 전부 구하는 것이기 때문에 가운데 있는 선은 지표 스스로의 관계이기 때문에 절대적으로 값이 똑같아서 1의 값을 갖는 것이고, 양 쪽의 값이 대칭인 것도 X, Y축을 보면 순서만 바뀌었을 뿐 결국 같다. 정리하면 그냥 아무 데나 봐도 된다.

위 열지도(Heatmap)을 보면, cylinders – weight까지의 값은 서로에게 모두 강력한 양의 상관관계를 갖고, Acceleration – origin의 값들과는 반대의 관계를 갖는다. 지표 두 개만 놓고 보았을 때 확인하지 못했던 지표’군’들 간의 비교도 가능해지고 관계의 경중을 색으로 표기해 잘 읽힌다.

Jupyter Notebook에서 사용된 파일

분석 과정 간, 간단하게 여러 지표들 간의 관계를 훑어보기 위해 여러 탭 중 하나에 노트북을 띄워놓고 확인하곤 한다. 해당 라이브러리를 활용하면 더 예쁜 차트들도 그릴 수 있고 그렇지만, 일단은 저 정도만으로도 충분했다.

숫자를 잘 읽을 수 있게끔 정리해서 글로 바꾸는 일이 분석가의 일이고, 그리고 결과적으로 그 분석은 사람이 하는 것이라지만, 모든 부분을 사람이 하기엔 어려움이 뒤따른다.

처음에는 툴에 의존하다가, 조금 익숙해지니 직접 데이터를 만져보고 싶고 거기서 더 나아가니 결국 다시 툴로 돌아오게 되더라. 새로운 기술들도 지속적으로 많이 나오고 해서, 쉴 새 없이 공부해야 하는 업계인 것 같다.

So you have finished reading the 데이터 상관 관계 분석 topic article, if you find this article useful, please share it. Thank you very much. See more: 파이썬 데이터 상관관계 분석, 파이썬 시계열 데이터 상관 관계 분석, 엑셀 데이터 상관관계 분석, 상관관계 분석 예시, 다중상관분석, 피어슨 상관관계 분석, 파이썬 시계열 상관관계 분석, 다변수 상관관계 분석

Leave a Comment