기억저장소

기억저장소

Python 데이터사이언스

피어슨 상관분석(Pearson correlation analysis) 파이썬 예시 정리 (GPT4)

roaminpixel 2024. 4. 21. 16:48
728x90

피어슨 상관분석(Pearson correlation analysis)은 두 변수 간의 선형적 관계의 강도와 방향을 측정하는 통계적 방법입니다. 이 분석 방법은 피어슨 상관계수(Pearson correlation coefficient), 종종 "r"로 표시되며, -1에서 +1 사이의 값을 가집니다.

피어슨 상관계수의 의미:

  • +1에 가까울수록: 완벽한 양의 선형 관계를 나타냅니다. 한 변수의 증가가 다른 변수의 증가와 완벽하게 일치합니다.
  • -1에 가까울수록: 완벽한 음의 선형 관계를 나타냅니다. 한 변수의 증가가 다른 변수의 감소와 완벽하게 일치합니다.
  • 0에 가까울수록: 두 변수 간에 선형 관계가 없음을 나타냅니다. 한 변수의 변화가 다른 변수의 변화와 관련이 없습니다.
더보기

선형관계(linear relationship)는 두 변수 간의 관계가 직선적인 패턴을 따를 때를 말합니다. 즉, 한 변수의 변화가 다른 변수의 변화와 일정한 비율로 연결되어 있을 때, 이 두 변수 사이에는 선형 관계가 있다고 합니다.

계산 방법:

사용 예시:

  • 과학 연구: 과학자들이 환경 변화가 생물종 분포에 미치는 영향을 조사할 때 사용할 수 있습니다.
  • 경제학: 경제학자들이 소비자 지출과 경제 성장 사이의 관계를 분석할 때 활용할 수 있습니다.
  • 의료 연구: 의료 연구에서는 특정 약물의 복용량과 환자의 회복률 사이의 상관 관계를 찾아낼 때 사용됩니다.

주의사항:

피어슨 상관계수는 두 변수 사이의 선형 관계만을 측정합니다. 따라서, 비선형 관계는 잘 측정하지 못할 수 있습니다. 또한, 이상치에 민감하여, 데이터에 이상치가 포함된 경우 상관계수가 실제 관계를 왜곡할 수 있습니다.

이러한 특성 때문에 데이터를 분석하기 전에 이상치를 검토하고 필요한 경우 비선형 상관 분석 방법을 고려하는 것이 좋습니다.

 


 

피어슨 상관분석을 수행하기 위해 Python에서는 주로 Pandas와 SciPy 라이브러리를 사용합니다. 여기서는 두 변수 간의 피어슨 상관계수를 계산하는 간단한 예제를 제공하겠습니다.

더보기

"SciPy" 이름은 "Scientific Python"의 줄임말로, "Sci"는 "사이"로, "Py"는 "파이"로 발음됩니다. 이 라이브러리는 과학적 계산을 위해 널리 사용되는 Python의 핵심 라이브러리 중 하나입니다.

먼저 Pandas를 사용하여 간단한 데이터셋을 만들어 보겠습니다.

이 데이터셋에는 두 변수 x와 y가 포함되어 있으며, 이 두 변수 간의 선형 관계를 분석하고자 합니다.

 

 

 

728x90
반응형