Notice
Recent Posts
Recent Comments
Link
«   2024/10   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
Archives
Today
Total
관리 메뉴

에코프로.AI

[빅분기] 평균, 편차, 분산, 표준편차, 공분산, 상관계수 본문

AI Miscellany

[빅분기] 평균, 편차, 분산, 표준편차, 공분산, 상관계수

AI_HitchHiker 2024. 2. 26. 17:20

데이터

  . 아래와 같이 키가 175, 165, 180, 160인 4명의 사람이 있다고 하자.

키 (cm) 175 165 180 160

 

 


평균 (mean)

  • 정의 : 평균값, 전체를 더해서 그 개수로 나눠 줌.
  • 수식

x의 전체 합 / x의 전체 개수

  • 예시
    평균 값 : (175 + 165 + 180 + 160) / 4 = 170

 


편차 (deviation)

  • 정의 : 실제 값과 평균 값의 차이 (실제 데이터 값 - 평균 값)
              . 합계가 0임 : 평균값을 기준으로 차이를 계산했기 때문
  • 수식

= x의 실제값 - x의 평균값

  • 예시
키 (cm) 175 165 180 160
평균 170 170 170 170
편차 +5 -5 +10 -10

 


분산 (variance)

  • 정의 : 흩어진 정도를 파악하기 위해 사용 됨.
              . 편차는 다 더하면 0이라, 평균을 구할 수가 없다.
                  그래서 편차에서 부호를 없애고 사용하기 위해 제곱을 하고 다시 평균을 냄.
  • 기호

= x의 편차의 제곱 합계 / x의 전체 개수

  • 예시
편차 +5 -5 +10 -10
편차의 제곱(부호제거) 25 25 100 100

 

분산 : 편차의 제곱(부호제거) 의 합 / 개수

         (25 + 25 + 100 + 100) / 4 = 62.5


표준편차 (standard deviation)

  • 정의 : 분산(variance)에 루트(√)를 씌운 값.
             . 편차들이 대충 이 정도에서 분포하겠구나 확인을 할 수 있다.
             . 표준편차가 크면, 표준에서 멀리 떨어졌다고 보면 된다.
  • 수식

= 분산에 루트(√)를 씌운 값

  • 예시


공분산 (convariance)

  •  정의공분산은 서로 다른 두 변수 사이의 관계를 보기 위함.

    - 두 변수가 서로 다른 단위를 사용하더라도 상관없음

    - 원래 서로 다른 데이터간 관계를 표현하는 지표를 사용했기 때문

      . 공분산의 절대 값 크기는 아무런 의미가 없음.

  • 수식

= (x의 편차(x의 실제값 - x의 평균값)) x (y의 편차(y의 실제값 - y의 평균값))의 합계 / 데이터개수

 

 - X의 평균

 - Y의 평균

Cov(X, Y) > 0 : 양의 관계에 있다고 표현 ▷ 어느 하나가 증가하면 다른 하나도 증가함
Cov(X, Y) < 0 : 음의 관계에 있다고 표현 ▷ 어느 하나가 증가하면 다른 하나는 감소함
Cov(X, Y) = 0 : 선형관계 없음

 

  • 예시
    기존에 예를 들었던 키가 각 각 175, 165, 180, 160 cm 인 4명의 사람에 대해서,
    아래와 같이 몸무게가 75, 70, 95, 72 kg이라고 가정을 해보자. 

    ■ 키의 편차
키 (cm) 175 165 180 160
평균 170
편차 +5 -5 +10 -10


        ■ 몸무게의 편차

몸무게 (kg) 75 70 95 72
평균 78
편차 -3 -8 +17 -6

 

     ■ 키의 편차 x 몸무게의 편차

키의 편차 +5 -5 +10 -10
몸무게의 편차 -3 -8 +17 -6
키의편차 x 몸무게의 편차 -15 +40 +170 +60

 

      ■ 공분산

         (키의 편차 x 몸무게의 편차)의 합계 / 개수
          ㄴ (-15 + 40 + 170 + 60) / 4 = 63.75

        


상관계수

  • 정의
    두 변수가 무슨 관계가 있는지를 보여준다.
    공분산을 보기 좋게 줄여 놓은 것으로 -1 과 1사이의 값을 가지며,
    1에 가까 울수록 비슷하고, -1에 가까울수록 반대되는 경향이 있다고 본다.

  • 수식

 

  • 예시
    공분산 : 63.75
    키의 표준편차 : 7.91
    몸무게의 표준편차 : 9.97

    상관계수 = 공분산 / (키의 표준편차 * 몸무게의 표준편차)
                    = 63.75 / (7.91 * 9.97) = 0.808

 

 

[참고사이트] : https://brunch.co.kr/@data/13#:~:text=편차는%20관측값과,만큼%20떨어져%20있다는%20의미이다.