Notice
Recent Posts
Recent Comments
Link
«   2024/10   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
Archives
Today
Total
관리 메뉴

에코프로.AI

[빅분기] 스터디모임 발표준비 (2024.03.02) - 척도, 가설검정, 주성분분석 본문

AI Miscellany

[빅분기] 스터디모임 발표준비 (2024.03.02) - 척도, 가설검정, 주성분분석

AI_HitchHiker 2024. 2. 26. 12:50

1. 척도

    원활한 데이터 분석을 하기 위해서는 데이터를 통계적 분석이 가능하도록 객관적 척도로 변환하는 작업이
     우선되어야 합니다. 척도는 측정하고자 하는 대상을 수치화하는 것에 사용되는 일종의 측정 도구입니다.

 

자료구분 척도구분 등호연산 (=, !=) 비교연산 (<, >, =, !=) 가감연산 (+, -) 승제연산 (×, ÷)
질적자료 (범주형) 명도척도 범주      
서열/순서척도 범주 순서    
양적자료 (연속형) 등간/구간 척도 범주 순서 상대적 크기  
비율 척도 범주 순서 상대적 크기 절대적 크기

 

명목척도 (Nominal Scale)

  • 정의 : 관측대상의 범주를 오로지 구분하기 위해 기호나 숫자를 부여하는 척도입니다.
               - 양적인 의미가 없으며, 상대적인 비교가 어렵다.
                  . 남 : 0, 여자 : 1 이라고 가정했을때, 여자가 1이라고 남자보다 더 크다고 할수 없는 것처럼 말이다.
  • 예시 : 성별, 종교, 직업 등
              예1 ) 자동차의 색상을 조사한 뒤, 아래와 같이 분류하는 방법
                     - 레드 : R, 블랙 : B, 화이트 : W
              예2) 남녀를 성별로 분류할 때, 아래와 같이 분류하는 방법
                     - 남자 : 0, 여자 : 1

 

서열척도 (Ordinal Scale)

  • 정의 : 관측 대상을 상대적으로 비교하여 대상 간의 순서관계(순위)를 매겨 관측하는 방법
              - 서열을 매길수는 있어도 간격까지 고려하지는 못한다.
                가령, 선호도 1위인 소주가 3위인 소주보다 3배 더 인기 있다고 해석할 수 없다.
  • 예시 : 수능등급, 사회계층 등
             예1) 시중에 판매되고 있는 소주 브랜드별 선호도를 조사할 때,
                     소비자들에게 각 소주 브랜드에 대해 1,2,3,4,5위 의 순위를 매기도록 하는 것과 같은 방법

 

등간(구간) 척도 (Interval Scale)

  • 정의 : 서열척도가 가지고 있는 정보와 함께 
               조사대상이 가지고 있는 속성의 "상대적 크기"의 차이를 비교할 수 있는 정보도 가지고 있는 척도
               - "절대적인 영점" 이 없다.
                  온도계가 0°C를 가르킨다고 했을 때, 이는 온도가 없는 상태라고 할 수 없기 때문이다. 0°C를 나타낼 때의 
                  0은 어떠한 상대적 기준을 표시하는 것일 뿐 없다는 의미를 나타내는 것이 아니기 때문이다.
                  비슷한 예로, 0시가 되었다고 가정해 보자. 0시면 다음날로 넘어가는 기준점을 표현하기 위해
                  편의상 '0시'라고 하지만 0시가 아무것도 없다는 뜻은 아니다. 이럴 때 사용하는 0을 '상대적 0'이라고 한다.
                  따라서, 상대적 0이기 때문에 +,- 의 연산은 가능하지만 곱셈, 나눗셈은 불가하다.

                   ※ "온도30도는 10도의 3배입니다" 라고 할 수 없습니다.
  • 예시 : 온도, 지능지수 등

 

비율척도 (Ratio Scale)

  • 정의 : 금액, 길이, 거리, 무게, 시간 등 우리가 통계에서 자주 다루는 많은 계량적 변수 데이터들
              비율 척도에 속하는 것들이다.
              비율척도에는 "절대적인 영점"이 존재하며, 두 측정 값의 비율이 의미를 가진다.
               ※ "몸무게120KG 은 60KG의 2배입니다" 라고 할 수 있음.
  • 예시 : 몸무게, 매출액, 나이, 길이, 거리, 시간 등

 

[참고사이트] https://aftertalktalk.tistory.com/443

                     https://m.blog.naver.com/angryking/222366897282

 


2. (통계적)가설검정 (이하. 가설검정)

예시 및 정의

- 가설 : "까마귀는 검다"
    . "까마귀는 검다"는 말은 "모든 까마귀는 검다"고 주장하는 것과 마찬가지입니다.
    . 이것은 "검은 까마귀 한 마리를 보았다"는 사실만으로는 증명되지 않습니다.
    . 예를 들어 어떤 까마귀는 빨갛고, 또 다른 까마귀는 파랗다면 "까마귀는 검다"를 사실로 확정할 수 없습니다.
       이 처럼 "모든 00은 000이다"라는 표현은 "모든 것에 대해서 칭한다"는 의미로 "전칭성이 있다"고 표현합니다.
- 가설 반증
    . 단 한 마리의 검지 않은 까마귀를 가져오기만 하면 "모든 까마귀는 검지 않다"는 것을 증명할 수 있습니다.
- 가설 증명
    . 반대로 "모든 까마귀는 검다"는 것을 증명해야 하는 쪽은 난감해집니다.
    . 검은 까마귀를 아무리 많이 보여 주더라도 누군가가 
        "그것이 모든 까마귀라 할 수는 없다", "검지 않은 까마귀가 없다는 증거가 되지 않는다" 
        반론을 계속 할 수 있기 때문입니다.
  - 가설검정
     . 가설검정으로도 "전칭성("모든 00은 000이다")"을 증명할 순 없지만,
        확률을 도입해 "모든" 대신에 "거의 모든"을 생각하도록 만들 수 있습니다.
     . 가설검정은 "모든 까마귀는 검다"는 것을 증명하기보다는
       "우리가 흔히 보는 까마귀는 모두 검다고 생각하는 것이 타당하다"는 것을 증명하는 방식입니다.
     . 정리하면, 가설검정은 모집단으로부터 수집된 표본의 정보를 사용해서,
       실제 모집단의 값에 대한 주장이 타당한지, 확률에 근거하여 검증하는 것을 의미합니다.

        ※ 모집단 : 집단 전체

            표본 : 모집단을 대표하는 집합

가설검정 필요성

- 정확한 결정을 내리기 위해 필요한 과정
- 우리가 가지고 있는 주장이나 가설이 진실에 근접한지, 혹은 틀린 것인지를 판단할 수 있음
- 불필요한 논란을 줄이고 조직에서도 빠른 의사결정을 하는데 도움을 준다.

 

귀무가설 (H0)

- 원래 내가 주장하고자 하는 내용과 반대되는, 즉 원래 주장을 무로 돌려버리는 가설
- "검정하려는 주장이 틀렸다"는 것을 입증하기 위해 세우는 가설
- 어떠한 인과 관계나 차이가 존재하지 않는 다는 가정을 말함.
- 귀무가설은 연구자가 반드시 입증해야 할 가설로 이를 기각하는 것이 주요 목표

 

대립가설 (H1)

- 귀무가설을 반박할 수 있는 가설, 적절한 수용 조건

 

가설검정 절차

1. 귀무가설 설정하기
  - 원래 내가 주장하고자 하는 내용과 반대되는, 즉 원래 주장을 무로 돌려버리는 가설을 세운다.
   Ex) "그래 일단 네 말이 맞다고 해볼게"
2. 대립가설과 유의수준 설정하기
  - 귀무가설을 반박할 수 있는, 적절한 수용 조건을 정한다.
   Ex) "그런데 만약 내 말이 맞다는 증거가 00% 이상이면, 네 말을 맞다고 보긴 어렵지 않을까?"
3. 임계값과 기각영역 설정 이후, 귀무가설 기각 여부 확인
- 데이터를 수집한 후, 수집된 데이터가 임계값(수용조건의 기준이 되는 지점)과 비교하여, 어떤 위치에 있는지
  확인하고, 귀무가설을 채택할지, 기각할지를 결정한다.
    Ex) "실제로 데이터를 확인해 보니 내말이 맞다는 증거가 97%나 되네, 그러니까 내 말이 타당하다고 보는게 맞아"

 

가설검정의 오류

 

검정 지표

- p-value
- t-value



 

[참고사이트] https://roytravel.tistory.com/352

                    https://drhongdatanote.tistory.com/59

                    https://huidea.tistory.com/233

                    https://hweejin.tistory.com/entry/통계적-가설검정이-유용한-이유

 


3. 주성분분석 (Principal Component Analysis)

 정의

PCA는 대표적인 dimensionality reduction (차원 축소)에 쓰이는 기법으로, 머신러닝, 데이터마이닝, 통계 분석, 노이즈 제거 등 다양한 분야에서 널리 쓰이는 녀석이다.

쉽게 말해 PCA를 이용하면 고차원의 데이터를 낮은 차원의 데이터로 바꿔줄 수 있다는 것인데, 중요한 것은 "어떻게 차원을 잘 낮추느냐" 이다.

 

 

 

 

 

 [참고사이트]  https://ddongwon.tistory.com/114