[머신러닝] 1. 독립변수 & 종속변수

독립변수 & 종속변수

표(DataFrame)의 데이터에서 의미있는 정보를 뽑아낼 수 있어야 한다.

이에 대한 능력을 기르기 위해서는 독립변수와 종속변수라는 말의 의미를 이해하는 것이다.

image-20200824201642186

# 1차 함수
y = x + 1

# y는 종속변수 ( x값에 따라 y가 바뀌므로 )
# x는 독립변수

image-20200824201845092

1. 독립변수 VS 종속변수

[예시]

‘온도가 20도일 때 40잔이 팔렸다.’

여기서 원인은 온도 20 이고, 결과는 판매량 40잔입니다.

잘 생각해보면 원인은 결과와 상관없이 일어나는 사건입니다.

( 판매량 때문에 온도가 달라지진 않는다. )

결과에 영향을 받지 않는 독립적인 사건입니다. 하지만 결과는 원인에 종속되어서 발생한 사건입니다.

그래서 원인은 독립적이기 때문에 ‘독립변수’ 결과는 원인에 종속되어 있기 때문에 ‘종속변수’라고 합니다.

표를 만났을 때, 우리의 머릿속에는 이 생각이 가장 먼저 떠올라야 합니다.

2. 상관관계 & 인과관계

상관관계

한쪽의 값이 바뀌었을 때, 다른 쪽의 값도 바뀐다면, 두개의 특성은 ‘서로 관련이 있다.’라고 추측할 수 있습니다. 이때 두 개의 특성을 ‘서로 상관이 있다.’ 라고 합니다.

그리고 이런 관계를 상관관계라고 합니다.

image-20200824202258788

인과관계

그런데 잘 살펴보면 온도와 판매량 사이에 보다 미묘한 관계가 있는 것을 관찰할 수 있습니다.

image-20200824202427241

이런 사실을 종합하면 ‘온도’는 ‘원인’이고, ‘판매량’은 ‘결과’라고 할 수 있습니다.

image-20200824202509868

이렇게 각 열이 원인과 결과의 관계일 때,

인과관계가 있다고 합니다.

상관관계와 인간관계는 비슷한 듯 하지만 중요한 차이가 있습니다.

아래 그림과 같이 상관관계는 인과관계를 포함합니다.

image-20200824202552567

즉, 모든 인과관계는 상관관계입니다.

하지만, 모든 상관관계가 인과관계인 것은 아닙니다.

[정리]

1. 독립변수는 원인이다.
2. 종속변수는 결과다.
3. 독립변수와 종속변수의 관계를 인과관계라고 한다.
4. 인과관계는 상관관계에 포함된다.