- p-value(probability): 우연히 일어날 확률(한마디로 개뽀록)
귀무가설(Null) = 0 임을 기억.
p-value가 0.05가 넘으면 우연히 일어날 확률이 높다는 의미이다.
이것은 결국 無로 돌아가기 때문에 귀무가설을 채택하는 것.
p-value가 0.05보다 낮으면 "뽀록이 아니네?" (100번중 뽀록이 5번도 안될테니까)
→ 이유가 있겠다("인과관계가 있겠구나")
→ 귀무가설 기각
보통 여기서 말하는 0.05미만은 알파(A)라고 해서 1종오류를 의미한다.
귀무가설이 실제로는 참인데도, 귀무가설을 기각하는 경우가 더 큰 문제가 일어날 수 있다고 보기 때문.
즉, 이전과 매출액의 차이가 없음에도 불구하고, 차이가 있다고 해서 신규전략을 수립하는게 문제가 더 크게 생길 수 있다. (이전의 매출액과 차이가 있는데 없다고 하면 수익은 덜 창출할지언정 비용을 더 쓰진 않겠지)
- 상관관계는 점들이 선으로 모여있을 때 +1 혹은 -1로 나타낸다.
선이 위로 향하든지 오른쪽으로 향하든지(좀 눕든지) 하는 경우에도 똑같다. (선의 각도가 상관관계에 영향을 주지 않는다)
하지만, y축과 나란히 분포되어 있다면 이것은 상관관계가 없다(0)라고 본다.
이차함수의 형태도 상관계수가 실제로 도출이 된다.
하지만 의미가 전혀 없으니 무시해도 된다.
- 상관관계는 인과관계가 아니다(매번 중요)
상관관계는 직선관계만 + 인과관계가 아니다. 두 가지점을 기억.
z-test: 모집단을 위한, t-test: 표본(샘플)을 위한.
t-test의 목적: 두 집단이 같은지 다른지 비교하기 위해서 사용
비교를 어떻게 해야 될까? - 두 표본의 평균값(대표값)을 비교
두 집단의 차이(평균간의 차이)가 우연히 같을 확률은?
(키가 178.5와 179.9인 두 집단의 평균값이 이정도면 비슷하다고 봐야되나 다르다고 봐야되나? - 남학생 평균키 차이인 1.4cm가 우연히 발생했을 확률은 얼마인가?)
1.4cm가 우연히 발생한 수치라면, 두 대학의 키는 같은 것이다. (p-value가 0.05보다 크니까 뽀록일 경우임, 대립가설 기각, 귀무가설 채택 - 뽀록이므로 무 로 돌아간다.)
이때 무엇을 기준으로 차이가 큰지 적은지? - 표준편차
표준편차보다 해당 차이(1.4cm)가 현저히 작으면, 의미가 없다고 본다. - 우연히 발생했다는 것을 의미.
반대의 경우는 의미가 있다고 본다. - 우연이 아니다.
그럼 현저히 정도는 도대체 어느정도? 0.05보다 작으면 우연이 아니다. 0.05보다 크면 우연이다.
단측검정의 귀무가설 또한 H0= 0(차이가없다.)이다.
대립가설이 한쪽만 따지는 경우를 단측검정이라고 본다. - 양측과 단측의 차이는 대립가설의 차이.
95%인 노란부분에 들어오면 우연이다(p-value가 높아서 귀무가설 채택; 아무것도 아닌 경우로 됨)
5%인 초록부분에 들어오면 우연이 아니다(p-value가 낮아서 대립가설 채택; 내가 연구하고자 하는 것)
95%확률로 무 로 돌아가거나, 5%확률로 내가 하는게 맞다?
확률분포곡선 내에 있는 넓이가 확률이고, 이것이 내가 구하고자 하는 p-value이다.