본문 바로가기
반응형

통계3

조금 더 생각해보는 p-value 앞선 포스팅에서 유의확률, 유의수준 그리고 p값(p-value)에서 알아본 김에,조금 더 이에 대해서 생각해볼만한 내용을 정리하고자 한다. 이 내용은 "A/B 테스트에서 p-value에 휘둘리지 않기"라는 제목의 글을 참조한 것이고,정확한 출처는 내용 하단에 밝힌다. A/B 테스트 결과 분석은 주로 빈도주의 관점에서 유의성 검정을 따른다. 문제는 유독 유의확률(p-value)에만 신경을 쓰느라 제대로 실험 결과를 해석하지 않는다는 점이다. 실험의 목적은 얼마나 효과가 있는지 살펴보는 것이지 통계적 유의성(statistical significance)만을 확보하는 것이 아니다. 우선, 들어가기전에 p-value의 의미를 다시 짚어보자. A/B 테스트에서는 마냥 p-value가 작아질 때까지 실험 결과를 모.. 2017. 10. 13.
[책] 헬로 데이터과학 -(2) 유의확률, 유의수준 헬로 데이터과학 - (2) 데이터를 분석할 때 가장 많이 나오는 개념 중 하나이며, "헬로 데이터 과학" 책을 읽고 이해함에 있어서도 필수적으로 이해하고 있어야 하는 개념이 바로 유의확률(significance probability)이며, p값(p-value)라고도 한다. 유의확률은 가설(H0, H1)과 연계되는 개념으로,실제로는 H0가 참인데도 불구하고, H1이라고 잘못 선택할 확률(제1종 오류를 범할 확률)을 의미한다.다르게 표현하면 "H1이다"라고 주장했는데, 그것이 틀릴 확률이다. 예를들어, 남자의 키와 여자의 키를 비교해서 남자가 여자보다 더 키가 큰지를 검정하는 경우를 생각해보면, 가설은 다음과 같을 수 있다. H0: 남자의 키와 여자의 키는 같다.H1: 남자의 키와 여자의 키는 다르다. 실제.. 2017. 10. 12.
[책] 헬로 데이터과학 -(1) 평균, 표준편차, 분산 헬로 데이터과학 - (1) 데이터과학에 관련한 두번째 책으로 "헬로 데이터과학"을 선택했다. 이 책에서 저자는 빅데이터, 데이터과학이라는 것이 "우리가 상상하는 것"만큼 어렵고, 멀리있는 것이 아니라는 것을 강조하며, 초보자도 충분히 이해할 수 있게 설명한다. 그렇다고, 추상적인 이야기나 하며 개념 소개만 늘어놓지도 않는다. 데이터를 분석하는 과정에서, 우리가 중고등학교 시절 배웠던 기본적인 통계에 관한 지식이 어떻게 활용되는지 보여준다. 따라서,본격적인 이야기에 들어가기 전에, 그 통계에 관한 기본적인 지식에 대해 먼저 이야기하고자 한다. 바로, 평균/표준편자/분산 이야기다.이것들에 대한 설명은 조대협님의 블로그에 아주 설명이 잘되어있어 그 내용을 옮긴다. 표준 편차란, 쉽게 말하면 평균(mean) 에.. 2017. 10. 1.
반응형