[리뷰-벌거벗은 통계학] 수학 공식보다 논리적 판단력이 더 중요해

리뷰 원본은 여기.

통계학.
흔히 수학의 범주로 생각하지만, 개인적으로는 논리적 사고가 가장 중요시되는 분야 중 하나라고 생각한다.
통계적 처리와 결과를 추론하는 것 뿐 아니라 그렇게 얻어진 숫자들을 논리적으로 제대로 이해하기 위해서도 필요한 논리적 사고.
그래서 더욱 어렵게 느껴지는 분야이기도 하고.
어쨌든, 현실에서, 특히 언론 기사에서 사실을 호도하고 자신의 입맛에 맞는 내용으로 변형하기 위해 조작하기 가장 쉬운 것 중의 하나가 통계적 결과의 해석을 달리 하는 것이다.
우리네 습성이, 그런 통계적 결과가 실린 기사를 밑도 끝도 없이 바로 신뢰하는 경향이 있음을 생각하면 공부가 필요한 부분이다.
비틀어 보고, 다시 생각해 보고, 이면의 의미를 고민해 보고…
물론 통계에 대한 이론적 지식을 기본일 것이고.
이런 생각에 큰 돈을 들여 구매했다.

전체적으로 쉽게 쓰여 있기는 하다.
다만... 같은 말이 반복되면서 조금 장황해지는 경향이 있고,
뒤로 갈수록, 즉 통계적 의미와 방법론이 조금 복잡해 질수록, 직관적인 의미 설명이 장황해지면서 혼동을 부르는 경향이 있다.
몇몇 예를 들어 통계적 분석과 해석의 다양한 오류들을 짚어주는 것에 대해서도 주제와 흐름을 조금 통일했으면 어땠을까 하는 생각이 들었다.
읽을 수록 여기저기로 막 튀는 느낌이랄까…
영화나 소설로 치면 온갖 플래쉬백이 난무하는 느낌이다.
그리고…
개인적으로 가장 중요하다고 생각하는 '올바른' 표본 추출에 대한 통찰을 얻지 못했다는 데 아쉬움이 남는다.

전체적으로 깔끔한 구성, 쉬운 문체는 주제에 대한 부담을 줄이는 데 도움이 되는 책이다.
다만, 예제를 비롯한 전체적인 통일성이 조금 부족해 보인다는 점,
덕분에 정리되는 내용에 비해 본문 내용이 너무 늘어난 것 같다는 점은 감점 요인이다.
가격 역시 조금 비싼 느낌이고…

기본적으로 고등학교, 대학교 때 배운 내용들이긴 하지만,
온갖 숫자들로 포장된 기사와 사실들을 제대로 읽어낼 수 있는 논리적 사고를 위해 녹슨 머리 속을 정리하고 싶다면 읽어보기를 권장한다.

[기억해 둘 것들]
-확률을 다루는 사람들의 흔한 실수들
.독립적이지 않은 사건을 독립사건으로 추정
.독립적인 사건에 대한 이해 부족 (독립적인데도 그렇지 않다고 여김)
.암 다발 지역의 우연성 (관심있는 지역만 봄)
.검찰의 오류 (통계적 증거 이외의 상황을 무시)
.평균회기(혹은 평균복귀)
.통계적 차별

-데이터로 거짓말하기
.선택 편향(selection bias) <- 표본 선택의 중요성
.출판 편향(publication bias) <- 모든 결과가 알려지는 것은 아님
.기억 편향(recall bias) <- 현재를 과거 사건들의 논리적 결과라고 인과관계를 적용하는 실수
.생존 편향(survivorship bias) <- 결과에 유리한 표본들만 남도록 표본이 수정되거나 의도적으로 수정

-회귀분석을 사용할 때 명심할 것들
.비선형 관계를 분석하는 데 선형 회귀분석을 사용하는 경우
.상관관계와 인과관계는 다르다
.역인과관계
.변수 누락 편향
.서로 관련이 깉은 설명변수(다중공선성multicollinearity)
.데이터 범위를 벗어난 추정
.데이터마이닝(지나치게 많은 변수)

[이상한 부분]
  • 3장 분석단위의 함정을 설명하면서 인용한 <이코노미스트>의 기사의 결론은 잘못 인용된 것이 아닐까? 국가가 아닌 개인의 소득을 가지고 분석했다는 것은 분명 기존과 다른 단위를 이용한 접근이지만, 그 결론에는 동의하기 어렵다. 소득의 변화 단위에 함정이 있다고 보기 때문.
  • 중간값과 중앙값을 혼용되고 있다.
  • 305쪽에서 "뿌린 대로 거둔다 Garbage in, garbage out”으로 번역하고 있지만 7장 제목은 "쓰레기를 넣으면 쓰레기가 나온다"이다.
  • Longitudinal data를 책의 앞 부분과 뒤에서 다르게 번역하고 있는데, 399쪽에서 처럼 시계열 자료 정도가 적당해 보인다.
  • 근복적으로 궁금한 것! 통계의 가장 큰 함정 중 하나인 잘못된 표본 문제를 어떻게 해결하는가?에 대한 별다른 언급이 없다. 314쪽에서 그저 '간단한 문제다'일 뿐이고, '알맞은' 표본을 찾아 연락하면 된다고 치부할 뿐. '적당히', '잘' 하면 된다는 식이니...
  • 374쪽 다중공선성 영문 오타

[인용]
기술 통계(descriptive statistic)에 대한 지나친 믿음이 잘못된 결론으로 이어지거나 바람직하지 않은 행동을 하게 만들 수 있다는 것. p.28
통계적 분석을이용하여 두 변수 사이의 강한 연관성을 도출할 수 있지만, 그러한 연관성이 존재하는 이유를 항상 설명할 수 있는 것은 아니다. 그리고 어떤 경우에는-중략-한 변수의 변화가 다른 변수에 변화를 일으키는지 확실이 알지 못한다. p.38
지수(index)는 불완전하지만 유용한 도구일 수 있고, 완벽한 속임수가 될 수도 있다. p.69
정밀하다고 해서 정확하다고 착각하면 위험하다. 답이 정확할 때는 정밀성이 높을수록 더 좋다. 하지만 아무리 정밀해져도 부정확한 것이 정확해지지는 않는다. p.81
판단력이 수학보다 중요하다. p.93
통계적 부정행위는 수학 기술이 부족하기 때문이 아니라는 것이다. 오히려 복잡한 계산이 사악한 동기를 숨길 수 있다. p.113
타당한 결과를 내놓는 정직한 중계자가 되려는 여론조사원이라면 수집된 정보의 정확성에 영향을 미칠만 한 언어를 사용하지 않도록 조심해야 한다. p.310
주제와 관련된 여론조사 결과는 뭐든 다 보는 것이 가장 중요하다. 한 개의 질문이나 설문조사를 통해서는 복잡한 주제에 관한 여론을 심도 있게 알아낼 수 없다. p.310

댓글

이 블로그의 인기 게시물

[DevTip] Windows에서 tail 쓰기...

환경개선부담금

Electropermanent Magnets: Programmable Magnets with Zero Static Power Consumption Enable Smallest Modular Robots Yet