빌노트의 노트

빅데이터 시대! 미래예측을 위한 '신호와 소음' - 네이트 실버, 더퀘스트 본문

빅데이터 시대! 미래예측을 위한 '신호와 소음' - 네이트 실버, 더퀘스트

빌노트 2014. 7. 6. 23:48

신호와 소음, 네이트 실버, 빅데이터, 경제상식, 미래예측

 

미래는 어떻게 당신 손에 잡히는가

신호와 소음

 

 

저자 : 네이트 실버
 
저자 네이트 실버Nate Silver는 미국은 물론 전 세계가 주목하는 통계학과 미래 예측의 슈퍼스타!《패스트컴퍼니》 선정 ‘가장 창조적인 인물 1위’ 《타임스》 선정 ‘전 세계에서 가장 영향력 있는 100인’
 
시카고대학에서 경제학을 전공한 네이트 실버는 2002년 회계컨설팅회사인 KPMG에 입사했지만 엉뚱한 일을 벌이기 시작했다. 자신이 좋아하는 메이저리그 야구선수의 성적을 예측하는 시스템인 페코타PECOTA를 개발한 것이다. 놀라운 적중률로 명성을 얻은 실버는 통계확률기법을 카지노에서 전략적으로 이용해 단번에 1만 5000달러를 따고 회사를 그만뒀다. 이후 포커판에서 수십만 달러를 긁어모았고, 그동안 쌓인 통계학과 예측의 노하우를 활용해, 정치 예측을 하는 블로그인 파이브서티에이트FiveThirtyEight.com를 2008년에 개설했다.
 
《뉴욕타임스》의 자매 블로그가 된 파이브서티에이트는, 2008년 대선에서 미국의 50개 주 중 49개 주의 결과를 정확히 예측했고, 총선에서도 상원 당선자 35명 전원을 맞혔다. 네이트 실버는 엄청난 유명세를 탔고 많은 사람들이 그의 예측에 주목하기 시작했다. 그러다 보니 2012년 미국의 대선에서는 그가 블로그에 글을 올릴 때마다 공화당과 민주당이 비중 있는 논평을 내놓기에 바빴다. 오바마와 롬니가 박빙으로 경쟁하는 와중에 첫 후보 간 토론회가 열렸고 그 뒤엔 여론조사기관 대부분이 롬니의 승리를 예측했다. 그러나 실버는 오바마의 승리를 점쳤고, 결과는 50개 주의 결과를 모두 맞힌 그의 승리로 끝났다. 그가 대선 직전에 자신의 통계학과 예측 철학을 담아 출간한 《신호와 소음》 역시, 《뉴욕타임스》 15주 연속 베스트셀러에 오르고 《아마존》 ‘올해의 책(논픽션 부문)’에 선정되는 등 슈퍼 베스트셀러가 되었다.
 
그 결과 네이트 실버와 함께 일하려는 매체들의 경쟁이 치열해졌고 그는 2013년에 결국 《뉴욕타임스》 고위층의 만류에도 불구하고 ESPN으로 소속을 옮겼다. 그는 현재 ESPN뿐만 아니라 자매 채널인 ABC에서 정치, 경제, 스포츠 등 여러 분야에서 자신만의 ‘예측 비법’을 펼쳐나가고 있으며, 정치인과 경제 전문가를 비롯해 많은 사람들이 그의 예측 하나하나에 귀를 기울이고 있다.

 

 

컴퓨터로 밥을 먹고 살다보니 요즘 정말 많이 듣는 말이 빅데이터입니다.

이러한 빅데이터 시대에 정말 적응 잘하는 사람이 있다면 바로 이 책 '신호와 소음'의 저자 '네이트 실버'인 것 같습니다.

회사에 있을 때 야구선수의 성적을 예측하는 프로그램을 만들었으며,

뛰어난 수학적 머리로 포커판에서 수십만 달러를 벌어들였고,

오바마 재선 당시, 50개 주의 결과를 모두 맞힌 독특한 이력은 정말 흥미롭습니다.

인터넷에 떠도는 빅데이터 속에서 어떻게 신호와 소음을 구별해야하는지 한 수 배워야겠습니다. 

 

 

I. 예측에 대한 근본적인 의문들

1. 경제│경제 붕괴, 왜 전문가들은 예상하지 못했는가

2. 정치│내가 선거 결과를 맞힌 비법

3. 야구│야구 경기는 왜 모든 ‘예측’의 모델이 되는가

 

II. 움직이는 과녁을 맞혀라!

4. 기상│예측의 진보, 허리케인과 카오스의 원뿔

5. 지진│라퀼라의 재앙을 아무도 예상하지 못하다

6. 평균과 불확실성│숫자에 속지 마라

7. 전염병│신종플루부터 에이즈까지

 

III. 미래를 내 손에 움켜쥐는 법

8. 베이즈 정리│이기는 도박꾼은 어떻게 베팅하는가

9. 체스│컴퓨터가 인간처럼 미래를 내다볼 수 있을까

10. 포커│상대방의 허풍을 간파하는 법

 

IV. 보이지 않는 손이 세상을 움직인다

11. 주식│개인은 절대 시장을 이길 수 없을까

12. 지구온난화│얄팍한 선동인가 과학적 진리인가

13. 테러│진주만 공습과 9·11테러의 공통점

 

 

이 책은 이 모든 것이 교차하는 지점에 놓여 있는 예측을 다루는 책이다. 우리가 지금보다 조금 더 통찰력을 가질 수 있어서 실수를 조금이라도 덜할 수 있다면 얼마나 좋을까. 이 책은 이런 물음에 대한 고민이다. (P.13)

 

노스트라다무스의 예언까지는 아니지만 생활속에서 많은 예측(또는 예상)을 하면서 살고 있습니다.

아침에 버스를 탈 때 버스가 언제쯤 올지 파악할 수 있는것도 예측이고

회식이 있어 조금 늦게 들어간다고 아내에게 전화를 할 때 아내가 화낼 확률을 생각하는 것 또한 예측입니다.

이러한 예측에 있어서 실수를 줄이는 것이 이 책의 목적이 아닐까 싶습니다.

'신호와 소음'과 함께 정보의 홍수 속에서 '의미있는 정보 찾기'란 힘든 여정이 시작되었습니다.

 

인간의 뇌는 정말 놀랍다. 무려 3테라바이트의 정보를 저장할 수 있으니 말이다. 하지만 이 정보량은 지금 전 세계에서 매일 생상되는 정보량의 약 100만 분의 1밖에 되지 않는다. 그런 만큼 우리는 우리가 취해서 기억하는 정보를 굉장히 조심스럽게 선별해야 한다. (P.29)

 

 

예측에 대한 근복적인 의문들...

 

 

2008년에 시작한 미국발 경제위기를 왜 경제전문가들은 예측하지 못한 것일까요?!

그 사람들이 이 책의 저자보다 모두 멍청해서는 아닐 것 입니다.

제대로 검즘을 해야 예측이 가능한 법인데

도무지 복잡해서 검증하기 귀찮은 서브프라임 모기지라는 것에 신용평가를 후하게 준것이 문제의 발단이 아닐지...

검증되지 않은 데이터를 사용한 연구결과는, 또 검증되지 않은 결과를 위한 데이터를 만들어 냅니다.

그럼 예측은 못하는 것인가?! 사실 조금 혼란스럽습니다.

 

 

 

고슴도치가 언제나 큰 녀석 하나를 노리는 사냥꾼

여우는 무언가를 부지런히 줍고 다니는 채집가 (P.90)

 

예측하는 사람의 유형을 2마리의 동물에 비유하는 부분이 인상적입니다.

이론을 중시하고 자신만만한게 자신의 생각을 말하는 고슴도치보다

이론보다는 겸험을 중시하고 사소한 정보까지 하나 하나 챙기는 여우가 예측에 유리하다고 말합니다.

하지만 현실에서 인기란 인기는 모두 화끈한 고슴도치에 집중되는데... 이것이 함정!

 

 

여우의 원칙에는 이런 것들이 있네요.

 

확률적으로 생각하라

날마다 새로운 예측을 하라

집단지성을 활용하라

마법을 믿지 마라

 

여우처럼 생각하는 법을 배워야 한다. 여우와 같은 예측가는 세상이 돌아가는 과정을 예측할 때 인간의 판단이 미칠 수 없는 한계가 있음을 인식하고 인정한다. 그 한계를 알 때 좀 더 정확한 예측을 할 수 있다. (P.120)

 

 

왜 네이트 실버가 처음으로 그의 확률적 재능을 야구라는 스포츠에 썼을까... 생각을 해봤더니

세상에는 야구만큼 데이터 중심의 경기가 없는 것 같습니다.

투수의 능력을 측정은 방어율, 피안타, 피홈런, 이닝수...

타자의 능력은 타율, 출루율, 홈런, 안타, 2루타, 3루타, 도루...

이러한 선수들의 데이터를 모두 인터넷 몇 클릭이면 다 구할 수 있으니

야구는 정말 데이터의 노다지라고 부를 수 있겠습니다.

 

 

다음에 참고 할 겸, 샌더스의 정신적 도구상자의 내용을 잠깐 옮겨 봅니다.

준비성과 노동윤리, 집중과 초점, 경쟁심과 자신감, 스트레스 관리와 겸손, 적응력과 학습능력 

이런 소양을 갖춘 선수들이 다음에 스타로 크게 성장할 가능성이 높다는데

위 내용이 꼭 야구에만 적용되는 이야기는 아닌 것 같습니다.

 

 

사람들은 보고 싶은 대로 본다... 정말 의미심장한 말입니다.

주식투자 시, 내가 산 종목이 떨어졌을 때

악재보다는 좋은 뉴스만 믿으려는 하는 경향이 있는 사람이 많은데... 바로 접니다 ㅡㅡㅋ

잘못된 주관이 개입된 데이터로 인한 어설픈 예측은 큰 재앙이 되어서 돌아온다는 사실을 명심해야 겠습니다.

 

우리가 하는 모든 예측은 빗나갈 수밖에 없다는 사실을 명심해야 합니다. 그러기에 얼마나 빗나가는지 그리고 빗나갔을 때는 어떻게 해야 하는지 이해하고, 또 빗나갔을 때 발생할 수 있는 비용을 최소화하는 것이 예측과 관련해서 우리가 해야하는 일입니다.

통계 모델을 우주의 복잡성을 이해하는 데 도움이 되는 도구일 뿐이지, 우주를 대체할 수 있는 게 아님을 명심해야 한다. 이것이 핵심이다. 이는 예측에서만 중요한 게 아니다... 사람의 뇌가 정보를 처리하는 전체 과정을 일련의 어림값 계산 과정으로 이해한다. 더 정확한 예측을 하고자 한다면, 우리 자신을 더 잘 이해하고 아울러 우리가 신호를 어떻게 해석, 왜곡하는지를 잘 이해해야 한다. (P.345)

 

그럼 이런 어림값 계산을 최소화하기 위한 해법은 무엇일까요?!

더 정확한 예측을 위해 8장은 꼭 읽으셔야 합니다.

 

 

신호와 소음, 네이트 실버, 빅데이터, 경제상식, 미래예측

 

드디어 나왔습니다. 베이즈 정리!

스포츠 도박사 불가리스의 이야기로 시작하는 베이즈 정리는 정확한 예측을 위해 반드시 넘어야 할 산입니다.

네이트 실버가 자신의 예측 확률을 높여가는 비법도 바로 이것!

설명은 이 문장으로 대신합니다.

 

프라이스는 베이즈의 이 에세이를 손보면서, 해 뜨는 모습을 처음 본 사람의 예를 들었다. 처음에 이 사람은 해가 뜨는 일이 매일 반복된는 현상인지 아니면 그 순간에만 나타난 특이한 현상인지 전혀 알지 못한다. 하지만 이 사람은 그 뒤 아침이면 언제나 해가 떠오르는 것을 본다. 해 뜨는 현상이 자연의 영원한 특성일 거라는 그의 믿음은 점점 커진다. 이처럼 통계적 추론을 통해, 내일도 해가 다시 떠오를 것이라는 예측에 그가 부여하는 확률은 100퍼센트에 가까워진다. 하지만 결코 정확하게 100퍼센트에는 도달하지 않는다. 그 지점으로 수렴할 뿐이다. (P.362)

 

이 문장의 액기스는 마지막 두 문장이 아닐까싶다.

'결코 정확하게 100퍼센트에는 도달하지 않는다. 그 지점으로 수렴할 뿐이다.'

이것이 확률에 의심 또 의심을 품어야 할 이유가 되는 셈이다.

 

 

신호와 소음, 네이트 실버, 빅데이터, 경제상식, 미래예측

 

베이즈 정리의 사례로 처음 보는 속옷을 봤을 때 남편이 바람필 확률과 911테러를 사용하며

이 공식이 광범위하게 적용될 수 있다는 것을 보여줍니다.

공식을 적어보면 이렇습니다.

xy / { xy + z(1-x) }

y : 그 가설이 참인 조건'아래에서 발생했을 확률

z : 그 가설이 거짓인 조건'아래에서 발생했을 확률

x : 사전확률

이렇게 계산된 결과인 사후확률이 다시 미래의 사전확률이 되는 재귀적인 함수가 됩니다.

베이즈 정의라는 것이 공식은 쉬운데 이것을 적용하는 노하우는 쉽게 얻어지는 것이 아니겠지요.

 

 

베이즈 정리가 무서운 것은 결론은 베이즈주의적 수렴이 일어나기 때문입니다.

처음 사전확률 등 데이터가 좀 틀리더라도 이후 빅데이터 속 신호를 잘 추가하면 확률이 높아지게 되는 구조입니다.

공식처럼 미래를 예측한다는 것이 말이 쉽지 엄청난 노력과 통찰력이 필요할 겁니다.

네이트 실버는 강조합니다.

예측을 함에 있어, 덜 주관적이고, 덜 비합리적이고, 덜 잘못되려고 노력할 뿐이라고...

 

 

구글이 이렇게 무시무시한 기업이 된 것도, 점점 더 발전하는 검색엔진의 예측력 때문은 아닐까요?!

검색하는 사람의 특성을 파악해 앞으로 무엇을 원할지 바로 챙겨주는 녀석(구글 나우)은 미래가 아니라 벌써 현실이 되어버렸습니다.

IT기술과 빅데이터... 솔직히 조금 무서운 단계까지 온 것 같습니다.

 

 

신호와 소음, 네이트 실버, 빅데이터, 경제상식, 미래예측

 

정보량은 기하급수적으로 늘어나고 있다. 그러나 유용한 정보는 상대적으로 적다. 즉, 소음에 대한 신호의 비율이 점점 작아지고 있다. 우리에게는 이 둘을 구분할 수 있는 더 나은 방법이 필요하다. 중요한 것은 '우리가 아는 것'이 아니라 '우리가 아는 것과 우리가 안다고 생각하는 것 사이의 차이'다. 이 책은 지금까지, 이 둘 사이의 간극을 좁힐 수 있는 방법을 제안했다. 처음엔 도약을 크게 하고 그 다음부터는 작은 발걸음을 부지런히 놀려라. '큰 도약'이란 바로 예측과 확률에 대해 베이즈주의적으로 생각하는 것이다. (P.650)

우리 인간의 두뇌는 크다. 그러나 우리는 우리가 이해할 수 없을 정도로 광대한 우주 속에 살고 있다. 확률적으로 생각하는 것이 미덕은, 확률적으로 생각하면 무조건 앞으로만 나아가는 게 아니라 잠시 걸음을 멈추고 서서 자료를 살표보게 된다는 데 있다. 즉, 자신의 믿음에 잘못된 게 없는지 생각할 수 있다는 말이다. 이런 과정이 오랜 시간에 걸쳐 반복되면, 당신은 자신이 내리는 판단의 질이 점점 더 좋아진다는 사실을 깨닫게 될 것이다. (P.653)

 

이 책을 읽는 내내 저자 네이트 실버는 진짜 천재인 것 같다는 생각을 계속 했습니다.

얼마나 박학다식하면 이런 책을 쓸 수 있을까...

인터넷에서 찾아본 그의 인상은 역시 몰입 잘하게 생긴 얼굴이였습니다.

'신호와 소음'의 내용을 회사나 일상속에 잘 녹여 본다면 분명 신기한 경험을 하지 않을까 싶습니다.

그럼 슬슬 수많은 소음속에 진주 같은 신호를 잘 포착해봐야겠습니다.

그런데 갑자기 확률, 통계공부를 하고 싶은 것은 왜일까요?

 

6 Comments
댓글쓰기 폼