이론의 종말: 대용량 데이터는 과학적 접근법을 무력화시켰다. by Chris Anderson


제목: The End of Theory: The Data Deluge Makes the Scientific Method Obsolete
저자: Chris Anderson, at Wired Magazine
출처: Wired Magazine, http://www.wired.com
일시: June 23, 2008

요약
  소위 과학적 방법론 Scientific Method라고 하면, 어떤 현상에 대해서 가설 Hypothesis를 세워두고 그 가설이 맞는지 틀렸는지를 검증하는 것을 말한다. (대표적인 경우가 통계학 또는 실험분석에서 ANOVA 분석이라는 것이 있다.) 이런 과학적 방법론은 데이터의 양이 적은 경우 (수백에서 수만, 수십만 정도?)에서는 일부 데이터를 보고 적절한 가서을 세우고, 나머지 데이터를 가지고 검증을 할 수가 있다. 그렇지만, 요즘과 같이 테라, 페타바이트 이상의 데이터들이 존재하는 경우에 일부 데이터를 가지고 가설을 세우고 또 나머지 데이터로 그 가설의 참/거짓 여부를 판별하는 것이 사실상 불가능하다. 30년 전에 George Box가 "All models are wrong, but some are useful. 모든 모델은 틀렸다. 그러나 일부는 조금 유용하다."라는 말이 오늘날과 같은 대용량 데이터 환경에서 더욱 맞다는 말이었음이 증명되고 있다. 그런데, 구글의 연구책임자인 Peter Norvig은 더 나아가 "All models are wrong, and increasingly you can succeed without them. 모든 모델은 틀렸다. 그리고 앞으로 그런 것 없이 성공/살아갈 수 있다."라고 단언했다. 구글과 같이 수조거의 검색데이터를 보유하고 있고, 하루에 처리해야할 검색쿼리수는 상상을 초월한다. 그리고, 다른 바이오 산업에서의 게놈 프로젝트라거나 SETI (Search for Extra-Terrerstrial Intelligence) 프로젝트에서 다루어야하는 데이터는 실로 어마어마하다. 이런 거의 처리 불가능한 대용량 데이터에서 가설/모델을 만들고 수학적으로 검증하는 것이 현실적으로 불가능하다. 이런 상황에서 가장 적절한 방법은 단지 그런 데이터가 보여주는 현상만을 확인하고, 현상에 대응하는 정도가 유일한 해법이다. 즉, 많은 데이터가 모이다 보면 노이즈는 상실되고 큰 흐름에서 맞다는 말이다. 구글의 페이지랭크 (현재의 '구글랭크 = 페이지랭크'의 등식은 성립하지 않는다.)의 성공 요인도, 어떻게 해서 inlink의 개수가 많으면 더 중요한 정보다라는 것을 설명할 수가 없었지만, 많은 데이터에서 그런 현상을 가리키고 있기 때문에 그럴려니 하고 믿는 것뿐이다. 앞으로 다방면에서 더욱 데이터의 사이즈는 대용량화로 갈 것이기 때문에, 그런 일부 데이터를 분석해서 의미를 찾는 것보다 그런 전체가 보여주는 그림을 감상하고 인사이트를 얻고 적용하는 것이 유일한 방법인지도 모르겠다. 더욱 과학화될수록 (전통) 과학 방법론의 위력이 떨어지고 있다.

생각
 좀 오래된 칼럼이지만, 시간이 지날수록 더욱 필요한 인사이트인 것같아서 글을 소개합니다. 요약 부분에서, 칼럼을 단순히 요약하지 않고 제 생각을 함께 추가했기 때문에 별도의 추가설명은 생략하겠습니다.