긍정적인 온라인 리뷰를 얻는 비결, by Minda Zetlin


제목: Secrets to Getting Good Reviews Online
저자: Minda Zetlin, at Inc. Magazine
출처: Inc. Magazine, http://www.inc.com/
일시: April 2010

요약
  온라인에서 좋은 리뷰를 받는 7가지 비결
  1. 이미 가지고 있는 리뷰들을 조심스럽게 검토하라. Pay attention to the reviews you already have.
  2. 리뷰/피드백을 요청하라. Consider asking for reviews.
  3. 당신의 웹프리젠스를 알게 하라. Make your web presence known.
  4. 부정 리뷰에 대해서는 즉각 대처하라. Respond quickly to bad reviews.
  5. 부정 리뷰어들과 직접 대면하라. Reach out to negative reviewers directly.
  6. 숫자 싸움임을 잊지 마라. Remember, it's a number game.
  7. 리뷰/피드백을 쉽게 받도록 노력하라. Make reviewing as easy as possible.

생각
  오늘날은 과거와 같이 물량 광고 (TV commercial이나 신문지면광고 등)으로 소비자를 현혹하는 시대는 지났다. 특히, 인터넷 커뮤니티 및 소셜네트워크 SNS가 활성화된 지금은 입소문/버즈 마케팅이 더욱 중요해졌습니다. 이런 입소문 마케팅은 TV광고처럼 생산자가 주도해서 이룰 수가 없는 부분입니다. 기사에서도 등장하듯이, 회사가 임의로 가짜 리뷰를 만들어내는 것은 더 큰 역효과를 만들어낼 것입니다. 자신의 장점을 충분히 보여주는 노력과 함께, 소비자들이 가진 긍정 또는 부정 이미지에 적극적으로 대처하는 것이 오늘날의 SNS에 참여하는 회사들의 공통된 노력일 것입니다. 최근에 블로그나 트위터 뿐만 아니라, FourSquare나 Yelp 등에서 자발적인 리뷰들이 쏟아지고 있습니다. 이런 소비자들의 자발성을 기업의 철학과 비전에 합일시킨다면 성공적인 소셜마케팅, 아니 소셜 대화 Social conversation & engagement가 가능할 것입니다. 기사에서는 7가지 긍정 리뷰를 받아내는 비결이라고 소개했지만, 이보다 더 창의적인 노력이 없다면 새로운 비즈니스 환경에서 살아남기가 어려울 듯합니다.

이론의 종말: 대용량 데이터는 과학적 접근법을 무력화시켰다. by Chris Anderson


제목: The End of Theory: The Data Deluge Makes the Scientific Method Obsolete
저자: Chris Anderson, at Wired Magazine
출처: Wired Magazine, http://www.wired.com
일시: June 23, 2008

요약
  소위 과학적 방법론 Scientific Method라고 하면, 어떤 현상에 대해서 가설 Hypothesis를 세워두고 그 가설이 맞는지 틀렸는지를 검증하는 것을 말한다. (대표적인 경우가 통계학 또는 실험분석에서 ANOVA 분석이라는 것이 있다.) 이런 과학적 방법론은 데이터의 양이 적은 경우 (수백에서 수만, 수십만 정도?)에서는 일부 데이터를 보고 적절한 가서을 세우고, 나머지 데이터를 가지고 검증을 할 수가 있다. 그렇지만, 요즘과 같이 테라, 페타바이트 이상의 데이터들이 존재하는 경우에 일부 데이터를 가지고 가설을 세우고 또 나머지 데이터로 그 가설의 참/거짓 여부를 판별하는 것이 사실상 불가능하다. 30년 전에 George Box가 "All models are wrong, but some are useful. 모든 모델은 틀렸다. 그러나 일부는 조금 유용하다."라는 말이 오늘날과 같은 대용량 데이터 환경에서 더욱 맞다는 말이었음이 증명되고 있다. 그런데, 구글의 연구책임자인 Peter Norvig은 더 나아가 "All models are wrong, and increasingly you can succeed without them. 모든 모델은 틀렸다. 그리고 앞으로 그런 것 없이 성공/살아갈 수 있다."라고 단언했다. 구글과 같이 수조거의 검색데이터를 보유하고 있고, 하루에 처리해야할 검색쿼리수는 상상을 초월한다. 그리고, 다른 바이오 산업에서의 게놈 프로젝트라거나 SETI (Search for Extra-Terrerstrial Intelligence) 프로젝트에서 다루어야하는 데이터는 실로 어마어마하다. 이런 거의 처리 불가능한 대용량 데이터에서 가설/모델을 만들고 수학적으로 검증하는 것이 현실적으로 불가능하다. 이런 상황에서 가장 적절한 방법은 단지 그런 데이터가 보여주는 현상만을 확인하고, 현상에 대응하는 정도가 유일한 해법이다. 즉, 많은 데이터가 모이다 보면 노이즈는 상실되고 큰 흐름에서 맞다는 말이다. 구글의 페이지랭크 (현재의 '구글랭크 = 페이지랭크'의 등식은 성립하지 않는다.)의 성공 요인도, 어떻게 해서 inlink의 개수가 많으면 더 중요한 정보다라는 것을 설명할 수가 없었지만, 많은 데이터에서 그런 현상을 가리키고 있기 때문에 그럴려니 하고 믿는 것뿐이다. 앞으로 다방면에서 더욱 데이터의 사이즈는 대용량화로 갈 것이기 때문에, 그런 일부 데이터를 분석해서 의미를 찾는 것보다 그런 전체가 보여주는 그림을 감상하고 인사이트를 얻고 적용하는 것이 유일한 방법인지도 모르겠다. 더욱 과학화될수록 (전통) 과학 방법론의 위력이 떨어지고 있다.

생각
 좀 오래된 칼럼이지만, 시간이 지날수록 더욱 필요한 인사이트인 것같아서 글을 소개합니다. 요약 부분에서, 칼럼을 단순히 요약하지 않고 제 생각을 함께 추가했기 때문에 별도의 추가설명은 생략하겠습니다.

대용량 머신러닝 시스템개발의 교훈, by Google Research


제목: Lessons learned developing a practical large scale machine learning system
저자: Simon Tong, at Google Research
출처: Google Research Blog, http://googleresearch.blogspot.com
일시: April 06, 2010

요약
 구글 Google에서 SETI라는 대용량 데이터를 다루는 머신러닝 시스템을 개발하면서 얻은 교훈을 정리한 블로그 포스팅입니다. 일반적으로 학교에서 사용하는 데이터의 경우 feature수나 sample수가 제한되어있기 때문에, Neural network이나 SVM, Bayesian 등의 다양한 통계/머신러닝 기법을 사용하고, 주요 목적이 이들 시스템의 정확도를 높이는 것에 초점을 두고 있습니다. 그렇지만, 검색데이터 (색인된 문서, 사용자들이 입력하는 키워드 및 클릭하는 정보, 온라인 광고 경매 등)에서는 학계에서 사용하는 데이터의 수천, 수만배 이상의 대용량 데이터를 처리하기 때문에 0.x%의 정확도를 높이는 것이 현실적으로 큰 의미를 가지지 않습니다. 그런 측면에서 구글리서치에서 SETI를 통해서 얻은 교훈을 다음 세가지로 정리했습니다.
  • 대용량 데이터를 처리하는데 있어서, 정확도보다는 사용의 편의성 및 신뢰성 Reliability 보장 등이 더 중요한 경우가 많다.
  • 프로젝트를 시작하는 시점에는 특정/특화된 애플리케이션을 염두에 두고 시작하라. 그리고, 일반화는 나중에 생각해도 된다.
  • 때로는 복잡한 머신런닝을 사용하는 것보다 간단한 수리적 연산이 더 좋은 경우가 있다.

생각
 최근에 데이터 마이닝의 추세를 보면, 1. 데이터의 대용량화 2. 시계열 Time-series 데이터 3. 실시간 데이터 처리 등이 중요한 이슈입니다. 실제 산업계의 데이터는 학계에서 다루는 데이터에 비해서 상상이상의 스케일을 가지고 있습니다. 일례로, 하루 동안 한국에서 검색되는 쿼리회수가 2~3억건을 초과하는데, 이런 데이터를 제대로 분석/처리하는 것은 쉬운 문제가 아닙니다. 특히 이런 데이터들은 timestamp를 함께 가지는 경우가 많은 시계열 데이터이고, 또 이런 대용량 데이터를 실시간/거의실시간으로 처리해서 서비스를 제공해줘야하는 문제가 있습니다. 그렇기에, 복잡한 머신런닝 기법을 사용해서 조금더 정확한 결과를 제공해주는 것도 중요하지만, 정확도를 일부 포기하더라도 조금더 빠르게 결과를 제공해주고 또 쉽게 이해할 수 있는 시스템을 구현하는 것이 중요해집니다. 학계에서도, 이제까지의 (눈에 띄지도 않는) 정확도 개선의 노력에 더해서, 변화하는 데이터의 특성에 맞춘 현실적인 연구 및 저작에 신경을 더 쓰줬으면 좋겠습니다.