회원가입 동의를 할 때 3자 제공 동의에 동의를 해 버린다.
모두 동의를 해야 회원가입이 되는 줄 알기 때문이다. 아니다. 한데 대부분의 사람들은 이런 사실을 인지하지 못하고 있다. 홈플러스 개인정보 매출 사건도 법적으로 무죄인 것으로 판별이 되었다.
조지 오웰의 1984가 반면교사로 작동하는 것이 아니라 교사로 작동하는 느낌이다.
1984는 쏘련 같은 전제주의 국가의 풍자로 읽혔지만 지금은 구글이 빅 브라더가 될 가능성이 아주 높아졌다.
우리는 부지불식간에 흔적을 남긴다. 데이터는 주어진 것(things given)이라는 뜻으로 한국말로 바꾸면 흔적 같은 느낌이다.
사람은 흔적을 남기고 살 수 밖에 없다. ‘김우중’ 전 대우그룹 회장도 자신의 삶을 흔적으로 요약한 적이 있다.
흔적을 남기겠다는 욕망, 그게 모티베이션(동기유발, motivation)이 되기도 하나 보다.
이런 흔적을 모아 모아서 인사이트(insight)를 만들겠다는 것, 이게 빅 데이터의 모티베이션이다.
78쪽 용어해설이다.
<고차원 회귀분석은 회귀모형에서 설명변수의 수가 데이터의 수보다 큰 경우를 지칭>
변수가 데이터보다 많을 수가 있을까? 빅 데이터에서는 가능하다.
빅데이터는 레코드(행)이 늘어나는 것이 아니라 칼럼(횡)이 늘어난다.
행렬을 값으로 채우는 것이 아니라 없는 것은 없는 대로 둔다. 그러니 변수(칼럼)가 데이터(레코드)보다 많아 질 수 있는 것이다.
변수가 많으니 변수를 선택해야 한다. 선택하는 과정이 또 다른 변수로 작동하게되어 추정 결과가 불안정하고 회귀 모형의 예측력이 저하된다. 이를 해결하기 위한 것이 벌점화 방법이다. 벌점화는 분산을 크게 줄인다.
타겟군이 경영학, 통계학, 컴퓨터 과학 학생이다.
살짝 애매해졌다. 통계학을 기본으로 하는 학생은 어렵지 않게 이해할 수 있겠다. 하지만 다른 학과 학생은 통계학의 기초가 부족하여 이해가 힘들다.
평이하게 설명할 수 있었으면 더 나았겠다는 생각이 든다.
용어를 쉽게 이해시켰으면 한다. 티칭(teaching)과 연구(reserach)가 다른 포인트가 그것이라 생각한다.
연구는 동료를 대상으로 설득하는 것이고 티칭은 초심자를 대상으로 이야기를 거는 것이다.