안녕 데이터마이닝


데이터 마이닝의 정의

거대한 데이터에서 쓸만한 정보를 빼내는 것. (Hand et al)

데이터 마이닝은 탐색과 분석의 과정이다. 다량의 데이터에서 의미있는 패턴과 규칙을 찾는 것이다. (Berry and Linoff)

데이터 마이닝은 저장소에 있는 다량의 데이터를 패턴 인식과 수학-통계적 기술로써 의미있는 상관관계, 패턴과 트렌드를 찾아내는 과정이다.(Gartner Group)

5Vs

Volume
Variety
Velocity
Value
Veracity

연역적인 논리

  • 하나의 조건에서 다른 조건으로.

    • 사람은 언젠가 죽는다.
    • 소크라테스는 사람이다.
    • 그래서 소크라테스는 언젠가 죽는다.

귀납적 논리

  • 경우, 예시, 이론 (데이터가 말하길..)
  • 수학적 귀납 : k=1인걸 증명해라, k를 추정해라, 그리고 k+1을 증명해라
  • 공학자들은 어떻고 비즈니스맨들은 어떻다
  • 귀납 vs 유형화: 경우의 수

어디에 쓸까?

  1. 이해를 돕는 시각화 (wordcloud, network, graphs…)
  2. 미래 예측(기상, 주식, 현상..)
  3. 추천 시스템 (의사 결정을 편하게)
  4. 검색엔진과 응용
  5. 심리/동향 분석(Obama가 선거활동 당시 활용)
  6. 교통 흐름 분석
  7. 필터링, 검열(Facebook, 실명을 사용하지 않는 것으로 추정되는 회원을 제제)
  8. 의학

모델

서술 모델링

  • 과거를 참조한다.
  • 쉽고 간편하게 이해할 수 있는 정보를 거대한 데이터베이스에서 얻어내기 위함.
  • 온라인 분석적 처리
  • SQL

예측 모델링

  • 데이터의 변수들 사이에서 강한 연결성을 확인
  • 주어진 정보로 미지의 결과를 예측

지도 학습

  • 특정한 하나의 목표나 출력을 예측한다.
  • X와 Y의 관계를 찾는다.
  • 목표가 정해진 데이터로 Train시킨다.
  • 목표값을 알 수 없는 data에 점수를 매긴다.
  • 정규화, 회귀, 새로움 감지

비지도 학습

  • 고유한 특성을 찾아낸다.
  • 근본적인 분포를 측정한다.
  • 의미있는 그룹으로 데이터를 나누거나 패턴을 감지한다.
  • 목표나 원하는 출력은 없다.
  • 밀도 측정, 군집화, 네트워크, 분석 등

데이터 마이닝의 기술

시각화

  • 데이터의 그래프와 plot
  • 막대그래프, box plot, 바 차트, 산점도 등.
  • 데이터 쌍, 변수의 연관성을 찾는데 도움이 된다.
  • 서술적, 비지도적.

데이터 축소

  • 복잡하고 거대한 데이터를 간단하고 작은 데이터로.
  • 변수와 칼럼의 수를 줄인다.
  • 레코드의 수와 열을 줄인다.
  • 서술적, 비지도적.

Data visualization + Data reduction = Data Exploration

분할 / 군집화(Segmantation/Clustering)

  • 목표 : 모든 데이터를 소수의 서브그룹으로 나눈다.
  • 사이사이에 숨어있는 이질적인 데이터를 분류해 동질적인 데이터끼리 분류
  • 시장 분석, SNS 분석 등
  • 서술적, 비지도적.

분류(Classification)

  • 목표 : 대상의 단정적 변수를 에상.
  • 예시 : 결제/미결제, 사기/정상, 신용있음/없음
  • 각 열은 경우/레코드/사례(case/record/instsance)이다.
  • 각 칼럼은 변수이다.
  • 목표 변수는 bool type일 경우도 많다. (yes/no)
  • 예측적, 지도적.

Classification Example : Decision Tree, Logistic Regression

회귀(Regression)

  • 목표 변수의 수치적 예측
  • 예시 : 판매량, 수익, 성능
  • 분류처럼 :
    • 각 열은 case/record/instance 이다.
    • 각 칼럼은 변수이다.
  • 분류와 회귀(예측)은 같이 다루어진다.
  • 예측적, 지도적.

예시 : Time series 분석

연관 법칙(Association Rule)

  • 무엇이 무엇에 포함됐는지-를 예측하기 위한 규칙을 생성
  • 예시 : X를 결제했다면 Y 또한 결제했다.
  • 열은 거래이다.(Rows are transactions??)
  • 추천 시스템에 사용된다. “저희 레코드에 따르면 당신은 x를 샀고 y 또한 좋아하실 것 같네요.”
  • 친밀도 분석 등으로도 불린다.
  • 예측적, 비지도적.

Novelty 감지

  • 새로 주어진 경우가 기존의 정상 경우와 비슷한지 식별
  • 예시 : 의학 진단, 신원 확인 등.
  • 각 열은 case/record/instance.
  • 각 칼럼은 변수이다.
  • 명확한 목표 변수는 없으나 모든 레코드가 같은 목표를 갖는다고 추상한다.
  • 예측적, 지도적.