본문 바로가기

Data Analysis

데이터 분석의 기초

-어떤 데이터가 제대로 된 데이터인가?
분석한 결과가 얼마나 신뢰할 수 있고 올바른 결과를 냈는지 => 타당성과 신뢰성
빅데이터에서 활용되는 자료의 근거가 됨
ex) 이 껌은 의사 5명중 4명이 충치를 예빵하는데 도움이 된다고 했다
타당성이 있나? 신뢰성이 있니?
타당성: 실제 측정하고자 하는 점에 들어갔나?
신뢰성: 일관성 있게 동일한 결과가 나오나
이 데이터가 올바른 데이터인지 확인. 두 조건은 동시에 갖고 있어야 하는 must. 둘 중 하나만 있음 안된다.
-타당성 (A,B를 판별하는 두 특성. 다른 개념이지만 두 특성의 결과값이 유사하게 나온 경우 그 결과값으로 A와 B를 구별하기는 어렵다.)

  • 집중 타당성: 구조를 일관되게 반영하는 항목 (신뢰성이랑 비슷. 일관성)
  • 판별 타당성: 의도하지 않은 구조는 배제하고 의도한 구조만을 반영한 항목 ()
    클러스터링 할 때 점수가 같은 것끼리(집중 타당성) 묶고 그 점수의 집단에 따른 다른점수의 집단과 구분(판별 타당성)할 수 있어야 한다.

상관분석

  1. 상관관계의 파악
    상관분석 : 두개의 양적인 변수 x와 y가 있을 떄 두 변수 상관 관계의 파악. 두개가 서로 영향이 있음
    인과관계랑 뭐가 다른가? "사건의 발생 시간" A가 발생해야 B가 발생한다. 시간간격 차이 있음
    상관관계는 수치적으로 증명이 된다 y=ax+b
    빅데이터 분석의 주 목적은 인과관계보다 상관관계를 파악하기 위한 것.
    상관관계 : A가 변할 떄 B가 어떻게든 변한다. 두 개의 변수 사이에 상관관계가 있는지 어떤지를 수치적으로 판단하는데는 상관계수라고 하는게 필요
    인과관계 : B가 변할 때 A는 꼭 변한다. 원인과 결과의 관계. 데이터의 통계적 검토만으로는 입증할 수 없다

회귀분석
상관관계를 파악하는 수치를 만드는 것. 독립변수(x)와 종속변수(y)가 어떠한 관계로 나타나는지 파악
x가 변할때 y가 영향을 받는다. x는 y와 상관없이 다양하게 넣는다.

측정도구와 척도

명목척도: 분류만 되는 특성을 가진 것 ex)남과여, 흑인백인 => 순서의 개념이 없다
순서척도: 분류+순서 ex) 1번, 2번, 3번
=> 위 두개는 수치화하기 어려움. 특수한 회귀분석방법을 씀. 로지스틱 회귀분석 방법 쓴다.
등간척도: 분류+순서+거리 1단계와 2단계, 2단계와 3단계의 거리가 같다. 간격비교, 간격의 동일성
비율척도: 분류+순서+거리+절대영점 온도에는 절대 온도가 존재하지 않지만 몸무게나 키는 존재

"빅데이터 분석에 척도를 왜 배우느냐?" 여자가 남자보다 왜 오래사는가? 에 대해 대답하기 위해서
~.이거에 대답할 수 있으면 노벨상 탈 수 있다고 하신다ㅋㅋ .~

올바른 빅데이터 분석!!
수집 데이터 정합성에 대한 고민
분석 대상에 대한 심도 있는 지식
분석 방법에 대한 깊은 이해 -> 계속 학습할 수 밖에 없음
분석 결과에 대한 고찰 -> 의심
수정-수정-수정
고민-고민-고민

빅데이터 분석 개요

생성-> 수집 -> 저장 -> 처리 -> 분석 -> 시각화
~.돈 많이 벌려면 분석 시각화. 컴공과는 저장, 처리
분석 후 그게 정답이라고 생각하지 마라. 계속 6단계를 왔다갔다 해야한다.~

분석대상: 고객 데이터와 같은 정형 데이터, 비정형 데이터도 포함

빅데이터 분석 기법

~제대로 된 분석 방법을 아는 것도 중요하다!~

  1. 데이터마이닝
    -1) 분류 : 수집한 데이터가 어떤 클래스에 속하는지 분류
    -2) 군집화(Clustering): 수집한 데이터들을 분리하여 유사한것들끼리 묶이도록함. 목적에 따라서! ex) 모양, 색깔
    -3) 회귀분석 :
    -4) 요약 : 방대한 데이터를 핵심적인 부분만 축약
    데이터를 얻을 땐 구글을 이용하라 워드 클러스터 만들어서 의미 해석

  2. 텍스트마이닝
    해시태그, 뉴스, 기사, 이메일, 댓글 같은 텍스트 데이터를 분석
    -1) 텍스트 기반 감성 분석 개요

  3. 소셜마이닝
    소셜 미디어에 올라오는 글과 사용자를 분석하여 소비자의 흐름이나 패턴 등을 분석하고 판매나 홍보에 적용되는 기법
    -제품이나 서비스에 대한 평가 수집
    빅카인즈: 뉴스데이터 분석

  4. 현실마이닝
    휴대폰 대화내용, 이동경로분석,