-어떤 데이터가 제대로 된 데이터인가?
분석한 결과가 얼마나 신뢰할 수 있고 올바른 결과를 냈는지 => 타당성과 신뢰성
빅데이터에서 활용되는 자료의 근거가 됨
ex) 이 껌은 의사 5명중 4명이 충치를 예빵하는데 도움이 된다고 했다
타당성이 있나? 신뢰성이 있니?
타당성: 실제 측정하고자 하는 점에 들어갔나?
신뢰성: 일관성 있게 동일한 결과가 나오나
이 데이터가 올바른 데이터인지 확인. 두 조건은 동시에 갖고 있어야 하는 must. 둘 중 하나만 있음 안된다.
-타당성 (A,B를 판별하는 두 특성. 다른 개념이지만 두 특성의 결과값이 유사하게 나온 경우 그 결과값으로 A와 B를 구별하기는 어렵다.)
- 집중 타당성: 구조를 일관되게 반영하는 항목 (신뢰성이랑 비슷. 일관성)
- 판별 타당성: 의도하지 않은 구조는 배제하고 의도한 구조만을 반영한 항목 ()
클러스터링 할 때 점수가 같은 것끼리(집중 타당성) 묶고 그 점수의 집단에 따른 다른점수의 집단과 구분(판별 타당성)할 수 있어야 한다.
상관분석
- 상관관계의 파악
상관분석 : 두개의 양적인 변수 x와 y가 있을 떄 두 변수 상관 관계의 파악. 두개가 서로 영향이 있음
인과관계랑 뭐가 다른가? "사건의 발생 시간" A가 발생해야 B가 발생한다. 시간간격 차이 있음
상관관계는 수치적으로 증명이 된다 y=ax+b
빅데이터 분석의 주 목적은 인과관계보다 상관관계를 파악하기 위한 것.
상관관계 : A가 변할 떄 B가 어떻게든 변한다. 두 개의 변수 사이에 상관관계가 있는지 어떤지를 수치적으로 판단하는데는 상관계수라고 하는게 필요
인과관계 : B가 변할 때 A는 꼭 변한다. 원인과 결과의 관계. 데이터의 통계적 검토만으로는 입증할 수 없다
회귀분석
상관관계를 파악하는 수치를 만드는 것. 독립변수(x)와 종속변수(y)가 어떠한 관계로 나타나는지 파악
x가 변할때 y가 영향을 받는다. x는 y와 상관없이 다양하게 넣는다.
측정도구와 척도
명목척도: 분류만 되는 특성을 가진 것 ex)남과여, 흑인백인 => 순서의 개념이 없다
순서척도: 분류+순서 ex) 1번, 2번, 3번
=> 위 두개는 수치화하기 어려움. 특수한 회귀분석방법을 씀. 로지스틱 회귀분석 방법 쓴다.
등간척도: 분류+순서+거리 1단계와 2단계, 2단계와 3단계의 거리가 같다. 간격비교, 간격의 동일성
비율척도: 분류+순서+거리+절대영점 온도에는 절대 온도가 존재하지 않지만 몸무게나 키는 존재
"빅데이터 분석에 척도를 왜 배우느냐?" 여자가 남자보다 왜 오래사는가? 에 대해 대답하기 위해서
~.이거에 대답할 수 있으면 노벨상 탈 수 있다고 하신다ㅋㅋ .~
올바른 빅데이터 분석!!
수집 데이터 정합성에 대한 고민
분석 대상에 대한 심도 있는 지식
분석 방법에 대한 깊은 이해 -> 계속 학습할 수 밖에 없음
분석 결과에 대한 고찰 -> 의심
수정-수정-수정
고민-고민-고민
빅데이터 분석 개요
생성-> 수집 -> 저장 -> 처리 -> 분석 -> 시각화
~.돈 많이 벌려면 분석 시각화. 컴공과는 저장, 처리
분석 후 그게 정답이라고 생각하지 마라. 계속 6단계를 왔다갔다 해야한다.~
분석대상: 고객 데이터와 같은 정형 데이터, 비정형 데이터도 포함
빅데이터 분석 기법
~제대로 된 분석 방법을 아는 것도 중요하다!~
-
데이터마이닝
-1) 분류 : 수집한 데이터가 어떤 클래스에 속하는지 분류
-2) 군집화(Clustering): 수집한 데이터들을 분리하여 유사한것들끼리 묶이도록함. 목적에 따라서! ex) 모양, 색깔
-3) 회귀분석 :
-4) 요약 : 방대한 데이터를 핵심적인 부분만 축약
데이터를 얻을 땐 구글을 이용하라 워드 클러스터 만들어서 의미 해석 -
텍스트마이닝
해시태그, 뉴스, 기사, 이메일, 댓글 같은 텍스트 데이터를 분석
-1) 텍스트 기반 감성 분석 개요 -
소셜마이닝
소셜 미디어에 올라오는 글과 사용자를 분석하여 소비자의 흐름이나 패턴 등을 분석하고 판매나 홍보에 적용되는 기법
-제품이나 서비스에 대한 평가 수집
빅카인즈: 뉴스데이터 분석 -
현실마이닝
휴대폰 대화내용, 이동경로분석,
'Data Analysis' 카테고리의 다른 글
비정형 데이터 분석 - Gephi를 이용한 데이터 필터링 및 시각화 (0) | 2019.05.03 |
---|---|
데이터그리기 (0) | 2019.04.26 |
무료 네트워크 분석 프로그램 - 데이터 시각화 도구 Gephi 설치 (0) | 2019.04.19 |
군집 분석을 위한 기초개념과 네트워크 분석 (1) | 2019.04.12 |
데이터분석가가 갖추어야 할 스펙은 뭐가 있을까 (0) | 2019.04.04 |