Data Analysis (6) 썸네일형 리스트형 비정형 데이터 분석 - Gephi를 이용한 데이터 필터링 및 시각화 Gephi를 조작하여 언론데이터를 필터링하고 분석해보자 데이터클렌징: 필요한 데이터만 남기는 과정 (토픽과 관련없는 단어) => 블랙리스트 과정 화이트리스트 과정: 꼭 필요한 단어 추출 이음동의어 단어정리 : 유사한 단어들을 하나의 통일된 단어로 정리 ex) 블록체, blockchain => 블록체인으로 통일 분석자가 직접 만들어야 함. ,이날, 먼저 삭제하고 그 다음에 이날, 삭제 데이터 - 텍스트 나누기 - 구분 기호로 분리됨 undirected 무방향성 Modularity : 실제 자신이 그룹에 속하고 다른 그룹에 이질적인 정도 node간 얼마나 연결되어 있는지 나타난다. 오른쪽 맨 하단에 1000개로 숫자 변경 Topology - Degree Range Nodes > ranking > modula.. 데이터그리기 한국언론진흥재단이라는 민간기관에서 만든 빅데이터 분석 시스템 키워드만 남기고 다 삭제. 쉼표라는 구분자로 노드를 구분. 노드 = 하나의 객체 노드와 노드 연결 = 엣지 특정 단어가 많이 나와서 선이 굵어지는 걸 strength 강도. 얼마나 자주 왔다갔다 하는지 노드가 연결된 수 = degree 얼마나 많은 선, 단어가 연결되어 있는가 블랙리스트 : 전체 데이터에서 필요없는걸 제거 화이트리스트: 자신이 찾고 싶은 데이터 목록들 포함 ctrl H 중간에 있는걸 먼저 바꾸고 그다음 맨 앞에 있는 거 수정 맨앞에 이젠으로 시작하는거 다 삭제 , 이젠, 이젠이 들어간거 다 삭제 셀로 구분 Modularity 1.0 특별한 문제 없으면 건들지 않는게 좋음 eigenvector centrality filter-> .. 무료 네트워크 분석 프로그램 - 데이터 시각화 도구 Gephi 설치 Gephi : 무료 네트워크 분석 프로그램 구글 - Gephi 설치, 자바 jdk 설치 jdk 경로랑 메모리 최대 최소값 변경하고 "저장" gephi 켜고 도구-플러그인 - 업데이트 - 재시작 도구-플러그인-사용 가능한 플러그인 49개 모두 설치한다. 설치 다되면 재시작 군집 분석을 위한 기초개념과 네트워크 분석 군집 분석을 위한 기초개념 군집 분석: 클러스터링은 정답을 알고 있을 경우 군집 분석은 정답을 알지 모르는 경우 뭔지 모르겠으나 공통적인 특징이 있는 것끼리 묶은 것 서로 유사한 정도에 따라 다수의 객체를 군집으로 나누는 작업 또는 이에 기반한 분석 군집내에 속하는 객체들의 특성은 유사하고 서로 다른 군집에 속하는 객체들의 특성은 서로 이질적이라는 가정으로 분류 계층 / 비계층 / 최적분화는 넘버링을 정하지 않고 어떤게 가장 좋은지 모듈성 : 노드가 특정 군집과는 가깝고 그 밖의 다른 군집과는 거리가 있는 정도를 나타냄 ~요즘 가장 많이 쓰이는 네트워크 분석 방법 중 하나임~ 공출현 : 공통으로 같이 출연하는 것. 자주 출현할 수록 관계가 높다 범위를 정하는게 핵심 특정 범위 내에 있는 모든 노드들 간에.. 데이터 분석의 기초 -어떤 데이터가 제대로 된 데이터인가? 분석한 결과가 얼마나 신뢰할 수 있고 올바른 결과를 냈는지 => 타당성과 신뢰성 빅데이터에서 활용되는 자료의 근거가 됨 ex) 이 껌은 의사 5명중 4명이 충치를 예빵하는데 도움이 된다고 했다 타당성이 있나? 신뢰성이 있니? 타당성: 실제 측정하고자 하는 점에 들어갔나? 신뢰성: 일관성 있게 동일한 결과가 나오나 이 데이터가 올바른 데이터인지 확인. 두 조건은 동시에 갖고 있어야 하는 must. 둘 중 하나만 있음 안된다. -타당성 (A,B를 판별하는 두 특성. 다른 개념이지만 두 특성의 결과값이 유사하게 나온 경우 그 결과값으로 A와 B를 구별하기는 어렵다.) 집중 타당성: 구조를 일관되게 반영하는 항목 (신뢰성이랑 비슷. 일관성) 판별 타당성: 의도하지 않은 구.. 데이터분석가가 갖추어야 할 스펙은 뭐가 있을까 데이터를 다룬다는 것은 어떠한 대상들을 수치화 할 수 있는 데이터의 형태로 변환하여 체계적으로 저장하고 이론적인 방법을 통해 저장된 데이터를 효율적으로 분석해 보기 쉬운 형태로 만드는 것을 의미한다. 다양한 기업과 산업에서는 데이터를 수집하고 관리하며 유지하는 일이 필요하고 이 역할을 하는 데이터 엔지니어가 매일매일 쏙아지는 방대한 양의 데이터를 수집하고 분석하며 관리하는 일을 한다. 대용량의 다양하고 가치있는 데이터를 빠르고 정확한 분석을 통해 새로운 가치를 창출하기 위해 빅데이터 분석이 중요해지고 있다. 빅데이터를 분석하는 이유는 수집되는 데이터의 가치와 데이터 분석을 통해 얻게 될 가치를 통해 가치를 창출하기 위해서이다. 빅데이터 분석 방법을 도입해서 SW직종 직무 분류체계를 재정의한것에 따르면고용.. 이전 1 다음