본문 바로가기

분류 전체보기

(16)
인덱스종류 및 특징 1. Index Range Scan 루트블록에서 리프블록까지 수직적으로 탐색한 후에 리프 블록을 필요한 범위만 스캔하는 방식 인덱스를 구성하는 선두컬럼이 조건절에 사용되어야 한다 range scan을 거쳐 생성된 결과집합은 인덱스 컬럼 순으로 정렬된 상태가 되서 sort order by연산을 생략하거나 min,max 값을 빠르게 추출할 수 있다 2. Index Full Scan 수직적 탐색 없이 인덱스 리프 블록을 처음부터 끝까지 수평적으로 탐색하는 방식 인덱스 스캔 단계에서 대부분 레코드를 필터링하고 일부에 대해서만 테이블 액세스가 발생하면 전체적인 I/O 측면에서 이 방식이 유리하다 3. Index Uniaue Scan unique 인덱스를 통해 =조건으로 탐색하는 경우. 수직적 탐색만으로 데이터를 ..
비정형 데이터 분석 - Gephi를 이용한 데이터 필터링 및 시각화 Gephi를 조작하여 언론데이터를 필터링하고 분석해보자 데이터클렌징: 필요한 데이터만 남기는 과정 (토픽과 관련없는 단어) => 블랙리스트 과정 화이트리스트 과정: 꼭 필요한 단어 추출 이음동의어 단어정리 : 유사한 단어들을 하나의 통일된 단어로 정리 ex) 블록체, blockchain => 블록체인으로 통일 분석자가 직접 만들어야 함. ,이날, 먼저 삭제하고 그 다음에 이날, 삭제 데이터 - 텍스트 나누기 - 구분 기호로 분리됨 undirected 무방향성 Modularity : 실제 자신이 그룹에 속하고 다른 그룹에 이질적인 정도 node간 얼마나 연결되어 있는지 나타난다. 오른쪽 맨 하단에 1000개로 숫자 변경 Topology - Degree Range Nodes > ranking > modula..
데이터그리기 한국언론진흥재단이라는 민간기관에서 만든 빅데이터 분석 시스템 키워드만 남기고 다 삭제. 쉼표라는 구분자로 노드를 구분. 노드 = 하나의 객체 노드와 노드 연결 = 엣지 특정 단어가 많이 나와서 선이 굵어지는 걸 strength 강도. 얼마나 자주 왔다갔다 하는지 노드가 연결된 수 = degree 얼마나 많은 선, 단어가 연결되어 있는가 블랙리스트 : 전체 데이터에서 필요없는걸 제거 화이트리스트: 자신이 찾고 싶은 데이터 목록들 포함 ctrl H 중간에 있는걸 먼저 바꾸고 그다음 맨 앞에 있는 거 수정 맨앞에 이젠으로 시작하는거 다 삭제 , 이젠, 이젠이 들어간거 다 삭제 셀로 구분 Modularity 1.0 특별한 문제 없으면 건들지 않는게 좋음 eigenvector centrality filter-> ..
무료 네트워크 분석 프로그램 - 데이터 시각화 도구 Gephi 설치 Gephi : 무료 네트워크 분석 프로그램 구글 - Gephi 설치, 자바 jdk 설치 jdk 경로랑 메모리 최대 최소값 변경하고 "저장" gephi 켜고 도구-플러그인 - 업데이트 - 재시작 도구-플러그인-사용 가능한 플러그인 49개 모두 설치한다. 설치 다되면 재시작
군집 분석을 위한 기초개념과 네트워크 분석 군집 분석을 위한 기초개념 군집 분석: 클러스터링은 정답을 알고 있을 경우 군집 분석은 정답을 알지 모르는 경우 뭔지 모르겠으나 공통적인 특징이 있는 것끼리 묶은 것 서로 유사한 정도에 따라 다수의 객체를 군집으로 나누는 작업 또는 이에 기반한 분석 군집내에 속하는 객체들의 특성은 유사하고 서로 다른 군집에 속하는 객체들의 특성은 서로 이질적이라는 가정으로 분류 계층 / 비계층 / 최적분화는 넘버링을 정하지 않고 어떤게 가장 좋은지 모듈성 : 노드가 특정 군집과는 가깝고 그 밖의 다른 군집과는 거리가 있는 정도를 나타냄 ~요즘 가장 많이 쓰이는 네트워크 분석 방법 중 하나임~ 공출현 : 공통으로 같이 출연하는 것. 자주 출현할 수록 관계가 높다 범위를 정하는게 핵심 특정 범위 내에 있는 모든 노드들 간에..
05 시퀀스 자료형 활용하기 파이썬에서는 리스트, 튜플, range, 문자열처럼 값이 연속적으로 이어진 자료형을 시퀀스 자료형이라고 한다. 시퀀스 자료형의 가장 큰 특징은 공통된 동작과 기능을 제공한다는 점이다. 따라서 시퀀스 자료형의 기본적인 사용 방법을 익혀 두면 나중에 어떠한 시퀀스 자료형을 접하게 되더라도 큰 어려움 없이 사용할 수 있다. 시퀀스 자료형으로 만든 객체를 시퀀스 객체라고 하며 시퀀스 객체에 들어있는 각 값을 요소라고 부른다. 1. 특정 값이 있는지 확인하기 시퀀스 안에 찾고자 하는 값이 있는지 확인하는 방법 찾고자 하는 값이 시퀀스 안에 있으면 True, 없으면 False 반대로 not in을 했을 때 맞으면 True, 틀리면 False 2. 시퀀스 객체 연결하기 시퀀스 객체는 + 연산자를 사용하여 객체를 서로..
데이터 분석의 기초 -어떤 데이터가 제대로 된 데이터인가? 분석한 결과가 얼마나 신뢰할 수 있고 올바른 결과를 냈는지 => 타당성과 신뢰성 빅데이터에서 활용되는 자료의 근거가 됨 ex) 이 껌은 의사 5명중 4명이 충치를 예빵하는데 도움이 된다고 했다 타당성이 있나? 신뢰성이 있니? 타당성: 실제 측정하고자 하는 점에 들어갔나? 신뢰성: 일관성 있게 동일한 결과가 나오나 이 데이터가 올바른 데이터인지 확인. 두 조건은 동시에 갖고 있어야 하는 must. 둘 중 하나만 있음 안된다. -타당성 (A,B를 판별하는 두 특성. 다른 개념이지만 두 특성의 결과값이 유사하게 나온 경우 그 결과값으로 A와 B를 구별하기는 어렵다.) 집중 타당성: 구조를 일관되게 반영하는 항목 (신뢰성이랑 비슷. 일관성) 판별 타당성: 의도하지 않은 구..
마케팅 기초 마케팅 정의 생산자로부터 소비자에게로 제품 및 서비스의 흐름을 관리하는 기업 활동의 수행 제품, 서비스를 창출하고 이들의 가격을 결정하여 배포하고, 정보를 제공하여 개인 및 조직체의 목표를 만족시키는 교환을 성립하게 하는 일련의 활동 현대 마케팅의 특징은 -소비자의 만족 추구 -구매자 중심, 피드백 , 마케팅을 조사하고 계획하는 선행적 마케팅 -소비자 지향성 소비의 극대화 소비자 만족의 극대화, 선택의 극대화 -사회적 책임 지향성 : 기업이 사회의 책임을 다하는 것 마케팅관리 기업의 목표달성에 도움을 줄 수 있는 방향으로 수요의 수준, 시기, 성격에 영향력을 행사하는 것. 수요의 관리를 의미. 마케팅 명칭 전환 마케팅 : 소비자가 구매를 꺼리거나 피하려는 상황에서 부정적 수요를 긍정적 수요로 바꾼다 자극..