Data analysis 데이터 분석
어떤 기존 시스템 또는 계획 중인 시스템에서 데이터와 데이터의 흐름을 체계적으로 조사하는 것.
출처: 네이버 지식백과 / IT용어사전
Data mining 데이터 마이닝
대용량 데이터에서 의미 있는 통계적 패턴이나 규칙, 관계를 찾아내 분석하여 유용하고 활용할수 있는 정보를 추출하는 기술
지하에 묻힌 광물을 찾아낸다는 뜻의 마이닝(mining)은 탄광에서 석탄을 캐거나 대륙붕에서 원유를 채굴하는 작업처럼 데이터에서 숨겨진 가치를 찾아낸다는 의미에서 데이터 분석 용어로 사용한다.
데이터 마이닝은 학문적으로는 통계, 전산, 경영 등 다양한 데이터 분석 관련 학문의 융합으로 탄생한 융합 학문이다. 기술적으로 데이터 마이닝에는 대용량 데이터를 효율적으로 저장하고 관리하는 기법인 데이터베이스(Database), 데이터 창고(DW : Data Warehouse)1), 데이터 마트(data mart)2) 등과 방대한 규모의 데이터를 분석하는 분산 처리 기술 등이 사용된다. 데이터 마이닝 분석 방법으로는 목표 변수에 따라 진행되는 정형 데이터 마이닝 기법과 비정형 데이터 마이닝 기법이 있다.
데이터 마이닝은 데이터 처리를 위한 다양한 분야에 적용할 수 있으며, 마케팅, 생산, 금융, 미디어, 순수 과학 등 여러 산업 분야에서 활용할 수 있다.
출처 : 네이버 지식백과 / 용어로 알아보는 우리시대 DATA
DataOps 데이터옵스
사용자에게 데이터를 효과적으로 제공하기 위해 데이터 생성부터 소비까지의 데이터 흐름을 원활하게 제공해주고 적합한 데이터를 적시에 필요한 장소로 가져올 수 있는 프로세스를 자동화하여 데이터의 잠재력을 최대한 발휘하도록 하는 데이터 관리 방법론.
데이터옵스(DataOps)는 데이터(data)와 운영(operation)이 결합된 용어다. 데이터 흐름을 효과적으로 운영(operation)하는 데 초점을 맞춘 방법론으로 전체 데이터 생명주기에 적용한다.
데이터옵스는 기업이나 기관 내에 흩어져 있는 데이터를 적시에 분석이 필요한 장소로 가져와 효과적으로 제공하는 기술과 솔루션으로 구성된다.
데이터 분석은 데이터 수집, 변환, 적재, 정제, 분석, 시각화, 해석 등의 여러 단계를 거쳐야 한다. 일반적으로 각 단계별로 데이터 과학자의 개입이 필요하다. 분석을 위한 데이터 준비 단계부터 수작업을 통해서 이루어지기 때문에 원자료(raw data)에서 데이터 셋(data set)을 얻는 것조차 시간이 오래 걸린다. 그러나 데이터옵스를 적용하면 원자료(raw data)에서 데이터 정제(data cleansing), 데이터 분석까지의 데이터 흐름을 빠르게 진행할 수 있다.
데이터옵스를 성공적으로 구축하려면 단순히 하나의 툴이나 솔루션에 의존하기보다는 데이터 탐색, 메타데이터 관리, 거버넌스 수립 및 유지, 데이터 통합 및 데이터 파이프라인(data pipeline) 구축 등을 결합하여야 한다.
* 솔루션의 규범 표기는 설루션임
네이버 지식백과 / IT용어사전, 한국정보통신기술협회
EDA Exploratory Data Analysis 탐색적 데이터 분석
탐색적 데이터 분석(Exploratory Data Analysis, EDA)이란 구체적인 가설 없이 데이터에 숨겨진 구조와 패턴을 탐색하는 데이터 분석 방법을 말한다.
EDA는 기본적으로 원 데이터(raw data)를 가지고 유연하게 데이터의 특성을 파악하고, 모델링에 필요한 데이터를 편성한다. 이 과정에는 데이터의 가독성을 높이기 위해서 다양한 데이터 시각화 기법도 함께 활용된다. 데이터 분석은 일반적으로 접근법에 따라 탐색적 데이터 분석과 확증적 데이터 분석(Confirmatory Data Analysis, CDA)으로 나뉜다. 두 접근법의 근본적인 차이는 분석하기 전에 가설이 있는지에 있다. EDA는 데이터를 보고 가설을 만들어내는 반면, CDA는 기존의 가설이 맞는지를 데이터를 통해 확인하는 것이다.
EDA는 1970년대에 벨 연구소의 수학자인 존 튜키(John Tukey)에 의해 제안된다. EDA가 등장하기 전의 통계 분석은 대개 연구자가 미리 설정한 가설을 검증하는 확증적 분석에 치우쳐 있다. 그러나 튜키는 CDA 방식을 이용하면 연구자의 기존 가설을 벗어난 새로운 통찰을 얻기 어렵다는 한계가 있다고 지적했다. 이런 한계를 극복한 EDA는 원 데이터의 분포 및 값에 대한 기본적인 탐색과 이해를 토대로, 데이터가 표현하는 현상을 더 잘 이해할 수 있으며 데이터에 대한 잠재적인 문제를 발견할 수 있다. 탐색적 데이터 분석에서 ‘탐색적’이란 말은 연구자가 풀고자 하는 문제에 대한 이해가 연구가 진행되면서 바뀌게 될 수 있음을 의미한다.
EDA의 기본적인 분석 절차는 다음과 같다. 첫째, 연구 목적 및 분석 데이터를 확인한다. 이 과정에는 해결하고자 하는 문제가 무엇인지 파악하고, 데이터에 독립변수와 종속변수가 무엇인지 구분해야 한다. 둘째, 데이터를 전반적으로 살펴본다. 데이터에 문제가 없는지 확인해야 한다. 예를 들어 이상치나 결측치가 없는지를 확인할 필요가 있다. 또한 평균, 중앙값, 최빈값을 비롯한 통계 지표를 살펴보는 것도 좋다. 셋째, 시각화를 통해 데이터의 대략적인 분포를 파악하고 개별 속성값을 관찰한다. 히스토그램(histogram), 막대그래프(bar chart), 히트맵(heat map), 산점도(scatter plot) 등을 통해 변수의 분포를 시각화한다. 이를 통해 주어진 데이터의 개별 속성에 어떤 통계 지표가 적절한지 판단할 수 있다. 넷째, 속성 간의 관계에 초점을 맞추어, 개별 속성 관찰에서 찾아내지 못했던 패턴을 발견한다. 이 과정의 목표는 유의미한 상관관계를 갖는 속성의 조합을 찾아내는 것이다.
출처 : 네이버 지식백과 / AI 용어사전
CDA Confirmatory Data Analysis 확증적 데이터 분석
확증적 데이터 분석(Confirmatory Data Analysis, CDA)이란 가설을 세우고 그것을 검정하는 데이터 분석 방법을 말한다.
확증적 데이터 분석은 미리 정해놓은 목표에 따라 설정한 가설을 평가하고 추정하기 위한 분석이다. 데이터 분석은 일반적으로 접근법에 따라 확증적 데이터 분석과 탐색적 데이터 분석(Exploratory Data Analysis, EDA)으로 나뉜다. 두 접근법의 근본적인 차이는 분석하기 전에 가설이 있는지에 있다. CDA는 기존의 가설이 맞는지를 데이터를 통해 확인하는 반면, EDA는 데이터를 보고 가설을 만들어낸다.
CDA에는 주로 관측된 형태나 효과의 재현성 평가, 유의성 검정, 신뢰구간 추정과 같은 통계적 추론을 실행한다. 설문조사나 연구 논문에 대한 내용을 입증하는 데에 많이 사용된다. CDA의 기본적인 분석 절차는 가설 설정, 데이터 수집, 통계 분석, 가설 검정과 같은 네 가지 단계에 따른다. 분석 과정에는 관련된 다른 데이터 분석에서 얻어진 정보를 적절히 고려하고, 새로 수집된 데이터가 앞서 분석결과에 의한 예측과 일치하는지를 평가한다. 통계학적 모델링에 의한 데이터를 분석하는 것이 CDA의 특징이다.
CDA와 EDA는 모두 장단점을 갖고 있기 때문에 특정 기법에만 의존하는 것보다 분석 목적에 따라 양쪽의 장점을 취하는 것이 바람직하다. 예를 들어, 먼저 EDA를 통해 데이터를 유연하게 분석하며 유의미한 관계성을 발견하게 된다면 이를 토대로 가설을 세울 수 있다. 그 다음 CDA를 통해서 이 가설이 맞는지 통계적 방법을 통해 검정할 수 있다.
출처 : 네이버 지식백과 / AI 용어사전