Data Mining 데이터 마이닝 (두산)
많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 추출해 내고 의사 결정에 이용하는 과정을 말한다.
데이터베이스로부터 과거에는 알지 못했지만 데이터 속에서 유도된 새로운 데이터 모델을 발견하여 미래에 실행 가능한 정보를 추출해 내고 의사 결정에 이용하는 과정을 말한다. 즉 데이터에 숨겨진 패턴과 관계를 찾아내어 광맥을 찾아내듯이 정보를 발견해 내는 것이다. 여기에서 정보 발견이란 데이터에 고급 통계 분석과 모델링 기법을 적용하여 유용한 패턴과 관계를 찾아내는 과정이다. 데이터베이스 마케팅의 핵심 기술이라고 할 수 있다.
예를 들어, 한 백화점에서 판매 데이터베이스의 데이터를 분석하여 금요일 오전에는 어떤 상품들이 잘 팔리는가, 그리고 팔리는 상품들간에는 어떤 상관관계가 있는가 등을 발견하고 이를 마케팅에 반영하는 것이다. 따라서 데이터마이닝의 필수 요소는 신뢰도가 높은 충분한 자료이다. 이것은 신뢰도 높은 충분한 자료가 정확한 예견을 가능하게 하기 때문이다. 그러나 너무 많은 자료는 오히려 데이터마이닝의 예견 능력을 떨어뜨릴 수 있으므로 최적의 결과를 산출할 수 있는 의미있는 자료의 확보가 필요하다.
데이터마이닝을 하기 위한 최적의 시스템이 되는 데이터웨어하우스가 국내에 이미 많이 구축되어 있고, 또 기업의 요구 사항이 주로 고객관리에 중점을 두는 데이터베이스 마케팅 쪽으로 가고 있기 때문에 데이터마이닝의 상용화가 진행되고 있다. 한편 기술적인 면에서 데이터마이닝을 잘 구현할 수 있는 소프트웨어가 나오면 데이터웨어하우스는 축소될 것이라는 의견도 있다.
[네이버 지식백과] 데이터 마이닝 [data mining] (두산백과 두피디아, 두산백과)
Data Mining 데이터 마이닝 (위키)
데이터마이닝(data mining), 또는 자료채굴(資料採掘)은, 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적규칙이나 짜임을 분석하여, 가치있는 정보를 빼내는 과정이다. 다른 말로는, KDD(데이터베이스 속의 앎발견, knowledge-discovery in databases)라고도 일컫는다.
개요
데이터마이닝은, 통계학에서 패턴인식에 이르는 다양한 계량기법을 사용한다. 데이터 마이닝 기법은 통계학쪽에서 발전한 탐색적자료분석, 가설 검정, 다변량 분석, 시계열 분석, 일반선형모형 등의 방법론과 데이터베이스 쪽에서 발전한 OLAP (온라인 분석 처리:On-Line Analytic Processing), 인공지능 진영에서 발전한 SOM, 신경망, 전문가 시스템 등의 기술적인 방법론이 쓰인다.
데이터 마이닝의 응용 분야로 신용평점 시스템(Credit Scoring System)의 신용평가모형 개발, 사기탐지시스템(Fraud Detection System), 장바구니 분석(Market Basket Analysis), 최적 포트폴리오 구축과 같이 요즘날 다양한 산업 분야에서 광범위하게 사용되고 있다.
단점으로는, 자료에 의존하여 현상을 해석하고 개선하려고 하기 때문에 자료가 현실을 충분히 반영하지 못한 상태에서 정보를 추출한 모형을 개발할 경우 잘못된 모형을 구축하는 오류를 범할 수가 있다.
적용 분야
데이터마이닝은 데이터 분석을 통해 아래와 같은 분야에 적용하여 결과를 도출할 수 있다.
■ Classification 분류
일정한 집단에 대한 특정 정의를 통해 분류 및 구분을 추론한다 (이탈한 고객)
■ Clustering 군집화
구체적인 특성을 공유하는 군집을 찾는다. 군집화는 미리 정의된 특성에 대한 정보를 가지지 않는다는 점에서 분류와 다르다 (예:유사 행동 집단의 구분)
■ Association 연관성
동시에 발생한 사건간의 관계를 정의한다. (예:장바구니안의 동시에 들어 가는 상품들의 관계 규명)
■ Sequencing 연속성
특정 기간에 걸쳐 발생하는 관계를 규명한다. 기간의 특성을 제외하면 연관성 분석과 유사하다 (예: 슈퍼마켓과 금융상품 사용에 대한 반복 방문)
■ Forecasting 예측
대용량 데이터집합 내의 패턴을 기반으로 미래를 예측한다 (예: 수요예측)
기계 학습과 데이터 마이닝
■ 패러다임
지도 학습 • 비지도 학습 • 온라인 기계 학습 • 메타-학습 • 준지도 학습 • 자기 지도 학습 • 강화 학습 • 규칙 기반 기계 학습 • 양자 기계 학습
■ 문제
지도 학습 (통계적 분류 • 회귀 분석)
결정 트리 학습법 • 앙상블 학습법 (배깅, Boosting, 랜덤 포레스트) • 최근접 이웃 탐색 • k-NN • 선형 회귀 • 나이브 베이즈 • 인공신경망 • 로지스틱 회귀 • 퍼셉트론 • 상관 벡터 머신(RVM) • 서포트 벡터 머신(SVM)
■ 클러스터 분석
BIRCH • 계층적 군집화 • k-평균 알고리즘 • 기댓값 최대화 알고리즘 • DBSCAN • OPTICS • Mean-shift
■ 차원 축소
인자 분석 • CCA • 독립 성분 분석 • LDA • 음수 미포함 행렬 분해 • 주성분 분석 • t-SNE
■ 구조화 예측
그래프 모형 (베이즈 네트워크 • 조건부 무작위장 • 은닉 마르코프 모형) • 잠재 디리클레 할당
■ 이상 탐지
k-최근접 이웃 알고리즘 • 국소 특이점 요인
■ 인공 신경망
오토인코더 • 인지 컴퓨팅 • 딥 러닝 • 딥드림 • 생성적 적대 신경망 • 확산 모델 • 다층 퍼셉트론 • 순환 신경망 (LSTM • GRU) • 제한된 볼츠만 머신 • 변환기 (비전) • 자기조직화지도 • 합성곱 신경망
■ 강화 학습
Q 러닝 • SARSA • 시간차 학습
■ 인간 참여학습
러닝 커브 • 크라우드소싱 • 인간 참여형
■ 모델 진단
러닝 커브
■ 이론
편향-분산 트레이드오프 • 계산학습이론 • 경험적 위험 최소화 • PAC 러닝 • 통계적 학습이론 • VC 이론
■ 회의/저널
NeurIPS • ICML • ICLR • ML • JMLR
■ 관련 문서
기계 학습 알고리즘 목록 • 기계 탈학습 • 지식 증류 • 유사도 학습 • 대조 학습
자세한 내용은 >> [데이터 마이닝] 위키백과, 우리 모두의 백과사전
데이터 마이닝 - 위키백과, 우리 모두의 백과사전
위키백과, 우리 모두의 백과사전. 데이터마이닝(data mining), 또는 자료채굴(資料採掘)은, 대규모로 저장된 데이터안에서 체계적이고 자동적으로 통계적규칙이나 짜임을 분석하여, 가치있는 정보
ko.wikipedia.org
Data Mining 데이터 마이닝 (SAP)
데이터 마이닝은 일반적으로 데이터 웨어하우스나 연결된 데이터 세트 컬렉션 등 축적된 데이터에서 유용한 정보를 추출하는 과정입니다. 데이터 마이닝 툴에는 강력한 통계, 수학 및 분석 기능이 포함되어 있으며, 이 툴의 주된 목적은 대규모 데이터 세트를 통해 동향, 패턴, 관계를 파악해 정보에 입각한 의사결정과 계획을 지원하는 데 있습니다.
종종 마케팅 부서 문의와 관련된 데이터 마이닝은 많은 경영진이 수요를 더 잘 이해하고 제품, 가격 또는 판촉이 판매에 미치는 영향을 파악하는 방법으로 볼 수 있습니다. 그러나 데이터 마이닝은 다른 비즈니스 영역에도 상당한 이점을 제공합니다. 엔지니어와 디자이너는 제품 변경의 효과를 분석하고 제품이 사용되는 방식, 시기, 위치와 관련해 제품 성공 또는 실패의 가능한 원인을 찾을 수 있습니다. 서비스 및 수리 운영 측면에서는 부품 재고 및 인원 배치를 더 효율적으로 계획할 수 있습니다. 전문인력 서비스 조직은 데이터 마이닝을 사용해 변화하는 경제 동향과 인구 통계 변화에 따라 새로운 기회를 식별할 수 있습니다.
데이터 마이닝은 더 큰 데이터 세트 및 더 많은 사용자 경험으로 효용성과 가치가 늘고 있습니다. 논리적으로 데이터가 많을수록 더 많은 인사이트와 인텔리전스가 묻혀 있습니다. 또한 사용자가 툴에 더 익숙해지고 데이터베이스를 더 잘 이해하게 되면 탐색과 분석을 통해 창의력을 높일 수 있습니다.
데이터 마이닝을 사용하는 이유는?
데이터 마이닝의 가장 큰 이점은 여러 소스에서 수집한 대량의 데이터 패턴과 관계를 식별하는 힘입니다. 소셜 미디어, 원격 센서, 제품 이동 및 시장 활동에 대한 점점 더 상세한 리포트 등 다양한 소스에서 점점 더 많은 데이터를 사용할 수 있는 데이터 마이닝은 빅데이터를 완전하게 활용하고 실행 가능한 인텔리전스로 전환할 툴을 제공합니다. 게다가 ‘상식 밖의 사고’(ㅋㅋㅋ)를 위한 메커니즘으로 작용할 수 있습니다.
데이터 마이닝 프로세스는 얼핏 무관해 보이는 비트의 정보에서 놀랍고 흥미진진한 관계와 패턴을 감지할 수 있습니다. 정보는 분야별로 분리되는 경향이 있기 때문에 그동안 전체적으로 분석하기가 어렵거나 불가능했습니다. 그러나 외부 요인(예: 인구 통계 또는 경제 요인)과 회사 제품의 성과 사이에는 관계가 있을 수 있습니다. 또한 경영진은 지역, 제품 라인, 유통 경로, 지역별 판매 수치를 정기적으로 살펴보는 반면, 이러한 정보에 대한 외부 컨텍스트가 부족한 경우가 많습니다. 이들의 분석은 ‘일어난 일’을 지적하지만 ‘왜 이런 식으로 일어났는가’를 밝혀내는 일은 거의 없습니다. 데이터 마이닝으로 이 격차를 해소할 수 있습니다.
데이터 마이닝에서는 외부 요인과의 상관관계를 찾을 수 있습니다. 상관관계는 항상 인과관계를 의미하지는 않지만 이러한 추세는 제품, 채널, 생산 결정을 안내하는 중요한 지표가 될 수 있습니다. 동일한 분석으로 제품 디자인부터 운영 효율성 및 서비스 제공에 이르기까지 비즈니스의 다른 부분에도 도움이 됩니다.
데이터 마이닝의 역사
사람들은 수천 년 동안 데이터를 수집하고 분석해 왔으며, 필요한 정보를 식별하고, 양질의 데이터 소스를 찾으며, 데이터를 수집 및 결합하고, 데이터를 분석하는 데 사용할 수 있는 가장 효과적인 툴을 사용하고, 학습한 내용을 활용할 수 있는 프로세스도 그대로 유지해 왔습니다. 컴퓨팅 및 데이터 기반 시스템이 성장하고 발전함에 따라 데이터 관리 및 분석을 위한 툴이 갖춰졌습니다. 실질적인 변곡점은 1960년대에 관계형 데이터베이스 기술과 SQL(Structured Query Language) 같은 사용자 중심의 자연어 질의 도구를 개발하면서 찾아왔습니다. 자체 개발한 프로그램을 통해서만 데이터를 사용하던 시대는 지났습니다. 이러한 획기적인 기능을 통해 비즈니스 사용자는 대화형으로 데이터를 탐색하고 내부에 묻혀 있는 숨은 보석을 끄집어 낼 수 있었습니다.
데이터 마이닝은 전통적으로 데이터 과학 내에 설정된 전문 기술이었습니다. 그러나 새로운 세대의 분석 툴은 고급 기술 기술을 필요로 하는 데서 시작하지만 사용자가 액세스할 수 있도록 빠르게 발전합니다. 상호작용성(데이터와 대화할 수 있는 능력)이 중요한 발전입니다. 질문하세요. 답을 확인하세요. 학습한 내용을 바탕으로 다른 질문을 하세요. 이러한 종류의 비정형 로밍은 사용자가 애플리케이션별 데이터베이스 설계의 범위를 넘어 기능부서와 조직의 경계를 넘나드는 관계를 발견할 수 있게 합니다.
데이터 마이닝은 비즈니스 인텔리전스의 핵심 구성요소입니다. 데이터 마이닝 툴은 경영진 대시보드에 내장되어 소셜 미디어, 사물인터넷(IoT) 센서 피드, 위치 인식 장치, 비정형 텍스트, 동영상 등 빅데이터로부터 통찰을 이끌어냅니다. 현대의 데이터 마이닝은 클라우드 및 가상 컴퓨팅뿐만 아니라 인메모리 데이터베이스를 사용해 많은 소스의 데이터를 비용을 효율적으로 관리하고 온디맨드 방식으로 확장할 수 있습니다.
데이터 마이닝은 어떻게 작동하나?
데이터 마이닝을 하는 사람 만큼이나 데이터 마이닝에 대한 접근법도 다양합니다. 접근법은 던지는 질문 종류와 검색 및 분석을 위한 원자재를 제공하는 데이터베이스 또는 데이터 세트의 내용 및 구성에 따라 달라집니다. 즉 데이터, 툴, 사용자를 준비하기 위해 완료해야 하는 몇 가지 조직 및 준비 단계가 있습니다.
1. 문제 또는 최소한 문의 영역을 파악합니다
이러한 데이터 마이닝의 오프로드 모험을 위해 운전석에 앉아야 하는 비즈니스 의사 결정권자는 이러한 탐색의 일환으로 사용할 내부 및 외부 데이터 유형과 작업 대상이 될 분야에 대해 전반적으로 이해해야 합니다. 이들은 관련된 비즈니스 및 기능 영역에 대해 친밀한 지식을 가지고 있는 것으로 가정합니다.
2. 데이터 수집
먼저 내부 시스템 및 데이터베이스부터 시작하세요. 데이터 모델과 다양한 관계형 툴을 통해 연결하거나 데이터 웨어하우스로 데이터를 한 데 모으세요. 여기에는 현장 영업 또는 서비스 데이터, IoT 또는 소셜 미디어 데이터 같은 외부 소스의 데이터가 포함됩니다. 산업협회와 정부기관의 산업 동향 및 재무 벤치마크 같은 인구통계 자료, 경제 데이터, 시장 인텔리전스 등 외부 데이터에 대한 권리를 찾아 취득하세요. 이들 데이터를 툴킷의 범위에 포함시키세요(데이터 웨어하우스로 가져오거나 데이터 마이닝 환경에 연결).
3. 데이터 준비 및 이해
현업 주제전문가를 활용해 데이터를 정의, 분류, 정리합니다. 이 과정을 데이터 랭글링(data wrangling) 또는 먼징(munging)이라고도 합니다. 일부 데이터는 중복, 불일치, 불완전한 레코드 또는 오래된 형식을 제거하기 위해 정리cleaning 또는 "정리 cleansing"가 필요할 수 있습니다. 데이터 준비 및 정리는 새로운 프로젝트나 새로운 문의 필드가 관심을 끌게 되면 지속적인 작업이 될 수 있습니다.
4. 사용자 교육
운전자 교육, 도로주행 교육, 운전면허 취득 후 일부 지도 실습 등을 거치지 않고 페라리의 열쇠를 10대 자녀에게 건네지는 않을 것입니다. 따라서 미래의 데이터 마이너에게 정식 교육을 제공하고 강력한 이들 도구에 익숙해지기 시작할 무렵 일부 지도 실습도 제공하세요.기본을 숙달하고 더 발전된 기법으로 넘어갈 수 있게 되면 지속적인 교육도 좋은 생각입니다.
데이터 마이닝 기법
데이터 마이닝은 고정된 루틴이나 프로세스가 아닌 툴 키트를 기반으로 합니다. 여기에서 언급되는 특정 데이터 마이닝 기법은 조직에서 이 툴을 사용해 동향, 상관 관계, 인텔리전스, 비즈니스 통찰을 찾기 위해 데이터를 탐색하는 방법의 예시일 뿐입니다.
일반적으로 데이터 마이닝 접근법은 원하는 특정 결과에 초점을 맞추는 지시형과 탐색 프로세스로서 비지시형 방식으로 분류할 수 있습니다. 다른 탐색은 산업, 제품, 규모, 위치와 같은 비즈니스 특성에 따라 잠재 고객을 그룹화하는 등의 데이터 정렬 또는 분류를 목표로 할 수 있습니다. 유사한 목적인 이상치 또는 이상상황 감지는 식별 가능한 패턴을 표시하는 데이터 세트 내에서 (단순한 변동성이 아닌) 실제 이상상황을 인식하는 자동화된 방법입니다.
Association 연관 관계
또 다른 흥미로운 목표는 연관관계이며, 연관성이 없는 두 가지 이벤트나 활동을 연결합니다. 분석 및 데이터 마이닝 초기의 전형적인 이야기(아마도 허구겠지만)에는 편의점 체인이 맥주와 기저귀 판매의 상관관계를 발견합니다. 정신 없는 초보 아빠들이 저녁 늦게 기저귀를 사러 달려왔다가 6캔 짜리 맥주를 몇 개 집어 들 수도 있다고 가정해 봅니다. 매장은 맥주와 기저귀를 가까운 곳에 배치하고 결과적으로 맥주 판매를 늘립니다.
Clustering 클러스터링
이 접근법은 사전 정의된 가정이 아닌 유사성으로 데이터를 그룹화하는 데 목적이 있습니다. 예를 들어, 외부 소비자 신용 및 인구 통계 데이터와 결합된 고객 판매 정보를 마이닝할 때 가장 수익성 높은 고객은 중견 도시 출신임을 발견할 수 있습니다.
대부분의 경우 예측 또는 전망을 지원하기 위해 데이터 마이닝을 수행합니다. 패턴과 행동을 더 잘 이해하면 원인이나 상관관계와 관련된 미래 행동을 더 잘 예측할 수 있습니다.
Regression 회귀
데이터 마이닝 툴 키트에서 제공되는 수학적 기법 중 하나인 회귀 분석은 이력 패턴을 미래로 연장한 내용을 기준으로 숫자를 예측합니다. 다른 다양한 패턴 감지 및 추적 알고리즘은 사용자로 하여금 데이터는 물론 데이터로 표현된 행위를 더 잘 이해하도록 유연한 툴을 제공합니다.
이는 데이터 마이닝 툴 키트에서 사용할 수 있는 몇 가지 기법과 툴에 불과합니다. 질문 방식에 따라 기술이 적용된다는 점에서 도구나 기법의 선택은 다소 자동화되어 있습니다. 초기에는 데이터 마이닝이 데이터베이스를 "슬라이싱 및 다이싱"하는 활동이라고 불렀지만 지금은 더 정교해졌고 연관 관계, 클러스터링, 회귀 등의 용어가 보편화되어 있습니다.
사용 사례와 예시
데이터 마이닝은 감성 분석, 가격 최적화, 데이터베이스 마케팅, 신용 리스크 관리, 교육 및 지원, 부정행위 감지, 의료 및 의료 진단, 위험 평가, 추천 시스템(“이 제품을 구입한 고객은 ...도 좋아함”) 등의 핵심 요소입니다. 소매, 도매 유통, 서비스 산업, 통신, 커뮤니케이션, 보험, 교육, 제조, 의료, 금융, 과학, 엔지니어링, 온라인 마케팅 또는 소셜 미디어 등 모든 산업에서 효과적인 툴이 될 수 있습니다.
■ 제품 개발 : 물리적 제품을 설계, 제조 또는 배포하는 기업은 경제 및 인구 통계 데이터와 결합된 구매 패턴을 분석해 제품 타게팅 기회를 정확히 찾아낼 수 있습니다.또한 디자이너와 엔지니어는 고객 및 사용자 피드백, 수리 기록, 기타 데이터를 상호 참조해 제품 개선 기회를 식별할 수 있습니다.
■ 제조 : 제조업체는 현장에서 품질 동향, 수리 데이터, 생산률, 제품 성과 데이터 등을 추적해 생산 관련 문제를 파악할 수 있습니다.또한 프로세스 업그레이드를 통해 품질을 향상하고 시간과 비용을 절약하며 제품 성능을 개선하고 신규 혹은 개선이 필요한 공장 장비의 필요성을 지적할 수 있습니다.
■ 서비스 산업 : 서비스 업계에서는 사용자가 특정 서비스, 채널, 피어 성과 데이터, 지역, 가격, 인구 통계, 경제 데이터 등을 포함하는 교차 참조 고객 피드백(직접 또는 소셜 미디어 또는 기타 소스)을 통해 유사한 제품 개선 기회를 찾을 수 있습니다.
끝으로, 이러한 모든 검사 결과는 예측 및 계획에 다시 전달되어야 합니다. 그래야 전체 조직이 고객에 대한 보다 친밀한 지식을 바탕으로 예상 수요 변화에 대처하고 새롭게 식별된 기회를 활용할 수 있는 유리한 입지를 다질 수 있습니다.
데이터 마이닝 당면과제
■ 빅데이터 : 데이터가 빨리 생성되면서 데이터 마이닝에 더 많은 기회를 제공합니다. 그러나 방대한 데이터 양과 높은 속도, 다양한 데이터 구조는 물론 비정형 데이터의 증가량 등을 고려할 때 빅데이터에서 의미를 추출하려면 최신 데이터 마이닝 툴이 필요합니다. 많은 기존 시스템은 이러한 입력값의 홍수를 처리, 저장, 활용하는 데 어려움을 겪습니다.
■ 사용자 역량 : 데이터 마이닝 및 분석 툴은 사용자 및 의사 결정자가 이해하고 대량의 데이터에서 의미와 통찰을 이끌어 낼 수 있도록 설계되었습니다. 고도의 기술을 갖춘 이 강력한 툴은 현재 뛰어난 사용자 경험 디자인으로 패키지화되어 있어 거의 모든 사람이 최소한의 교육으로 이러한 툴을 사용할 수 있습니다. 그러나 이점을 충분히 얻으려면 가용 데이터와 원하는 정보의 비즈니스 컨텍스트를 이해해야 합니다. 또한 적어도 일반적으로 툴의 작동 방식과 지원 가능한 작업을 알아야 합니다. 이는 일반 관리자 또는 경영진의 범위를 넘어서는 것이 아니라 학습 프로세스이며 사용자는 이 새로운 기술 세트를 개발하기 위해 약간의 노력을 기울여야 합니다.
■ 데이터 품질 및 가용성 : 새로운 데이터를 대량으로 사용할 경우 불완전, 부정확, 오류, 사기성, 손상 데이터 혹은 그저 쓸모없는 데이터도 넘쳐 납니다. 여러 도구가 이 문제를 정리하는 데 도움을 주기는 하지만 데이터의 소스의 진실성과 신뢰성을 사용자가 계속해서 알고 있어야 합니다. 개인정보 보호 문제도 중요합니다. 이는 데이터 획득 측면은 물론 취득 후 관리, 처리 측면에서도 중요합니다.
♥ 머신러닝과 데이터 마이닝의 차이는?
데이터 마이닝은 고급 분석 툴을 사용해 축적된 데이터에서 유용한 정보를 추출하는 과정입니다. 머신러닝(기계학습)은 시스템이 경험으로 학습하도록 하는 인공 지능(AI)의 한 유형입니다. 데이터 마이닝을 머신러닝을 활용해 분석 프로그램이 수행하는 데이터 분석에 따라 기능을 조정하도록 할 수 있습니다.
♥ 데이터 마이닝과 데이터 분석(애널리틱스)에 차이가 있나?
데이터 분석 또는 애널리틱스는 유용한 정보를 식별하고 평가하며 구체적인 답변을 제공하는 데 중점을 둔 광범위한 일련의 관행을 지칭하는 일반 용어입니다. 데이터 마이닝은 통찰과 예측으로 이어질 수 있는 패턴, 추세, 관계를 찾기 위해 크고 결합된 데이터 세트를 파고드는 데 초점을 맞춘 데이터 분석의 한 가지 유형입니다.
♥ 데이터 마이닝은 데이터 과학과 동일한가?
데이터 과학은 데이터에 적용된 통계, 수학, 정교한 계산 기법을 비롯한 많은 정보 기술을 포함하는 용어입니다. 데이터 마이닝은 광범위한 소스의 대규모 데이터 세트를 분석하는 데 중점을 둔 데이터 과학의 적용사례입니다.
♥ 데이터 마이닝은 데이터 웨어하우스와 비슷한가?
데이터 웨어하우스는 일반적으로 여러 소스(ERP, CRM 등)에서 가져온 데이터를 모아 놓은 것으로 회사는 데이터 마이닝 같은 광범위한 분석과 아카이브 저장을 위해 데이터를 웨어하우스로 결합합니다.
출처 : https://www.sap.com/korea/products/technology-platform/hana/what-is-data-mining.html
영문페이지 : https://www.sap.com/products/technology-platform/hana/what-is-data-mining.html
SAP
1972년 독일 만하임에서 IBM 출신 엔지니어 5명이 세운 소프트웨어 기업. 독일 발도르프에 본사를 두고 전 세계에서 105,000명의 직원이 근무하는 다국적 기업으로 성장했다. 2014년 7월 7일, 회사의 법적 이름은 SAP SE로 변경되었다.
SAP의 업무용 애플리케이션 소프트웨어 분야 시장 점유율은 전 세계에서 가장 크며 SAP SE는 독일 시가총액 1위 기업이다. 주로 산업용 소프트웨어, 특히 ERP를 중점적으로 개발하는 업체이다.
SAP를 한다고 하면 보통 SAP ERP를 의미한다.
다들 알만한 세계적인 대기업들은 다 SAP가 개발한 ERP를 쓴다. 한국에도 지사가 있다. 요즘은 빅데이터 솔루션인 SAP HANA로 유명하다. 서울대학교 연구진이 개발하기 시작한 것을 인수했는데, 한국에서도 이걸로 광고한다.
SAP ERP는 재무회계(FI), 관리(CO), 자산회계(AA), 판매 및 유통(SD), SAP 고객 관계 관리(SAP CRM), 자재 관리(MM), 생산 계획(PP), 품질 관리(QM), 프로젝트 시스템(PS), 공장 유지 관리(PM), 인사(HR), 창고 관리(WM) 12가지 모듈로 나뉜다. (출처:나무소문)
출처: DEEPLINK CORE Lab_Technical Blog https://blog.deeplink.kr/?p=54