IT 도서 리뷰/개발자가 되기 위해 꼭 알아야 하는 IT 용어

[PART3] 데이터베이스/자료구조 - TERMS 04

goldenkiwi-coder 2025. 2. 24. 20:51

[ TERMS 04 ]  데이터 마이닝

데이터 마이닝의 흐름을 설명하는 이미지 (출처 : https://intellisoft.io/what-is-data-mining-examples-and-detailed-overview/)

1. 데이터 마이닝(Data mining)의 정의

데이터 마이닝을 설명하는 이미지 (출처 : https://us.ovhcloud.com/learn/what-is-data-mining/)

 'mining'은 채굴, 채광이라는 뜻으로 데이터 마이닝은 많은 양의 데이터 중에서 의미가 있거나 유용한 정보를 추출하는 과정을 의미한다. 데이터 마이닝은 전통적인 데이터 분석 방식으로는 찾기 어려운 데이터 내부의 패턴, 연관성, 변화와 규칙 같은 중요한 정보를 발견하고 활용하기 위해 사용한다.

 

2. 데이터 마이닝은 어디서 접하게 될까?

 구글의 '독감 트렌드'서비스, 미국 국세청에서 활용하는 '탈세 방지 시스템', 센서 데이터를 활용한 '지능형 교통 안내 시스템'과 같이 여러 분야의 연구 결과나 다양한 플랫폼에서 데이터 마이닝을 통해 도출한 결과물이나 그에 기반한 서비스를 접할 수 있다.

 

3. 데이터 마이닝 알아보기

>  KDD(Knowledge Discovery in Databases)

 KDD는 정제되지 않은 데이터에 적절한 방법이나 기술을 활용해 데이터를 정제하고 해당 데이터에서 통계적인 패턴이나 유용한 인사이트를 발견할 수 있게 정리하는 프로세스를 제시한 데이터 분석 방법론 중 하나이다. '데이터 선택, 데이터 전처리, 데이터 변환, 데이터 마이닝, 결과 평가 및 반복' 과정으로 구성되어 있으며 데이터 마이닝, 데이터 시각화, 머신러닝, 인공지능, 패턴 인식 등에서 활용되는 구조이다.

KDD의 흐름을 나타낸 이미지 (출처 : https://www.geeksforgeeks.org/kdd-process-in-data-mining/)

 

  • 데이터 선택

 분석하려는 도메인 내에서 주제와 분석 목표를 설정한 후 데이터베이스 혹은 정제되지 않은 데이터에서 분석에 요구되는 데이터를 식별하고 선택하는 단계.

 

  • 데이터 전처리

 데이터 선택 단계에서 선택한 데이터에 포함되어 있을 수 있는 데이터의 이상값이나 결측값, 노이즈를 탐지하고 필요에 따라 삭제 및 변환, 대체와 같은 전처리 과정을 거쳐 데이터를 정제하는 과정. 최근 빅데이터의 데이터가 비정형 데이터인 만큼 데이터 마이닝의 결과 값에 큰 영향을 미치는 단계

 

  • 데이터 변환

 데이터의 양이 너무 많아 분석이 원활하게 진행되지 않을 수 있고, 도출하려는 것들 이외에 다른 요소가 있을 수 있다. 따라서 데이터 변환 단계에서는 분석 목적이나 의도에 따라 필요한 데이터 항목을 선택하고 전체적인 데이터의 차원을 축소해 데이터 마이닝을 진행할 수 있게 변환한다. 이때 차원 변경 뿐만 아니라 학습과 검증, 성능 측정을 위해 전체 데이터를 학습 데이터(Train), 검증 데이터(Validation), 테스트 데이터(Test)로 나눈다.

 

  • 데이터 마이닝

 학습 데이터를 기반으로 분석 목적과 방향에 맞는 알고리즘을 선택해 데이터에 대한 마이닝을 진행하는 단계. 데이터에서 유의미한 결과를 도출. 데이터간의 관계를 발견하거나 패턴을 탐색하고 이를 일반화, 모형화하여 의미 있는 정보로 변환하는 단계

 

  • 해석 및 평가

 데이터를 분석한 결과로 해석과 평가를 진행한다. 이때 유의미한 결과가 도출되지 않을 경우에는 데이터 선택 단계 혹은 마이닝 과정을 반복하며 적합한 알고리즘의 검토나 변수 값의 조정을 진행한다.

 

>  데이터 마이닝 프로세스

 데이터 마이닝 프로세스는 크게 4단계로 이루어져 있다.

데이터 마이닝 프로세스를 설명하는 이미지 (출처 : https://docs.oracle.com/cd/E24693_01/datamine.11203/e16808/process.htm)

 

  • 문제 정의

 관련 비즈니스 요구사항을 분석하고 정의(데이터 종류와 성격및 사용자의 요구사항에 대한 조사는 필수적)하며 결과에 대한 목표를 설정한다. 해결하고자 하는 문제는 무엇인가? 주어진 데이터가 문제와 관련이 있는가? 무엇을 관측 혹은 예측 해야하는가?와 같은 질문에 대답할 준비를 해야한다.

 

  • 데이터 준비 및 탐색

 마이닝 작업에 필요한 데이터를 선정하고 정제하는 과정으로 KDD의 데이터 전처리 과정과 유사하다. 이상치, 중복 값 제거, 누락된 값 대체, 전체  데이터 정리 및 조정 등을 통해 활용할 데이터의 질을 향상시킬 뿐 아니라 분석에 사용할 적절한 열을 선정하여 모델의 결과에 문제가 될만한 요소를 제거한다. 또한 데이터 값들의 편차나 분포를 확인함으로써 데이터의 왜곡 정도를 파악하고 요구되는 데이터를 수집하거나 변환한다. 이는 모델에서 최적의 정확도를 도출하기 위해 필요한 과정이다.

 

  • 모델 구축 및 마이닝

 문제 정의에 근거해 적합한 알고리즘을 선정하고 조합하여 마이닝을 위한 모델을 구축한다. 마이닝 모델은 문제 정의와 데이터 탐색 과정을 통해 만들어진 데이터 셋에 대한 학습을 필요로 하며, 학습 과정에서 발견한 결과는 학습에 사용한 데이터나 선택한 알고리즘 및 각 알고리즘을 구성하는 방식에 따라 달라질 수 있다. 이때 데이터 간의 연관 규칙을 발견, 분류, 예측 하는 마이닝 기술을 활용한다.

 

  • 결과 해석 및 평가

 마이닝을 통해 분석된 결과가 목적에 부합한지 확인하기 위해 해석 및 평가를 진행하고 실제로 적용하는 단계이다. 문제 정의부터 마이닝까지 일련의 과정을 거치면 데이터 분석 결과가 나오는데, 이 결과는 의사결정에 유효하고 이해 관계자가 이해할 수 있어야 한다. 만약 결과가 유효하지 않다면 초기 단계로 회귀해서 재작업하게 되며 결과가 타당하거나 유효하다고 판단되면 해당 결과는 시각화, 문서화 되어 의사결정에 활용된다.

 

>  데이터 마이닝 기술

  • 연관분석

연관분석을 설명하는 이미지 (출처 : https://medium.com/@annesamuela111/association-analysis-877b751a5f7d)

 데이터 간의 연관된 특징을 설명하는 패턴을 찾기 위해 활용하는 방법으로 각 데이터의 유사도를 찾아내는 분석 방법이다. 유통 소비 분야에서는 연관 분석을 활용해 고객들의 구매 기록을 분석하고 어떤 물건들을 함께 사는지 패턴을 찾아내 그 결과를 기반으로 마트 진열대를 관리하며, 미디어 플랫폼에서는 비슷한 취향의 영화나 음악을 추천해 주기도 한다.

 

  • 분류 분석

분류 분석을 설명하는 이미지 (출처 : https://ehindistudy.com/2016/06/05/data-mining-classification-in-hindi/)

 분류 분석은 원하는 카테고리(Lable)에 따라 기존 데이터를 분류하고, 분류된 데이터를 학습한 다음 이를 토대로 새로운 데이터가 들어왔을 때 지정한 카테고리에 따라 분류하는 분석 방법이다. 분류 분석은 과거 카드 사용 기록을 기반으로 신용카드 부정 사용을 판단하거나 고객의 데이터를 분석해 이탈 고객을 선별하고 이탈을 방지하는 데 활용할 수 있다.

 

  • 군집 분석

군집 분석을 설명하는 이미지(출처 : https://eyashita1o.medium.com/understanding-cluster-analysis-a-comprehensive-guide-6ab09060dcda)

 군집 분석은 데이터를 그룹화 하는 분석 방법이다. 분류 분석과 유사해 보일 수 있지만 기존 데이터에 카테고리가 부여되어 있는 분류 분석과는 다르게 카테고리가 정해지지 않은 상태에서 데이터 간 유사도를 정의하고 그에 따라 데이터를 그룹화 한다. 고객 소비 데이터 분석으로 소비 성향에 따라 고객 분류를 세분화하거나 여러 특징을 복합적으로 갖고 있는 유전자나 단백질을 그룹화할 때 활용할 수 있다.

 

  • 예측 분석

예측 분석을 설명하는 이미지 (출처 : https://www.investopedia.com/terms/p/predictive-analytics.asp)

 예측 분석은 미래에 특정 사건이 발생할 가능성이나 미래 추세를 예측하는 분석방법으로 현재와 과거의 데이터를 분석하고 이를 기반으로 새로운 데이터를 예측한다. 특정 기업의 주가 예측, 광고 비용에 기반한 제품 판매량 예측, 제품 판매량에 기반한 계절에 따른 소비자 수요 예측 등 다양한 방면에서 활용할 수 있다.

 

4. 데이터 마이닝을 알아야 하는 이유

>  데이터 형태의 변화

 기존 기업에서 사용하던 데이터는 구조와 관리 체계가 잡혀 있는 정형 데이터로서 자료의 구조나 표현 방식, 자료 간의 관계가 정의되어 있었다. 그러나 현재 수집, 활용되는 대부분의 데이터 형식은 이미지, 영상, 로그 등 틀이나 구조가 잡혀 있지 않은 비정형 데이터이다. 더 나아가 센서나 RFID 등에서 수집하는 사물 정보, 인지 정보 유형 데이터들의 비중이 높아지고 있다. 기존 기술로는 이러한 비정형 데이터를 처리하기에 부적합하기 때문에 데이터 마이닝의 활용도와 필요성이 높아지고 있다.

 

>  데이터 수집 속도와 크기

 2016년 하루 평균 생산 데이터는 440억GB에 불과하였으나 2025년에는 2016년의 10배가 넘는 4,630억GB의 데이터가 생산될 것으로 예측되고 있다. 컴퓨터 성능이 향상되고 디지털화가 가속화되며 데이터가 발생하고 수집되는 속도는 이전보다 급격히 증가하고 있으며 데이터의 크기 또한 증가하고 있다.

 

>  데이터 기반 의사결정의 확산

 과거에 비해 결정에 대한 불확실성이 증가함에 따라 많은 기업에서 데이터의 중요성을 실감하고 있으며 보다 합리적이고 효과적인 데이터 기반 의사결정을 통해 경쟁력을 확보하고 있다. 의미 있는 데이터 기반 의사결정을 하기 위해서는 기본적으로 데이터에 대한 이해와 정확한 분석이 기반이 되어야 하는데, 데이터 마이닝은 이러한 역량을 키우는 데 매우 효과적이다.

 

5. 데이터 마이닝 더 알아보기

>  함께 알아 두면 좋은 용어

  • 빅데이터
  • 회귀 분석
  • 딥러닝
  • 알고리즘
  • API
  • 데이터 전처리
  • 정형, 비정형 데이터