데이터 분석의 주요 기법들
1. 데이터 처리
기본 개념
데이터 분석은 통계학을 기반으로 하지만, 통계적 지식이나 복잡한 가정에 덜 의존하는 실용적인 접근 방식입니다.
실무에서의 활용
대규모 기업들은 주로 데이터 웨어하우스(DW)와 데이터 마트(DM)를 활용해 분석용 데이터를 확보합니다.
새로운 시스템이나 DW에 아직 반영되지 않은 데이터가 필요할 때는 기존 운영 시스템(LEGACY), 스테이징 영역(Staging Area), ODS(Operational Data Store)에서 데이터를 추출해 DW의 데이터와 결합하는 방식을 사용할 수 있습니다.
다만, 운영 시스템에서 직접 데이터를 가져오는 것은 시스템 안정성에 큰 위험을 초래할 수 있어 실무에서는 거의 사용되지 않습니다. 스테이징 영역의 데이터는 운영 시스템에서 일시적으로 보관되는 데이터이므로, 가능하면 클렌징 단계를 거친 ODS의 데이터를 전처리하여 DW나 DM과 결합하는 방식이 가장 안전하고 효율적입니다.
💡 비정형 데이터와 관계형 데이터의 처리 방식
비정형 데이터는 NoSQL 데이터베이스나 데이터 레이크에 먼저 저장된 후 전처리 과정을 거쳐 분석 가능한 형태로 변환됩니다. 반면 관계형 데이터는 RDBMS에 저장된 후 분석용으로 가공되며, 최종적으로 데이터 마트와 통합되어 활용됩니다.
분석 가능한 형태로 변환하기
- 데이터 마이닝을 위한 분류: 분류값과 입력 변수들의 관계를 파악하여 인구통계 정보, 요약 변수, 파생 변수 등을 생성합니다.
- 비정형 데이터의 정형화: 비정형 데이터나 소셜 미디어 데이터는 일관된 패턴으로 정형화하는 작업이 필요합니다.
2. 시각화
시각화는 비교적 단순한 분석 방법으로 여겨지지만, 제대로 활용하면 복잡한 분석 기법보다 훨씬 효과적일 수 있습니다.
대용량 데이터를 다루는 빅데이터 분석에서 시각화는 필수적이며, 특히 탐색적 분석 단계에서 데이터의 특징을 빠르게 파악하는 데 매우 유용합니다. 사회연결망 분석(SNA)에서도 시각화가 자주 활용됩니다.
3. 공간분석(GIS)
공간분석은 지리적 위치와 관련된 속성들을 시각적으로 표현하는 분석 방법입니다.
지도 위에 다양한 속성을 표시하고, 크기, 색상, 선의 굵기 등으로 구분하여 의미 있는 패턴을 발견할 수 있습니다.
💡 시각화
시각화는 단순히 데이터 탐색을 위한 도구로만 사용되는 것이 아닙니다. 시각화 자체만으로도 인사이트를 도출하고 결론을 내릴 수 있어, 그 자체로 완전한 분석 방법이 될 수 있습니다.💡 공간분석
공간분석은 지리적 데이터의 공간적 관계를 이해하는 데 가장 효과적인 방법입니다. 현재 도시 계획, 환경 과학, 공공 보건 등 다양한 분야에서 널리 활용되고 있습니다.

4. 탐색적 자료 분석(EDA)
개념
탐색적 분석은 데이터를 여러 관점에서 조합하고 탐색하며 특이점이나 의미 있는 패턴을 찾아내는 과정입니다. 데이터의 특성과 내재된 구조적 관계를 파악하기 위한 다양한 기법들을 포괄하는 개념으로, 1977년 프린스톤 대학의 튜키 교수가 제안하면서 널리 알려지게 되었습니다.
EDA의 핵심 요소
- 저항성 강조: 이상치(outlier)에 덜 민감한 통계량을 사용하여 데이터를 분석합니다. 예를 들어 평균 대신 중앙값을 사용하는 것입니다.
- 잔차 계산: 예측값과 실제값의 차이를 분석하여 모델의 적합도를 평가합니다.
- 데이터 변수의 재표현: 데이터를 로그 변환, 표준화 등을 통해 다른 형태로 변환하여 패턴을 더 명확하게 드러냅니다.
- 그래픽을 활용한 명확한 표현: 시각화를 통해 데이터의 특성과 패턴을 직관적으로 파악합니다.
실무 활용 사례
모형 개발 프로세스(KDD, CRISP-DM 등)에서 데이터 이해 단계(변수의 분포와 특성 파악), 변수 생성 단계(분석 목적에 맞는 요약 및 파생 변수 생성), 변수 선택 단계(목적 변수에 유의미한 후보 변수 선택)에서 광범위하게 활용되고 있습니다.
💡 산점도란?
산점도(Scatter Plot)는 두 변수의 관계를 점으로 표현한 그래프입니다. X축에 하나의 변수, Y축에 다른 변수를 놓고, 각 데이터 포인트를 점으로 찍어 두 변수가 어떻게 함께 변하는지 시각적으로 확인할 수 있습니다.예를 들어:
- 키가 클수록 몸무게도 무거워지는 경향이 있다면 → 양의 상관관계 (점들이 우상향)
- 운동 시간이 늘어날수록 체지방률이 감소한다면 → 음의 상관관계 (점들이 우하향)
- 혈액형과 키처럼 서로 영향이 없다면 → 상관관계 없음 (점들이 무작위로 흩어짐)
💡 산점도 행렬
산점도 행렬은 여러 변수 간의 관계를 한눈에 파악할 수 있는 다변량 시각화 기법입니다.
각 변수 쌍의 산점도를 행렬 형태로 배치하여 변수 간 상관관계와 패턴을 직관적으로 확인할 수 있습니다.
대각선 셀에는 보통 변수명이나 해당 변수의 분포를 표시하고, 나머지 셀에는 두 변수 간의 산점도가 표시됩니다.
다음은 산점도 행렬을 구현하는 R 코드 예시입니다.
# 예시 데이터: 내장 데이터셋 iris
data(iris)
# 산점도 행렬 그리기
pairs(iris[, 1:4],
main = "Iris 데이터의 산점도 행렬",
pch = 21, # 점 모양
bg = c("red", "green3", "blue")[unclass(iris$Species)], # 품종별 색상 구분
labels = colnames(iris)[1:4])
이 코드가 분석하는 관계:
iris 데이터셋의 4개 변수는 다음과 같습니다:
- Sepal.Length (꽃받침 길이)
- Sepal.Width (꽃받침 너비)
- Petal.Length (꽃잎 길이)
- Petal.Width (꽃잎 너비)
이 코드는 이 4개 변수들 간의 모든 조합을 산점도로 그립니다. 예를 들어:
- 꽃받침 길이 vs 꽃받침 너비
- 꽃받침 길이 vs 꽃잎 길이
- 꽃받침 길이 vs 꽃잎 너비
- 꽃받침 너비 vs 꽃잎 길이
- ... (총 12개의 조합)
이를 통해 "꽃받침이 길수록 꽃잎도 길어지는가?", "꽃받침 너비와 꽃잎 너비는 관련이 있는가?" 같은 질문에 대한 답을 시각적으로 확인할 수 있습니다.
코드 설명:
data(iris): 붓꽃 데이터셋을 불러옵니다pairs(): R에서 산점도 행렬을 자동으로 생성하는 함수입니다iris[, 1:4]: 처음 4개 열(변수)만 선택하여 분석합니다pch = 21: 점의 모양을 지정합니다 (21번은 테두리가 있는 원)bg = c("red", "green3", "blue")[unclass(iris$Species)]: 붓꽃 품종(3종류)별로 빨강, 초록, 파랑으로 색상을 다르게 표시합니다labels = colnames(iris)[1:4]: 각 변수의 이름을 행렬의 대각선에 표시합니다
이 코드를 실행하면 4x4 행렬 형태로 총 16개의 칸이 생성되며, 대각선에는 변수명이, 나머지 칸에는 두 변수 간의 관계를 보여주는 산점도가 그려집니다.

5. 통계 분석
통계란?
특정 현상을 종합적으로 파악하기 쉽게 체계적으로 정리하여 숫자, 표, 그래프 형태로 나타낸 것입니다.
기술 통계(Descriptive Statistics)
모집단에서 추출한 표본이 담고 있는 정보를 쉽게 이해할 수 있도록 데이터를 정리하고 요약하여 숫자나 그래프로 표현하는 방법입니다.
추론 통계(Inferential Statistics)
모집단에서 추출한 표본의 통계량을 바탕으로 모집단의 특성인 모수를 통계적으로 추정하는 방법입니다.
활용 분야
- 정부 정책: 경제정책 수립과 평가의 근거 자료(통계청의 실업률, 고용률, 물가지수 등)
- 농업: 기후 변화나 병충해에 강한 품종 개발 및 개량
- 의학: 치료 방법의 효과 검증이나 신약 개발을 위한 임상실험 결과 분석
- 경영: 제품 개발, 품질 관리, 시장 조사, 영업 관리 등
- 스포츠: 선수 체력 향상, 경기 및 전략 분석, 선수 평가 및 기용 등
6. 데이터마이닝
개념
데이터마이닝은 대표적인 고급 분석 기법으로, 대용량 데이터에서 정보를 요약하고 미래를 예측하기 위해 데이터 속 관계, 패턴, 규칙 등을 탐색하고 모델링하여 이전에는 알려지지 않았던 유용한 지식을 발견하는 방법입니다.
주요 방법론
- 데이터베이스에서의 지식 탐색: 데이터 웨어하우스에서 데이터 마트를 구축하는 과정에서 각 데이터의 속성을 사전 분석하여 지식을 추출하는 방식입니다.
- 기계학습(Machine Learning): 인공지능의 한 영역으로, 컴퓨터가 스스로 학습할 수 있도록 알고리즘과 기술을 개발하는 분야입니다. 인공신경망, 의사결정나무, 클러스터링, 베이지안 분류, SVM 등이 대표적입니다.
- 패턴인식(Pattern Recognition): 원본 데이터와 사전 지식, 패턴에서 추출한 통계 정보를 활용해 자료나 패턴을 분류하는 방법으로, 장바구니 분석, 연관규칙 등이 포함됩니다.
활용 분야
- 데이터베이스 마케팅: 방대한 고객 행동 정보를 활용한 타겟 마케팅, 고객 세분화, 장바구니 분석, 추천 시스템 등
- 신용평가 및 조기경보시스템: 금융기관의 신용카드 발급, 보험, 대출 심사 업무
- 생물정보학: 세포의 유전자 분석을 통한 질병 진단, 치료법 개발, 신약 개발
- 텍스트마이닝: 이메일, SNS 등 디지털 텍스트 정보를 통한 고객 성향 분석, 감성 분석, 사회 관계망 분석 등
💡 최근 시각화 기법의 발전
최근 시각화의 중요성이 높아지면서 시각화 기법은 데이터의 복잡성을 효과적으로 전달하고 사용자의 이해를 돕는 다양한 형태로 진화하고 있습니다.
예: 인터랙티브 시각화(대시보드 등), 3D 시각화(3D 산점도 등), 애니메이션 시각화(동적 맵 등), 네트워크 시각화, 히트맵, 자연어 시각화 등
'데이터분석-ADSP > 3과목-데이터분석' 카테고리의 다른 글
| 데이터 마트 (0) | 2025.12.09 |
|---|---|
| R프로그래밍 기초 (0) | 2025.11.25 |