반응형
SMALL
1. 데이터의 정의와 특성
1. 데이터의 정의
- 데이터라는 용어는 1646년 영국 문헌에 처음 등장하였으며 라틴어인 Dare(주다)의 과거분사형으로 ‘주어진 것’이란 의미로 사용되었다.
- 1940년대 이후 컴퓨터 시대 시작과 함께 데이터의 의미는 과거의 관념적이고 추상적인 개념에서 기술적이고 사실적인 의미로 변화되었다.
- 데이터는 추론과 추정의 근거를 이루는 사실이며, 단순한 객체로서의 가치 뿐만 아니라 다른 객체와의 상호 관계 속에서 가치를 갖는 것으로 설명되고 있다.
2. 데이터의 특성
| 구분 | 특성 |
| 존재적 특성 | 객관적 사실(Fact, Raw Material) |
| 당위적 특성 | 추론, 예측, 전망, 추정을 위한 근거(Basis) |
2. 데이터의 유형
1. 정성/정량 데이터
| 구분 | 형태 | 예 | 특징 |
| 정성적 데이터(Qualitative Data) | 언어, 문자 등 | 회사 매출이 증가함 등 | 저장, 검색, 분석에 많은 비용이 소모됨 |
| 정량적 데이터(Quantitative Data) | 수치, 도형, 기호 등 | 나이, 몸무게, 주가 등 | 정형화된 데이터로 비용 소모가 적음 |
💡 정성 데이터/ 정량 데이터
정성적 데이터는 데이터의 형태와 형식이 명확하지 않은 데이터를 의미 정량적 데이터는 데이터의 형태와 형식이 명확하게 표현되는 데이터를 의미

| 유형 | 내용 | 예시 |
| 정형 데이터 | • 형태(고정된 필드)가 있으며 연산이 가능 • 주로 관계형 데이터베이스(RDBMS)에 저장 • 데이터 수집 난이도가 낮음 • 형식이 저장되어 있어 처리가 쉬운 편 • 데이터 자체로 바로 분석 가능 |
관계형 데이터베이스, 스프레드 시트, CSV, 정보시스템(ERP, CRM, SCM 등) 등 |
| 반정형 데이터 | • 형태(스키마, 메타데이터)가 있으며, 연산이 불가능 • 주로 파일 형태로 저장 • 데이터 수집 난이도가 중간 • 보통 API 형태로 제공되기 때문에 데이터 처리 기술(파싱)이 요구됨 • 데이터로 분석 가능하지만 해석이 불가능해 메타 정보 활용해야 해석 가능 |
XML, HTML, JSON, 로그형태(웹로그, 센서 데이터) 등 |
| 비정형 데이터 | • 형태가 없으며, 연산이 불가능 • 주로 NoSQL에 저장됨 • 데이터 수집 난이도가 높음 • 파일을 데이터 형태로 파싱해야 하기 때문에 데이터 처리가 어려움 |
소셜데이터(트위터, 페이스북), 영상, 이미지, 음성, 텍스트(word, PDF 등) 등 |
💡데이터 용어
- 메타데이터(Meta Data): 데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해 주는 데이터
- 스키마(Schema): 데이터베이스의 구조와 제약조건에 관한 전반적인 명세를 기술한 메타데이터의 집합
- 파싱(Parsing): 반정형 데이터가 가지고 있는 데이터 구조에 대한 정보를 해석해 유용한 정보를 추출하는 과정
- XML(Extensible MarkUp Language): 다목적 마크업 언어(태그를 이용한 언어)로, 인터넷에 연결된 시스템끼리 데이터를 쉽게 주고 받을 수 있게 하여 html의 한계를 극복할 목적으로 만들어진 언어
3. 지식 경영의 핵심 이슈
- 데이터는 지식 경영의 핵심 이슈인 암묵지와 형식지의 상호작용에 있어 중요한 역할을 한다.
| 구분 | 의미 | 예 | 특징 | 상호작용 |
| 암묵지 | 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식 | 김장 김치 담그기, 자전거 타기 | 사회적으로 중요하지만 다른 사람에게 공유되기 어려움 | 공통화, 내면화 |
| 형식지 | 문서나 메뉴얼처럼 형상화된 지식 | 교과서, 비디오, DB | 전달과 공유가 용이함 | 표출화, 연결화 |
- 암묵지: 개인에게 축적된 내면화된 지식 → 조직의 지식으로 공통화
- 형식지: 언어, 기호, 숫자로 표출화된 지식→ 개인의 지식으로 연결화
💡 암묵지와 형식지의 상호작용 관계
1단계: 공통화
→ 암묵지를 타인에게 알려주기
2단계: 표출화
→ 암묵지를 책 등 형식지로 만들기
3단계: 연결화
→ 책 등에 자신이 아는 새로운 지식 추가하기
4단계: 내면화
→ 책 등을 보고 타인들이 암묵적 지식을 습득
4. 데이터와 정보의 관계
1. DIKW의 정의
| 구분 | 특성 | 예시 |
| 데이터(Data) | 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실 | A마트는 100원, B마트는 200원에 연필을 판매한다. |
| 정보(Information) | 데이터의 가공, 처리와 데이터 간 연관 관계 속에서 의미가 도출된 것 | A마트의 연필이 더 저렴하다. |
| 지식(Knowledge) | 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화된 것 | 상대적으로 더 저렴한 A마트에서 연필을 사야겠다. |
| 지혜(Wisdom) | 지식의 축적과 아이디어가 결합된 창의적인 산물 | A마트의 다른 상품들도 B마트보다 저렴할 것이라고 판단한다. |
2. DIKW 피라미드
- DIKW피라미드에서는 데이터. 정보, 지식을 통해 최종적으로 지혜를 얻어내는 과정을 계층 구조로 설명한다.

5. 기타
1. 데이터양의 단위
| 단위 | 데이터량 | 단위 | 데이터량 |
| 바이트(B) | 1byte, 2^0B | 페타바이트(PB) | 1024TB, 2^50B |
| 킬로바이트(KB) | 1024B, 2^10B | 엑사바이트(EB) | 1024PB,2^60B |
| 메가바이트(MB) | 1024KB, 2^20B | 제타바이트(ZB) | 1024EB,2^70B |
| 기가바이트(GB) | 1024MB, 2^30B | 요티바이트(YB) | 1024ZB,2^80B |
| 테라바이트(TB) | 1024GB, 2^40B |
2. B2B와 B2C
- B2B
- 기업과 기업 사이의 거래를 기반으로 한 비즈니스 모델을 의미하며, 기업이 필요로 하는 장비, 재료나 공사입찰 등이 있다.
- B2C
- 기업과 고객 사이의 거래를 기반으로 한 비즈니스 모델을 의미하며, 이동 통신사, 여행 회사, 신용카드 회사, 옥션, 지마켓 등이 있다.
💡B2B, B2C 장단점
- B2B의 장점
- 안정적이고 예측 가능한 수익, 대량 거래 발생으로 경제적 규모의 효과
- B2B의 단점
- 기업 간의 관계 유지를 위한 자원 투입이 많이 필요
- B2C의 장점
- 소비자에게 직접 판매로 매출의 빠른 실현 발생, 행동 데이터 분석을 통한 마케팅 용이
- B2C의 단점
- 과도한 마케팅 비용, 경쟁 심화
3. 블록체인
- 블록체인(Block Chain): 거래 정보를 하나의 덩어리로 보고 이를 차례로 연결한 거래 장부이다.
- 기존 금융회사의 경우 중앙 집중형 서버에 거래 기록을 보관하는 반면, 블록체인은 거래에 참여하는 모든 사용자에게 거래 내역을 보내 주며 거래 때마다 이를 대조해 데이터 위조를 막는 방식을 사용한다.
💡블록체인 활용 사례
- 금융 서비스: 암호 화폐가 대표적인 블록체인 활용 사례로 비트코인, 이더리움 등이 이에 해당한다.
- 물류 관리: 상품의 생산부터 유통까지 전 과정을 추적하는 데에도 쓰이며 위조품 방지에도 효과적이다.
- 의료 정보 관리: 보안성 덕분에 환자의 의료 기록을 안전하게 보관한다.
- 전자 투표 시스템: 투표 과정에서의 투명성을 높이기 때문에 부정 선거 방지에 도움이 될 수 있다.
반응형
LIST
'데이터분석-ADSP > 1과목- 데이터 이해' 카테고리의 다른 글
| 데이터베이스 정의와 특징 (0) | 2026.01.16 |
|---|