[kakao x goorm] 생성 AI 응용 서비스 개발자 양성 과정/회고록

[kakao x goorm] 빅데이터와 머신러닝의 개념 정리

Hoonia 2025. 4. 14. 10:30

오늘은 생성 AI를 다루기 전, 그 기반이 되는 머신러닝(Machine Learning)과 빅데이터(Big Data)의 개념들을 정리했다.
AI를 제대로 이해하기 위해서는 데이터의 종류와 처리 방식, 그리고 데이터를 학습하는 다양한 알고리즘에 대한 기본적인 이해가 필요하다.
특히 머신러닝은 지도학습, 비지도학습, 강화학습이라는 세 가지 큰 축을 중심으로 구성되며, 각각의 방식이 어떻게 작동하고 어떤 문제를 해결할 수 있는지 감을 잡는 것이 중요하다.
이번 포스팅은 이러한 전반적인 구조를 큰 그림에서 살펴보는 데에 초점을 맞췄다.

빅데이터란?

빅데이터(Big Data) 는 기존의 데이터 수집, 관리, 분석 도구로는 처리할 수 없을 정도로 방대한 양의 데이터를 의미한다.

위키백과(2011):
“통상적으로 사용되는 데이터 수집, 관리 및 처리 소프트웨어의 수용 한계를 넘어서는 크기의 데이터”

빅데이터는 단순히 많은 양의 데이터를 뜻하지 않는다. 다양하고 빠르게 생성되는 데이터로부터 가치를 추출하고 이를 분석할 수 있는 기술과 아키텍처까지 포함하는 개념이다.

빅데이터의 3V

항목 설명
Volume (데이터 양) 데이터의 규모가 방대함. 예: 유튜브 영상 업로드량, 페이스북의 하루 게시물 수 등
Velocity (데이터 생성 속도) 데이터가 실시간 또는 빠른 속도로 생성됨. 예: 트위터 트윗, IoT 센서 데이터
Variety (데이터 다양성) 데이터의 형태가 다양함. 예: 텍스트, 이미지, 음성, 영상 등 구조화/비구조화된 형태 모두 포함

이 세 가지 요소는 빅데이터의 본질을 구성하는 핵심 개념으로, 다양한 데이터 환경을 이해하고 기술적으로 대응하기 위한 출발점이다.

데이터의 종류: 질적 데이터 vs 양적 데이터

1. Qualitative (질적 데이터)

  • 설명형/서술형 정보
  • 숫자로 표현되지 않는 특성 중심의 데이터
  • 예: 감정, 브랜드명, 색상 등
  • "I drink coffee every day" → 커피를 마신다는 사실은 알 수 있지만 수치화할 수 없음

2. Quantitative (양적 데이터)

  • 숫자로 표현 가능한 데이터
  • 실제 수량이나 측정값 기반으로 계산 가능
  • 예: “커피 4잔”, “80g 마셨다”

양적 데이터의 세부 유형

유형 설명 예시
Discrete (이산형) 셀 수 있는 값 커피 3잔, 학생 수, 버튼 클릭 횟수
Continuous (연속형) 측정 가능한 값 무게(80g), 키(174.5cm), 시간(2.75초)

이산형은 개수처럼 딱 떨어지는 값이고, 연속형은 측정 단위에 따라 무한히 쪼갤 수 있는 값이다.

구조화 vs 비구조화 데이터 (내부 vs 외부 관점)

데이터는 형태뿐 아니라 생성 주체(사람/기계)와 위치(내부/외부)에 따라 다양하게 구분된다.

구분 구조화 데이터 (Structured) 비구조화 데이터 (Unstructured) 
내부 + 사람이 만든 데이터 설문 결과, 시험 점수 이메일, 문자, 고객 의견, 평가 코멘트
내부 + 기계가 만든 데이터 웹 로그, 공정 관리 수치 음성 녹음, 사진, 영상 회의
외부 + 사람이 만든 데이터 SNS 좋아요 수, 별점, 리트윗 후기 글, 영상 리뷰, 댓글
외부 + 기계가 만든 데이터 GPS 위치 정보, 업로드 시간 CCTV 영상, 이미지 저장 로그

구조화 데이터는 보통 표 형태로 정리된 데이터이고,
비구조화 데이터는 텍스트, 이미지, 영상처럼 다양한 형식으로 저장되어 정제 및 분석이 어려운 형태를 가진다.

머신러닝이란?

머신러닝(Machine Learning) 은 컴퓨터가 명시적인 코드 없이 데이터를 통해 스스로 학습할 수 있게 하는 기술이다.

아서 사무엘(1959):
“컴퓨터에게 명시적으로 프로그래밍하지 않고도 학습할 수 있는 능력을 부여하는 연구 분야”

사람이 직접 일일이 규칙을 입력하지 않아도, 데이터에서 패턴을 찾아내어 예측하거나 분류하는 알고리즘이 핵심이다.
AI의 기초가 되는 가장 중요한 기술 중 하나로, 추천 시스템, 스팸 필터링, 자율주행 등 다양한 곳에 활용된다.

머신러닝의 대표 유형

구분 하위 개념 활용 예시
Supervised Learning(지도 학습) Classification (분류) 이미지 분류, 고객 이탈 예측, 사기 탐지
  Regression (회귀) 광고 클릭률 예측, 날씨 예측, 수익 추정
Unsupervised Learning(비지도 학습) Clustering (군집화) 고객 세분화, 추천 시스템, 이상 탐지
  Dimensionality Reduction (차원 축소) 데이터 압축, 시각화, 특징 추출
Reinforcement Learning(강화 학습) - 게임 AI, 로봇 제어, 실시간 의사결정

 

Supervised Learning Workflow

지도 학습(Supervised Learning)은 정답(Label)을 알고 있는 데이터를 바탕으로 모델을 학습시키는 방식이다. 이때 학습은 두 단계로 구성된다: 훈련(Training)과 예측(Predicting)이다.

1. Training 단계 (학습 과정)

단계 설명
Raw Data (Train) 모델에 입력할 원본 데이터. 예: 시험 점수, 이미지 데이터
Labels 데이터에 대한 정답. 예: 합격 여부, 이미지의 실제 클래스
Feature Extraction 원시 데이터를 숫자 형태의 '특징'으로 변환. 예: 텍스트 → 단어 수치화, 이미지 → 픽셀값
Train the Model 변환된 특징과 정답을 이용해 모델을 학습
Model 학습이 완료된 모델 (예: 선형 회귀, 의사결정나무, 신경망 등)
Eval Model 테스트 데이터를 활용해 모델의 예측 정확도를 평가

2. Predicting 단계 (예측 과정)

단계 설명
New Data 실제 예측에 사용할 새로운 데이터 (정답은 없음)
Feature Extraction 새로운 데이터에서도 동일한 방식으로 특징을 추출
Model Predict 학습된 모델로부터 예측 결과 도출
Labels (Output) 예측된 값이 출력됨. 예: 질병 유무, 사용자 행동 예측 등

핵심 요약

  • 학습 단계: 입력 데이터와 정답(Label)을 통해 모델을 학습
  • 예측 단계: 새로운 입력 데이터를 넣으면 모델이 정답을 예측
  • 지도 학습의 대표적인 사례로는 스팸 메일 분류, 광고 클릭률 예측, 소득 수준 분류 등이 있다

클러스터링이란?

클러스터링(Clustering)은 비지도 학습의 대표적인 방법으로, 정답이 없는 데이터를 유사성에 따라 자동으로 그룹화하는 기술이다.

클러스터링의 주요 특징

  • 자동 그룹화: 데이터 간의 유사성을 기반으로 그룹(클러스터)을 자동 생성
  • 정답 레이블 불필요: 사전에 정해진 정답이 없어도 학습 가능
  • 패턴 탐색: 데이터 내의 숨겨진 구조나 패턴을 발견하는 데 유용

클러스터링의 활용 사례

분야 활용 예시
마케팅 고객 세분화, 구매 패턴 분석, 타겟 마케팅 전략
추천 시스템 비슷한 취향의 사용자 군 그룹화, 콘텐츠 추천
이상 감지 비정상 거래 탐지, 시스템 오류 탐지

클러스터링은 지도 학습보다 활용의 폭이 넓으며, 특히 탐색적 데이터 분석(EDA)이나 비정형 데이터 처리에 많이 사용된다.

Agent란?

Agent(에이전트)는 특정 환경 내에서 관찰과 행동을 반복하며 목표를 달성하려는 자율적인 주체를 의미한다.
AI에서 Agent는 학습과 의사결정의 주체로서, 특히 강화학습에서 중심적인 개념이다.

Agent의 주요 특징

  • 자율성(Autonomy): 사용자의 명령 없이 스스로 판단하고 행동 가능
  • 반응성(Reactivity): 환경의 변화를 감지하고 즉각적으로 반응
  • 목표 지향성(Goal-oriented): 목표 달성을 위한 행동을 계획하고 실행
  • 학습 능력(Learning): 경험을 통해 성능을 지속적으로 향상

Agent의 종류

유형 특징  예시
단순 반응형 Agent 현재 상태만을 보고 행동 온도조절기, 간단한 센서 장치
모델 기반 Agent 내부 모델을 통해 환경을 인식하고 행동 자율주행 자동차
목표 기반 Agent 목표를 설정하고 계획적으로 행동 게임 AI
학습형 Agent 반복 학습을 통해 성능 향상 추천 시스템, 챗봇, 로봇 학습기

머신러닝 학습 유형 심화

1. 지도학습 (Supervised Learning)

지도학습은 정답(Label)을 포함한 데이터를 기반으로 학습하는 방식이다. 학습 중에 입력과 출력(정답)을 모두 제공하기 때문에, 학습이 완료된 모델은 새로운 입력에 대해 정답을 예측할 수 있게 된다.

주요 특징

  • 정답(라벨)이 있는 데이터를 기반으로 학습
  • 분류(Classification), 회귀(Regression) 등의 문제에 적합
  • 학습된 모델은 일반적으로 예측 정확도나 오류율로 성능을 평가

예시

  • 고양이/강아지 이미지 분류
  • 주택 가격 예측
  • 고객 이탈 예측

지도학습 워크플로우 구조 설명

1. Training 단계 (모델 학습)

  • Raw Data (Train)와 Labels(정답)을 기반으로 학습이 시작됨
  • 데이터를 Feature Extraction(특징 추출) 과정을 통해 수치화된 특징 벡터(Feature Matrix)로 변환
  • 추출된 특징과 정답을 함께 사용해 Train the Model 단계에서 학습을 수행
  • 학습된 ModelEval Model 단계에서 테스트 데이터를 통해 성능을 평가받음

2. Predicting 단계 (예측)

  • 새로운 New Data가 들어오면 동일하게 Feature Extraction 과정을 거쳐 Feature Vector로 변환
  • 기존에 학습된 Model을 활용하여 Predict 단계에서 결과를 예측
  • 최종적으로 예측된 Labels(출력값)이 도출됨

2. 비지도학습 (Unsupervised Learning)

비지도학습은 정답(Label) 없이 입력 데이터만으로 학습하는 방식이다.
주로 데이터 간 유사성, 패턴, 구조를 파악하는 데 사용되며, 사람의 관여 없이도 데이터를 자동으로 분류하거나 압축할 수 있다.

주요 특징

  • 정답이 없는 비라벨링 데이터 사용
  • 군집화(Clustering), 차원 축소(Dimensionality Reduction) 등이 대표적
  • 데이터의 숨겨진 구조나 의미를 발견할 때 유용

예시

  • 고객 유형 분류
  • 문서 주제 분석
  • 데이터 시각화를 위한 차원 축소 (PCA 등)

비지도학습 워크플로우 구조 설명

1. Training 단계 (모델 학습)

  • Raw Data (Train)는 정답 없이 입력 데이터만 존재함
  • 데이터를 Feature Extraction을 통해 수치형 벡터(Feature Matrix)로 변환
  • 이 특징 데이터를 바탕으로 Train the Model 단계를 통해 군집화(Clustering) 같은 학습이 이루어짐
  • 학습된 Model은 데이터의 분포나 유사성을 기준으로 내부 구조를 파악함

2. Predicting 단계 (예측)

  • New Data가 들어오면 마찬가지로 Feature Extraction 과정을 통해 벡터화됨
  • 이미 학습된 모델을 통해 Predict 단계에서 어떤 클러스터(cluster number)에 속하는지를 예측
  • 여기서 출력되는 결과는 라벨이 아닌 군집 번호(cluster number) 또는 분류된 군집 정보임

3. 강화학습 (Reinforcement Learning)

강화학습환경과의 상호작용을 통해 보상(Reward)을 받으며 스스로 최적의 행동을 학습하는 방식이다.
에이전트(Agent)는 상태(State)를 관찰하고 행동(Action)을 선택하며, 미래의 누적 보상을 최대화하기 위한 전략을 학습한다.

주요 특징

  • 명확한 정답은 없고, 보상을 통해 간접적인 피드백을 받음
  • 시계열적, 순차적인 문제 해결에 적합
  • 탐험(Explore) vs 활용(Exploit) 전략을 적절히 조합해야 함

예시

  • 게임 AI (체스, 바둑, 스타크래프트 등)
  • 자율주행 차량 제어
  • 로봇 제어 및 경로 최적화
  • 추천 시스템에서 사용자의 반응을 기반으로 콘텐츠 제시

강화학습 구조 설명

1. 학습 구성 (Agent–Environment 상호작용)

  • Agent는 학습을 수행하는 주체로, 현재 상태를 보고 다음 행동을 결정함
  • Environment는 Agent의 행동에 따라 상태(State)를 변화시키고, 이에 대한 보상(Reward)을 제공함
  • 이 과정은 반복되며, Agent는 보상을 최대화할 수 있는 전략(Policy)을 스스로 학습함

2. 학습 순환 구조 (학습 흐름)

  • State: 환경은 현재의 상태 정보를 Agent에게 전달
  • Action: Agent는 상태 정보를 바탕으로 행동(Action)을 선택
  • Reward: 환경은 행동에 대한 보상을 제공하고 상태를 변화시킴
  • Agent는 이러한 피드백을 반복적으로 경험하면서 더 나은 선택을 학습함

3. 최종 목표

  • Agent는 경험을 통해 미래의 보상 합계(총 보상, cumulative reward)를 최대화할 수 있도록 행동 전략을 조정
  • 명확한 정답 없이도 시행착오(Trial & Error)를 통해 최적의 의사결정 방식을 스스로 획득하는 것이 핵심

학습 유형 비교 요약

구분 지도학습 비지도학습 강화학습

구분 지도학습 비지도학습 강화학습
데이터 입력 + 정답(Label) 입력만 존재 환경 상태, 보상
학습 목표 예측 모델 학습 패턴 및 구조 탐색 최적 행동 전략 습득
피드백 방식 정답 기반 오류 수정 없음 보상 기반 학습
대표 기법 분류, 회귀 군집화, 차원 축소 Q-learning, 정책 경사법 등
활용 분야 질병 진단, 가격 예측 고객 세분화, 데이터 압축 게임, 로봇 제어, 실시간 판단

머신러닝의 활용 사례

머신러닝은 다양한 산업과 분야에서 널리 활용되고 있으며, 아래는 대표적인 응용 예시들이다.

1. 스팸 메일 분류

단순히 특정 단어(예: “무료”, “광고”)의 빈도만으로는 스팸 여부를 판단하기 어렵다.
하지만 머신러닝을 사용하면 다음과 같은 다양한 정보를 결합해 분류가 가능하다:

  • 이메일의 전체 길이
  • 특정 단어와 다른 단어의 조합 빈도
  • 과거의 스팸 여부와의 유사도

이러한 요소들을 수치화된 특징(feature)로 만들고 학습시킴으로써, 보다 정교한 분류 모델을 구성할 수 있다.

2. 추천 시스템

  • 사용자 취향에 따라 콘텐츠를 추천
  • 넷플릭스, 유튜브, 아마존 등에서 활용
  • 과거 행동(조회, 구매 등)을 기반으로 비슷한 사용자 그룹이나 콘텐츠를 탐색

3. 이미지 및 글자 인식

  • 필기체 인식, OCR, 얼굴 인식, 차량 번호판 인식
  • CNN과 같은 심층 신경망(Deep Neural Network)을 활용한 고정밀 분류

4. 신용 및 대출 판단

  • 고객의 소득, 직업, 신용 이력 등의 정보를 기반으로 대출 승인 여부를 자동으로 예측
  • 금융권에서 위험 분석사기 탐지에도 널리 사용

머신러닝을 구성하는 ETP 프레임워크

ETP는 머신러닝 학습 과정에서 어떤 요소들이 핵심이 되는지를 설명해주는 기본 구조이다.

구성 요소 의미 예시
E - Experience (경험) 학습에 사용할 데이터셋 사용자의 클릭 로그, 센서 데이터 등
T - Task (과제) 모델이 수행해야 할 작업 이메일 분류, 광고 클릭 예측 등
P - Performance (성능) 모델 성능을 측정하는 기준 정확도, 정밀도, AUC, RMSE 등

ETP는 학습 문제를 정의하고 모델을 평가할 때 반드시 고려해야 할 기본적인 틀이다.

오늘의 회고

이번 정리를 통해 빅데이터의 개념부터 머신러닝의 3대 학습 방식(지도, 비지도, 강화학습)까지 전체적인 흐름을 구조화할 수 있었다. 특히 각각의 학습 방식이 어떤 방식으로 문제를 해결하는지, 어떤 데이터를 필요로 하는지를 이해하면서 앞으로 실제 모델을 설계하고 적용할 때 중요한 기준점을 마련할 수 있을 것 같다.

다음 회고에서는 각 학습 방식별 대표 알고리즘(예: 결정 트리, K-평균, Q-learning 등)을 조금 더 깊이 있게 파고들어 보며, 본격적인 AI 개발자의 관점으로 머신러닝을 바라볼 준비를 해보려 한다.