알고리즘 중심의 머신러닝 가이드
13장 위원회의 결정: 앙상블 학
습
아꿈사 스터디
정민철(ccc612@gmail.com)
앙상블 학습
• 하나의 만능 알고리즘은 없다
• 서로 다른 여러개의 모델 혹은 학습자를 합성해 데이터에
대해 다른 결과 도출
• 여러 학습모델의 결과를 종합해 결정 => 결과가 비교적 좋
음
배깅 (bagging)
• 배깅: bootstrap aggregating
• bootstrap: 교차검증 샘플링 기법
• 집합 X에서 N개의 샘플을 임의로 뽑는다.
• 한번에 하나씩 뽑으며 뽑은 샘플은 다시 집어넣는다(중
복허용)
• 이런 샘플링 작업을 독립적으로 T번 수행하여 샘플 집합
을 T개 만든다.
• 이들을 이용해 검증을 수행하고 평균값을 최종 성능으로
취한다.
배깅 (bagging)
• 배깅은 bootstrap기법을 다중 분류기 생성 기법으로 확장한
것
• 다른 트레이닝 데이터 선정에 사용
• 분산을 줄이는 것이 목적
• 최종 결과는 다수결에 의해 종합
• 원본 데이터와 같은 양의 샘플을 뽑는다.
• 장점: 단순하지만 뛰어난 성능 제공,
• 단점: 전략적인 샘플링을 하는 부스팅에 비해 성능이 떨어
짐
부스팅(boosting)
• 정교한 재 샘플링 연산 사용해 트레이닝 데이터 생성
• 중복 샘플링 허용하지 않음
• 앞에서 생성된 학습자의 성능이 뒤에서 생성될 모델의 데이
터에 영향을 줌
• AdaBoost 알고리즘이 가장 널리 쓰임
• 결과는 각 학습자의 결과에 식별 성능을 가중치로 곱한 합
을 사용
에이다부스트
(AdaBoost, Adaptive boosting)
• 각기 다른 데이터에 강점을 가지는 학습자를 여러개 구축
• 이전 학습자의 에러에 따라 데이터에 부여되는 가중치
조정
• 잘 맞추면 => 가중치 하락, 못맞추면 => 가중치 상승
• 다음 학습자는 이전 학습자가 못맞춘 데이터를 더 많이
접하게 됨
에이다부스트
(AdaBoost, Adaptive boosting)
에이다부스트
(AdaBoost, Adaptive boosting)
• 책의 자료가 충분치 않아서 참고자료로 설명
http://www.cs.man.ac.uk/~stapenr5/boosting.pdf
랜덤 포레스트
(random forest)
• 랜덤하게 트레이닝 된 결정 트리를 여러개 만들어 숲을 만
든다.
• 여러개의 트리 생성 방법
• 트레이닝 데이터 선택: 부트스트랩
• 각 트리가 랜덤하게 선택된 입력값의 일부만 사용
랜덤 포레스트
(random forest)
• 의사결정 방법: 다수결
• 장점
• 트레이닝/모델 속도가 빠름 (계산 비용이 효율적이고 병
렬화가 쉬움)
• 부트스트랩 사용으로 추가적인 검증 데이터가 필요없음
• 크고 복잡한 데이터에서도 성능이 우수함
다른 앙상블 알고리즘
• 투표 방법
• 편중된 투표
• 다수결 투표 (다수결, 만장일치, 반 이상 찬성 등)
• 중앙값 사용 (브래깅 알고리즘)
• 전체 앙상블이 정답을 맞출 확률: 이항분포
• 혼합 전문가 알고리즘 (mixture of experts)
• 각 분류기가 예측한 값이 상관관계 게이트를 통해 가중치가
부여되어 합쳐짐
• 상관관계 게이트: 트리, 네트워크 형태로 구성 가능

More Related Content

PPTX
Machine learning boosting 20180424
PDF
Random Forest Intro [랜덤포레스트 설명]
PDF
boosting 기법 이해 (bagging vs boosting)
PDF
Machine Learning Foundations (a case study approach) 강의 정리
PPTX
Boosting_suman
PDF
Coursera Machine Learning (by Andrew Ng)_강의정리
PDF
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 4장. 모델 훈련
PDF
Reinforcement learning
Machine learning boosting 20180424
Random Forest Intro [랜덤포레스트 설명]
boosting 기법 이해 (bagging vs boosting)
Machine Learning Foundations (a case study approach) 강의 정리
Boosting_suman
Coursera Machine Learning (by Andrew Ng)_강의정리
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 4장. 모델 훈련
Reinforcement learning

What's hot (20)

PPTX
2.supervised learning(epoch#2)-2
PDF
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝
PDF
5.model evaluation and improvement
PDF
3.unsupervised learing(epoch#2)
PDF
2.supervised learning
PPTX
Deep learning tutorial with theano study - CH 3, CH 4
PDF
Infra as a model service
PDF
5.model evaluation and improvement(epoch#2) 1
PDF
Transfer learning usage
PDF
Create a solution including deep learning models
PDF
내가 이해하는 SVM(왜, 어떻게를 중심으로)
PPTX
2.supervised learning(epoch#2)-3
PDF
5.model evaluation and improvement(epoch#2) 2
PPTX
Ml for 정형데이터
PDF
4.representing data and engineering features
PDF
Siamese neural networks for one shot image recognition paper explained
PPTX
딥러닝을 이용한 사용자 선호도 기반 의상 추천 알고리즘 Ppt 선수강
PDF
3.unsupervised learing
PDF
집단지성 프로그래밍 07-고급 분류 기법-커널 기법과 svm-01
PDF
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 6장 결정 트리
2.supervised learning(epoch#2)-2
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝
5.model evaluation and improvement
3.unsupervised learing(epoch#2)
2.supervised learning
Deep learning tutorial with theano study - CH 3, CH 4
Infra as a model service
5.model evaluation and improvement(epoch#2) 1
Transfer learning usage
Create a solution including deep learning models
내가 이해하는 SVM(왜, 어떻게를 중심으로)
2.supervised learning(epoch#2)-3
5.model evaluation and improvement(epoch#2) 2
Ml for 정형데이터
4.representing data and engineering features
Siamese neural networks for one shot image recognition paper explained
딥러닝을 이용한 사용자 선호도 기반 의상 추천 알고리즘 Ppt 선수강
3.unsupervised learing
집단지성 프로그래밍 07-고급 분류 기법-커널 기법과 svm-01
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 6장 결정 트리
Ad

Similar to 13.앙상블학습 (6)

PDF
(Book summary) Ensemble method 2018summerml_study
PPTX
Chapter 11 Practical Methodology
PPTX
Mahout
PPTX
Chapter 8 - optimization for training deep models
PDF
K means 알고리즘을 이용한 영화배우 클러스터링
PDF
DL from scratch(6)
(Book summary) Ensemble method 2018summerml_study
Chapter 11 Practical Methodology
Mahout
Chapter 8 - optimization for training deep models
K means 알고리즘을 이용한 영화배우 클러스터링
DL from scratch(6)
Ad

More from Minchul Jung (13)

PPTX
10장 진화학습
PPTX
DDD Start! - 2장 아키텍처 개요
PPTX
Ch9 프로세스의 메모리 구조
PPTX
7부. 애플리케이션 입장에서의 성능 튜닝 (1~8장)
PPTX
실무로 배우는 시스템 성능 최적화 - 4부. 프로세스 이해하기
PPTX
HTTP 완벽 가이드 / 20장 리다이렉션과 부하균형
PPTX
[Http완벽가이드] 9장 웹로봇
PDF
일래스틱 서치 ch7. 일래스틱 서치 클러스터 세부사항
PDF
Ch1 일래스틱서치 클러스터 시작
PPTX
Ch10.애플리케이션 서버의 병목_발견_방법
PPTX
Ch6 대용량서비스레퍼런스아키텍처 part.1
PPTX
Apprenticeship patterns 7
PPTX
Tools in android sdk
10장 진화학습
DDD Start! - 2장 아키텍처 개요
Ch9 프로세스의 메모리 구조
7부. 애플리케이션 입장에서의 성능 튜닝 (1~8장)
실무로 배우는 시스템 성능 최적화 - 4부. 프로세스 이해하기
HTTP 완벽 가이드 / 20장 리다이렉션과 부하균형
[Http완벽가이드] 9장 웹로봇
일래스틱 서치 ch7. 일래스틱 서치 클러스터 세부사항
Ch1 일래스틱서치 클러스터 시작
Ch10.애플리케이션 서버의 병목_발견_방법
Ch6 대용량서비스레퍼런스아키텍처 part.1
Apprenticeship patterns 7
Tools in android sdk

13.앙상블학습

  • 1. 알고리즘 중심의 머신러닝 가이드 13장 위원회의 결정: 앙상블 학 습 아꿈사 스터디 정민철([email protected])
  • 2. 앙상블 학습 • 하나의 만능 알고리즘은 없다 • 서로 다른 여러개의 모델 혹은 학습자를 합성해 데이터에 대해 다른 결과 도출 • 여러 학습모델의 결과를 종합해 결정 => 결과가 비교적 좋 음
  • 3. 배깅 (bagging) • 배깅: bootstrap aggregating • bootstrap: 교차검증 샘플링 기법 • 집합 X에서 N개의 샘플을 임의로 뽑는다. • 한번에 하나씩 뽑으며 뽑은 샘플은 다시 집어넣는다(중 복허용) • 이런 샘플링 작업을 독립적으로 T번 수행하여 샘플 집합 을 T개 만든다. • 이들을 이용해 검증을 수행하고 평균값을 최종 성능으로 취한다.
  • 4. 배깅 (bagging) • 배깅은 bootstrap기법을 다중 분류기 생성 기법으로 확장한 것 • 다른 트레이닝 데이터 선정에 사용 • 분산을 줄이는 것이 목적 • 최종 결과는 다수결에 의해 종합 • 원본 데이터와 같은 양의 샘플을 뽑는다. • 장점: 단순하지만 뛰어난 성능 제공, • 단점: 전략적인 샘플링을 하는 부스팅에 비해 성능이 떨어 짐
  • 5. 부스팅(boosting) • 정교한 재 샘플링 연산 사용해 트레이닝 데이터 생성 • 중복 샘플링 허용하지 않음 • 앞에서 생성된 학습자의 성능이 뒤에서 생성될 모델의 데이 터에 영향을 줌 • AdaBoost 알고리즘이 가장 널리 쓰임 • 결과는 각 학습자의 결과에 식별 성능을 가중치로 곱한 합 을 사용
  • 6. 에이다부스트 (AdaBoost, Adaptive boosting) • 각기 다른 데이터에 강점을 가지는 학습자를 여러개 구축 • 이전 학습자의 에러에 따라 데이터에 부여되는 가중치 조정 • 잘 맞추면 => 가중치 하락, 못맞추면 => 가중치 상승 • 다음 학습자는 이전 학습자가 못맞춘 데이터를 더 많이 접하게 됨
  • 8. 에이다부스트 (AdaBoost, Adaptive boosting) • 책의 자료가 충분치 않아서 참고자료로 설명 http://www.cs.man.ac.uk/~stapenr5/boosting.pdf
  • 9. 랜덤 포레스트 (random forest) • 랜덤하게 트레이닝 된 결정 트리를 여러개 만들어 숲을 만 든다. • 여러개의 트리 생성 방법 • 트레이닝 데이터 선택: 부트스트랩 • 각 트리가 랜덤하게 선택된 입력값의 일부만 사용
  • 10. 랜덤 포레스트 (random forest) • 의사결정 방법: 다수결 • 장점 • 트레이닝/모델 속도가 빠름 (계산 비용이 효율적이고 병 렬화가 쉬움) • 부트스트랩 사용으로 추가적인 검증 데이터가 필요없음 • 크고 복잡한 데이터에서도 성능이 우수함
  • 11. 다른 앙상블 알고리즘 • 투표 방법 • 편중된 투표 • 다수결 투표 (다수결, 만장일치, 반 이상 찬성 등) • 중앙값 사용 (브래깅 알고리즘) • 전체 앙상블이 정답을 맞출 확률: 이항분포 • 혼합 전문가 알고리즘 (mixture of experts) • 각 분류기가 예측한 값이 상관관계 게이트를 통해 가중치가 부여되어 합쳐짐 • 상관관계 게이트: 트리, 네트워크 형태로 구성 가능