Word2Vec
- SMD 분석서비스에 기반하여
이찬희
2016. 12. 16
1위: 엄마. 아빠
2위: 국가지도자. 전략가
3위: 기업 CEO
4위: 교사
5위: 상담원
☞ 사람 고유의 표현수단이
중요하게 사용되는 직업
사람 고유의 표현수단
표정
행동
언어
사람의 표현수단을 데이터화 시키려는
노력에는 어떤 것이 있을까?
컴퓨터가 어떻게 언어를 인식할 수 있을까?
표정, 음성 -> 감정이 담긴 표정들과 비교
동작 -> 하드웨어의 인식
언어 -> *벡터공간과 개별 벡터*
*Word Embedding*
단어를 표현하는데 드는 벡터공간보다
보다 저차원의 벡터공간으로
표현하는 방법을 총칭
Word Embedding의 구현방법
Co-occurrence matrix
Probabilistic model
Neural networks
Word Embedding의 구현방법
Co-occurrence matrix
Probabilistic model
Neural networks ☞ Word2Vec
Word Embedding 구현 알고리즘에
사용되는 기본 가정
Distributional Hypothesis
유사한 분포를 가지는 단어는
유사한 의미를 가진다
Word2Vec
• Google의 Tomas Mikolov가 이끄는 연구팀이 개발
• Neural Network 기반 Machine Learning 분석모델
• 단어의 등장 분포를 통해 단어의 의미를 벡터로 변환
• 모델을 생성하는 두 가지 알고리즘을 사용할 수 있음
• CBOW, Skip-gram
Word2Vec이 제시한 두 가지 알고리즘
: CBOW(Continuous Bag-of-Words) vs. Skip-gram
< Skip-gram >< CBOW >
多 1 1 多
Word2Vec이 제시한 두 가지 알고리즘 - 예제
: CBOW(Continuous Bag-of-Words) vs. Skip-gram
< CBOW >
• 주변 단어를 통해 중간에 어떤 단어가 나올지 확
률적 유추를 하는 알고리즘
< Skip-gram >
• 한 단어의 주변에 어떤 단어들이 나올지 확률적
유추를 하는 알고리즘
Word2Vec이 제시한 두 가지 알고리즘 - 성능평가
: CBOW(Continuous Bag-of-Words) vs. Skip-gram
다른 Neural Network 기반
Word Embedding 알고리즘
다른 알고리즘에 비해 Word2Vec 알고리즘들의
성능이 좋았고 Word2Vec의 두 알고리즘 내에서
는 Skip-gram 알고리즘이 문법적, 의미적 면에서
성능이 더 좋았음
Source Data
: Buzzword Data in SMD(Social Media Data) Analysis Service
수집기
형태소분석
감성분석
Buzzword
Sentimental
Score
Buzzword
Summary
Sentimental
Summary
언론사
SNS
뉴스
증권 커뮤니티
Word2Vec 개요 및 활용
Source Data
: Buzzword in SMD(Social Media Data) Analysis Service
수집기
형태소분석
감성분석
Buzzword
Sentimental
Score
Buzzword
Summary
Sentimental
Summary
언론사
SNS
뉴스
증권 커뮤니티
삼성전자, 2015년
4분기 실적발표
…
4분기는 CE부문을 중심으
로 매출은 다소 증가했지만,
…,
부품사업을 중심으로 영업
이익이 감소했다.
삼성전자, 2015년, 4분기, 실
적발표
4분기, 는, CE부문, 을, 중심,
으로, 매출, 은, 다소,
증가하다 + <과거형>, 만,
부품사업, 을, 중심, 으로,
영업이익, 이, 감소하다 + <과
거형>
삼성전자, 2015년, 4분기, 실
적발표
4분기, 는, CE부문, 을, 중심,
으로, 매출, 은, 다소,
증가하다 + <과거형>, 만,
부품사업, 을, 중심, 으로, 영
업이익, 이, 감소하다 + <과거
형>
삼성전자, 2015년, 4분기, 실
적발표
4분기, 는, CE부문, 을, 중심,
으로, 매출, 은, 다소,
증가하다 + <과거형>, 만,
부품사업, 을, 중심, 으로,
영업이익, 이, 감소하다 + <과
거형>
삼성전자, 2015년, 4분기, 실
적발표
4분기, 는, CE부문, 을, 중심,
으로, 매출, 은, 다소, 증가하다
+ <과거형>, 만,
부품사업, 을, 중심, 으로,
영업이익, 이, 감소하다 + <과
거형>
Buzzword WordCount
2015년 1
4분기 2
실적발표 1
…
매출
부품사업 1
영업이익 1
Pattern
Sent
Score
CE부문 + 매출 + 증가하다 +1
부품사업 + 영업이익 + 감소하다 -1
삼성전자, 2015년, 4분기, 실
적발표
4분기, 는, CE부문, 을, 중심,
으로, 매출, 은, 다소,
증가하다 + <과거형>, 만,
부품사업, 을, 중심, 으로, 영
업이익, 이, 감소하다 + <과거
형>
삼성전자, 2015년, 4분기, 실
적발표
4분기, 는, CE부문, 을, 중심,
으로, 매출, 은, 다소,
증가하다 + <과거형>, 만,
부품사업, 을, 중심, 으로,
영업이익, 이, 감소하다 + <과
거형>
※ 이 데이터를 사용
Word2Vec 활용
• 활용한 기술
• 단어의 의미를 벡터로 변환: Word2Vec
• 벡터의 클러스터링: K-means 알고리즘
• 사용한 Python 패키지
• 'gensim': 문서 내의 시맨틱을 추출하기 위한 다양한 기능을 제공하는 Python 라이브러리
• 'sklearn': K-means 알고리즘을 사용하기 위한 패키지
• 'tkinter': Python GUI 지원 패키지
Word2Vec 활용과정
1. Buzzword의 등장 순서 원복
2. Word2Vec 모델 구축
3. 클러스터링 알고리즘 적용
4. UI 붙이기
결과 1. 관련어 검색
• 주어진 단어에 대한 관련단어 검색기능
• 여러 단어를 제공할 수록 사용자가 원하는
결과를 제공할 확률이 높아짐
• 단순히 같은 의미를 가지는 단어만 제공하는
것보다 반의어를 함께 제공할 때 성능이 더
좋음
결과 1. 관련어 검색 - 단어 필터링
기존 상위
버즈워드
주제에 따른
필터링 목록 생성
필터링 이후의
버즈워드
시점 관련 단어집합 문서 특성상 고정적으로 들어가는 단어집합 일반적으로 들어가는 명사집합
결과 2. 단어 클러스터링
• 벡터화된 단어를 클러스터링
• 클러스터링 알고리즘에 따라 결과가
달라짐
• 많은 단어들을 소수의 클러스터화를
통해 개별 의미가 아닌 Context를 찾
아낼 수 있음
: 즉, 사용자의 이해에 도움
결과 2. 단어 클러스터링 - 버즈워드 클러스터링
12/14 13:00 전체시장 버즈워드 TOP 50
너무 많은 단어들이 등장하기 때문에,
단어집합이 뜻하는 의미를 사용자가 직관적으로 이해하기 쉽지 않음
결과 2. 단어 클러스터링 - 버즈워드 클러스터링
많은 단어를 의미별로 묶어 소수의 클러스터로 보여줌으로써,
사용자의 이해에 보다 도움을 줄 수 있음
Word2Vec 개요 및 활용

More Related Content

PPTX
Elsevier: Empowering Knowledge Discovery in Research with Graphs
PPTX
SVM & KNN Presentation.pptx
PPTX
PPTX
Sentiment analysis
PPTX
مقاييس النزعة المركزية
PDF
LSTM Based Sentiment Analysis
PPTX
anaphora resolution.pptx
PPTX
Sentiment Analysis in Twitter
Elsevier: Empowering Knowledge Discovery in Research with Graphs
SVM & KNN Presentation.pptx
Sentiment analysis
مقاييس النزعة المركزية
LSTM Based Sentiment Analysis
anaphora resolution.pptx
Sentiment Analysis in Twitter

What's hot (20)

PDF
Practical sentiment analysis
PDF
Introduction To Predictive Modelling
PPT
Multivariate Linear Regression.ppt
PPTX
Twitter sentiment analysis
PDF
Data Science Training | Data Science Tutorial for Beginners | Data Science wi...
PDF
Using an employee knowledge graph for employee engagement and career mobility
PPTX
Word embeddings
PDF
SERVIER Pegasus - Graphe de connaissances pour les phases primaires de recher...
PDF
Ontology Engineering: Introduction
PDF
Enterprise guide to building a Data Mesh
PDF
Big data and analytics
PDF
Introduction to Natural Language Processing (NLP)
PDF
Low Resource Adaptation of Neural NLP Models
PPT
Introduction To Predictive Analytics Part I
PPTX
Advance Data Visualization and Storytelling Virtual Workshop
 
PDF
Natural Language Processing
PDF
Choosing Between Microsoft Fabric, Azure Synapse Analytics and Azure Data Fac...
PPTX
Business Intelligence Presentation
PDF
Data Science Training | Data Science Tutorial | Data Science Certification | ...
Practical sentiment analysis
Introduction To Predictive Modelling
Multivariate Linear Regression.ppt
Twitter sentiment analysis
Data Science Training | Data Science Tutorial for Beginners | Data Science wi...
Using an employee knowledge graph for employee engagement and career mobility
Word embeddings
SERVIER Pegasus - Graphe de connaissances pour les phases primaires de recher...
Ontology Engineering: Introduction
Enterprise guide to building a Data Mesh
Big data and analytics
Introduction to Natural Language Processing (NLP)
Low Resource Adaptation of Neural NLP Models
Introduction To Predictive Analytics Part I
Advance Data Visualization and Storytelling Virtual Workshop
 
Natural Language Processing
Choosing Between Microsoft Fabric, Azure Synapse Analytics and Azure Data Fac...
Business Intelligence Presentation
Data Science Training | Data Science Tutorial | Data Science Certification | ...
Ad

Similar to Word2Vec 개요 및 활용 (20)

PDF
Context2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation
PPTX
Word 2 Vec Algorithm
PPTX
Brief hystory of NLP and Word2Vec
PDF
[싸이그램즈 2018] 텍스트 데이터 전처리로 시작하는 NLP
PPTX
(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)
PDF
파이썬을 활용한 자연어 분석
PPTX
Nlp word2vec
PDF
230112_word2vec1_논문리뷰.pdf
PDF
GloVe:Global vectors for word representation
PDF
딥러닝 기반 자연어 언어모델 BERT
PDF
파이썬과 자연어 4 | word/doc2vec
PDF
자연어4 | 1차강의
PDF
Natural Language Processing(NLP) - Basic
PDF
서울 R&D 캠퍼스 자연어 수업자료
PDF
Natural language processing of news
PPTX
머신러닝의 자연어 처리기술(I)
PDF
CoreDot TechSeminar 2018 - Session3 Doh Seungheon
PPTX
From A Neural Probalistic Language Model to Word2vec
PDF
메이크챗봇 자연어기초
PPTX
Convolutional neural networks for sentence classification
Context2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation
Word 2 Vec Algorithm
Brief hystory of NLP and Word2Vec
[싸이그램즈 2018] 텍스트 데이터 전처리로 시작하는 NLP
(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)
파이썬을 활용한 자연어 분석
Nlp word2vec
230112_word2vec1_논문리뷰.pdf
GloVe:Global vectors for word representation
딥러닝 기반 자연어 언어모델 BERT
파이썬과 자연어 4 | word/doc2vec
자연어4 | 1차강의
Natural Language Processing(NLP) - Basic
서울 R&D 캠퍼스 자연어 수업자료
Natural language processing of news
머신러닝의 자연어 처리기술(I)
CoreDot TechSeminar 2018 - Session3 Doh Seungheon
From A Neural Probalistic Language Model to Word2vec
메이크챗봇 자연어기초
Convolutional neural networks for sentence classification
Ad

More from 찬희 이 (10)

PPTX
의존 구조 분석기, Dependency parser
PPTX
mecab-ko-dic 사용자 사전
PDF
PySpark 배우기 Ch 06. ML 패키지 소개하기
PPTX
파이썬을 활용한 금융 분석 Ch 14. The FXCM Trading Platform
PDF
파이썬을 활용한 금융 분석 Ch 9. Input Output Operation
PPTX
은닉 마르코프 모델, Hidden Markov Model(HMM)
PPTX
단어 의미 중의성 해소, Word Sense Disambiguation(WSD)
PDF
Dependency Parser, 의존 구조 분석기
PDF
Phrase Tagger, 구문 태거
PPTX
프로젝트용 PC 환경구성 이찬희
의존 구조 분석기, Dependency parser
mecab-ko-dic 사용자 사전
PySpark 배우기 Ch 06. ML 패키지 소개하기
파이썬을 활용한 금융 분석 Ch 14. The FXCM Trading Platform
파이썬을 활용한 금융 분석 Ch 9. Input Output Operation
은닉 마르코프 모델, Hidden Markov Model(HMM)
단어 의미 중의성 해소, Word Sense Disambiguation(WSD)
Dependency Parser, 의존 구조 분석기
Phrase Tagger, 구문 태거
프로젝트용 PC 환경구성 이찬희

Word2Vec 개요 및 활용

  • 1. Word2Vec - SMD 분석서비스에 기반하여 이찬희 2016. 12. 16
  • 2. 1위: 엄마. 아빠 2위: 국가지도자. 전략가 3위: 기업 CEO 4위: 교사 5위: 상담원 ☞ 사람 고유의 표현수단이 중요하게 사용되는 직업
  • 4. 사람의 표현수단을 데이터화 시키려는 노력에는 어떤 것이 있을까?
  • 5. 컴퓨터가 어떻게 언어를 인식할 수 있을까? 표정, 음성 -> 감정이 담긴 표정들과 비교 동작 -> 하드웨어의 인식 언어 -> *벡터공간과 개별 벡터*
  • 6. *Word Embedding* 단어를 표현하는데 드는 벡터공간보다 보다 저차원의 벡터공간으로 표현하는 방법을 총칭
  • 7. Word Embedding의 구현방법 Co-occurrence matrix Probabilistic model Neural networks Word Embedding의 구현방법 Co-occurrence matrix Probabilistic model Neural networks ☞ Word2Vec
  • 8. Word Embedding 구현 알고리즘에 사용되는 기본 가정 Distributional Hypothesis 유사한 분포를 가지는 단어는 유사한 의미를 가진다
  • 9. Word2Vec • Google의 Tomas Mikolov가 이끄는 연구팀이 개발 • Neural Network 기반 Machine Learning 분석모델 • 단어의 등장 분포를 통해 단어의 의미를 벡터로 변환 • 모델을 생성하는 두 가지 알고리즘을 사용할 수 있음 • CBOW, Skip-gram
  • 10. Word2Vec이 제시한 두 가지 알고리즘 : CBOW(Continuous Bag-of-Words) vs. Skip-gram < Skip-gram >< CBOW > 多 1 1 多
  • 11. Word2Vec이 제시한 두 가지 알고리즘 - 예제 : CBOW(Continuous Bag-of-Words) vs. Skip-gram < CBOW > • 주변 단어를 통해 중간에 어떤 단어가 나올지 확 률적 유추를 하는 알고리즘 < Skip-gram > • 한 단어의 주변에 어떤 단어들이 나올지 확률적 유추를 하는 알고리즘
  • 12. Word2Vec이 제시한 두 가지 알고리즘 - 성능평가 : CBOW(Continuous Bag-of-Words) vs. Skip-gram 다른 Neural Network 기반 Word Embedding 알고리즘 다른 알고리즘에 비해 Word2Vec 알고리즘들의 성능이 좋았고 Word2Vec의 두 알고리즘 내에서 는 Skip-gram 알고리즘이 문법적, 의미적 면에서 성능이 더 좋았음
  • 13. Source Data : Buzzword Data in SMD(Social Media Data) Analysis Service 수집기 형태소분석 감성분석 Buzzword Sentimental Score Buzzword Summary Sentimental Summary 언론사 SNS 뉴스 증권 커뮤니티
  • 15. Source Data : Buzzword in SMD(Social Media Data) Analysis Service 수집기 형태소분석 감성분석 Buzzword Sentimental Score Buzzword Summary Sentimental Summary 언론사 SNS 뉴스 증권 커뮤니티 삼성전자, 2015년 4분기 실적발표 … 4분기는 CE부문을 중심으 로 매출은 다소 증가했지만, …, 부품사업을 중심으로 영업 이익이 감소했다. 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영업이익, 이, 감소하다 + <과 거형> 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영 업이익, 이, 감소하다 + <과거 형> 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영업이익, 이, 감소하다 + <과 거형> 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영업이익, 이, 감소하다 + <과 거형> Buzzword WordCount 2015년 1 4분기 2 실적발표 1 … 매출 부품사업 1 영업이익 1 Pattern Sent Score CE부문 + 매출 + 증가하다 +1 부품사업 + 영업이익 + 감소하다 -1 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영 업이익, 이, 감소하다 + <과거 형> 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영업이익, 이, 감소하다 + <과 거형> ※ 이 데이터를 사용
  • 16. Word2Vec 활용 • 활용한 기술 • 단어의 의미를 벡터로 변환: Word2Vec • 벡터의 클러스터링: K-means 알고리즘 • 사용한 Python 패키지 • 'gensim': 문서 내의 시맨틱을 추출하기 위한 다양한 기능을 제공하는 Python 라이브러리 • 'sklearn': K-means 알고리즘을 사용하기 위한 패키지 • 'tkinter': Python GUI 지원 패키지
  • 17. Word2Vec 활용과정 1. Buzzword의 등장 순서 원복 2. Word2Vec 모델 구축 3. 클러스터링 알고리즘 적용 4. UI 붙이기
  • 18. 결과 1. 관련어 검색 • 주어진 단어에 대한 관련단어 검색기능 • 여러 단어를 제공할 수록 사용자가 원하는 결과를 제공할 확률이 높아짐 • 단순히 같은 의미를 가지는 단어만 제공하는 것보다 반의어를 함께 제공할 때 성능이 더 좋음
  • 19. 결과 1. 관련어 검색 - 단어 필터링 기존 상위 버즈워드 주제에 따른 필터링 목록 생성 필터링 이후의 버즈워드 시점 관련 단어집합 문서 특성상 고정적으로 들어가는 단어집합 일반적으로 들어가는 명사집합
  • 20. 결과 2. 단어 클러스터링 • 벡터화된 단어를 클러스터링 • 클러스터링 알고리즘에 따라 결과가 달라짐 • 많은 단어들을 소수의 클러스터화를 통해 개별 의미가 아닌 Context를 찾 아낼 수 있음 : 즉, 사용자의 이해에 도움
  • 21. 결과 2. 단어 클러스터링 - 버즈워드 클러스터링 12/14 13:00 전체시장 버즈워드 TOP 50 너무 많은 단어들이 등장하기 때문에, 단어집합이 뜻하는 의미를 사용자가 직관적으로 이해하기 쉽지 않음
  • 22. 결과 2. 단어 클러스터링 - 버즈워드 클러스터링 많은 단어를 의미별로 묶어 소수의 클러스터로 보여줌으로써, 사용자의 이해에 보다 도움을 줄 수 있음

Editor's Notes

  • #3: http://blog.naver.com/wnchany/220672207131
  • #5: 사실 사람을 비롯한 살아있는 것들이 할 수 있는 것들을 데이터, 컴퓨터가 인식할 수 있게 바꾸는 노력들이 활발히 이루어지고 있다 각 섹션에 기술의 이름을 적을 것