빅데이터 기술을 활용한
뉴스 큐레이션 서비스
군산대 통계컴퓨터과학과
온 병 원
2014년 11월 7일
발표자 소개
• 연구 분야
• 데이터 마이닝, 정보검색, 데이터베이스, 빅데이터
• 연구 경력
• 군산대 통계컴퓨터과학과 조교수 (2014 – 현재)
• 서울대 차세대융합기술연구원 연구교수 (2011 – 2014)
• 일리노이대 차세대디지털과학센터 선임연구원 (2010)
• 브리티시컬럼비아대 박사후연구원 (2008 – 2009)
• 펜실베이니아주립대 컴퓨터공학 박사 (2007)
• 연구 업적
• CACM, KAIS 등 SCI 11편
• ICDM, ICDE, SDM 등 주요 데이터 마이닝 학회 논문 발표
• 폴리티즈, 뉴스소스, 사회문제 키워드 추출 시스템 등 시스템 개발 및 시
연
• 연구재단, 정보화진흥원, 에너지기술평가원, 닐슨 등 빅데이터 연구 과
제 수행
• Data Science Lab : datalab@kunsan.ac.kr
2
News On New Media
Aggregation & Curation, Customization, Visualization
3
새로운 방식의 뉴스 전달
낚시, 선정, 광고, 아마추어, 편향성, 쓸모 없음, 떨어지는 가독성…
4
Journalism적인 가치
• 사실성, 다양성, 심층성
• 사실성을 드러내는 관례
• 인용, 수치, 사례 등 [van Dijk 1988]
• 정보원 (News Source)
• 인용대상
• 기사 내용의 핵심 제공자
• 저널리즘 연구의 주요 주제
• [Sigal 1973], [Schudson 1978], & [Gans 1979]
5
New Source Network Analysis (뉴스 정보원 연결망 분석)
• 목표: 뉴스를 정보원 간의 관계를 통해 분류, 정리
• 뉴스 정보원 연결망
• 같은 기사에 두 정보원이 직접 인용문으로 함께 인용되면 이 정
보원들 간에 서로 의미론적 관계가 있다.
• 연결망(Network)을 분석하여 인물의 중요도를 계산
• 언론에서 중시되는 인물의 중요도를 소셜그래프의 중요도 척도
로 추정
• 같은 정보원이 있는 뉴스를 클러스터링  중복기사를 사건별로
정리
6
뉴스정보원연결망 – 소셜 그래프 분석 (예시)
서울시 뉴타운
7
Journalism가치에 기초한 기사 제공
• 뉴스 소스 (News Source) – 새로운 뉴스제공 웹어플리케이션
• 뉴스 기사를 쟁점 중심, 사실 중심으로 제시
• 관련된 기사, 정보원, 사실을 클러스터링
• 중복 기사와 문장을 축약해 대표 기사와 문장을 제공
• 기사, 정보원, 사실을 가중치에 따라 배치
• 인물 중심 시각화(visualization) 통한 뉴스의 새로운 측면 확인
• 한 기사에 대한 분야별 시각을 쉽게 확인할 수 있다
• 이용 대상 - 언론계, 전문가, 일반인
• 1차 타겟: 언론학자, 기자
• 2차 타겟: 법률가, 컨설턴트, 시장조사, 정치인, 대학생 등 뉴스 중
이용자(heavy user)
• 3차 타겟: 정치, 경제, 사회 등 사회 쟁점에 관심 많은 일반 독자
8
News Source
9
News Source – 2013년 9월 10일 주요 뉴스
10
News Source – 기사와 정보원
11
News Source – 동일 사안에 대한 다양한 인용
12
News Source – 동일 사안에 대한 다양한 시각
13
뉴스정보원연결망 – 소셜 그래프 구현
전문가용 UI : 정보원연결망 출력 및 파일 다운로드
사회연결망 기본정보 사회연결망 구현
• 결점(node)
• 파당(clique)
• 구성집단(component)
• 주요구성집단(main component) node
• main component clique
• degree centrality
군집계수(clustering coefficient)
• 랜덤 네트워크의 군집계수
• 최단경로길이(average path length)
랜덤 네트워크의 평균경로길이
연결 정도 집중도(standardized degree centralization)
closeness centrality
• center
• diameter
• betweenness centrality
• density
뉴타운
검색어: 뉴타운
14
뉴스정보원연결망 – 시연
15
기술적 접근
• 자연어 처리 (Natural Language Processing)
• 정보원의 자동 추출
• 이름, 조직, 직함
• 박근혜 대통령, 박 대통령, 박 전대표
• 통일부 김형석 대변인, 김형석 대변인, 김 대변인
• 익명이 많다 (김모씨, 이모씨, 청와대 모 관계자, 청와
대 핵심 관계자)
• 인용문의 추출
• Fact들도 추출 (숫자)
• 대용량 데이터
• 한국언론진흥재단 KINDS
• 28,507,321건의 기사
• 1990년 이후 66개 매체 기사
• 정보 시각화
자연어 처리
대용량 데이
터
정보 시각화
16
자연어 처리
정보원 추출 및 매칭
• Web Resource & 수작업
검증을 통한 사전의 구성
• 저널리즘 영역 지식 활용한
정보원 추출 룰 작성
• SVM을 활용한 정보원
매칭
최소한의 수작업이 요구되는 정확한 자연어
처리
다매체 기사의 종합 및
문장의 중요도 결정 카테고리 분류
• 정보원의 소속 분류
• Bayesian classifier 를
활용하여 미 분류 기사의
지면 분류
• 문장 및 기사 클러스터링을
통해 유사 문장의 추출
• Inverted index Join
algorithm을 활용한 All-pair
similarity 의 빠른 계산
• TF-IDF 및 정보원의 중요도에
따른 대표 문장의 추출
오픈 소스를 활용한
범용성 확보
• JAVA 기반
• Lucene 검색엔진
• 서울대 꼬꼬마 형태소
분석기
• Weka의 기계학습
라이브러리
• Hadoop framework
17
자연어처리 – 정보원 추출 및 매칭
- 뉴스의 인용문으로 부터 인명/직함/소속을 추출하고 동일 개체를 판단하여 하나의 개체로 매칭
18
자연어처리 – 정보원 추출 및 매칭
19
자연어처리 – 다매체 기사의 요약 및 문장의 중요도 결정
- 다매체의 기사들을 대표 문장만으로 표현함으로써 중복된 기사 제거
- 대표 문장의 중요도 결정
20
대용량 데이터
한국언론진흥재단 카인즈 데이터
☞ 1990년~2013년 9월 30일 까지 총 66개, 현60개 매체 28,507,321건 신문 기사
매체 유형 매체명 기사건수
전국종합일간신문
(10개)
경향신문, 국민일보, 내일신문, 동아일보, 문화일보, 서울신문, 세계일보, 한겨레, 한국일보, 아시아투데
이
7,408,042
영자신문
( 1개)
Korea Herald 357,355
지역종합일간신문
(25개)
강원도민일보, 강원일보, 경기일보, 경남도민일보, 경남신문, 경상일보, 경인일보, 광주일보, 국제신문,
대전일보, 매일신문, 무등일보, 부산일보, 새전북신문,
영남일보, 인천일보, 전남일보, 전북도민일보, 전북일보, 제민일보, 중도일보,
중부매일, 충북일보, 충청투데이, 한라일보
6,493,604
인터넷전문신문
(8개)
대덕넷, 오마이뉴스, 이데일리, 조세일보, 투데이코리아, 한국재경신문,
아이콘TV., 국방일보
2,002,632
지역주간신문
(4개)
김포뉴스, 옥천신문, 주간당진시대, 홍성신문 95,701
경제일간신문
(7개)
매일경제, 머니투데이, 이투데이, 한국경제, 서울경제, 파이낸셜뉴스, 프라임경제 9,237,812
시사잡지
(1개)
시사인 9,711
TV뉴스
(4개)
KBS, MBC, SBS, KNN 2,194,543
21
빅데이터 처리속도
68
90
63
1048
처리 시간(초)
기사와 무관한 텍스트 제거
정보원 추출 및 매칭
Lucene indexing
다매체 기사 요약 및 중요 문장 추출
- 1일치 평균 뉴스 기사 수 3,300개 기준일 때 21분 소요
- 실행 환경 CPU: Intel i3-2100 CPU @ 3.10GHz, RAM: 4GB, OS : Ubuntu 12.04
- 서비스 시작 후 1일 치 씩 처리시는 문제 없음
- Single machine에서 모든 데이터(365(일) * 23(년))를 처리 하기 위해서는 49일 소요 예상됨
22
빅데이터 기술을 이용한 자연어 처리
- 분산처리를 통한 속도 개선 : Map-reduce 모델에서 Mapper 만 활용하여 Hadoop 분산
Framework를 통해 분산 처리
… Map
Map
Map
MySQL DB
…
1990/01/01
1990/01/02
1990/01/03
2013/12/05
1개의 Mapper의 task 끝날 때마다
다음 날짜를 처리
정보원
추출 모듈
HDFSSequential file
Lucene
index file
다매체 요약
모듈
HDFSLocal file sys.
자연어 처리결과
23
성능 측정 결과
실험 환경
- Cluster 환경 : 1개의 Name Node, 8개 Data node ,
- Node spec. : CPU- Intel i3-2100 CPU @ 3.10GHz, RAM- 4GB, OS - Ubuntu 12.04
(Single machine 환경과 동일)
49일  6일 1시간 20 분
Name Node
(DFS Master)
Job Tracker
2nd Name Node
HBase
Task
Tracker
HDFS
Linux
HBase
Task
Tracker
HDFS
Linux
HBase
Task
Tracker
HDFS
Linux
24
빅데이터 서비스
검색
조인
테이블
5년 치 뉴스기사
- 쿼리 응답시간 최소화
- 조인 연산의 병렬 처리
Hive
- 실시간 데이터 서비스
- 부하 분산
- Failover
HBase
Name Node
(DFS Master)
Job Tracker
2nd Name Node
Client API
HBase
Task
Tracker
HDFS
Linux
HBase
Task
Tracker
HDFS
Linux
HBase
Task
Tracker
HDFS
Linux
HBase
Task
Tracker
HDFS
Linux
25
26
26
☞ 66매체, 29백만 뉴스기사
(1990 – 현재)
☞ 매일 7000 뉴스기사 생성
크롤링
서버
크롤링
클라이언트
Hbase
데이터베
이스
자연어
처리
JSP
아파치 톰캣 서버
Lucene 검색
엔진
PHP
Ajax
한국언론진흥재단
하둡 분산 파일 시스템
리눅스 운영체제
DB 최적화
Hive
뉴스 큐레이션 시스템
RDBMS
동아
일보
중앙
일보
. . .
-인명사전 구축
-인명/소속/직함 식별
-인명 매칭 (김웅남 vs 김웅남)
-중복 뉴스기사 클러스터링
-지면 자동 분류
-소셜 그래프 생성
-인물 중요도 측정
☞단일 컴퓨터: 7000*23*70분 = 49일
☞분산병렬처리: 6일 1시간 20분
7배 성능 향상
클러스터 시스템
☞ 1 Name Node & 8 Data Nodes
빅데이터 시스템 구성
MapReduce
News Source: Journalism 가치에 기반한 뉴스 제공
• Journalism적인 가치: 사실성, 다양성, 심층성
• 목표: 뉴스를 정보원 간의 관계를 통해 분류, 정리
• 정보원 (News Source)
• 인용대상
• 기사 내용의 핵심 제공자 & 저널리즘 연구의 주요 주제
• 뉴스 정보원 연결망
• 언론에서 중시되는 인물의 중요도를 소셜그래프의 중요도 척도로 추정
• 같은 정보원이 있는 뉴스를 클러스터링  중복기사를 사건별로 정리
• 뉴스 소스 (News Source) – 새로운 뉴스제공 웹 어플리케이션
• 뉴스 기사들을 뉴스기사 내의 사실을 중심으로 요약해서 제공 함
• 중요한 순서대로 기사를 배열
• 의미 관계를 파악하게 도와주는 스마트 뉴스 서비스
• 인물 중심의 시각화(visualization)을 통한 사건의 새로운 측면 확인
• 한 기사에 대한 분야별 시각을 쉽게 확인할 수 있다
• 타겟 유저: 뉴스 중 이용자(heavy user)
• 기자, 언론학자, 정치인, 법률가, 컨설턴트, 대학생 등을 위한 서비스
• 뉴스를 쟁점 중심으로 심층적으로 분석하기 위한 사람을 위한 서비스
자연어 처리
대용량 데이
터
정보 시각화
27

More Related Content

PPTX
농업 빅데이터를 활용한 병해충 발생 예측 모형
PPTX
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
PPTX
텍스톰을 이용한 SNA 분석 -전채남
PPTX
데이터시장의 트렌드와 예측 - 이영환
PPTX
News Big Data Analytics 101
PDF
빅데이터 솔루션 소개서(2013년 05월)
PPTX
빅데이터의 이해
PDF
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
농업 빅데이터를 활용한 병해충 발생 예측 모형
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
텍스톰을 이용한 SNA 분석 -전채남
데이터시장의 트렌드와 예측 - 이영환
News Big Data Analytics 101
빅데이터 솔루션 소개서(2013년 05월)
빅데이터의 이해
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410

What's hot (20)

PDF
Newspapers 26 years: the history of newspapers by visualizing 3.1 million new...
PDF
뉴스의 미래, 뉴스 빅데이터의 혁신
PDF
뉴스젤리 - 데이터저널리즘 이해하기 1
PDF
How to do things with 'BigKinds'
PDF
News Big Data Analytics with 'Big Kinds'
PDF
오픈 데이터와 인공지능
PPTX
빅데이터 시대 새로운 신기술과 활용방향
PDF
News Big Data Analytics
PPTX
빅데이터 이용 사례 분석
PDF
디지털 및 모바일 혁신을 위한 제안
PDF
digital archiving
PPTX
빅데이터 이용 사례 분석 2
PPTX
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
PDF
뉴스젤리 - 데이터 저널리즘 비즈니스 모델
PDF
UNUS BEANs 소개서 20141015
PDF
News Media Network Analysis: Comparing Media Systems Mathematically
PPTX
빅 데이터 개요 및 활용
PDF
Natural language processing of News (intermediate): rule based model
PDF
LOD를 말하다: Europeana, BBC, LinkedUp
PDF
집단지성 프로그래밍 01-데이터마이닝 개요
Newspapers 26 years: the history of newspapers by visualizing 3.1 million new...
뉴스의 미래, 뉴스 빅데이터의 혁신
뉴스젤리 - 데이터저널리즘 이해하기 1
How to do things with 'BigKinds'
News Big Data Analytics with 'Big Kinds'
오픈 데이터와 인공지능
빅데이터 시대 새로운 신기술과 활용방향
News Big Data Analytics
빅데이터 이용 사례 분석
디지털 및 모바일 혁신을 위한 제안
digital archiving
빅데이터 이용 사례 분석 2
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
뉴스젤리 - 데이터 저널리즘 비즈니스 모델
UNUS BEANs 소개서 20141015
News Media Network Analysis: Comparing Media Systems Mathematically
빅 데이터 개요 및 활용
Natural language processing of News (intermediate): rule based model
LOD를 말하다: Europeana, BBC, LinkedUp
집단지성 프로그래밍 01-데이터마이닝 개요
Ad

Viewers also liked (20)

PDF
국가의 신성장 동력으로서 공간정보의 가치와 활용 2016-0603
PPTX
온라인 데이터 분석을 통한 선거예측- 김찬우, 조인호
PPTX
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
PPTX
스마트 시티의 빅데이터 분석론 - 최준영
PDF
Data-driven biomedical science: implications for human disease and public health
PDF
소셜 텍스트 빅 테이터를 통해 분석한 화장품 유통구조 시사점
PDF
Analyzing Big Data to Discover Honest Signals of Innovation
PDF
Deep Learning - 인공지능 기계학습의 새로운 트랜드 :김인중
PDF
DATA CENTRIC EDUCATION & LEARNING
PDF
데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석
PDF
Structures of Twitter Crowds and Conversations Six distinct types of crowds t...
PDF
R의 이해와 활용_데이터사이언스학회
PDF
도시의 마음, 그 발현 - Emergent Mind of City
PDF
Data Centric Art, Science, and Humanities
PDF
A Unified Music Recommender System Using Listening Habits and Semantics of Tags
PDF
Studying Social Selection vs Social Influence in Virtual Financial Communities
PDF
International Collaboration Networks in the Emerging (Big) Data Science
PDF
소셜미디어 분석방법론과 사례
PDF
데이터 시각화의 글로벌 동향 20140819 - 고영혁
PDF
Bayesian Network 을 활용한 예측 분석
국가의 신성장 동력으로서 공간정보의 가치와 활용 2016-0603
온라인 데이터 분석을 통한 선거예측- 김찬우, 조인호
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
스마트 시티의 빅데이터 분석론 - 최준영
Data-driven biomedical science: implications for human disease and public health
소셜 텍스트 빅 테이터를 통해 분석한 화장품 유통구조 시사점
Analyzing Big Data to Discover Honest Signals of Innovation
Deep Learning - 인공지능 기계학습의 새로운 트랜드 :김인중
DATA CENTRIC EDUCATION & LEARNING
데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석
Structures of Twitter Crowds and Conversations Six distinct types of crowds t...
R의 이해와 활용_데이터사이언스학회
도시의 마음, 그 발현 - Emergent Mind of City
Data Centric Art, Science, and Humanities
A Unified Music Recommender System Using Listening Habits and Semantics of Tags
Studying Social Selection vs Social Influence in Virtual Financial Communities
International Collaboration Networks in the Emerging (Big) Data Science
소셜미디어 분석방법론과 사례
데이터 시각화의 글로벌 동향 20140819 - 고영혁
Bayesian Network 을 활용한 예측 분석
Ad

Similar to 빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원 (20)

PDF
Automated discourse analysis with BigKinds and Semantic Network Analyzer
PDF
6주차 의미 연결망 분석 이론
PDF
13주차 뉴스 빅데이터 기반 저널리즘 연구
PDF
Final project finalpdf
PDF
언론사에서 개발자는 무슨 일을 하나요?
PPTX
데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)
PDF
빅데이터와 저널리즘
PPTX
고려대 교육정보서비스 시스템 4-5주
PDF
디지털시대 뉴미디어 이야기
PDF
데이터저널리즘 국내 Newsjelly
PDF
빅 데이터, 새로운 통찰력
PDF
저널리즘과 생존, 공존의 해법
PDF
[뉴스젤리] 무엇이 뉴스인가
PDF
7주차 뉴스 정보원 연결망 분석
PDF
[UDIS_6_2nd] Data Journalism_20140712
PDF
10주차 뉴스 정보원-주제 연결망 분석
PDF
뉴스알고리즘, 저널리즘, 민주주의
PDF
크리티커스 미디어오늘 컨퍼런스 슬라이드
PDF
융합연구포럼 2015.02 big data - engineering & convergence.
PDF
2주차: 뉴스 빅데이터 분석을 위한 자연어처리 이론
Automated discourse analysis with BigKinds and Semantic Network Analyzer
6주차 의미 연결망 분석 이론
13주차 뉴스 빅데이터 기반 저널리즘 연구
Final project finalpdf
언론사에서 개발자는 무슨 일을 하나요?
데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)
빅데이터와 저널리즘
고려대 교육정보서비스 시스템 4-5주
디지털시대 뉴미디어 이야기
데이터저널리즘 국내 Newsjelly
빅 데이터, 새로운 통찰력
저널리즘과 생존, 공존의 해법
[뉴스젤리] 무엇이 뉴스인가
7주차 뉴스 정보원 연결망 분석
[UDIS_6_2nd] Data Journalism_20140712
10주차 뉴스 정보원-주제 연결망 분석
뉴스알고리즘, 저널리즘, 민주주의
크리티커스 미디어오늘 컨퍼런스 슬라이드
융합연구포럼 2015.02 big data - engineering & convergence.
2주차: 뉴스 빅데이터 분석을 위한 자연어처리 이론

빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원

  • 1. 빅데이터 기술을 활용한 뉴스 큐레이션 서비스 군산대 통계컴퓨터과학과 온 병 원 2014년 11월 7일
  • 2. 발표자 소개 • 연구 분야 • 데이터 마이닝, 정보검색, 데이터베이스, 빅데이터 • 연구 경력 • 군산대 통계컴퓨터과학과 조교수 (2014 – 현재) • 서울대 차세대융합기술연구원 연구교수 (2011 – 2014) • 일리노이대 차세대디지털과학센터 선임연구원 (2010) • 브리티시컬럼비아대 박사후연구원 (2008 – 2009) • 펜실베이니아주립대 컴퓨터공학 박사 (2007) • 연구 업적 • CACM, KAIS 등 SCI 11편 • ICDM, ICDE, SDM 등 주요 데이터 마이닝 학회 논문 발표 • 폴리티즈, 뉴스소스, 사회문제 키워드 추출 시스템 등 시스템 개발 및 시 연 • 연구재단, 정보화진흥원, 에너지기술평가원, 닐슨 등 빅데이터 연구 과 제 수행 • Data Science Lab : [email protected] 2
  • 3. News On New Media Aggregation & Curation, Customization, Visualization 3
  • 4. 새로운 방식의 뉴스 전달 낚시, 선정, 광고, 아마추어, 편향성, 쓸모 없음, 떨어지는 가독성… 4
  • 5. Journalism적인 가치 • 사실성, 다양성, 심층성 • 사실성을 드러내는 관례 • 인용, 수치, 사례 등 [van Dijk 1988] • 정보원 (News Source) • 인용대상 • 기사 내용의 핵심 제공자 • 저널리즘 연구의 주요 주제 • [Sigal 1973], [Schudson 1978], & [Gans 1979] 5
  • 6. New Source Network Analysis (뉴스 정보원 연결망 분석) • 목표: 뉴스를 정보원 간의 관계를 통해 분류, 정리 • 뉴스 정보원 연결망 • 같은 기사에 두 정보원이 직접 인용문으로 함께 인용되면 이 정 보원들 간에 서로 의미론적 관계가 있다. • 연결망(Network)을 분석하여 인물의 중요도를 계산 • 언론에서 중시되는 인물의 중요도를 소셜그래프의 중요도 척도 로 추정 • 같은 정보원이 있는 뉴스를 클러스터링  중복기사를 사건별로 정리 6
  • 7. 뉴스정보원연결망 – 소셜 그래프 분석 (예시) 서울시 뉴타운 7
  • 8. Journalism가치에 기초한 기사 제공 • 뉴스 소스 (News Source) – 새로운 뉴스제공 웹어플리케이션 • 뉴스 기사를 쟁점 중심, 사실 중심으로 제시 • 관련된 기사, 정보원, 사실을 클러스터링 • 중복 기사와 문장을 축약해 대표 기사와 문장을 제공 • 기사, 정보원, 사실을 가중치에 따라 배치 • 인물 중심 시각화(visualization) 통한 뉴스의 새로운 측면 확인 • 한 기사에 대한 분야별 시각을 쉽게 확인할 수 있다 • 이용 대상 - 언론계, 전문가, 일반인 • 1차 타겟: 언론학자, 기자 • 2차 타겟: 법률가, 컨설턴트, 시장조사, 정치인, 대학생 등 뉴스 중 이용자(heavy user) • 3차 타겟: 정치, 경제, 사회 등 사회 쟁점에 관심 많은 일반 독자 8
  • 10. News Source – 2013년 9월 10일 주요 뉴스 10
  • 11. News Source – 기사와 정보원 11
  • 12. News Source – 동일 사안에 대한 다양한 인용 12
  • 13. News Source – 동일 사안에 대한 다양한 시각 13
  • 14. 뉴스정보원연결망 – 소셜 그래프 구현 전문가용 UI : 정보원연결망 출력 및 파일 다운로드 사회연결망 기본정보 사회연결망 구현 • 결점(node) • 파당(clique) • 구성집단(component) • 주요구성집단(main component) node • main component clique • degree centrality 군집계수(clustering coefficient) • 랜덤 네트워크의 군집계수 • 최단경로길이(average path length) 랜덤 네트워크의 평균경로길이 연결 정도 집중도(standardized degree centralization) closeness centrality • center • diameter • betweenness centrality • density 뉴타운 검색어: 뉴타운 14
  • 16. 기술적 접근 • 자연어 처리 (Natural Language Processing) • 정보원의 자동 추출 • 이름, 조직, 직함 • 박근혜 대통령, 박 대통령, 박 전대표 • 통일부 김형석 대변인, 김형석 대변인, 김 대변인 • 익명이 많다 (김모씨, 이모씨, 청와대 모 관계자, 청와 대 핵심 관계자) • 인용문의 추출 • Fact들도 추출 (숫자) • 대용량 데이터 • 한국언론진흥재단 KINDS • 28,507,321건의 기사 • 1990년 이후 66개 매체 기사 • 정보 시각화 자연어 처리 대용량 데이 터 정보 시각화 16
  • 17. 자연어 처리 정보원 추출 및 매칭 • Web Resource & 수작업 검증을 통한 사전의 구성 • 저널리즘 영역 지식 활용한 정보원 추출 룰 작성 • SVM을 활용한 정보원 매칭 최소한의 수작업이 요구되는 정확한 자연어 처리 다매체 기사의 종합 및 문장의 중요도 결정 카테고리 분류 • 정보원의 소속 분류 • Bayesian classifier 를 활용하여 미 분류 기사의 지면 분류 • 문장 및 기사 클러스터링을 통해 유사 문장의 추출 • Inverted index Join algorithm을 활용한 All-pair similarity 의 빠른 계산 • TF-IDF 및 정보원의 중요도에 따른 대표 문장의 추출 오픈 소스를 활용한 범용성 확보 • JAVA 기반 • Lucene 검색엔진 • 서울대 꼬꼬마 형태소 분석기 • Weka의 기계학습 라이브러리 • Hadoop framework 17
  • 18. 자연어처리 – 정보원 추출 및 매칭 - 뉴스의 인용문으로 부터 인명/직함/소속을 추출하고 동일 개체를 판단하여 하나의 개체로 매칭 18
  • 19. 자연어처리 – 정보원 추출 및 매칭 19
  • 20. 자연어처리 – 다매체 기사의 요약 및 문장의 중요도 결정 - 다매체의 기사들을 대표 문장만으로 표현함으로써 중복된 기사 제거 - 대표 문장의 중요도 결정 20
  • 21. 대용량 데이터 한국언론진흥재단 카인즈 데이터 ☞ 1990년~2013년 9월 30일 까지 총 66개, 현60개 매체 28,507,321건 신문 기사 매체 유형 매체명 기사건수 전국종합일간신문 (10개) 경향신문, 국민일보, 내일신문, 동아일보, 문화일보, 서울신문, 세계일보, 한겨레, 한국일보, 아시아투데 이 7,408,042 영자신문 ( 1개) Korea Herald 357,355 지역종합일간신문 (25개) 강원도민일보, 강원일보, 경기일보, 경남도민일보, 경남신문, 경상일보, 경인일보, 광주일보, 국제신문, 대전일보, 매일신문, 무등일보, 부산일보, 새전북신문, 영남일보, 인천일보, 전남일보, 전북도민일보, 전북일보, 제민일보, 중도일보, 중부매일, 충북일보, 충청투데이, 한라일보 6,493,604 인터넷전문신문 (8개) 대덕넷, 오마이뉴스, 이데일리, 조세일보, 투데이코리아, 한국재경신문, 아이콘TV., 국방일보 2,002,632 지역주간신문 (4개) 김포뉴스, 옥천신문, 주간당진시대, 홍성신문 95,701 경제일간신문 (7개) 매일경제, 머니투데이, 이투데이, 한국경제, 서울경제, 파이낸셜뉴스, 프라임경제 9,237,812 시사잡지 (1개) 시사인 9,711 TV뉴스 (4개) KBS, MBC, SBS, KNN 2,194,543 21
  • 22. 빅데이터 처리속도 68 90 63 1048 처리 시간(초) 기사와 무관한 텍스트 제거 정보원 추출 및 매칭 Lucene indexing 다매체 기사 요약 및 중요 문장 추출 - 1일치 평균 뉴스 기사 수 3,300개 기준일 때 21분 소요 - 실행 환경 CPU: Intel i3-2100 CPU @ 3.10GHz, RAM: 4GB, OS : Ubuntu 12.04 - 서비스 시작 후 1일 치 씩 처리시는 문제 없음 - Single machine에서 모든 데이터(365(일) * 23(년))를 처리 하기 위해서는 49일 소요 예상됨 22
  • 23. 빅데이터 기술을 이용한 자연어 처리 - 분산처리를 통한 속도 개선 : Map-reduce 모델에서 Mapper 만 활용하여 Hadoop 분산 Framework를 통해 분산 처리 … Map Map Map MySQL DB … 1990/01/01 1990/01/02 1990/01/03 2013/12/05 1개의 Mapper의 task 끝날 때마다 다음 날짜를 처리 정보원 추출 모듈 HDFSSequential file Lucene index file 다매체 요약 모듈 HDFSLocal file sys. 자연어 처리결과 23
  • 24. 성능 측정 결과 실험 환경 - Cluster 환경 : 1개의 Name Node, 8개 Data node , - Node spec. : CPU- Intel i3-2100 CPU @ 3.10GHz, RAM- 4GB, OS - Ubuntu 12.04 (Single machine 환경과 동일) 49일  6일 1시간 20 분 Name Node (DFS Master) Job Tracker 2nd Name Node HBase Task Tracker HDFS Linux HBase Task Tracker HDFS Linux HBase Task Tracker HDFS Linux 24
  • 25. 빅데이터 서비스 검색 조인 테이블 5년 치 뉴스기사 - 쿼리 응답시간 최소화 - 조인 연산의 병렬 처리 Hive - 실시간 데이터 서비스 - 부하 분산 - Failover HBase Name Node (DFS Master) Job Tracker 2nd Name Node Client API HBase Task Tracker HDFS Linux HBase Task Tracker HDFS Linux HBase Task Tracker HDFS Linux HBase Task Tracker HDFS Linux 25
  • 26. 26 26 ☞ 66매체, 29백만 뉴스기사 (1990 – 현재) ☞ 매일 7000 뉴스기사 생성 크롤링 서버 크롤링 클라이언트 Hbase 데이터베 이스 자연어 처리 JSP 아파치 톰캣 서버 Lucene 검색 엔진 PHP Ajax 한국언론진흥재단 하둡 분산 파일 시스템 리눅스 운영체제 DB 최적화 Hive 뉴스 큐레이션 시스템 RDBMS 동아 일보 중앙 일보 . . . -인명사전 구축 -인명/소속/직함 식별 -인명 매칭 (김웅남 vs 김웅남) -중복 뉴스기사 클러스터링 -지면 자동 분류 -소셜 그래프 생성 -인물 중요도 측정 ☞단일 컴퓨터: 7000*23*70분 = 49일 ☞분산병렬처리: 6일 1시간 20분 7배 성능 향상 클러스터 시스템 ☞ 1 Name Node & 8 Data Nodes 빅데이터 시스템 구성 MapReduce
  • 27. News Source: Journalism 가치에 기반한 뉴스 제공 • Journalism적인 가치: 사실성, 다양성, 심층성 • 목표: 뉴스를 정보원 간의 관계를 통해 분류, 정리 • 정보원 (News Source) • 인용대상 • 기사 내용의 핵심 제공자 & 저널리즘 연구의 주요 주제 • 뉴스 정보원 연결망 • 언론에서 중시되는 인물의 중요도를 소셜그래프의 중요도 척도로 추정 • 같은 정보원이 있는 뉴스를 클러스터링  중복기사를 사건별로 정리 • 뉴스 소스 (News Source) – 새로운 뉴스제공 웹 어플리케이션 • 뉴스 기사들을 뉴스기사 내의 사실을 중심으로 요약해서 제공 함 • 중요한 순서대로 기사를 배열 • 의미 관계를 파악하게 도와주는 스마트 뉴스 서비스 • 인물 중심의 시각화(visualization)을 통한 사건의 새로운 측면 확인 • 한 기사에 대한 분야별 시각을 쉽게 확인할 수 있다 • 타겟 유저: 뉴스 중 이용자(heavy user) • 기자, 언론학자, 정치인, 법률가, 컨설턴트, 대학생 등을 위한 서비스 • 뉴스를 쟁점 중심으로 심층적으로 분석하기 위한 사람을 위한 서비스 자연어 처리 대용량 데이 터 정보 시각화 27