SlideShare a Scribd company logo
‘Enkele voorbeelden’
Data Science, Big Data en de officiële
statistiek
Piet Daas, Edwin de Jonge, May Offermans, Martijn Tennekes
Alex Priem en Paul van den Hurk
Overzicht
2
• Het CBS
• Data en bronnen
• Waarom Big Data & Data Science?
• 3V’s en uitdagingen
• Voorbeelden
• Virtuele volkstelling
• Polisadministratie
•Verkeerslussen
• Mobiele telefoons
• Sociale mediaberichten
Het CBS
“Het CBS produceerde in 2012
ongeveer 5000 officiële publicaties
en tabellen”
Daar hebben we DATADATA voor nodig!
3
Twee soorten databronnen
Primaire data Secondaire data
Onze eigen ‘vragenlijsten’ Data van ‘anderen’
- Administratieve bronnen
- ‘Nieuwe’ databronnen
–– Data, data everywhere!Data, data everywhere!
X
Waarom Big Data?
Snel beschikbaar
Hoeveelheid
Complex/’Lastig’
• Informatie extractie
• Populatie en dynamiek
6
3V’s
Uitdagingen bij aanvang
– Praktisch
‐ Hoe komen we aan Big Data?
‐ Waar en hoe doen we de analyses?
– Juridisch
‐ Mogen we dit?
‐ Netjes werken: rekening houden met privacy gevoelige data (WBP)
– Kosten
‐ Het CBS betaald niet voor administratieve data.
‐ En voor Big Data?
– Methodologisch
‐ Methoden nodig om grote hoeveelheden data te analyseren
– Technisch
‐ Leren van ‘computational statistics’ gerelateerde onderzoeksgebieden
‐ High Performance Computing technieken (parallelle verwerking)
– Mensen
‐ Hebben ‘data scientists’ nodig: statistisch denkende mensen die
kunnen programmeren, nieuwsgierig zijn en:
‐ buiten het traditionele steekproef paradigma kunnen denken!
7
Onderzoek door het CBS
Bevindingen onderzoek ‘grote’ data bronnen
Visualisaties:
1) Virtuele Volkstelling (17 miljoen records)
2) Polisadministratie (20 miljoen records)
Big Data:
3) Verkeerslussen (100 miljoen records)
4) Mobiele telefonie (~500 miljoen records)
5) Sociale media (12 miljoen - 2 miljard records)
8
Voorbeeld 1. Virtuele Volkstelling
‐ Volkstelling is verplicht, eens in 10-jaar
‐ In Nederland niet meer met vragenlijsten
• Laatste traditionele volkstelling in 1971
‐ Nu door (her)gebruik van reeds verzamelde
informatie
• Grootschalig koppelen van administratieve bronnen en
enquêtegegevens
• Controleren van resultaat
• Hoe?
• Met een visualisatiemethode: Tableplot
9
Uitleg maken Tableplot
1. Bestand laden 17 miljoen records
2. Records sorteren op waarde 17 miljoen records
van sleutelvariabele
• in dit geval leeftijd
3. Samenvoegen records 100 groepen (elk 170.000 records)
• Numerieke variabelen
• Bereken gemiddelde (gem. leeftijd)
• Categoriale variabelen
• Verhouding aanwezige categorieën (man vs vrouw)
4. Plaatje ‘plotten’ van geselecteerd aantal variabelen
• Kleurgebruik belangrijk tot 12
10
Een tableplot van het testbestand
11
Data verwerking
Ruwe (originele) data
Gecontroleerde data
Uiteindelijk data
12
Voorbeeld 2: Polisadministratie
– Bestand met de financiële gegevens van alle
banen, uitkeringen en pensioenen in Nederland
‐ Verzameld door Belastingdienst en UWV
‐ Elke maand 20 miljoen records
‐ Hoe krijgen we inzicht in deze enorme bak
data?
• Met een visualisatie: heat map
13
Heatmap: Leeftijd, ‘Inkomen’
leeftijd
In 3D heatmap: Leeftijd, Inkomen, Aantal
Na ‘indikken’
leeftijd
Voorbeeld 3: Verkeerslussen
Verkeerslussen
‐ Elke minuut (24/7) wordt het aantal passerende
voertuigen op >10.000 meetpunten in Nederland
geteld
• Totaal en in verschillende lengtecategorieën
‐ Mooie bron om verkeer- en vervoer- statistieken
mee te maken (en meer)
• Veel data, zo’n 100 miljoen records per dag
Locaties
16
Aantal gedetecteerde voertuigen op één dag in NL
17
Registratie activiteit verkeerslussen (eerste 10 min)
18
Correctie voor ontbrekende gegevens
Corrigeren in ‘blokken’ van 5 min.
Voor Na
Totaal = ~ 295 miljoen Totaal = ~ 330 miljoen (+ 12%)
19
Totaal voertuigen gedurende de dag (snapshots)
Voor verschillende lengtecategorieën
Kleine voertuigen <= 5.6 m
Voertuigen van gemiddelde lengte > 5.6 m & <= 12.2 m
Grote voertuigen > 12.2 m
1 categorie 3 categoriën 5 categoriën
Totaal Totaal Totaal
<= 5.6m > 1.85 & <= 2.4m
> 5.6 & <= 12.2m > 2.4 & <= 5.6m
> 12.2m > 5.6 & <= 11.5m
> 11.5 & <= 12.2m
> 12.2m
21
Kleine voertuigen
Tijd (uur) ~75% van totaal
22
Kleine & gemiddelde voertuigen
Tijd (uur)
23
Kleine, gemiddelde & grote voertuigen
Tijd (uur)
24
Afzonderlijke lussen
25
Containeroverslag in Rotterdam
51.941,4.02836
!!! Echter !!!
Tijd (uur)26
Voorbeeld 4: Mobiele telefoons
Vrijwel elke Nederlander heeft een ‘mobieltje’
‐ Bijna altijd bij zich en staat vrijwel altijd aan
Ideale informatiebron om:
‐ Met behulp van gegevens van providers:
• Verplaatsingsgedrag (‘Dag’-populatie)
• Toerisme (nieuwe aanmeldingen op netwerk)
• Mensenmassa’s (bijv. bij evenementen)
27
‘Dag’-populatie
Woonadres in GBA
- Waar personen s‘nachts
verblijven
Wat doen ze overdag?
- Locatie van mobieltje bepalen
bij bel/sms/data actviteit a.h.v.
mastlocatie
Data van één provider
- Data Dec 2012 en Jan 2013
- Eerste begin ‘Dag-populatie’
28
Voorbeeld 5: Sociale media
– Nederlanders zijn erg actief op sociale media
‐ Bijna altijd bij zich en staat vrijwel altijd aan
• Steeds meer mensen hebben een smartphone!
– Mogelijke informatiebron voor:
‐ Welke onderwerpen zijn actueel:
• Aantal berichten en sentiment hierover
‐ Als meetinstrument te gebruiken voor:
• .
Map by Eric Fischer (via Fast Company)
Sociale media: Nederlandstalige berichten
– Nederlanders zijn erg actief op sociale media
‐ Mogelijke informatiebron:
• Aantal berichten over en sentiment t.a.v. bepaalde onderwerpen
(snel beschikbaar!)
• Testen om nut en bruikbaarheid te controleren
a. Inhoud:
- Zelf NL Twitter-berichten verzameld: in totaal 12 miljoen
b. Sentiment
- Sentiment in NL-talige sociale mediaberichten bestudeerd: ~2 miljard
30
Sociale media: Twitter
Onderwerpen Twitter
Bijdrage (%)
0 10 20 30 40 50
Thema's
Overige
Media
Sport
Cultuur/events
Vakantie
Vrije tijd
Vervoer
Veiligheid
Politiek
Onderwijs
Gezondheid
ICT
Weer
Milieu
Economie
Wonen
Relaties
Werk
(46%)
(10%)
(7%)
(3%)
(5%)
12 miljoen berichten31
Sentiment in Sociale media
– Toegang tot Coosto database gekocht
‐ > 2 miljard publiek beschikbare NL-berichten
• Twitter, Facebook, Hyves, Webfora, Blogs etc.
‐ Sentiment van elk bericht
• Positief, negatief of neutraal
‐ Van alles geprobeerd
• Interessante insteek
• Gekeken naar ‘Mood of the nation’ en vergeleken met
het Consumenten vertrouwen van het CBS
32
Consumenten vertrouwen, enquête data
Sentiment t.a.v. het economisch klimaat
~1000 respondenten/maand
(pos–neg)as%oftotal(pos–neg)als%vantotaal
Tijd
33
Consumentenvertrouwen vs. sociale media
Corr: 0.88 ~25 miljoen berichten/maand
Sentiment t.a.v. het economisch klimaat &
In sociale mediaberichten(pos–neg)als%vantotaal
Tijd
34
Uitdagingen: Big Data en CBS
– Juridisch
‐ Routinematige toegang (niet alleen voor onderzoek)?
‐ Goed uitzoeken
– Praktisch
‐ Gaan we alle (micro)data ‘in huis’ analyseren?
‐ Of bij de bronhouder of in de ‘Cloud’ ?
– Methodologisch
‐ Big data bronnen registeren ‘events’
‐ En zijn niet het gevolg van een steekproefontwerp
‐ Grote behoefte aan theorievorming op dit terrein!
– Mensen
‐ Behoefte aan ‘Data scientists’ op het CBS
‐ Zijn er momenteel niet veel (opleiden?)
35
De toekomst van het CBS?

More Related Content

PDF
Statistiek en Big Data: de kracht van visualizaties
Piet J.H. Daas
 
PDF
Big data en officiële statistiek
Piet J.H. Daas
 
PDF
Statistiek en grote databestanden
Piet J.H. Daas
 
PPT
Dr. Piet Daas (CBS) - Statistiek en grote data bestanden
AlmereDataCapital
 
PPT
Big data cbs_piet_daas
Piet J.H. Daas
 
PDF
Big Data presentation for Statistics Canada
Piet J.H. Daas
 
PDF
Data science and the future of statistics
Piet J.H. Daas
 
PDF
Big Data @ CBS
Piet J.H. Daas
 
Statistiek en Big Data: de kracht van visualizaties
Piet J.H. Daas
 
Big data en officiële statistiek
Piet J.H. Daas
 
Statistiek en grote databestanden
Piet J.H. Daas
 
Dr. Piet Daas (CBS) - Statistiek en grote data bestanden
AlmereDataCapital
 
Big data cbs_piet_daas
Piet J.H. Daas
 
Big Data presentation for Statistics Canada
Piet J.H. Daas
 
Data science and the future of statistics
Piet J.H. Daas
 
Big Data @ CBS
Piet J.H. Daas
 

Similar to Bi dutch meeting data science (20)

PDF
Big data @ CBS
Piet J.H. Daas
 
PPT
Masterclass Big Data (leerlingen)
Arjen de Vries
 
PPTX
Big Data en Open Data
Bart Hanssens
 
PDF
Vodafone en NRC bijlage De slimme stad
Chantal de Lie
 
PPTX
Datajournalistiek voor redacteuren van de telegraaf
peterverweij
 
PPTX
Datajournalistiek voor redacteuren van de persgroep
peterverweij
 
PDF
Presentatie big data (Dag van de verkoper, Cevora)
IntoTheMinds
 
PPTX
ITI workshop open data
Marcel de Rink
 
PDF
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
Ikinnoveer
 
PDF
Oscar Wijsman @ Tech Update Big Data Visualisatie
Media Perspectives
 
PDF
Eduvision - Big data voor de Overheid
Eduvision Opleidingen
 
PDF
Wat is big data en hoe bemeester je het?
Nick van Breda
 
PDF
Presentatie big data provincie Noord-Holland (concern dag)
Erik Van Der Zee
 
PPTX
Big Data in zicht - Nationale Denktank
Lisette van Beusekom
 
PPTX
Big data analytics johan quist
Johan Quist
 
PPTX
Big data, wat kun je ermee?
gera_p
 
PDF
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Erik Van Der Zee
 
PDF
RWS Lichtkogel Cahier Big Data 2014_LR
Jasmina Tepic MA
 
PDF
Proloog - Hackathon Rotterdam 12 oktober 2012
Peter Conradie
 
Big data @ CBS
Piet J.H. Daas
 
Masterclass Big Data (leerlingen)
Arjen de Vries
 
Big Data en Open Data
Bart Hanssens
 
Vodafone en NRC bijlage De slimme stad
Chantal de Lie
 
Datajournalistiek voor redacteuren van de telegraaf
peterverweij
 
Datajournalistiek voor redacteuren van de persgroep
peterverweij
 
Presentatie big data (Dag van de verkoper, Cevora)
IntoTheMinds
 
ITI workshop open data
Marcel de Rink
 
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
Ikinnoveer
 
Oscar Wijsman @ Tech Update Big Data Visualisatie
Media Perspectives
 
Eduvision - Big data voor de Overheid
Eduvision Opleidingen
 
Wat is big data en hoe bemeester je het?
Nick van Breda
 
Presentatie big data provincie Noord-Holland (concern dag)
Erik Van Der Zee
 
Big Data in zicht - Nationale Denktank
Lisette van Beusekom
 
Big data analytics johan quist
Johan Quist
 
Big data, wat kun je ermee?
gera_p
 
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Erik Van Der Zee
 
RWS Lichtkogel Cahier Big Data 2014_LR
Jasmina Tepic MA
 
Proloog - Hackathon Rotterdam 12 oktober 2012
Peter Conradie
 
Ad

More from Piet J.H. Daas (20)

PDF
Big Data and official statistics with examples of their use
Piet J.H. Daas
 
PDF
IT infrastructure for Big Data and Data Science at Statistics Netherlands
Piet J.H. Daas
 
PDF
ESSnet Big Data WP8 Methodology (+ Quality, +IT)
Piet J.H. Daas
 
PDF
EMOS 2018 Big Data methods and techniques
Piet J.H. Daas
 
PDF
Use of social media for official statistics
Piet J.H. Daas
 
PDF
Isi 2017 presentation on Big Data and bias
Piet J.H. Daas
 
PDF
Responsible Data Science at Statistics Netherlands
Piet J.H. Daas
 
PDF
CBS lecture at the opening of Data Science Campus of ONS
Piet J.H. Daas
 
PDF
Ntts2017 presentation 45
Piet J.H. Daas
 
PDF
Big Data presentation Mannheim
Piet J.H. Daas
 
PDF
Extracting information from ' messy' social media data
Piet J.H. Daas
 
PDF
Gebruik van sociale media voor de officiële statistiek
Piet J.H. Daas
 
PDF
Profiling Big Data sources to assess their selectivity
Piet J.H. Daas
 
PDF
Using Road Sensor Data for Official Statistics: towards a Big Data Methodology
Piet J.H. Daas
 
PDF
Big Data @ CBS for Fontys students in Eindhoven
Piet J.H. Daas
 
PPT
Quality challenges in modernising business statistics
Piet J.H. Daas
 
PDF
Quality Approaches to Big Data
Piet J.H. Daas
 
PDF
Social media sentiment and consumer confidence
Piet J.H. Daas
 
PDF
Opportunities and methodological challenges of Big Data for official statist...
Piet J.H. Daas
 
PDF
Strata Big data presentation
Piet J.H. Daas
 
Big Data and official statistics with examples of their use
Piet J.H. Daas
 
IT infrastructure for Big Data and Data Science at Statistics Netherlands
Piet J.H. Daas
 
ESSnet Big Data WP8 Methodology (+ Quality, +IT)
Piet J.H. Daas
 
EMOS 2018 Big Data methods and techniques
Piet J.H. Daas
 
Use of social media for official statistics
Piet J.H. Daas
 
Isi 2017 presentation on Big Data and bias
Piet J.H. Daas
 
Responsible Data Science at Statistics Netherlands
Piet J.H. Daas
 
CBS lecture at the opening of Data Science Campus of ONS
Piet J.H. Daas
 
Ntts2017 presentation 45
Piet J.H. Daas
 
Big Data presentation Mannheim
Piet J.H. Daas
 
Extracting information from ' messy' social media data
Piet J.H. Daas
 
Gebruik van sociale media voor de officiële statistiek
Piet J.H. Daas
 
Profiling Big Data sources to assess their selectivity
Piet J.H. Daas
 
Using Road Sensor Data for Official Statistics: towards a Big Data Methodology
Piet J.H. Daas
 
Big Data @ CBS for Fontys students in Eindhoven
Piet J.H. Daas
 
Quality challenges in modernising business statistics
Piet J.H. Daas
 
Quality Approaches to Big Data
Piet J.H. Daas
 
Social media sentiment and consumer confidence
Piet J.H. Daas
 
Opportunities and methodological challenges of Big Data for official statist...
Piet J.H. Daas
 
Strata Big data presentation
Piet J.H. Daas
 
Ad

Recently uploaded (8)

PDF
Linear Systems and Control An Operator Perspective 1st Edition Martin J. Corl...
onytgsu6301
 
PDF
Port Economics 1st Edition Wayne K. Talley
hbqmmpyam337
 
PDF
The Nature of Political Theory 1st Edition Andrew Vincent
weaxvcezdf2053
 
PDF
Zomerstudie A-kamp - dinsdag - Christus' heerschappij over alles
MPAmersfoort
 
PDF
Leerroutes vanuit actualisatie - learning patterns derived from actualisation...
Mathijs HM Cornelussen
 
PDF
Questions about education presented at Onderwijs Conferentie ROC Leiden 2014 ...
Mathijs HM Cornelussen
 
PDF
Context, structuur en opbouw Kolossenzen
MPAmersfoort
 
PDF
Gregor And The Marks Of Secret Uk Edition Collins Suzanne
xlfnngmkx4182
 
Linear Systems and Control An Operator Perspective 1st Edition Martin J. Corl...
onytgsu6301
 
Port Economics 1st Edition Wayne K. Talley
hbqmmpyam337
 
The Nature of Political Theory 1st Edition Andrew Vincent
weaxvcezdf2053
 
Zomerstudie A-kamp - dinsdag - Christus' heerschappij over alles
MPAmersfoort
 
Leerroutes vanuit actualisatie - learning patterns derived from actualisation...
Mathijs HM Cornelussen
 
Questions about education presented at Onderwijs Conferentie ROC Leiden 2014 ...
Mathijs HM Cornelussen
 
Context, structuur en opbouw Kolossenzen
MPAmersfoort
 
Gregor And The Marks Of Secret Uk Edition Collins Suzanne
xlfnngmkx4182
 

Bi dutch meeting data science

  • 1. ‘Enkele voorbeelden’ Data Science, Big Data en de officiële statistiek Piet Daas, Edwin de Jonge, May Offermans, Martijn Tennekes Alex Priem en Paul van den Hurk
  • 2. Overzicht 2 • Het CBS • Data en bronnen • Waarom Big Data & Data Science? • 3V’s en uitdagingen • Voorbeelden • Virtuele volkstelling • Polisadministratie •Verkeerslussen • Mobiele telefoons • Sociale mediaberichten
  • 3. Het CBS “Het CBS produceerde in 2012 ongeveer 5000 officiële publicaties en tabellen” Daar hebben we DATADATA voor nodig! 3
  • 4. Twee soorten databronnen Primaire data Secondaire data Onze eigen ‘vragenlijsten’ Data van ‘anderen’ - Administratieve bronnen - ‘Nieuwe’ databronnen
  • 5. –– Data, data everywhere!Data, data everywhere! X
  • 6. Waarom Big Data? Snel beschikbaar Hoeveelheid Complex/’Lastig’ • Informatie extractie • Populatie en dynamiek 6 3V’s
  • 7. Uitdagingen bij aanvang – Praktisch ‐ Hoe komen we aan Big Data? ‐ Waar en hoe doen we de analyses? – Juridisch ‐ Mogen we dit? ‐ Netjes werken: rekening houden met privacy gevoelige data (WBP) – Kosten ‐ Het CBS betaald niet voor administratieve data. ‐ En voor Big Data? – Methodologisch ‐ Methoden nodig om grote hoeveelheden data te analyseren – Technisch ‐ Leren van ‘computational statistics’ gerelateerde onderzoeksgebieden ‐ High Performance Computing technieken (parallelle verwerking) – Mensen ‐ Hebben ‘data scientists’ nodig: statistisch denkende mensen die kunnen programmeren, nieuwsgierig zijn en: ‐ buiten het traditionele steekproef paradigma kunnen denken! 7
  • 8. Onderzoek door het CBS Bevindingen onderzoek ‘grote’ data bronnen Visualisaties: 1) Virtuele Volkstelling (17 miljoen records) 2) Polisadministratie (20 miljoen records) Big Data: 3) Verkeerslussen (100 miljoen records) 4) Mobiele telefonie (~500 miljoen records) 5) Sociale media (12 miljoen - 2 miljard records) 8
  • 9. Voorbeeld 1. Virtuele Volkstelling ‐ Volkstelling is verplicht, eens in 10-jaar ‐ In Nederland niet meer met vragenlijsten • Laatste traditionele volkstelling in 1971 ‐ Nu door (her)gebruik van reeds verzamelde informatie • Grootschalig koppelen van administratieve bronnen en enquêtegegevens • Controleren van resultaat • Hoe? • Met een visualisatiemethode: Tableplot 9
  • 10. Uitleg maken Tableplot 1. Bestand laden 17 miljoen records 2. Records sorteren op waarde 17 miljoen records van sleutelvariabele • in dit geval leeftijd 3. Samenvoegen records 100 groepen (elk 170.000 records) • Numerieke variabelen • Bereken gemiddelde (gem. leeftijd) • Categoriale variabelen • Verhouding aanwezige categorieën (man vs vrouw) 4. Plaatje ‘plotten’ van geselecteerd aantal variabelen • Kleurgebruik belangrijk tot 12 10
  • 11. Een tableplot van het testbestand 11
  • 12. Data verwerking Ruwe (originele) data Gecontroleerde data Uiteindelijk data 12
  • 13. Voorbeeld 2: Polisadministratie – Bestand met de financiële gegevens van alle banen, uitkeringen en pensioenen in Nederland ‐ Verzameld door Belastingdienst en UWV ‐ Elke maand 20 miljoen records ‐ Hoe krijgen we inzicht in deze enorme bak data? • Met een visualisatie: heat map 13
  • 15. leeftijd In 3D heatmap: Leeftijd, Inkomen, Aantal Na ‘indikken’ leeftijd
  • 16. Voorbeeld 3: Verkeerslussen Verkeerslussen ‐ Elke minuut (24/7) wordt het aantal passerende voertuigen op >10.000 meetpunten in Nederland geteld • Totaal en in verschillende lengtecategorieën ‐ Mooie bron om verkeer- en vervoer- statistieken mee te maken (en meer) • Veel data, zo’n 100 miljoen records per dag Locaties 16
  • 17. Aantal gedetecteerde voertuigen op één dag in NL 17
  • 19. Correctie voor ontbrekende gegevens Corrigeren in ‘blokken’ van 5 min. Voor Na Totaal = ~ 295 miljoen Totaal = ~ 330 miljoen (+ 12%) 19
  • 20. Totaal voertuigen gedurende de dag (snapshots)
  • 21. Voor verschillende lengtecategorieën Kleine voertuigen <= 5.6 m Voertuigen van gemiddelde lengte > 5.6 m & <= 12.2 m Grote voertuigen > 12.2 m 1 categorie 3 categoriën 5 categoriën Totaal Totaal Totaal <= 5.6m > 1.85 & <= 2.4m > 5.6 & <= 12.2m > 2.4 & <= 5.6m > 12.2m > 5.6 & <= 11.5m > 11.5 & <= 12.2m > 12.2m 21
  • 22. Kleine voertuigen Tijd (uur) ~75% van totaal 22
  • 23. Kleine & gemiddelde voertuigen Tijd (uur) 23
  • 24. Kleine, gemiddelde & grote voertuigen Tijd (uur) 24
  • 27. Voorbeeld 4: Mobiele telefoons Vrijwel elke Nederlander heeft een ‘mobieltje’ ‐ Bijna altijd bij zich en staat vrijwel altijd aan Ideale informatiebron om: ‐ Met behulp van gegevens van providers: • Verplaatsingsgedrag (‘Dag’-populatie) • Toerisme (nieuwe aanmeldingen op netwerk) • Mensenmassa’s (bijv. bij evenementen) 27
  • 28. ‘Dag’-populatie Woonadres in GBA - Waar personen s‘nachts verblijven Wat doen ze overdag? - Locatie van mobieltje bepalen bij bel/sms/data actviteit a.h.v. mastlocatie Data van één provider - Data Dec 2012 en Jan 2013 - Eerste begin ‘Dag-populatie’ 28
  • 29. Voorbeeld 5: Sociale media – Nederlanders zijn erg actief op sociale media ‐ Bijna altijd bij zich en staat vrijwel altijd aan • Steeds meer mensen hebben een smartphone! – Mogelijke informatiebron voor: ‐ Welke onderwerpen zijn actueel: • Aantal berichten en sentiment hierover ‐ Als meetinstrument te gebruiken voor: • . Map by Eric Fischer (via Fast Company)
  • 30. Sociale media: Nederlandstalige berichten – Nederlanders zijn erg actief op sociale media ‐ Mogelijke informatiebron: • Aantal berichten over en sentiment t.a.v. bepaalde onderwerpen (snel beschikbaar!) • Testen om nut en bruikbaarheid te controleren a. Inhoud: - Zelf NL Twitter-berichten verzameld: in totaal 12 miljoen b. Sentiment - Sentiment in NL-talige sociale mediaberichten bestudeerd: ~2 miljard 30
  • 31. Sociale media: Twitter Onderwerpen Twitter Bijdrage (%) 0 10 20 30 40 50 Thema's Overige Media Sport Cultuur/events Vakantie Vrije tijd Vervoer Veiligheid Politiek Onderwijs Gezondheid ICT Weer Milieu Economie Wonen Relaties Werk (46%) (10%) (7%) (3%) (5%) 12 miljoen berichten31
  • 32. Sentiment in Sociale media – Toegang tot Coosto database gekocht ‐ > 2 miljard publiek beschikbare NL-berichten • Twitter, Facebook, Hyves, Webfora, Blogs etc. ‐ Sentiment van elk bericht • Positief, negatief of neutraal ‐ Van alles geprobeerd • Interessante insteek • Gekeken naar ‘Mood of the nation’ en vergeleken met het Consumenten vertrouwen van het CBS 32
  • 33. Consumenten vertrouwen, enquête data Sentiment t.a.v. het economisch klimaat ~1000 respondenten/maand (pos–neg)as%oftotal(pos–neg)als%vantotaal Tijd 33
  • 34. Consumentenvertrouwen vs. sociale media Corr: 0.88 ~25 miljoen berichten/maand Sentiment t.a.v. het economisch klimaat & In sociale mediaberichten(pos–neg)als%vantotaal Tijd 34
  • 35. Uitdagingen: Big Data en CBS – Juridisch ‐ Routinematige toegang (niet alleen voor onderzoek)? ‐ Goed uitzoeken – Praktisch ‐ Gaan we alle (micro)data ‘in huis’ analyseren? ‐ Of bij de bronhouder of in de ‘Cloud’ ? – Methodologisch ‐ Big data bronnen registeren ‘events’ ‐ En zijn niet het gevolg van een steekproefontwerp ‐ Grote behoefte aan theorievorming op dit terrein! – Mensen ‐ Behoefte aan ‘Data scientists’ op het CBS ‐ Zijn er momenteel niet veel (opleiden?) 35
  • 36. De toekomst van het CBS?