Questions about education presented at Onderwijs Conferentie ROC Leiden 2014 ...Mathijs HM Cornelussen
Context, structuur en opbouw KolossenzenMPAmersfoort
Gregor And The Marks Of Secret Uk Edition Collins Suzannexlfnngmkx4182
Bi dutch meeting data science
1. ‘Enkele voorbeelden’
Data Science, Big Data en de officiële
statistiek
Piet Daas, Edwin de Jonge, May Offermans, Martijn Tennekes
Alex Priem en Paul van den Hurk
2. Overzicht
2
• Het CBS
• Data en bronnen
• Waarom Big Data & Data Science?
• 3V’s en uitdagingen
• Voorbeelden
• Virtuele volkstelling
• Polisadministratie
•Verkeerslussen
• Mobiele telefoons
• Sociale mediaberichten
3. Het CBS
“Het CBS produceerde in 2012
ongeveer 5000 officiële publicaties
en tabellen”
Daar hebben we DATADATA voor nodig!
3
4. Twee soorten databronnen
Primaire data Secondaire data
Onze eigen ‘vragenlijsten’ Data van ‘anderen’
- Administratieve bronnen
- ‘Nieuwe’ databronnen
6. Waarom Big Data?
Snel beschikbaar
Hoeveelheid
Complex/’Lastig’
• Informatie extractie
• Populatie en dynamiek
6
3V’s
7. Uitdagingen bij aanvang
– Praktisch
‐ Hoe komen we aan Big Data?
‐ Waar en hoe doen we de analyses?
– Juridisch
‐ Mogen we dit?
‐ Netjes werken: rekening houden met privacy gevoelige data (WBP)
– Kosten
‐ Het CBS betaald niet voor administratieve data.
‐ En voor Big Data?
– Methodologisch
‐ Methoden nodig om grote hoeveelheden data te analyseren
– Technisch
‐ Leren van ‘computational statistics’ gerelateerde onderzoeksgebieden
‐ High Performance Computing technieken (parallelle verwerking)
– Mensen
‐ Hebben ‘data scientists’ nodig: statistisch denkende mensen die
kunnen programmeren, nieuwsgierig zijn en:
‐ buiten het traditionele steekproef paradigma kunnen denken!
7
8. Onderzoek door het CBS
Bevindingen onderzoek ‘grote’ data bronnen
Visualisaties:
1) Virtuele Volkstelling (17 miljoen records)
2) Polisadministratie (20 miljoen records)
Big Data:
3) Verkeerslussen (100 miljoen records)
4) Mobiele telefonie (~500 miljoen records)
5) Sociale media (12 miljoen - 2 miljard records)
8
9. Voorbeeld 1. Virtuele Volkstelling
‐ Volkstelling is verplicht, eens in 10-jaar
‐ In Nederland niet meer met vragenlijsten
• Laatste traditionele volkstelling in 1971
‐ Nu door (her)gebruik van reeds verzamelde
informatie
• Grootschalig koppelen van administratieve bronnen en
enquêtegegevens
• Controleren van resultaat
• Hoe?
• Met een visualisatiemethode: Tableplot
9
10. Uitleg maken Tableplot
1. Bestand laden 17 miljoen records
2. Records sorteren op waarde 17 miljoen records
van sleutelvariabele
• in dit geval leeftijd
3. Samenvoegen records 100 groepen (elk 170.000 records)
• Numerieke variabelen
• Bereken gemiddelde (gem. leeftijd)
• Categoriale variabelen
• Verhouding aanwezige categorieën (man vs vrouw)
4. Plaatje ‘plotten’ van geselecteerd aantal variabelen
• Kleurgebruik belangrijk tot 12
10
13. Voorbeeld 2: Polisadministratie
– Bestand met de financiële gegevens van alle
banen, uitkeringen en pensioenen in Nederland
‐ Verzameld door Belastingdienst en UWV
‐ Elke maand 20 miljoen records
‐ Hoe krijgen we inzicht in deze enorme bak
data?
• Met een visualisatie: heat map
13
16. Voorbeeld 3: Verkeerslussen
Verkeerslussen
‐ Elke minuut (24/7) wordt het aantal passerende
voertuigen op >10.000 meetpunten in Nederland
geteld
• Totaal en in verschillende lengtecategorieën
‐ Mooie bron om verkeer- en vervoer- statistieken
mee te maken (en meer)
• Veel data, zo’n 100 miljoen records per dag
Locaties
16
27. Voorbeeld 4: Mobiele telefoons
Vrijwel elke Nederlander heeft een ‘mobieltje’
‐ Bijna altijd bij zich en staat vrijwel altijd aan
Ideale informatiebron om:
‐ Met behulp van gegevens van providers:
• Verplaatsingsgedrag (‘Dag’-populatie)
• Toerisme (nieuwe aanmeldingen op netwerk)
• Mensenmassa’s (bijv. bij evenementen)
27
28. ‘Dag’-populatie
Woonadres in GBA
- Waar personen s‘nachts
verblijven
Wat doen ze overdag?
- Locatie van mobieltje bepalen
bij bel/sms/data actviteit a.h.v.
mastlocatie
Data van één provider
- Data Dec 2012 en Jan 2013
- Eerste begin ‘Dag-populatie’
28
29. Voorbeeld 5: Sociale media
– Nederlanders zijn erg actief op sociale media
‐ Bijna altijd bij zich en staat vrijwel altijd aan
• Steeds meer mensen hebben een smartphone!
– Mogelijke informatiebron voor:
‐ Welke onderwerpen zijn actueel:
• Aantal berichten en sentiment hierover
‐ Als meetinstrument te gebruiken voor:
• .
Map by Eric Fischer (via Fast Company)
30. Sociale media: Nederlandstalige berichten
– Nederlanders zijn erg actief op sociale media
‐ Mogelijke informatiebron:
• Aantal berichten over en sentiment t.a.v. bepaalde onderwerpen
(snel beschikbaar!)
• Testen om nut en bruikbaarheid te controleren
a. Inhoud:
- Zelf NL Twitter-berichten verzameld: in totaal 12 miljoen
b. Sentiment
- Sentiment in NL-talige sociale mediaberichten bestudeerd: ~2 miljard
30
31. Sociale media: Twitter
Onderwerpen Twitter
Bijdrage (%)
0 10 20 30 40 50
Thema's
Overige
Media
Sport
Cultuur/events
Vakantie
Vrije tijd
Vervoer
Veiligheid
Politiek
Onderwijs
Gezondheid
ICT
Weer
Milieu
Economie
Wonen
Relaties
Werk
(46%)
(10%)
(7%)
(3%)
(5%)
12 miljoen berichten31
32. Sentiment in Sociale media
– Toegang tot Coosto database gekocht
‐ > 2 miljard publiek beschikbare NL-berichten
• Twitter, Facebook, Hyves, Webfora, Blogs etc.
‐ Sentiment van elk bericht
• Positief, negatief of neutraal
‐ Van alles geprobeerd
• Interessante insteek
• Gekeken naar ‘Mood of the nation’ en vergeleken met
het Consumenten vertrouwen van het CBS
32
33. Consumenten vertrouwen, enquête data
Sentiment t.a.v. het economisch klimaat
~1000 respondenten/maand
(pos–neg)as%oftotal(pos–neg)als%vantotaal
Tijd
33
34. Consumentenvertrouwen vs. sociale media
Corr: 0.88 ~25 miljoen berichten/maand
Sentiment t.a.v. het economisch klimaat &
In sociale mediaberichten(pos–neg)als%vantotaal
Tijd
34
35. Uitdagingen: Big Data en CBS
– Juridisch
‐ Routinematige toegang (niet alleen voor onderzoek)?
‐ Goed uitzoeken
– Praktisch
‐ Gaan we alle (micro)data ‘in huis’ analyseren?
‐ Of bij de bronhouder of in de ‘Cloud’ ?
– Methodologisch
‐ Big data bronnen registeren ‘events’
‐ En zijn niet het gevolg van een steekproefontwerp
‐ Grote behoefte aan theorievorming op dit terrein!
– Mensen
‐ Behoefte aan ‘Data scientists’ op het CBS
‐ Zijn er momenteel niet veel (opleiden?)
35