1 © 2015 Glanos GmbH© 2015 Glanos GmbH
Praxisbericht: Automatisierte Klassifikation
von Stellenanzeigen für Experteer
Gerhard Rolletschek, Glanos
2 © 2015 Glanos GmbH
Warum das Ganze? Oder: das Ziel der Reise
• Viele Stellenanzeigen aus
dem Web
• In unterschiedlichem Format
• Ohne Metadaten
Assembly
Pipeline
• Richtig einsortierte Stellenanzeigen
• Nach Industrie, Funktion,
Karrierelevel und Ort
• Grundlage für erfolgreiche Suchen
und Matching zu Kandidaten
3 © 2015 Glanos GmbH
Methodische Herausforderungen im Datenmeer
Stellenanzeigen
Heterogenität der Stellenanzeigen
• Von großen Firmen
• Von mittleren und kleinen Firmen
• Von Headhuntern
• In mehreren Sprachen
• Kulturelle Unterschiede im Arbeitsleben
Unterschiedliche Indikatoren für die richtige Klassifikation
• Sprachliche Varianten, z.B. von Personalverantwortung
• Unterschiedliche Bedeutung eines Features in
verschiedenen Branchen
4 © 2015 Glanos GmbH
Ein kleiner Teil des Wissens ist
explizit und liegt in einem
Regelwerk vor (=Businesslogik)
Der größere Teil liegt jedoch erstmal
nicht dokumentiert vor
Trainingsdaten zeigen Einflüsse, wer
und wann klassifiziert hat
Eingespielte Praktiken laufen teilweise
gegen Businesslogiken
Der Eisberg in den Trainingsdaten
Eingespielte Praxis,
ad-hoc-Entscheidungen,
Intuition,
Tagesform
Explizites
dokumentiertes
Wissen
5 © 2015 Glanos GmbH
In die Tiefe tauchen –
und die Auswirkungen auf das Projekt
Zusammenspiel in der Organisation und Kommunikation
• Erfolge sind schwierig messbar, wenn die
Trainingsdaten selbst zweifelhaft sind
• Nachevaluation von Differenzen in der Autoklassifikation
und der Trainingsmenge
• Einbindung unterschiedlicher Abteilungen notwendig,
um das implizite Wissen in Regeln zu transformieren
Hybrid-Ansatz notwendig
• Kombination aus harten Regeln, die sprachliche
Varianten berücksichtigen und Machine Learning
• Wichtige Business-Regeln müssen forciert werden
können
6 © 2015 Glanos GmbH
Die Autoklassifikation in der Assembly Pipeline
Text Analytics-Schicht
 Extraktion relevanter Phrasen und Zuordnung zu Businesslogik
 Sehr hohe Präzision (>98%) durch kontrollierte Extraktion
Regel-System-Schicht
 Mehrstufiges Businesslogik-System auf den Ergebnissen der Text Analytics
Klassifikationsschicht
 Linguistisch und semantisch motivierte Feature-Extraktion
 Stochastic Gradient Descent Learner für perfomantes Lernen in hoch-
dimensionalen Problemen
Qualitätsmanagement
 Merge von Text-Analytics, Regeln und Klassifikation
 Transparente/nachverfolgbare Entscheidungskriterien
 Continuous integration aller Komponenten, auch der Regeln und Text Analytics
7 © 2015 Glanos GmbH
Land in Sicht: Das Resultat
 Mehr als 55% Dunkelverarbeitungsquote
 Über 90% Präzision in jedem Attribut
8 © 2015 Glanos GmbH
Eine Stellenanzeige in der Nahansicht …
9 © 2015 Glanos GmbH
… und was daraus gemacht wird
1
1
3
4
8
7
5
5
6
2
2
6
• Bezugnahme auf Manager Soft Skills:
“Leadership”, “Communication skills”
• Gesucht wird ein Manager mit lang-
jähriger Management-Erfahrung, der viele
Mitarbeiter führt und für deren berufliche
Förderung zuständig ist (career
development)
• Große Budgetverantwortung
• Stellenbezeichnung
• Industrie “Life Science”
• Manager auf zweiter Organisations-
ebene, der Manager führt
• “Director” lässt sich nur schwer einordnen,
kann viel bedeuten, muss durch
Zusammenhang spezifiziert werden.
• Zuständigkeit für den Bereich Verkauf
7
1
2
3
4
5
6
8
10 © 2015 Glanos GmbH
Der Maschinenraum
Frontend
DataLab
Glanos QM, HTML/JS/CSS,
Angular
Business-Logik
Scala, Java, Akka,
Glanos Business-
Logik-Tools
Linguistik
Scala, Java, OpenNLP,
Glanos Linguistik-
Tools
Storage
ElasticSearch, OrientDB
KonnektorenCrawler
11 © 2015 Glanos GmbH
Mehr unter
www.glanos.de
www.experteer.de

Weitere ähnliche Inhalte

PPTX
Mehr als A-/B-/C-Kunden: Customer Lifetime Value-Modellierung beim Multishop-...
PPTX
Christian Hausammann (Swiss Post Solutions)
PPTX
Kontextbasiertes Marketing – Lernen Sie Kundenverhalten im Kontext verstehen ...
PPTX
B2B-E-Commerce: Was gilt es zu beachten?
PDF
CI-Monitoring Guide
PPTX
Success Path to Lead Management
PPTX
Dieter Kindl (Rakuten Austria)
PDF
PBC Payment Consulting
Mehr als A-/B-/C-Kunden: Customer Lifetime Value-Modellierung beim Multishop-...
Christian Hausammann (Swiss Post Solutions)
Kontextbasiertes Marketing – Lernen Sie Kundenverhalten im Kontext verstehen ...
B2B-E-Commerce: Was gilt es zu beachten?
CI-Monitoring Guide
Success Path to Lead Management
Dieter Kindl (Rakuten Austria)
PBC Payment Consulting

Andere mochten auch (20)

PDF
Roboter-Journalismus: die Erstellung automatisch generierter Spielberichte
PDF
Analytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
PDF
Churn - Entwicklung und Anwendung eines Kündigerfrühwarnsystems
PDF
Der Einsatz von Uplift-Modeling am Beispiel der Lufthansa Miles & More Credit...
PDF
Predictive Analytics Powered By Process Mining: It’s The Process, Stupid!
PDF
Sports Movement Toolbox
PDF
Curso demeditacion osho
DOCX
Taller#7 armuelles
PDF
Resume fort march 2016
PDF
NAPCC-Winter2011
PDF
SISTEMA GESTOR DE REFERENCIAS BIBLIOGRÁFICAS Y ELABORADOR DE BIBLIOGRAFÍAS PA...
PDF
A arvore do Japão_5a_Marcelina_Silva
PDF
HIPAA Compliance Cheat Sheet
PPTX
Electric Energy Conservation:Tips & Tricks
PDF
Internet of Things trifft auf Customer Intelligence
PPTX
Predictive Analytics World Manufacturing Düsseldorf 2017 - EN
PDF
Wie Social Media Listening Leben retten kann
PDF
Predictive Analytics für gemeinnützige Zwecke - und was Unternehmen daraus le...
PDF
Social Media Data in Predictive Analytics
Roboter-Journalismus: die Erstellung automatisch generierter Spielberichte
Analytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
Churn - Entwicklung und Anwendung eines Kündigerfrühwarnsystems
Der Einsatz von Uplift-Modeling am Beispiel der Lufthansa Miles & More Credit...
Predictive Analytics Powered By Process Mining: It’s The Process, Stupid!
Sports Movement Toolbox
Curso demeditacion osho
Taller#7 armuelles
Resume fort march 2016
NAPCC-Winter2011
SISTEMA GESTOR DE REFERENCIAS BIBLIOGRÁFICAS Y ELABORADOR DE BIBLIOGRAFÍAS PA...
A arvore do Japão_5a_Marcelina_Silva
HIPAA Compliance Cheat Sheet
Electric Energy Conservation:Tips & Tricks
Internet of Things trifft auf Customer Intelligence
Predictive Analytics World Manufacturing Düsseldorf 2017 - EN
Wie Social Media Listening Leben retten kann
Predictive Analytics für gemeinnützige Zwecke - und was Unternehmen daraus le...
Social Media Data in Predictive Analytics
Anzeige

Mehr von Rising Media Ltd. (20)

PDF
Data Science at Roche: From Exploration to Productionization - Frank Block
PDF
Cost-Effective Personalisation Platform for 30M Users of Ringier Axel Springe...
PDF
Uplift Modelling as a Tool for Making Causal Inferences at Shopify - Mojan Hamed
PDF
Behind the Buzzword: Understanding Customer Data Platforms in the Light of Pr...
PDF
Data Science Development Lifecycle - Everyone Talks About it, Nobody Really K...
PDF
Creating Community at WeWork through Graph Embeddings with node2vec - Karry Lu
PDF
More than 10 Blue Links: Advanced-Level SERP Optimisation
PDF
How to Get Great Results Across Every Marketing Channel
PDF
Don’t Freak Out! Tips for Mobile and Voice Search
PDF
The Scout24 Data Landscape Manifesto: Building an Opinionated Data Platform
PDF
Prescriptive ohne Predictive: Regression ist noch nicht tot! ROMI bei Unitymedia
PDF
Reinforcement Learning - Learning from Experience like a Human
PDF
Mindful Analytics - Wie Achtsamkeit uns noch besser macht
PDF
Data Science Development with Impact
PPTX
Predictive Analytics World for Business Deutschland 2018
PPTX
Predictive Analytics World for Business Germany 2018
PDF
The Centrality of a Detailed Understanding of your Audience
PDF
Der steinige Weg zum automatisierten Data Science Produkt – Empfehlungen und ...
PDF
Data Alchemy
PDF
SpiegelMining – Data Science auf Spiegel Online
Data Science at Roche: From Exploration to Productionization - Frank Block
Cost-Effective Personalisation Platform for 30M Users of Ringier Axel Springe...
Uplift Modelling as a Tool for Making Causal Inferences at Shopify - Mojan Hamed
Behind the Buzzword: Understanding Customer Data Platforms in the Light of Pr...
Data Science Development Lifecycle - Everyone Talks About it, Nobody Really K...
Creating Community at WeWork through Graph Embeddings with node2vec - Karry Lu
More than 10 Blue Links: Advanced-Level SERP Optimisation
How to Get Great Results Across Every Marketing Channel
Don’t Freak Out! Tips for Mobile and Voice Search
The Scout24 Data Landscape Manifesto: Building an Opinionated Data Platform
Prescriptive ohne Predictive: Regression ist noch nicht tot! ROMI bei Unitymedia
Reinforcement Learning - Learning from Experience like a Human
Mindful Analytics - Wie Achtsamkeit uns noch besser macht
Data Science Development with Impact
Predictive Analytics World for Business Deutschland 2018
Predictive Analytics World for Business Germany 2018
The Centrality of a Detailed Understanding of your Audience
Der steinige Weg zum automatisierten Data Science Produkt – Empfehlungen und ...
Data Alchemy
SpiegelMining – Data Science auf Spiegel Online
Anzeige

Praxisbericht: Automatisierte Klassifikation von Stellenanzeigen für Experteer

  • 1. 1 © 2015 Glanos GmbH© 2015 Glanos GmbH Praxisbericht: Automatisierte Klassifikation von Stellenanzeigen für Experteer Gerhard Rolletschek, Glanos
  • 2. 2 © 2015 Glanos GmbH Warum das Ganze? Oder: das Ziel der Reise • Viele Stellenanzeigen aus dem Web • In unterschiedlichem Format • Ohne Metadaten Assembly Pipeline • Richtig einsortierte Stellenanzeigen • Nach Industrie, Funktion, Karrierelevel und Ort • Grundlage für erfolgreiche Suchen und Matching zu Kandidaten
  • 3. 3 © 2015 Glanos GmbH Methodische Herausforderungen im Datenmeer Stellenanzeigen Heterogenität der Stellenanzeigen • Von großen Firmen • Von mittleren und kleinen Firmen • Von Headhuntern • In mehreren Sprachen • Kulturelle Unterschiede im Arbeitsleben Unterschiedliche Indikatoren für die richtige Klassifikation • Sprachliche Varianten, z.B. von Personalverantwortung • Unterschiedliche Bedeutung eines Features in verschiedenen Branchen
  • 4. 4 © 2015 Glanos GmbH Ein kleiner Teil des Wissens ist explizit und liegt in einem Regelwerk vor (=Businesslogik) Der größere Teil liegt jedoch erstmal nicht dokumentiert vor Trainingsdaten zeigen Einflüsse, wer und wann klassifiziert hat Eingespielte Praktiken laufen teilweise gegen Businesslogiken Der Eisberg in den Trainingsdaten Eingespielte Praxis, ad-hoc-Entscheidungen, Intuition, Tagesform Explizites dokumentiertes Wissen
  • 5. 5 © 2015 Glanos GmbH In die Tiefe tauchen – und die Auswirkungen auf das Projekt Zusammenspiel in der Organisation und Kommunikation • Erfolge sind schwierig messbar, wenn die Trainingsdaten selbst zweifelhaft sind • Nachevaluation von Differenzen in der Autoklassifikation und der Trainingsmenge • Einbindung unterschiedlicher Abteilungen notwendig, um das implizite Wissen in Regeln zu transformieren Hybrid-Ansatz notwendig • Kombination aus harten Regeln, die sprachliche Varianten berücksichtigen und Machine Learning • Wichtige Business-Regeln müssen forciert werden können
  • 6. 6 © 2015 Glanos GmbH Die Autoklassifikation in der Assembly Pipeline Text Analytics-Schicht  Extraktion relevanter Phrasen und Zuordnung zu Businesslogik  Sehr hohe Präzision (>98%) durch kontrollierte Extraktion Regel-System-Schicht  Mehrstufiges Businesslogik-System auf den Ergebnissen der Text Analytics Klassifikationsschicht  Linguistisch und semantisch motivierte Feature-Extraktion  Stochastic Gradient Descent Learner für perfomantes Lernen in hoch- dimensionalen Problemen Qualitätsmanagement  Merge von Text-Analytics, Regeln und Klassifikation  Transparente/nachverfolgbare Entscheidungskriterien  Continuous integration aller Komponenten, auch der Regeln und Text Analytics
  • 7. 7 © 2015 Glanos GmbH Land in Sicht: Das Resultat  Mehr als 55% Dunkelverarbeitungsquote  Über 90% Präzision in jedem Attribut
  • 8. 8 © 2015 Glanos GmbH Eine Stellenanzeige in der Nahansicht …
  • 9. 9 © 2015 Glanos GmbH … und was daraus gemacht wird 1 1 3 4 8 7 5 5 6 2 2 6 • Bezugnahme auf Manager Soft Skills: “Leadership”, “Communication skills” • Gesucht wird ein Manager mit lang- jähriger Management-Erfahrung, der viele Mitarbeiter führt und für deren berufliche Förderung zuständig ist (career development) • Große Budgetverantwortung • Stellenbezeichnung • Industrie “Life Science” • Manager auf zweiter Organisations- ebene, der Manager führt • “Director” lässt sich nur schwer einordnen, kann viel bedeuten, muss durch Zusammenhang spezifiziert werden. • Zuständigkeit für den Bereich Verkauf 7 1 2 3 4 5 6 8
  • 10. 10 © 2015 Glanos GmbH Der Maschinenraum Frontend DataLab Glanos QM, HTML/JS/CSS, Angular Business-Logik Scala, Java, Akka, Glanos Business- Logik-Tools Linguistik Scala, Java, OpenNLP, Glanos Linguistik- Tools Storage ElasticSearch, OrientDB KonnektorenCrawler
  • 11. 11 © 2015 Glanos GmbH Mehr unter www.glanos.de www.experteer.de