FailureEnrichers - Flink Meetup Bay Area.pptx

Flink’s Pluggable Failure Handling:
deal with streaming errors the smart way!

About me
2
Panagiotis (Panos) Garefalakis (@pgaref)
Software Engineer - SPA - Confluent
Flink runtime team - Apache Flink contributor
Apache Hive, ORC Comiter & PMC Member respectively
PhD in Distributed Systems, Imperial College London 2020

Overview
3
Intro
Flink framework and how users leverage it to implement streaming applications
Background
Main components of Flink’s distributed execution runtime and failure handling
Implementation
Introduce Pluggable Failure Enrichers component as part of the JobMaster
Demo
Custom Failure Enrichers in just 4 steps and a Confluent Cloud demo!
Lessons Learned
Mistakes to avoid when running your own Failure Enrichers
Summary
Key points and useful links
1.
2.
3.
4.
5.
6.

Kafka
Databases
Key/Value Stores
Files
Apps
Sources
Real-time Stream Processing
Sinks
Stream Processing with Flink

Real-time Stream Processing
Stream Processing with Flink
Kafka
Databases
Key/Value Stores
Files
Apps
Sources Sinks
Operator
Edge
Job Graph
Job

Writing Streaming Apps
INSERT INTO results
SELECT color, COUNT(*)
FROM events
WHERE color <> orange
GROUP BY color;
results
COUNT
events
GROUP BY
color
FILTER

INSERT INTO results
FROM events
GROUP BY color;
GROUP BY
color
events
results
COUNT
FILTER

INSERT INTO results
FROM events
GROUP BY color;
GROUP BY
color
events
results
COUNT
FILTER
1
4 …
1
3
…

Running Streaming Apps Task Manager
Task Slot
State Backend
Task Slot
Client
Task Manager
Task Slot
State Backend
Task Slot
Job Manager
Dispatcher
Resource Manager
Job Master
Scheduler
REST
Endpoint
Slot Allocator
Checkpoint Coordinator

Task Slot
State Backend
Task Slot
Client
Task Manager
Task Slot
State Backend
Task Slot
Submit Job
Job Manager
Dispatcher
Resource Manager
Job Master
Execution Graph
Scheduler
REST
Endpoint
Slot Allocator

Task Slot
State Backend
Task Slot
Client
Task Manager
Task Slot
State Backend
Task Slot
Assign Slot
Submit Job
Job Manager
Dispatcher
Resource Manager
Job Master
Execution Graph
Scheduler
REST
Endpoint
Slot Allocator

Task Slot
State Backend
Task Slot
Data
Shuffle
Client
Task Manager
Task Slot
State Backend
Task Slot
Submit Task
Submit Job
Job Manager
Dispatcher
Resource Manager
Job Master
Execution Graph
Scheduler
REST
Endpoint
Slot Allocator

Task Slot
State Backend
Task Slot
Data
Shuffle
Client
Task Manager
Task Slot
State Backend
Task Slot
Submit/Stop/Cancel
Tasks, Checkpoint
Submit Job
Results
Job Manager
Dispatcher
Resource Manager
Job Master
Execution Graph
Scheduler
REST
Endpoint
Slot Allocator

Local Failures Task Manager
Task Slot
State Backend
Task Slot
Data
Shuffle
Client
Task Manager
Task Slot
State Backend
Task Slot
Submit/Stop/Cancel
Tasks, Checkpoint
Submit Job
Results
Job Manager
Dispatcher
Resource Manager
Job Master
Execution Graph
Scheduler
Exception!
REST
Endpoint
Permissions Errors
Serialization Errors
ClassClast Erros
etc.
Slot Allocator

Global Failures Task Manager
Task Slot
State Backend
Task Slot
Data
Shuffle
Client
Task Manager
Task Slot
State Backend
Task Slot
Submit/Stop/Cancel
Tasks, Checkpoint
Submit Job
Results
Job Manager
Dispatcher
Resource Manager
Job Master
Execution Graph
Scheduler
REST
Endpoint
Checkpoint Errors
Op Coordinator Errors
etc.
Slot Allocator

Failure Handling Task Manager
Task Slot
State Backend
Task Slot
Data
Shuffle
Client
Task Manager
Task Slot
State Backend
Task Slot
Submit/Stop/Cancel
Tasks, Checkpoint
Submit Job
Results
Job Manager
Dispatcher
Resource Manager
Job Master
Execution Graph
Scheduler
Failure Handler
REST
Endpoint
Slot Allocator

Failure Handling Task Manager
Task Slot
State Backend
Task Slot
Data
Shuffle
Client
Task Manager
Task Slot
State Backend
Task Slot
Submit/Stop/Cancel
Tasks, Checkpoint
Submit Job
Results
Job Manager
Dispatcher
Resource Manager
Job Master
Execution Graph
Scheduler
Failure Handler
REST
Endpoint
Restart Task
Permissions
Exception?
Expose OOM
Errors to Users?
Slot Allocator

Extending Failure Handling
20
Enrich failures with extra metadata (e.g., type of failure)
Expose failures to downstream consumers (e.g, notification systems)
Support custom logic (pluggable interface)

Pluggable Failure Enrichers Task Manager
Task Slot
State Backend
Task Slot
Data
Shuffle
Client
Task Manager
Task Slot
State Backend
Task Slot
Job Manager
Dispatcher
Resource Manager
Job Master
Execution Graph
Scheduler
Failure Handler
Failure Enrichers
REST
Endpoint
FLIP-304
Flink 1.18
Submit Job
Slot Allocator

Task Slot
State Backend
Task Slot
Data
Shuffle
Client
Task Manager
Task Slot
State Backend
Task Slot
Submit/Stop/Cancel
Tasks, Checkpoint
Submit Job
Results
Job Manager
Dispatcher
Resource Manager
Job Master
Execution Graph
Scheduler
Failure Handler
Failure Enrichers
REST
Endpoint
FLIP-304
Flink 1.18
Type Classifier
Slot Allocator

Task Slot
State Backend
Task Slot
Data
Shuffle
Client
Task Manager
Task Slot
State Backend
Task Slot
Submit/Stop/Cancel
Tasks, Checkpoint
Submit Job
Results
Job Manager
Dispatcher
Resource Manager
Job Master
Execution Graph
Scheduler
Failure Handler
Failure Enrichers
REST
Endpoint
FLIP-304
Flink 1.18
Type Classifier
ClassCast
Exception
Handle
Task Failure
Slot Allocator

Task Slot
State Backend
Task Slot
Data
Shuffle
Client
Task Manager
Task Slot
State Backend
Task Slot
Submit/Stop/Cancel
Tasks, Checkpoint
Submit Job
Results
Job Manager
Dispatcher
Resource Manager
Job Master
Execution Graph
Scheduler
Failure Handler
Failure Enrichers
REST
Endpoint
FLIP-304
Flink 1.18
Type Classifier
Handle
Task Failure
exceptionName:
ClassCastException
"failureLabels": {
"type": "USER"
}
ClassCast
Exception
Slot Allocator

Failure Enricher Implementation
FLIP-304
Flink 1.18
public class TypeClassifier implements FailureEnricher {
private static final String typeKey = "TYPE";
@Override
public Set<String> getOutputKeys() {
return Stream.of(typeKey).collect(Collectors.toSet());
}
@Override
public CompletableFuture<Map<String, String>> processFailure(Throwable cause, final Context ctx) {
final Map<String, String> labels = new HashMap();
if (ExceptionUtils.findThrowable(cause, ClassCastException.class).isPresent()) {
labels.put(typeKey, "USER");
} else {
labels.put(typeKey, "SYSTEM");
}
return CompletableFuture.completedFuture(labels);
}
}
Step 1: Implement your enricher

Failure Enricher Implementation
FLIP-304
Flink 1.18
public class TypeClassifierFactory implements FailureEnricherFactory {
@Override
public FailureEnricher createFailureEnricher(Configuration conf) {
return new TypeClassifier();
}
}
Step 2: Create an enricher factory
Step 3: Package jar
Step 4: Modify Flink configuration
jobmanager.failure-enrichers = org.apache.flink.test.plugin.jar.failure.TypeClassifier
META-INF/services/org.apache.flink.core.failure.FailureEnricherFactory

Lessons Learned
Documentation
https://nightlies.apache.org/flink/flink-docs-stable/docs/deployment/advanced/failure_enrichers
FLIP
https://cwiki.apache.org/confluence/display/FLINK/FLIP-304%3A+Pluggable+Failure+Enrichers
Apache Flink 1.18
https://www.confluent.io/blog/announcing-apache-flink-1-18
● Failure Enrichers might throw exceptions too, make sure they are properly handled!
○ There is no way to enforce no exceptions are thrown (pluggable component) and this
could result to throwing away labels
● Bundle Failure Enrichers’ dependencies when you are using third party libraries!
○ PluginLoader only allows whitelisted classes of the parent / system classloader
● Logs and system-tests are your friends!

Summary
Documentation
https://nightlies.apache.org/flink/flink-docs-stable/docs/deployment/advanced/failure_enrichers
FLIP
https://cwiki.apache.org/confluence/display/FLINK/FLIP-304%3A+Pluggable+Failure+Enrichers
Apache Flink 1.18
https://www.confluent.io/blog/announcing-apache-flink-1-18
● Flink service providers deal with a plethora of failures types coming from different sources
and followed by a variety of corrective actions
● Pluggable Failure Enrichers allow for
○ custom logic (classification, tagging, alerting etc.)
○ custom metadata labels
○ asynchronous execution
○ simple implementation and packaging (independent jars)

FailureEnrichers - Flink Meetup Bay Area.pptx

Icons
34
Central Nervous
System
Early Production
Streaming
Stream
Designer
Data
Everywhere
Kafka Cluster
Database Databases Data Lake DB Warehouse Data Center Cloud Cloud to Cloud Hybrid Cloud Cloud Dev Equal Cloud Cloud Management
Server On-premise Serverless Replicator Operator Kafka KSQL Rocket ksqlDB KSQL Circle Connector Microservices Schema Registry
Streams Event Streams Number of
Data Sources
IOT Cluster Partition
Rebalancing
Stream Processing
Cookbook
Data
Governance
Apps Service Apps Custom Apps Logs Data Stacks Stack Overflow Storage Platform Data In Data Out Data Add
Branch
Processing Real-time Aggregate Data Frameworks CLI Dev Scale Combine Join Architect # of Producers
For the complete, most updated collection of Icons please go to: https://cnfl.io/Icons

Icons
35
Webinar Developer Onboard Offboard Filter
Globe Infinity Settings Monitoring Anomaly Detection Analytics Real-time Analytics Real-time Processing Process Data Upload Download
Computer Devices Computer /
DB / Cloud
Status Open Source Web Confirmed RSS MQTT Message Quotes Interview # of Topics
Person People People
Manager
Career Enablement Roadmap Search Solution
Send
Features Company
Policies
Docs Invoice Blog Podcast Video Book Table Email Print
Continuous
Learning
Lock Key Warning Hacker Bug GDPR CCPA Shield Shield Open Machine
Learning
Eye

Icons
36
Shirt Food Catalyst Box Sparkly New
Manufacturing Venue Government Business Marketplace Ecommerce Sale Money Telecom Support Gaming Healthcare
Computer Love Partner Hand Arm Benefit Thumbs Up Swipe Select Promote Awareness Target
Car Truck Puzzle Lightening Star Question Check
Workday
Speed Time Coming Soon Time / Money ROI TCO Data in Terabytes
Per Day
# of Events
Per Day
Calendar Payday Docker
Transfer Expand / Shrink Add Balance Rest Trophy Certificate Badge

FailureEnrichers - Flink Meetup Bay Area.pptx

More Related Content

Similar to FailureEnrichers - Flink Meetup Bay Area.pptx (20)

More from Panagiotis Garefalakis (9)

Recently uploaded (20)

FailureEnrichers - Flink Meetup Bay Area.pptx

Editor's Notes