ICCV2009: Max-Margin Ađitive Classifiers for Detection

Max-Margin Additive Classifiers for DetectionSubhransuMaji & Alexander BergUniversity of California at Berkeley Columbia UniversityICCV 2009, Kyoto, Japan

Accuracy vs. Evaluation Timefor SVM ClassifiersNon-linear KernelEvaluation timeLinear KernelAccuracy

Accuracy vs. Evaluation Timefor SVM ClassifiersNon-linear KernelEvaluation timeOur CVPR 08Linear KernelAccuracy

Non-linear Kernel Additive KernelEvaluation timeOur CVPR 08Linear KernelAccuracyAccuracy vs. Evaluation Timefor SVM Classifiers

Additive KernelNon-linear Kernel Additive KernelEvaluation timeOur CVPR 08Linear KernelAccuracyAccuracy vs. Evaluation Timefor SVM Classifiers

Accuracy vs. Evaluation Timefor SVM ClassifiersAdditive KernelNon-linear KernelEvaluation timeOur CVPR 08Linear Kernel Additive KernelAccuracyMade it possible to use SVMs with additive kernels for detection.

Additive ClassifiersMuch work already uses them! SVMs with additive kernels are additive classifiersHistogram based kernelsHistogram intersection, chi-squared kernelPyramid Match Kernel (Grauman & Darell, ICCV’05)Spatial Pyramid Match Kernel (Lazebniket.al., CVPR’06)….

Accuracy vs. Training Timefor SVM ClassifiersNon-linearTraining timeLinear KernelAccuracy

Accuracy vs. Training Timefor SVM ClassifiersNon-linearTraining time<=1990sLinearAccuracy

Accuracy vs. Training Timefor SVM ClassifiersNon-linearTraining timeTodayLinearAccuracyEg. Cutting Plane, Stoc. Gradient Descend, Dual Coordinate Descend

Accuracy vs. Training Timefor SVM ClassifiersNon-linearAdditiveTraining timeOur CVPR 08LinearAccuracy

Accuracy vs. Training Timefor SVM ClassifiersNon-linearAdditiveTraining timeOur CVPR 08✗LinearAccuracy

Accuracy vs. Training Timefor SVM ClassifiersNon-linearAdditiveTraining timeThis PaperLinearAccuracy

Accuracy vs. Training Timefor SVM ClassifiersNon-linearTraining timeThis PaperLinearAdditiveAccuracyMakes it possible to train additive classifiers very fast.

SummaryAdditive classifiers are widely used and can provide better accuracy than linearOur CVPR 08: SVMs with additive kernels are additive classifiers and can be evaluated in O(#dim) -- same as linear.This work: additive classifiers can be trained directly as efficiently (up to a small constant) as the best approaches for training linear classifiers.An example

Support Vector MachinesEmbedded SpaceInput SpaceKernel Function Inner Product in the embedded space

Can learn non-linear boundaries in input space Classification FunctionKernel Trick

Embeddings…These embeddings can be high dimensional (even infinite)Our approach is based on embeddings thatapproximate kernels.We’d like this to be as accurate as possibleWe are going to use fast linear classifier training algorithms on the so sparseness is important.

Key Idea: Embedding an Additive KernelAdditive Kernels are easy to embed, just embed each dimension independentlyLinear Embedding for min Kernel for integersFor non integers can approximate by quantizing

Issues: Embedding ErrorQuantization leads to large errorsBetter encodingxy

Issues: SparsityRepresent with sparse values

Linear SVM objective (solve with LIBLINEAR):Encoded SVM objective (not practical): Linear vs. Encoded SVMs

Linear vs. Encoded SVMs Linear SVM objective (solve with LIBLINEAR):Encoded SVM modified (custom solver): Encourages smooth functionsClosely approximates min kernel SVMCustom solver : PWLSGD (see paper)

Linear SVM objective (solve with LIBLINEAR):Encoded SVM objective (solve with LIBLINEAR) : Linear vs. Encoded SVMs

Additive Classifier ChoicesRegularizationEncoding

Additive Classifier ChoicesAccuracy Increases RegularizationEncodingEvaluation times are similar

Additive Classifier ChoicesAccuracy Increases RegularizationEncodingAccuracy Increases Evaluation times are similar

Additive Classifier ChoicesAccuracy Increases RegularizationEncodingAccuracy Increases Standard solverEg. LIBSVMFew lines of code + standard solverEg. LIBLINEAR

Additive Classifier ChoicesAccuracy Increases RegularizationEncodingAccuracy Increases Custom solver

Additive Classifier ChoicesAccuracy Increases RegularizationEncodingAccuracy Increases Classifier Notations

Experiments“Small” Scale: Caltech 101 (Fei-Fei, et.al.)“Medium” Scale: DC Pedestrians (Munder & Gavrila)“Large” Scale : INRIA Pedestrians (Dalal & Triggs)

Experiment : DC Pedestrians(3.18s, 89.25%)(1.86s, 88.80%)(363s, 89.05%)(2.98s, 85.71%)100x fastertraining time ~ linear SVMaccuracy ~ kernel SVM (1.89s, 72.98%)20,000 features, 656 dimensional100 bins for encoding6-fold cross validation

Experiment : Caltech 101(291s, 55.35%)(2687s, 56.49%)(102s, 54.8%)(90s, 51.64%)10x fasterSmall loss in accuracy(41s, 46.15%)30 training examples per category100 bins for encodingPyramid HOG + Spatial Pyramid Match Kernel

Experiment : INRIA Pedestrians(140 mins, 0.95)(76s, 0.94)(27s, 0.88)300x fastertraining time ~ linear SVMaccuracy ~ kernel SVMtrains the detector in < 2 mins (122s, 0.85)(20s, 0.82)SPHOG: 39,000 features, 2268 dimensional 100 bins for encodingCross Validation Plots

Experiment : INRIA Pedestrians300x fastertraining time ~ linear SVMaccuracy ~ kernel SVMtrains the detector in < 2 mins SPHOG: 39,000 features, 2268 dimensional 100 bins for encodingCross Validation Plots

Take Home MessagesAdditive models are practical for large scale dataCan be trained discriminatively: Poor man’s version : encode + Linear SVM SolverMiddle man’s version : encode + Custom SolverRich man’s version : Min Kernel SVMEmbedding only Approximates kernels, leads to small loss in accuracy but up to 100x speedup in training timeEveryone should use: see code on our websitesFast IKSVM from CVPR’08, Encoded SVMs, etc

ICCV2009: Max-Margin Ađitive Classifiers for Detection

More Related Content

Similar to ICCV2009: Max-Margin Ađitive Classifiers for Detection (20)

More from zukun (20)

Recently uploaded (20)

ICCV2009: Max-Margin Ađitive Classifiers for Detection

Editor's Notes