Model selection and model averaging 1st Edition Gerda Claeskens
Model selection and model averaging 1st Edition Gerda Claeskens
Model selection and model averaging 1st Edition Gerda Claeskens
Coronaviruses Methods and Protocols Second Edition Helena J. Maiermcxtwie1101
Publicité
Model selection and model averaging 1st Edition Gerda Claeskens
1. Model selection and model averaging 1st Edition
Gerda Claeskens pdf download
https://ebookname.com/product/model-selection-and-model-
averaging-1st-edition-gerda-claeskens/
Get the full ebook with Bonus Features for a Better Reading Experience on ebookname.com
2. Instant digital products (PDF, ePub, MOBI) available
Download now and explore formats that suit you...
Empirical Model Discovery and Theory Evaluation
Automatic Selection Methods in Econometrics David F.
Hendry
https://ebookname.com/product/empirical-model-discovery-and-
theory-evaluation-automatic-selection-methods-in-econometrics-
david-f-hendry/
Walther Model Command Robert Forczyk
https://ebookname.com/product/walther-model-command-robert-
forczyk/
Model Based Machine Learning 1st Edition John Winn
https://ebookname.com/product/model-based-machine-learning-1st-
edition-john-winn/
Oxford Correspndence Workbook New Edition A. Ashley
https://ebookname.com/product/oxford-correspndence-workbook-new-
edition-a-ashley/
3. Encyclopedia Of Haunted Places Ghostly Locales From
Around The World 1st Edition Jeff Belanger
https://ebookname.com/product/encyclopedia-of-haunted-places-
ghostly-locales-from-around-the-world-1st-edition-jeff-belanger/
Psychology Moment by Moment A guide to enhancing your
clinical practice with mindfulness meditation 1st
Edition Elise E. Labbé
https://ebookname.com/product/psychology-moment-by-moment-a-
guide-to-enhancing-your-clinical-practice-with-mindfulness-
meditation-1st-edition-elise-e-labbe/
Purgatory and Piety in Brittany 1480 1720 Elizabeth C.
Tingle
https://ebookname.com/product/purgatory-and-piety-in-
brittany-1480-1720-elizabeth-c-tingle/
Dead as a Doornail 1ST Edition Charlaine Harris
https://ebookname.com/product/dead-as-a-doornail-1st-edition-
charlaine-harris/
Program Logics for Certified Compilers Appel A.W.
https://ebookname.com/product/program-logics-for-certified-
compilers-appel-a-w/
4. Frommer s Radiology for the Dental Professional 10th
Edition Jeanine J. Stabulas-Savage Rdh Bs Mph
https://ebookname.com/product/frommer-s-radiology-for-the-dental-
professional-10th-edition-jeanine-j-stabulas-savage-rdh-bs-mph/
5. P1: SFK/UKS P2: SFK/UKS QC: SFK/UKS T1: SFK
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:41
Model Selection and Model Averaging
Given a data set, you can fit thousands of models at the push of a button, but how do
you choose the best? With so many candidate models, overfitting is a real danger.
Is the monkey who typed Hamlet actually a good writer?
Choosing a suitable model is central to all statistical work with data. Selecting
the variables for use in a regression model is one important example. The past
two decades have seen rapid advances both in our ability to fit models and in the
theoretical understanding of model selection needed to harness this ability, yet this
book is the first to provide a synthesis of research from this active field, and it
contains much material previously difficult or impossible to find. In addition, it
gives practical advice to the researcher confronted with conflicting results.
Model choice criteria are explained, discussed and compared, including Akaike’s
information criterion AIC, the Bayesian information criterion BIC and the focused
information criterion FIC. Importantly, the uncertainties involved with model selec-
tion are addressed, with discussions of frequentist and Bayesian methods. Finally,
model averaging schemes, which combine the strength of several candidate models,
are presented.
Worked examples on real data are complemented by derivations that provide
deeper insight into the methodology. Exercises, both theoretical and data-based,
guide the reader to familiarity with the methods. All data analyses are compati-
ble with open-source R software, and data sets and R code are available from a
companion website.
Gerda Claeskens is Professor in the OR & Business Statistics and Leuven
Statistics Research Center at the Catholic University of Leuven, Belgium.
Nils Lid Hjort is Professor of Mathematical Statistics in the Department of
Mathematics at the University of Oslo, Norway.
i
6. P1: SFK/UKS P2: SFK/UKS QC: SFK/UKS T1: SFK
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:41
CAMBRIDGE SERIES IN STATISTICAL AND
PROBABILISTIC MATHEMATICS
Editorial Board
R. Gill (Department of Mathematics, Utrecht University)
B. D. Ripley (Department of Statistics, University of Oxford)
S. Ross (Department of Industrial and Systems Engineering, University of Southern California)
B. W. Silverman (St. Peter’s College, Oxford)
M. Stein (Department of Statistics, University of Chicago)
This series of high-quality upper-division textbooks and expository monographs covers all aspects of
stochastic applicable mathematics. The topics range from pure and applied statistics to probability
theory, operations research, optimization, and mathematical programming. The books contain clear
presentations of new developments in the field and also of the state of the art in classical methods.
While emphasizing rigorous treatment of theoretical methods, the books also contain applications
and discussions of new techniques made possible by advances in computational practice.
Already published
1. Bootstrap Methods and Their Application, by A. C. Davison and D. V. Hinkley
2. Markov Chains, by J. Norris
3. Asymptotic Statistics, by A. W. van der Vaart
4. Wavelet Methods for Time Series Analysis, by Donald B. Percival and Andrew T. Walden
5. Bayesian Methods, by Thomas Leonard and John S. J. Hsu
6. Empirical Processes in M-Estimation, by Sara van de Geer
7. Numerical Methods of Statistics, by John F. Monahan
8. A User’s Guide to Measure Theoretic Probability, by David Pollard
9. The Estimation and Tracking of Frequency, by B. G. Quinn and E. J. Hannan
10. Data Analysis and Graphics using R, by John Maindonald and John Braun
11. Statistical Models, by A. C. Davison
12. Semiparametric Regression, by D. Ruppert, M. P. Wand, R. J. Carroll
13. Exercises in Probability, by Loic Chaumont and Marc Yor
14. Statistical Analysis of Stochastic Processes in Time, by J. K. Lindsey
15. Measure Theory and Filtering, by Lakhdar Aggoun and Robert Elliott
16. Essentials of Statistical Inference, by G. A. Young and R. L. Smith
17. Elements of Distribution Theory, by Thomas A. Severini
18. Statistical Mechanics of Disordered Systems, by Anton Bovier
20. Random Graph Dynamics, by Rick Durrett
21. Networks, by Peter Whittle
22. Saddlepoint Approximations with Applications, by Ronald W. Butler
23. Applied Asymptotics, by A. R. Brazzale, A. C. Davison and N. Reid
24. Random Networks for Communication, by Massimo Franceschetti and Ronald Meester
25. Design of Comparative Experiments, by R. A. Bailey
ii
7. P1: SFK/UKS P2: SFK/UKS QC: SFK/UKS T1: SFK
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:41
Model Selection and
Model Averaging
Gerda Claeskens
K.U. Leuven
Nils Lid Hjort
University of Oslo
iii
8. P1: SFK/UKS P2: SFK/UKS QC: SFK/UKS T1: SFK
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:41
cambridge university press
Cambridge, New York, Melbourne, Madrid, Cape Town, Singapore, São Paulo, Delhi
Cambridge University Press
The Edinburgh Building, Cambridge CB2 8RU, UK
Published in the United States of America by Cambridge University Press, New York
www.cambridge.org
Information on this title: www.cambridge.org/9780521852258
C
G. Claeskens and N. L. Hjort 2008
This publication is in copyright. Subject to statutory exception
and to the provisions of relevant collective licensing agreements,
no reproduction of any part may take place without
the written permission of Cambridge University Press.
First published 2008
Printed in the United Kingdom at the University Press, Cambridge
A catalogue record for this publication is available from the British Library
Library of Congress Cataloguing in Publication data
ISBN 978-0-521-85225-8 hardback
Cambridge University Press has no responsibility for the persistence or
accuracy of URLs for external or third-party internet websites referred to
in this publication, and does not guarantee that any content on such
websites is, or will remain, accurate or appropriate.
iv
9. P1: SFK/UKS P2: SFK/UKS QC: SFK/UKS T1: SFK
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:41
To Maarten and Hanne-Sara
– G. C.
To Jens, Audun and Stefan
– N. L. H.
v
10. P1: SFK/UKS P2: SFK/UKS QC: SFK/UKS T1: SFK
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:41
vi
11. P1: SFK/UKS P2: SFK/UKS QC: SFK/UKS T1: SFK
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:41
Contents
Preface page xi
A guide to notation xiv
1 Model selection: data examples and introduction 1
1.1 Introduction 1
1.2 Egyptian skull development 3
1.3 Who wrote ‘The Quiet Don’? 7
1.4 Survival data on primary biliary cirrhosis 10
1.5 Low birthweight data 13
1.6 Football match prediction 15
1.7 Speedskating 17
1.8 Preview of the following chapters 19
1.9 Notes on the literature 20
2 Akaike’s information criterion 22
2.1 Information criteria for balancing fit with complexity 22
2.2 Maximum likelihood and the Kullback–Leibler distance 23
2.3 AIC and the Kullback–Leibler distance 28
2.4 Examples and illustrations 32
2.5 Takeuchi’s model-robust information criterion 42
2.6 Corrected AIC for linear regression and autoregressive time series 44
2.7 AIC, corrected AIC and bootstrap-AIC for generalised
linear models∗
46
2.8 Behaviour of AIC for moderately misspecified models∗
49
2.9 Cross-validation 51
2.10 Outlier-robust methods 55
2.11 Notes on the literature 64
Exercises 66
vii
12. P1: SFK/UKS P2: SFK/UKS QC: SFK/UKS T1: SFK
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:41
viii Contents
3 The Bayesian information criterion 70
3.1 Examples and illustrations of the BIC 70
3.2 Derivation of the BIC 78
3.3 Who wrote ‘The Quiet Don’? 82
3.4 The BIC and AIC for hazard regression models 85
3.5 The deviance information criterion 90
3.6 Minimum description length 94
3.7 Notes on the literature 96
Exercises 97
4 A comparison of some selection methods 99
4.1 Comparing selectors: consistency, efficiency and parsimony 99
4.2 Prototype example: choosing between two normal models 102
4.3 Strong consistency and the Hannan–Quinn criterion 106
4.4 Mallows’s Cp and its outlier-robust versions 107
4.5 Efficiency of a criterion 108
4.6 Efficient order selection in an autoregressive process and the FPE 110
4.7 Efficient selection of regression variables 111
4.8 Rates of convergence∗
112
4.9 Taking the best of both worlds?∗
113
4.10 Notes on the literature 114
Exercises 115
5 Bigger is not always better 117
5.1 Some concrete examples 117
5.2 Large-sample framework for the problem 119
5.3 A precise tolerance limit 124
5.4 Tolerance regions around parametric models 126
5.5 Computing tolerance thresholds and radii 128
5.6 How the 5000-m time influences the 10,000-m time 130
5.7 Large-sample calculus for AIC 137
5.8 Notes on the literature 140
Exercises 140
6 The focussed information criterion 145
6.1 Estimators and notation in submodels 145
6.2 The focussed information criterion, FIC 146
6.3 Limit distributions and mean squared errors in submodels 148
6.4 A bias-modified FIC 150
6.5 Calculation of the FIC 153
6.6 Illustrations and applications 154
6.7 Exact mean squared error calculations for linear regression∗
172
13. P1: SFK/UKS P2: SFK/UKS QC: SFK/UKS T1: SFK
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:41
Contents ix
6.8 The FIC for Cox proportional hazard regression models 174
6.9 Average-FIC 179
6.10 A Bayesian focussed information criterion∗
183
6.11 Notes on the literature 188
Exercises 189
7 Frequentist and Bayesian model averaging 192
7.1 Estimators-post-selection 192
7.2 Smooth AIC, smooth BIC and smooth FIC weights 193
7.3 Distribution of model average estimators 195
7.4 What goes wrong when we ignore model selection? 199
7.5 Better confidence intervals 206
7.6 Shrinkage, ridge estimation and thresholding 211
7.7 Bayesian model averaging 216
7.8 A frequentist view of Bayesian model averaging∗
220
7.9 Bayesian model selection with canonical normal priors∗
222
7.10 Notes on the literature 223
Exercises 224
8 Lack-of-fit and goodness-of-fit tests 227
8.1 The principle of order selection 227
8.2 Asymptotic distribution of the order selection test 229
8.3 The probability of overfitting∗
232
8.4 Score-based tests 236
8.5 Two or more covariates 238
8.6 Neyman’s smooth tests and generalisations 240
8.7 A comparison between AIC and the BIC for model testing∗
242
8.8 Goodness-of-fit monitoring processes for regression models∗
243
8.9 Notes on the literature 245
Exercises 246
9 Model selection and averaging schemes in action 248
9.1 AIC and BIC selection for Egyptian skull development data 248
9.2 Low birthweight data: FIC plots and FIC selection per stratum 252
9.3 Survival data on PBC: FIC plots and FIC selection 256
9.4 Speedskating data: averaging over covariance structure models 258
Exercises 266
10 Further topics 269
10.1 Model selection in mixed models 269
10.2 Boundary parameters 273
10.3 Finite-sample corrections∗
281
14. P1: SFK/UKS P2: SFK/UKS QC: SFK/UKS T1: SFK
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:41
x Contents
10.4 Model selection with missing data 282
10.5 When p and q grow with n 284
10.6 Notes on the literature 285
Overview of data examples 287
References 293
Author index 306
Subject index 310
15. P1: SFK/UKS P2: SFK/UKS QC: SFK/UKS T1: SFK
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:41
Preface
Every statistician and data analyst often has to make choices. These choice situations
especially arise when data have been collected and it is time to think about which model
to use to describe and summarise the data. Another choice, often, is whether all measured
variables are important enough to be included, for example, to make predictions. Can
we make life simpler by only including a few of them, without making the prediction
significantly worse?
In this book we present several methods to help make the choice easier. Model selection
is a broad area and it reaches far beyond deciding on which variables to include in a
regression model.
Two generations ago, setting up and analysing a single model was already hard work,
and one rarely went to the trouble of analysing the same data via several alternative
models. Thus ‘model selection’ was not much of an issue, apart from perhaps checking
the model via goodness-of-fit tests. In the 1970s and later, proper model selection criteria
were developed and actively used. With unprecedented versatility and convenience, long
lists of candidate models, whether thought through in advance or not, can be fitted to a
data set. But this creates problems too. With a multitude of models fitted, it is clear that
methods are needed that somehow summarise model fits.
An important aspect that we should realise is that inference following model selection
is, by its nature, the second step in a two-step strategy. Uncertainties involved in the first
step must be taken into account when assessing distributions, confidence intervals, etc.
That such themes have been largely underplayed in theoretical and practical statistics was
named ‘the quiet scandal of statistics’. Realising that an analysis might have turned out
differently, if preceded by data that with small modifications might have led to a different
modelling route, triggers the set-up of model averaging. Model averaging methods can
help to develop methods for better assessment and better construction of confidence
intervals, p-values, etc. But it comprises more than that.
Each chapter ends with a brief ‘Notes on the literature’ section. These are not meant
to contain full reviews of all existing and related literature. They rather provide some
xi
16. P1: SFK/UKS P2: SFK/UKS QC: SFK/UKS T1: SFK
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:41
xii Preface
references which might then serve as a start for a fuller search. A preview of the contents
of all chapters is provided in Section 1.8.
The methods used in this book are mostly based on likelihoods. To read this book it
would be helpful to have at least a knowledge of what a likelihood function is, and that
the parameters maximising the likelihood are called maximum likelihood estimators. If
properties (such as an asymptotic distribution of maximum likelihood estimators) are
needed, we state the required results. We further assume that the readers have had at least
an applied regression course, and have some familiarity with basic matrix computations.
This book is intended for those interested in model selection and model averaging.
The level of material should be accessible for master students with a background in
regression modelling. Since we not only provide definitions and worked out examples,
but also give some of the methodology behind model selection and model averaging,
another audience of this book consists of researchers in statistically oriented fields, who
wish to understand better what they are doing when selecting a model. For some of the
statements we provide a derivation or a proof. These can be easily skipped, but might be
interesting for those wanting a deeper understanding. Some of the examples and sections
are marked with a star. These contain material that might be skipped at a first reading.
This book is suitable for teaching. Exercises are provided at the end of each chapter.
For many examples and methods we indicate how they can be applied using available
software. For a master level course, one could decide to leave out most of the derivations
and select the examples depending on the background of the students. Sections which can
be suggested to skip for such a course would be the large-sample analysis of Section 5.2,
the average and Bayesian focussed information criteria of Sections 6.9 and 6.10, and
the end of Chapter 7 (Sections 7.8, 7.9). Chapter 9 (certainly to be included) contains
worked out practical examples.
All data sets used in this book, along with various computer programmes (in R) for
carrying out estimation and model selection via the methods we develop, are avail-
able at the following website: www.econ.kuleuven.be/gerda.claeskens/
public/modelselection.
Model selection and averaging are unusually broad areas. This is witnessed by an
enormous and still expanding literature. The book is not intended as an encyclopaedia
on this topic. Not all interesting methods could be covered. More could be said about
models with growing number of parameters, finite-sample corrections, time series and
other models of dependence, connections to machine learning, bagging and boosting,
etc., but these topics fell by the wayside as the other chapters grew.
Acknowledgements
The authors deeply appreciate the privileges afforded to them by the following uni-
versity departments by creating possibilities for meeting and working together in en-
vironments conducive to research: School of Mathematical Sciences at the Australian
17. P1: SFK/UKS P2: SFK/UKS QC: SFK/UKS T1: SFK
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:41
Preface xiii
National University at Canberra; Department of Mathematics at the University of Oslo;
Department of Statistics at Texas AM University; Institute of Statistics at Université
Catholique de Louvain; and ORSTAT and the Leuven Statistics Research Center at the
Katholieke Universiteit Leuven.
More than a word of thanks is also due to the following individuals, with whom we
had fruitful occasions to discuss various aspects of model selection and model averaging:
Raymond Carroll, Merlise Clyde, Randy Eubank, Arnoldo Frigessi, Alan Gelfand, Axel
Gandy, Ingrid Glad, Peter Hall, Jeff Hart, Alex Koning, Ian McKeague, Axel Munk,
Frank Samaniego, Willi Sauerbrei, Tore Schweder, Geir Storvik, and Odd Aalen.
We thank Diana Gillooly of Cambridge University Press for her advice and support.
The first author thanks her husband, Maarten Jansen, for continuing support and
interest in this work, without which this book would not be here.
Gerda Claeskens and Nils Lid Hjort
Leuven and Oslo
18. P1: SFK/UKS P2: SFK/UKS QC: SFK/UKS T1: SFK
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:41
A guide to notation
This is a list of most of the notation used in this book. The page number refers either to
the first appearance or to the place where the symbol is defined.
AFIC average-weighted focussed information criterion 181
AIC Akaike information criterion 28
AICc corrected AIC 46
aicn(m) AIC difference AIC(m) − AIC(0) 229
a.s. abbreviation for almost surely, the event considered
takes place with probability 1
BFIC Bayesian focussed information criterion 186
BIC Bayesian information criterion 70
BIC∗
alternative approximation in the spirit of BIC 80
BICexact
alternative approximation in the spirit of BIC 79
cAIC conditional AIC 271
c(S), c(S | D) weight given to the submodel indexed by the set S
when performing model average estimation
193
D limit version of Dn, with distribution Nq(δ, Q) 148
Dn equal to
√
n(
γ − γ0) 125
dd deviance difference 91
DIC deviance information criterion 91
E, Eg expected value (with respect to the true
distribution), sometimes explicitly indicated via a
subscript
24
FIC focussed information criterion 147
FIC∗
bias-modified focussed information criterion 150
g(y) true (but unknown) density function of the data 24
g the link function in GLM 47
GLM generalised linear model 46
GS matrix of dimension q × q, related to J 146
xiv
19. P1: SFK/UKS P2: SFK/UKS QC: SFK/UKS T1: SFK
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:41
A guide to notation xv
h(·) hazard rate 85
H(·) cumulative hazard rate 85
Iq identity matrix of size q × q
I(y, θ), I(y | x, θ) second derivative of log-likelihood with respect to θ 26
i.i.d. abbreviation for ‘independent and identically
distributed’
infl influence function 51
J expected value of minus I(Y, θ0), often partitioned
in four blocks
26, 127
JS submatrix of J, only containing those rows and
columns indicated by S
146
Jn, Kn finite sample version of J and K 153
J,
K Jn and Kn but with estimated parameters
K variance of u(Y, θ0) 26
KL Kullback–Leibler distance 24
L, Ln likelihood function 23
, n log-likelihood function 23
mAIC marginal AIC 270
MDL minimum description length 94
mse mean squared error 103
n sample size 23
N(ξ, σ2
) normal distribution with mean ξ and standard
deviation σ
Np(ξ, ) p-variate normal distribution with mean vector ξ
and variance matrix
narr indicating the ‘narrow model’, the smallest model
under consideration
120
OP(zn) of stochastic order zn; that Xn = Op(zn) means that
Xn/zn is bounded in probability
oP(zn) that Xn = op(zn) means that Xn/zn converges to
zero in probability
P probability
p most typically used symbol for the number of
parameters common to all models under
consideration, i.e. the number of parameters in the
narrow model
pD part of the penalty in the DIC 91
q most typically used symbol for the number of
additional parameters, so that p is the number of
parameters in the narrow model and p + q the
number of parameters in the wide model
20. P1: SFK/UKS P2: SFK/UKS QC: SFK/UKS T1: SFK
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:41
xvi A guide to notation
Q the lower-right block of dimension q × q in the
partitioned matrix J−1
127
REML restricted maximum likelihood, residual maximum
likelihood
271
S subset of {1, . . . , q}, used to indicate a submodel
se standard error
SSE error sum of squares 35
TIC Takeuchi’s information criterion, model-robust AIC 43
Tr trace of a matrix, i.e. the sum of its diagonal
elements
U(y, θ), U(y | x, θ) score function, first derivative of log-likelihood
with respect to θ
26
U(y) derivative of log f (y, θ, γ0) with respect to θ,
evaluated at (θ0, γ0)
50, 122
V (y) derivative of log f (y, θ0, γ ) with respect to γ ,
evaluated at (θ0, γ0)
50, 122
Var variance, variance matrix (with respect to the true
distribution)
wide indicating the ‘wide’ or full model, the largest
model under consideration
120
x, xi often used for ‘protected’ covariate, or vector of
covariates, with xi covariate vector for individual
no. i
z, zi often used for ‘open’ additional covariates that may
or may not be included in the finally selected model
δ vector of length q, indicating a certain distance 121
θ0 least false (best approximating) value of the
parameter
25
limiting distribution of the weighted estimator 196
S limiting distribution of
√
n(
μS − μtrue) 148
μ focus parameter, parameter of interest 120
πS |S| × q projection matrix that maps a vector v of
length q to vS of length |S|
τ0 standard deviation of the estimator in the smallest
model
123
φ(u) the standard normal density
φ(u, σ2
) the density of a normal random variable with mean
zero and variance σ2
, N(0, σ2
)
(u) the standard normal cumulative distribution
function
21. P1: SFK/UKS P2: SFK/UKS QC: SFK/UKS T1: SFK
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:41
A guide to notation xvii
φ(x, ) the density of a multivariate normal Nq(0, )
variable
χ2
q (λ) non-central χ2
distribution with q degrees of
freedom and non-centrality parameter λ, with mean
q + λ and variance 2q + 4λ
126
ω vector of length q appearing in the asymptotic
distribution of estimators under local
misspecification
123
d
→ , →d convergence in distribution
p
→ , →p convergence in probability
∼ ‘distributed according to’; so Yi ∼ Pois(ξi ) means
that Yi has a Poisson distribution with parameter ξi
.
=d Xn
.
=d X
n indicates that their difference tends to
zero in probability
22. P1: SFK/UKS P2: SFK/UKS QC: SFK/UKS T1: SFK
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:41
xviii
23. P1: RPU/... P2: RPU
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:45
1
Model selection: data examples and introduction
This book is about making choices. If there are several possibilities for mod-
elling data, which should we take? If multiple explanatory variables are mea-
sured,shouldtheyallbeused,whenformingpredictions,makingclassifications,
or attempting to summarise analysis of what influences response variables, or
will including only a few of them work equally well? If so, which ones should
we best include? Model selection problems arrive in many forms and on widely
varying occasions. In this chapter we present some data examples and discuss
some of the questions they lead to. Later in the book we come back to these
data and suggest some answers. A short preview of what is to come in later
chapters is also provided.
1.1 Introduction
With the current ease of data collection which in many fields of applied science has
become cheaper and cheaper, there is a growing need for methods which point to inter-
esting, important features of the data, and which help to build a model. The model we
wish to construct should be rich enough to explain relations in the data, but on the other
hand simple enough to understand, explain to others, and use. It is when we negotiate this
balance that model selection methods come into play. They provide a formal support to
guide the data users in their search for good models, or for determining which variables
to include when making predictions and classifications.
Statistical model selection is an integral part of almost any data analysis. Model
selection cannot be easily separated from the rest of the analysis, and the question ‘which
model is best’ is not fully well-posed until supplementing information is given about
what one plans to do or hopes to achieve given the choice of a model. The survey of data
examples that follows indicates the broad variety of applications and relevant types of
questions that arise.
Before going on to this survey we shall briefly discuss some of the key general issues
involved in model selection and model averaging.
1
24. P1: RPU/... P2: RPU
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:45
2 Model selection: data examples and introduction
(i) Models are approximations: When dealing with the issues of building or selecting
a model, it needs to be realised that in most situations we will not be able to guess the
‘correct’ or ‘true’ model. Often, this true model, which in the background generated the
data we collected, might be very complex (and almost always unknown). For practical
work with the data it might be of more practical value to work instead with a simpler,
but almost-as-good model: ‘All models are wrong, but some are useful’, as a maxim
formulated by G. E. P. Box expresses this view. Several model selection methods start
from this perspective.
(ii) The bias–variance trade-off: The balance and interplay between variance and bias
is fundamental in several branches of statistics. In the framework of model fitting and
selectionittakestheformofbalancingsimplicity(fewerparameterstoestimate,leadingto
lower variability, but associated with modelling bias) against complexity (entering more
parameters in a model, e.g. regression parameters for more covariates, means a higher
degreeofvariabilitybutsmallermodellingbias).Statisticalmodelselectionmethodsmust
seek a proper balance between overfitting (a model with too many parameters, more than
actually needed) and underfitting (a model with too few parameters, not capturing the
right signal).
(iii) Parsimony: ‘The principle of parsimony’ takes many forms and has many for-
mulations, in areas ranging from philosophy, physics, arts, communication, and indeed
statistics. The original Ockham’s razor is ‘entities should not be multiplied beyond ne-
cessity’. For statistical modelling a reasonable translation is that only parameters that
really matter ought to be included in a selected model. One might, for example, be willing
to extend a linear regression model to include an extra quadratic term if this manifestly
improves prediction quality, but not otherwise.
(iv) The context: All modelling is rooted in an appropriate scientific context and is for a
certain purpose. As Darwin once wrote, ‘How odd it is that anyone should not see that all
observation must be for or against some view if it is to be of any service’. One must realise
that ‘the context’ is not always a precisely defined concept, and different researchers
might discover or learn different things from the same data sets. Also, different schools
of science might have different preferences for what the aims and purposes are, when
modelling and analysing data. Breiman (2001) discusses ‘the two cultures’ of statistics,
broadly sorting scientific questions into respectively those of prediction and classification
on one hand (where even a ‘black box’ model is fine as long as it works well) and those
of ‘deeper learning about models’ on the other hand (where the discovery of a non-null
parameter is important even when it might not help improve inference precision). Thus
S. Karlin’s statement that ‘The purpose of models is not to fit the data, but to sharpen
the questions’ (in his R. A. Fisher memorial lecture, 1983) is important in some contexts
but less relevant in others. Indeed there are differently spirited model selection methods,
geared towards answering questions raised by different cultures.
25. P1: RPU/... P2: RPU
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:45
1.2 Egyptian skull development 3
(v) The focus: In applied statistics work it is often the case that some quantities or
functions of parameters are more important than others. It is then fruitful to gear model
building and model selection efforts into criteria that favour good performance precisely
for those quantities that are more important. That different aims might lead to differently
selected models, for the same data and the same list of candidate models, should not be
considered a paradox, as it reflects different preferences and different loss functions. In
later chapters we shall in particular work with focussed information criteria that start from
estimating the mean squared error (variance plus squared bias) of candidate estimators,
for a given focus parameter.
(vi) Conflicting recommendations: As is clear from the preceding points, questions
about ‘which model is best’ are inherently more difficult than those of the type ‘for a
given model, how should we carry out inference’. Sometimes different model selection
strategies end up offering different advice, for the same data and the same list of candidate
models. This is not a contradiction as such, but stresses the importance of learning how
the most frequently used selection schemes are constructed and what their aims and
properties are.
(vii) Model averaging: Most selection strategies work by assigning a certain score to
each candidate model. In some cases there might be a clear winner, but sometimes these
scores might reveal that there are several candidates that do almost as well as the winner.
In such cases there may be considerable advantages in combining inference output across
these best models.
1.2 Egyptian skull development
Measurements on skulls of male Egyptians have been collected from different archaeo-
logical eras, with a view towards establishing biometrical differences (if any) and more
generally studying evolutionary aspects. Changes over time are interpreted and discussed
in a context of interbreeding and influx of immigrant populations. The data consist of
four measurements for each of 30 skulls from each of five time eras, originally presented
by Thomson and Randall-Maciver (1905). The five time periods are the early predy-
nastic (around 4000 b.c.), late predynastic (around 3300 b.c.), 12th and 13th dynasties
(around 1850 b.c.), the ptolemaic period (around 200 b.c.), and the Roman period (around
150 a.d.). For each of the 150 skulls, the following measurements are taken (all in mil-
limetres): x1 = maximal breadth of the skull (MB), x2 = basibregmatic height (BH),
x3 = basialveolar length (BL), and x4 = nasal height (NH); see Figure 1.1, adapted from
Manly (1986, page 6). Figure 1.2 gives pairwise scatterplots of the data for the first and
last time period, respectively. Similar plots are easily made for the other time periods.
We notice, for example, that the level of the x1 measurement appears to have increased
while that of the x3 measurement may have decreased somewhat over time. Statistical
modelling and analysis are required to accurately validate such claims.
26. P1: RPU/... P2: RPU
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:45
4 Model selection: data examples and introduction
NH
BL
BH
MB
Fig. 1.1. The four skull measurements x1 = MB, x2 = BH, x3 = BL, x4 = NH; from
Manly (1986, page 6).
There is a four-dimensional vector of observations yt,i associated with skull i and
time period t, for i = 1, . . . , 30 and t = 1, . . . , 5, where t = 1 corresponds to 4000 b.c.,
and so on, up to t = 5 for 150 a.d. We use ȳt,• to denote the four-dimensional vector
of averages across the 30 skulls for time period t. This yields the following summary
measures:
ȳ1,• = (131.37, 133.60, 99.17, 50.53),
ȳ2,• = (132.37, 132.70, 99.07, 50.23),
ȳ3,• = (134.47, 133.80, 96.03, 50.57),
ȳ4,• = (135.50, 132.30, 94.53, 51.97),
ȳ5,• = (136.27, 130.33, 93.50, 51.37).
Standard deviations for the four measurements, computed from averaging variance esti-
mates over the five time periods (in the order MB, BH, BL, NH), are 4.59, 4.85, 4.92,
3.19. We assume that the vectors Yt,i are independent and four-dimensional normally
distributed, with mean vector ξt and variance matrix t for eras t = 1, . . . , 5. However,
it is not given to us how these mean vectors and variance matrices could be struc-
tured, or how they might evolve over time. Hence, although we have specified that data
stem from four-dimensional normal distributions, the model for the data is not yet fully
specified.
We now wish to find a statistical model that provides the clearest explanation of the
main features of these data. Given the information and evolutionary context alluded to
above, searching for good models would involve their ability to answer the following
questions. Do the mean parameters (population averages of the four measurements)
28. P1: RPU/... P2: RPU
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:45
6 Model selection: data examples and introduction
remain the same over the five periods? If not, is there perhaps a linear trend over time?
Or is there no clear structure over time, with all mean parameters different from one
another? These three questions relate to the mean vector. Each situation corresponds to
a different model specification:
(i) If all mean measurements remain constant over the five time periods, we can combine all 150
(5 times 30) measurements for estimating the common mean vector ξ. This is the simplest
model for the mean parameters, and involves four such parameters.
(ii) If we expect a linear trend over time, we can assume that at time period t the mean components
ξt, j are given by formulae of the form ξt, j = αj + βj time(t), for j = 1, 2, 3, 4, where time(t)
is elapsed time from the first era to era t, for t = 1, . . . , 5. Estimating the intercept αj and
slope βj is then sufficient for obtaining estimates of the mean of measurement j at all five
time periods. This model has eight mean parameters.
(iii) In the situation where we do not postulate any structure for the mean vectors, we assume that
the mean vectors ξ1, . . . , ξ5 are possibly different, with no obvious formula for computing
one from the other. This corresponds to five different four-dimensional normal distributions,
with a total of 20 mean parameters. This is the richest or most complex model.
In this particular situation it is clear that model (i) is contained in model (ii) (which
corresponds to the slope parameters βj being equal to zero), and likewise model (ii) is
contained in model (iii). This corresponds to what is called a nested sequence of models,
where simpler models are contained in more complex ones. Some of the model selection
strategies we shall work with in this book are specially constructed for such situations
with nested candidate models, whereas other selection methods are meant to work well
regardless of such constraints.
Other relevant questions related to these data include the following. Is the correlation
structure between the four measurements the same over the five time periods? In other
words, is the correlation between measurements x1 and x2, and so on, the same for all five
time periods? Or can we simplify the correlation structure by taking correlations between
different measurements on the same skull to be equal? Yet another question relates to
the standard deviations. Can we take equal standard deviations for the measurements,
across time? Such questions, if answered in the affirmative, amount to different model
simplifications, and are often associated with improved inference precision since fewer
model parameters need to be estimated. Each of the possible simplifications alluded
to here corresponds to a statistical model formulation for the covariance matrices. In
combination with the different possibilities listed above for modelling the mean vector,
we arrive at a list of different models to choose from.
We come back to this data set in Section 9.1. There we assign to each model a
number, or a score, corresponding to a value of an information criterion. We use two
such information criteria, called the AIC (Akaike’s information criterion, see Chapter 2)
and BIC (the Bayesian information criterion, see Chapter 3). Once each model is assigned
a score, the models are ranked and the best ranked model is selected for further analysis
29. P1: RPU/... P2: RPU
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:45
1.3 Who wrote ‘The Quiet Don’? 7
of the data. For a multi-sample cluster analysis of the same data we refer to Bozdogan
et al. (1994).
1.3 Who wrote ‘The Quiet Don’?
The Nobel Prize in literature 1965 was awarded to Mikhail Sholokhov (1905–1984), for
the epic And Quiet Flows the Don, or The Quiet Don, about Cossack life and the birth
of a new Soviet society. In Russia alone his books have been published in more than
a thousand editions, selling in total more than 60 million copies. But in the autumn of
1974 an article was published in Paris, The Rapids of Quiet Don: the Enigma of the
Novel by the author and critic known as ‘D’. He claimed that ‘The Quiet Don’ was
not at all Sholokhov’s work, but rather that it was written by Fiodor Kriukov, an author
who fought against bolshevism and died in 1920. The article was given credibility and
prestige by none other than Aleksandr Solzhenitsyn (a Nobel prize winner five years
after Sholokhov), who in his preface to D’s book strongly supported D’s conclusion
(Solzhenitsyn, 1974). Are we in fact faced with one of the most flagrant cases of theft in
the history of literature?
An inter-Nordic research team was formed in the course of 1975, captained by Geir
Kjetsaa, a professor of Russian literature at the University of Oslo, with the aim of dis-
entangling the Don mystery. In addition to various linguistic analyses and some doses
of detective work, quantitative data were also gathered, for example relating to sentence
lengths, word lengths, frequencies of certain words and phrases, grammatical character-
istics, etc. These data were extracted from three corpora: (i) Sh, from published work
guaranteed to be by Sholokhov; (ii) Kr, that which with equal trustworthiness came from
the hand of the alternative hypothesis Kriukov; and (iii) QD, the Nobel winning text ‘The
Quiet Don’. Each of the corpora has about 50,000 words.
We shall here focus on the statistical distribution of the number of words used in
sentences, as a possible discriminant between writing styles. Table 1.1 summarises these
data, giving the number of sentences in each corpus with lengths between 1 and 5 words,
between 6 and 10 words, etc. The sentence length distributions are also portrayed in
Figure 1.3, along with fitted curves that are described below. The statistical challenge is
to explore whether there are any sufficiently noteworthy differences between the three
empiricaldistributions,and,ifso,whetheritistheupperorlowerdistributionofFigure1.3
that most resembles the one in the middle.
A simple model for sentence lengths is that of the Poisson, but one sees quickly that
the variance is larger than the mean (in fact, by a factor of around six). Another possibility
is that of a mixed Poisson, where the parameter is not constant but varies in the space
of sentences. If Y given λ is Poisson with this parameter, but λ has a Gamma (a, b)
distribution, then the marginal takes the form
f ∗
(y, a, b) =
ba
(a)
1
y!
(a + y)
(b + 1)a+y
for y = 0, 1, 2, . . . ,
30. P1: RPU/... P2: RPU
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:45
8 Model selection: data examples and introduction
Table 1.1. The Quiet Don: number of sentences Nx in the three corpora Sh,
Kr, QD of the given lengths, along with predicted numbers predx under the
four-parameter model (1.1), and Pearson residuals resx , for the 13 length groups.
Note: The first five columns have been compiled from tables in Kjetsaa et al. (1984).
Nx predx resx
Words
from to Sh Kr QD Sh Kr QD Sh Kr QD
1 5 799 714 684 803.4 717.6 690.1 −0.15 −0.13 −0.23
6 10 1408 1046 1212 1397.0 1038.9 1188.5 0.30 0.22 0.68
11 15 875 787 826 884.8 793.3 854.4 −0.33 −0.22 −0.97
16 20 492 528 480 461.3 504.5 418.7 1.43 1.04 3.00
21 25 285 317 244 275.9 305.2 248.1 0.55 0.67 −0.26
26 30 144 165 121 161.5 174.8 151.1 −1.38 −0.74 −2.45
31 35 78 78 75 91.3 96.1 89.7 −1.40 −1.85 −1.55
36 40 37 44 48 50.3 51.3 52.1 −1.88 −1.02 −0.56
41 45 32 28 31 27.2 26.8 29.8 0.92 0.24 0.23
46 50 13 11 16 14.5 13.7 16.8 −0.39 −0.73 −0.19
51 55 8 8 12 7.6 6.9 9.4 0.14 0.41 0.85
56 60 8 5 3 4.0 3.5 5.2 2.03 0.83 −0.96
61 65 4 5 8 2.1 1.7 2.9 1.36 2.51 3.04
Total: 4183 3736 3760
which is the negative binomial. Its mean is μ = a/b and its variance a/b + a/b2
=
μ(1 + 1/b), indicating the level of over-dispersion. Fitting this two-parameter model to
the data was also found to be too simplistic; patterns are more variegated than those
dictated by a mere negative binomial. Therefore we use the following mixture of a
degenerate negative binomial and another negative binomial, with a modification to
leave out the possibility of having zero words in a sentence:
f (y, p, ξ, a, b) = p
exp(−ξ)ξ y
/y!
1 − exp(−ξ)
+ (1 − p)
f ∗
(y, a, b)
1 − f ∗(0, a, b)
(1.1)
for y = 1, 2, 3, . . . It is this four-parameter family that has been fitted to the data in
Figure 1.3. The model fit is judged adequate, see Table 1.1, which in addition to the
observed number Nx shows the expected or predicted number predx of sentences of
the various lengths, for length groups x = 1, 2, 3, . . . , 13. Also included are Pearson
residuals (Nx − predx )/pred1/2
x . These residuals should essentially be on the standard
normal scale if the parametric model used to produce the predicted numbers is correct;
heretherearenoclearclasheswiththishypothesis,particularlyinviewofthelargesample
sizes involved, with respectively 4183, 3736, 3760 sentences in the three corpora. The
predx numbers in the table come from minimum chi squared fitting for each of the three
31. P1: RPU/... P2: RPU
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:45
1.3 Who wrote ‘The Quiet Don’? 9
0 10 20 30 40 50 60
0.00
0.02
0.04
0.06
Sentence length
Sholokhov
0 10 20 30 40 50 60
0.00
0.02
0.04
0.06
Sentence length
Tikhii
Don
0 10 20 30 40 50 60
0.00
0.02
0.04
0.06
Sentence length
Kriukov
Fig. 1.3. Sentence length distributions, from 1 word to 65 words, for Sholokhov (top),
Kriukov (bottom), and for ‘The Quiet Don’ (middle). Also shown, as continuous curves,
are the distributions (1.1), fitted via maximum likelihood.
corpora, that is, finding parameter estimates to minimise
Pn(θ) =
x
{Nx − predx (θ)}2
predx (θ)2
with respect to the four parameters, where predx (θ) = npx (θ) in terms of the sample size
for the corpus worked with and the inferred probability px (θ) of writing a sentence with
length landing in group x.
The statistical problem may be approached in different ways; see Hjort (2007a) for a
wider discussion. Kjetsaa’s group quite sensibly put up Sholokhov’s authorship as the
null hypothesis, and D’s speculations as the alternative hypothesis, in several of their
analyses. Here we shall formulate the problem in terms of selecting one of three models,
inside the framework of three data sets from the four-parameter family (1.1):
M1: Sholokhovistherightfulauthor,sothattextcorporaShandQDcomefromthesamestatistical
distribution, while Kr represents another;
M2: D and Solzhenitsyn were correct in denouncing Sholokhov, whose text corpus Sh is therefore
not statistically compatible with Kr and QD, which are however coming from the same
distribution; and
M3: Sh, Kr, QD represent three statistically disparate corpora.
32. P1: RPU/... P2: RPU
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:45
10 Model selection: data examples and introduction
8
6
4
2
0 10 12 14
0.0
0.2
0.4
0.6
0.8
1.0
Observation time in years
Estimated
survival
probability
Fig. 1.4. Estimated survival probabilities (Kaplan–Meier curves) for the drug group
(solid line) and placebo group (dashed line) in the study on primary biliary cirrhosis.
Selecting one of these models via statistical methodology will provide an answer to
the question about who is most probably the author. (In this problem formulation
we are disregarding the initial stage of model selection that is associated with us-
ing the parametric (1.1) model for the sentence distributions; the methods we shall
use may be extended to encompass also this additional layer of complication, but this
does not affect the conclusions we reach.) Further discussion and an analysis of this
data set using a method related to the Bayesian information criterion is the topic of
Section 3.3.
1.4 Survival data on primary biliary cirrhosis
PBC (primary biliary cirrhosis) is a condition which leads to progressive loss of liver
function. It is commonly associated with Hepatitis C or high-volume use of alcohol, but
has many other likely causes. The data set we use here for examining risk factors and
treatment methods associated with PBC is the follow-up to the original PBC data set
presented in appendix D of Fleming and Harrington (1991); see Murtaugh et al. (1994)
and the data overview on page 287. This is a randomised double-blinded study where
patients received either the drug D-pencillamine or placebo. Of the 280 patients for
whom the information is included in this data set, 126 died before the end of the study.
Figure 1.4 gives Kaplan–Meier curves, i.e. estimated survival probability curves, for the
two groups. The solid line is for the placebo group, the dashed line for the drug group.
33. P1: RPU/... P2: RPU
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:45
1.4 Survival data on primary biliary cirrhosis 11
This picture already makes clear that no big difference between the two groups is to be
expected.
Besides the information about age (x1, in days, at time of registration to the study) and
on whether placebo or drug is administered (x2), other information about the patients
included
r z1, patient’s gender (0 = male, 1 = female);
r z2, presence of ascites;
r z3, presence of hepatomegaly;
r z4, presence of spiders;
r z5, presence of oedema (with 0 indicating no oedema and no diuretic therapy for oedema, 1/2
for oedema present without diuretics, or oedema resolved by diuretics, and 1 for oedema despite
diuretic therapy);
r z6, serum bilirubin in mg/dl;
r z7, serum cholesterol in mg/dl;
r z8, albumin in gm/dl;
r z9, alkaline phosphatase in U/l;
r z10, serum glutamic-oxaloacetic transaminase (SGOT) in U/ml;
r z11, platelets per cubic ml/1000;
r z12, prothrombin time in seconds; and
r z13, histologic stage of disease.
Here we have made a notational distinction between x1, x2 on the one hand and z1, . . . ,
z13 on the other; this is because we intend to look for good survival models that always
include x1, x2 (‘protected covariates’) but may or may not include any given z j (‘open
covariates’). We make x1 protected since age is known a priori to be influential for
survival, while the decision to make x2 protected too stems from the basic premise and
hope that led to the large study in the first place, that one aims at seeing the effect of drug
versus placebo, if any, in any selected statistical survival model.
The Cox model of proportional hazards expresses the hazard rate for individual i as
hi (s) = h0(s) exp(xt
i β + zt
i γ ) for i = 1, . . . , n,
where β has p = 2 component and γ is a vector of length q = 13. The baseline hazard
function h0(s) is assumed to be continuous and positive over the range of lifetimes of
interest, but is otherwise not specified. This makes the model partly parametric and partly
nonparametric. When fitting the full proportional hazards regression model, we find the
information on the influence of covariates given in Table 1.2. At the pointwise 5% level
of significance, the significant variables are age, oedema, bilirubin, albumin, SGOT,
prothrombin and stage. Using the introduced notation, these are the variables x1, z5, z6,
z8, z10, z12 and z13. The variable drug is not significant; the corresponding p-value is
equal to 0.71.
There are 15 variables measured that possibly have an effect on the lifetime of patients.
The question that arises is whether a model, such as a Cox proportional hazards regression
34. P1: RPU/... P2: RPU
CUUK244-Claeskens 978-0-521-85225-8 January 13, 2008 8:45
12 Model selection: data examples and introduction
Table 1.2. Parameter estimates, together with their standard errors, values of the Wald
Z statistic, and the corresponding p-value for the full model fit of the PBC data in a
Cox regression model. (*) The shown standard errors for variables x1, z7 and z9 should
be multiplied by 10−3
.
Variable coef exp(coef) se(coef) z p-Value
x1 age 0.0001 1.000 0.029(*) 3.483 0.001
x2 drug 0.0715 1.074 0.193 0.371 0.710
z1 gender −0.4746 0.622 0.270 −1.756 0.079
z2 ascites 0.1742 1.190 0.343 0.507 0.610
z3 hepatomegaly 0.0844 1.088 0.235 0.359 0.720
z4 spiders 0.1669 1.182 0.217 0.769 0.440
z5 oedema 0.7703 2.160 0.354 2.173 0.030
z6 bilirubin 0.0849 1.089 0.023 3.648 0.000
z7 cholesterol 0.0003 1.000 0.442(*) 0.569 0.570
z8 albumin −0.6089 0.544 0.288 −2.113 0.035
z9 alkaline 0.0000 1.000 0.038(*) 0.689 0.490
z10 SGOT 0.0043 1.004 0.002 2.298 0.022
z11 platelets 0.0008 1.001 0.001 0.712 0.480
z12 prothrombin 0.3459 1.413 0.107 3.234 0.001
z13 stage 0.3587 1.431 0.162 2.211 0.027
model, needs to include all of them. Incorporating fewer variables in a model would make
the clinical interpretation easier. Do we lose in statistical precision when leaving out some
of the variables? Can we find a subset of the variables that explains the lifetime about
equally well? Model selection methods give an answer here. An ‘information criterion’
assigns a value to each of the possibilities that we deem worthy of consideration. The best
ranked model is then selected. This may happen to be the full model with all variables
included, but does not need to be. In Chapter 9, model selection methods such as Akaike’s
information criterion (Chapter 2) and the Bayesian information criterion (Chapter 3) are
applied to these data.
Leaving out variables will usually have the effect of introducing bias in the estimators.
On the other hand, fewer variables mean fewer unknown parameters to estimate and hence
a smaller variance; cf. general comments in Section 1.1. The mean squared error (mse)
combines these two quantities and is defined as the sum of the squared bias and the
variance. Suppose some focus parameter is studied and that different candidate models
lead to different estimates of this focus parameter. We may consider the mean squared
error of these candidate estimators as measures of quality of the candidate models; the
lower the mse, the better. Considering the mse (or an estimator thereof) as a selection
criterion, we can provide answers to questions of the following type. What are the best
models for analysing respectively survival for men and survival for women, and are these
necessarily the same? Is the best model for predicting the time at which at least 90%
36. considéré comme le patron du ogs, (moul ed darjA^) C'est une
sorte de dieu-lare qui protège contre le mauvais œil l'édifice et ses
habitants. (2) Une croyance analogue existe, à Tunis, à (1) Cette
superstition a été indiquée pour Tunis par E. Vassel -.La Littérature
populaire des Israélites tunisiens. {Rev. Tun., 1906, p. 225-226.) (2)
Dans le Djeiid, on mange quelquefois du serpent, dont la chair passe
pour avoir des effets curatifs.
37. - 13 — l'égard de la tortue. O Au contraire, le hibou
(houma) porte malheur à la maison sur laquelle il se pose. A Nabeul,
quand les femmes prennent une chouette (oum es sobiane), elles lui
disent : Atliini el ahed (-Hc) ou encore ahedni,cQ qui signifie : « Fais-
moi la promesse » (la promesse qu'il n'arrivera pas de mal aux
enfants). (2) Si l'oiseau tend l'aile droite, c'est qu'il consent, l'aile
gauche, c'est qu'il refuse. Mais quelle que soit sa réponse, on le tue
généralement, pour plus de sûreté. Le nom d'o?■, l'oiseau dont
l'influence est funeste pour les enfants. (4) Un texte chaouïa recueilli
par M. Gustave Mercier dans PAourès et publié dans le Bulletin de
Correspondance africaine a trait à la vénération des Cliaouïa pour le
geai. Il semble qu'il y ait là une trace de totémisme. (Note de la
Rédaction.)
38. — 14 iaçon le patron du village, « le Bey de L'Ariana »,
comme on disait familièrement. On raconte qu'un saint liomme avait
déclaré que le bey de la Régence ne pouvait venir à L/Ariana sans
risque de mort, puisque l'agglomération avait déjà un souverain
envoyé par le Ciel. Quant au motif de cette vénération, voici ce qu'en
dit la légende. La première fois où l'oiseau s'était installé sur son
perchoir de maçonnerie ancienne, un quidam avait voulu s'en
emparer. Mal lui en prit, car d'un coup de bec l'échassier lui perça le
crâne. Un autre homme tenta alors l'entreprise en se coiffant d'une
marmite en cuivre, mais la cigogne creva à la fois l'ustensile et la
tête qu'il recouvrait. Autre essai exécuté par uu troisième individu,
qui ceignit son chef de deux chaudrons superposés. Même résultat.
La population reconnut alors dans cette cigogne un envoyé de Dieu.
En 1878, un chasseur européen, ignorant cette particularité, mit en
joue l'oiseau révéré. Aussitôt les villageois de s'armer de bâtons et
d'accourir en masse et de se jeter sur l'imprudent. Ligoté en un tour
de mains, celui-ci allait passer un mauvais quart d'heure, lorsqu'un
Grec qui habitait la localité et y jouissait d'une grande influence le
sauva en intervenant. Non moins vénérés étaient au Kef les pigeons
de Sidi-Cherif..Tout en haut de la ville, dans la kasba, s'élevait la
koubba de ce marabout dont le sanctuaire était le rendez-vous d'une
immense quantité de pigeons qui n'avaient d'autre maître que le
santon et trouvaient un asile inviolable auprès de sa dépouille
mortelle. Parfois leur nombre s'accroissait d'un ou deux volatiles
apportés à Sidi Cherif par leurs possesseurs, offrande destinée à
obtenir l'accomplissement d'un vœu. Tous ces oiseaux étaient
sacrés. Personne n'y louchait et c'eût été un sacrilège que de les
supprimer. Qui leur cherchait noise ne voyait pas finir l'année sans
qu'un malheur éclatât dans sa famille. Du moins, on le prétendait.
Au moment de l'occupation, en 1881, une grosse garnison française
occupa la kasba du Kef. Rôdant un peu partout, les soldats
pénétrèrent dans la chapelle de Sidi Cherif et plus d'un pigeon alla
améliorer l'ordinaire de la troupe. Peu après, la koubba fut
désaffectée et les restes de Sidi Cherif transportés bien loin, à Sidi-
Ahmed-Cherichi, au-dessous des remparts du quartier Ben-Anine.
39. Les volatiles se dispersèrent, et les gens du Kef cessèrent d'offrir des
colombes. Ainsi disparut un usage qui se perdait dans la nuit des
temps. Gagnât et Saladin,qui en ont eu vent lors de leur passage au
Kef peu après l'établissement du protectorat, ont fort opportunément
rappelé (1) que Sicca vantait dans l'antiquité un temple fameux
dédié à Vénus, divinité dont la colombe était l'emblème. Ils pensent
que cet (1) Voyage en Tunisie. Paris, 1894, pages 204 et 205.
40. — 15 — édifice devait se dresser dans les parages de la
kasba, et ils font de la koLibba musulmane le successeur lointain du
sanctuaire de Tanit. Cette hypothèse parait en effet rationnelle. Une
fois de plus notre domination aurait favorisé le pur Islam en balayant
une coutume qui remontait aux plus vieux temps du paganisme.
Cependant il ne faudrait pas trop se hâter de conclure dans ce sens.
A Kairouan, par exemple, il va deux espèces de pigeons : les uns,
appelés pigeons de Kairouan, sont de couleur brune. Ils atteignent
d'assez grosses dimensions. Les autres ont une robe grise avec des
raies noires barrant les ailes, la queue noire et leçon d'un joli vert.
Ce sont les pigeons de Sidi-Saàd-Djerfal, marabout dont la koubba
s'arrondit dans le quartier français au sud-est de la ville. Ils seraient
originaires de La Mecque. Un pèlerin aurait rapporté à Kairouan un
couple de ces oiseaux dont il aurait fait cadeau au santon, et ceux-ci
se seraient ensuite merveilleusement multipliés. Ces pigeons sont
inviolables. Ils se posent un peu partout sur tous les toits de la ville,
mais aucun bon Kairouanais n'ose leur tordre le cou ou les mettre à
la marmite, car il lui arriverait malheur par la suite. Un dicton veut
d'ailleurs que si un impie essayait de cuisiner un de ces oiseaux, la
viande n'en continuerait pas moins à demeurer crue. L'expérience a
prouvé à quelques mécréants que le proverbe était mensonger. Quoi
qu'il en soit, ces volatiles sont protégés par la superstition populaire.
Aussi, au moment des récoltes, se permettentils les pires
déprédations dans les champs environnants ou sur les aires. Il y a
des fondations de grain pour les protégés de Sidi Saàd Djerfal. Plus
d'un indigène, pour obtenir l'intercession du marabout auprès de
Dieu, fait vœu, si la grâce qu'il demande lui est accordée, d'apporter
une ou deux ouibas d'orge ou de blé aux pigeons en question.
Autrefois, du temps où l'achour des céréales se payait en nature) on
emmagasinait tout le produit de cet impôt en ville, mais auparavant
— un bey en avait ordonné ainsi — on prélevait une certaine part
pour les oiseaux chéris de Sidi Saad Djerfal. Les hirondelles sont
également respectées par tous les indigènes, parce qu'on pense
qu'elles viennent de La Mecque. Nul ne les tue ni ne les mange. Je
n'ai pas relevé, en Tunisie, de prohibition analogue à celle de cette
41. kheloua du Sud oranais (kheloua de Si-Slîmane-bou-Semaha) dans
les environs de laquelle on ne doit pas faire cuire d'aliments.O A
Kairouan, nombre de familles répugnent à verser du sang à la []
Les gens qui campent dans ces parages doivent se contenter de
repas froids. Voir Commandant Colonieu : Voyage au Gourara et à V
Aouguerout — 1860. [Bull. Soc. Géogr. Paris, 1 trimestre 1892, p.
71.)
42. — 16 — maison durant le mois de Tacboara. Aussi
s'abstiennent-elles de tuer chez elles poules ou moutons et achètent-
elles toute leur viande au dehors. Au Djerid, les Chabbia de Bit-ech-
Cheria ne mangent pas de poule le jour de l'achoura, contrevenant
ainsi à une coutume quasigénérale. Ce volatile joue un rôle dans
certaines pratiques qui rappellent les sacrifices païens. Dans la
région de Kairouan, avant de creuser un puits, on égorge un coq sur
l'emplacement choisi, afin d'en chasser les démons. De même,
quand on construit une maison, au moment de faire la porte, on tue
sur le seuil une poule ou encore un agneau. On pense que le sang
ainsi versé aura la vertu d'éloigner à jamais iesjnoun. Il m'a été
rapporté que du côté d'El-Oued, les Chaamba n'ont pas de volailles
avec eux. Ils ne peuvent donc cuire ni poules, ni œufs.i^) Mais je ne
sais si cette particularité s'explique par une raison autre que la
quasi-impossibilité de transporter ces volatiles an cours de
déplacements rapides et répétés. Ailleurs, l'abstention de telle ou
telle viande vient d'une sorte de paresse ou d'inertie. Toutes les
rivières de Tunisie abondent en barbeaux, poissons qui ne
constituent pas un plat de roi, mais qui sont néanmoins dignes de
tenter les gens, malheureusement trop nombreux, qui, durant une
partie de l'année, doivent se repaître de racines. Les indigènes n'ont
garde cependant de les prendre. A Nabeul, on ne mange pas de
poulpes et, jadis, on ne mangeait même pas de lièvres, peut-être
parce que cet animal ressemble au chat. Dans le Centre et le Sud,
on n'a pas ce scrupule, et les matous eux-mêmes forment une
nourriture appréciée. Hérodote (2) rapporte que les Libyens, qui
nomadisaient depuis l'Egypte jusqu'au lac Triton, ne mangeaient ni
vaches ni porcs. Même coutume chez les femmes de la ville de
Barcé. Les femmes de la ville de Cyrène s'abstenaient de viande de
vache, et l'bistorien grec nous dit que c'était par respect pour la
déesse Isis, c'est-à-dire par une sorte de totémisme. Il omet de
spécifier quelle raison s'opposait à ce que l'on consommât du porc.
Dans les pays musulmans, la religion interdit aux fidèles de manger
du cochon ou de boire du vin. Cette défense est rigoureusement
observée en général. Il y a cependant quelques exceptions qu'il
43. convient de signaler. Habitués sinon à élever des porcs, du moins à
utiliser pour leur consommation les sangliers tués par plaisir de
chasseur ou pour défendre les cultures, les Berbères des régions
boisées de l'Afrique du Nord ne se plièrent que difficilement et peu à
peu aux (l)DouTTÉ [Op. cit., p. 316) indique que les Rahamna
(autour de Marrakech) ne mangent ni poules, ni œufs. La
répugnance pour les œufs serait fréquente au Maroc, notamment au
Sous et chez les Juifs. (2) Livre IV, §186.
44. - 17 — prescriptions da Coran. Les Ouai-gliaO se
sonviennent d'une époque peu éloignée où, en dépit du livre saint,
ils n'excluaient pas le porc de leur table. Je nie suis laissé dire que
les Mogod(2) prétendent que le Prophète a prohibé non pas le
cochon, mais seulement une certaine partie de cet animal, partie
qu'il a d'ailleurs, assurent-ils, oublié d'indiquer. Dans cette
incertitude, une fois que le halloufer rhaha est dépecé, on mande
une femme ayant ses règles et on la charge de prendre au hasard
un morceau. La femme, durant ses menstrues, étant considérée
comme en état d'impureté,coramunique ce caractère à ce qu'elle
touche. Devenu impur par ce contact, le quartier de venaison est
jeté aux chiens, et les gens du douar se repaissent du restant,
satisfaits d'avoir, par ce stratagème, à la fois appliqué et tourné la
défense religieuse. Il y a là un subterfuge analogue à celui employé
au moyen âge par le réformateur Hamim, qui, préchant sa doctrine
chez les Ghomara du Maroc, affirmait que Mahomet avait proscrit le
porc mais non la femelle de celui-ci. (3) Au demeurant, on mange
encore du sanglier en quelques points de l'Algérie ou du Maroc.'*)
En Tunisie, la viande de sanglier passe pour avoir des propriétés
médicinales. Un peu partoutchez les bédouins, on lui attribue un
pouvoir souverain contre la syphylis,'^) surtout en décembre et
janvier. Aussi de-ci, de-là, quelque malade donne-t-il parfois un
accroc à l'interdiction. Autre recette. Pour guérir les hémorroïdes, on
ouvre le ventre d'un sanglier, à peine tué, et on s'assied sur la plaie
béante. Les émanations qui montent de l'intérieur de l'animal sont,
parait-il, des plus efficaces dans ce cas particulier. ADjerba et
auxKerkenna, avec la qualité de raisin dite asli (mielleux),
lesinsulaires fabriquent un liquide qu'ils se gardent bien d'appeler
chrah (boisson) ou khamr (fermenté). Ce n'est pour eux que du jus
de raisin, du pressé Hiaslr). Ainsi tel moine d'un roman célèbre
qualifiait de poisson une poularde afin d'en pouvoir goûter durant
une période d'abstinence. Le hasir est un vin riche en alcool, titrant
16 à 17 degrés et qui ressemble au madère''') ou ausamos.(7)Il
serait excellent s'il était bien préparé et si on ne le conservait
souvent dans des jarres mal odorantes. Les Kerkenniens boivent
45. ouvertement le (1) Cette tribu habite, à l'ouest du Kef, une région
montagneuse très boisée. (2) A l'ouest de Bizerte. (3) ElBekri, op.
cit., p. 230. (4) Voir DouTTÉ : Merrakech, 1 lasc. Paris, 190.5, p. 42
et 43. (5) iIème croyance dans certains cantons du Maroc, d'après
Doutté, op. cit., p.4.3. (6) MiNANGOix : Etude sur les cépages
tunisiens. (Bull. Direct. Ayric. et Cojum., 1905, p. 336.) (V)Guébin:
Voyage archéol. dans la Régence de Tunis. Paris, 1862, t. I, p. 206.
46. - 18 hasir, notamment quand ils veulent faire honneur à un
hôte.(^) ABizerte, les indigènes préparent une sorte de vin appelé
}n(/helli,c'eslà-dire «bouilli». Ils l'obtiennent, en effet, en faisant
macérer quelque temps puis bouillir le raisin. On a ainsi un produit
assez alcoolisé que l'on colle au moyen d'une pincée ou deux d'une
argile blanchâtre appelée simplement touba. Dans le nord de la
Tunisie, on ne mange ni rats, ni chiens, ni sauterelles,ni chameaux.
Il n'en est pas de même dans le sud, oùles ressources alimentaires,
moindres, amènent les habitants à tirer parti de tout ce qui est
susceptible de servir à leur nourriture. C'est à peu près depuis
Kairouan que le chameau commence à compter parmi les mets
éventuels. La sauterelle ne figure sur les menus qu'au delà de Sfax
et de Gafsa. Cependant, les groupes de population d'origine
méridionale installés dans le Tell y ont conservé à cet égard
l'habitude ancienne. Quand des vols de sauterell es se hasardent du
côté du Fahs, les Trabelsia, établis là depuis plusieurs générations,
ramassent les acridiens dans des sacs elles salent ainsi que cela se
pratique dans la région voisine du Sahara. Les sauterelles sont
généralement préparées en friture. Si ce mets peut paraître bizarre
au premier abordil n'enest pas pour cela plus mauvais, parait-il. (2)
Et après tout les écrevisses ou les crevettes ne sont-elles pas en
honneur chez nos gastronomes? Comme leurs descendants
modernes, les Nasamons de l'antiquité se repaissaient de
sauterelles. (3) Beaucoup de gens du Sud sont cynophages, bien
que le chien soit considéré par les musulmans comme un être impur.
A Gabès, avant l'occupation française, la viande de chien se débitait
parait-il presque ouvertement aux étals des bouchers. En général, on
cache cette coutume parce que ceux qui la suivent craignent les
sarcasmes des Européens ou les reproches de ceux de leurs
coreligionnaires qui se piquent de se conformer au pur Islamisme. La
chair de ce quadrupède passe d'ailleurs pour jouir des propriétés les
plus diverses. A Sfax on s'en sert pour engraisser les fiancées
Israélites,''') dont l'embonpoint est,comme on le sait,un des
principaux attraits. A Djerba, croyance identique. Dans la même île,
cette nourriture (1) Lafitte et Servonnet : Le Golfe de Gahès en
47. 1888. Paris, 1888, p. 98. (2j LoiR-MoNTGAZON {Voyage dans le
Djerid... et le Wad-Reag, Revue de L'Orient, 1844, p. 330) raconte
qu'il a mangé non sans répugnance des sauterelles frites; mais,
ajoute-l-il, «je ne leur trouvai aucun mauvais goût et je crois que je
m'yserais facilement habitué ». Voir sur la sauterelle quelques hadits
dans El Ibchihi -.ElMostatref, traduction Hat, t. II, Paris-Toulon, 1902,
p. 246-2.47. « Les Musulmans, dit cet auteur, s'accordent à regarder
comme permis de manger la chair de sauterelles. » (3) HÉRODOTE,
IV, 172. (4) Lafitte et Servonnet, op. cit., p. 53.
48. - lôest regardée comme un spécifique coulre la syphilis. (')
AGafsa, elle est employée comme reconstituant pour les personnes
qui sortentde maladie, pour les femmes qui viennent d'accoucher,
etc. C'est là sans doute un très vieil usage. Parmi les modernes,
Frank est sans doute le premier qui ait attiré l'attention sur cette
pratique. (2) Une vingtaine d'années plus tard, Von Maltzan consacre
à cette coutume quelques développements. Lors de ses voyages de
1868-69 sur la côte orientale, il passa à Gabès où le hasard voulut
qu'un des notables de la ville lui servit à table un animal à grandes
oreilles, à longue queue et à corps de lièvre, mais pourvu de jambes
que jamais n'avait eues Jeannot-Lapin. Intrigué,Von Maltzan
interrogea son amphitryon, duquel il apprit qu'il avait devant lui un
jeune chien. Von Maltzan ne toucha pas à ce mets bizarre, mais les
gensdupays s'endonnèrentau contraire à cœur joie. Le khalifa de
Gabès raconta à ce voyageur, qui hésitait à le croire, comment les
Gabésiens élevaient et engraissaient des chiens exprès pour leur
cuisine, et combien ils étaient friands de cette viande. Une riche
Anglaise, venue à Gabès un certain nombre d'années plus tôt, avait
avec elle un mops qu'elle idolâtrait. Sa petite bête fit sensation dans
le pays. Un soir que la dame dinaitchez les femmes du khalifa,
celles-ci ne trouvèrent rien de mieux que de lui offrir son favori
transformé en ragoût. Elles avaient pensé que l'Européenne
n'emmenait ce chien avec elle que dans l'intention d'en faire un jour
un rôti ou une fricassée et elles avaient cru lui faire une surprise
agréable en le lui présentant accommodé à la manière locale. Fureur
de la dame anglaise qui, de retour à Tunis, se plaignit si bien au
consul d'Angleterre, que le Bey, pour avoir la paix, sévit contre le
malheureuxfonctionnaire dont les épouses avaient eu cette
malencontreuse initiative. (3) Von Maltzan indique aussi que
lesDjerbiens sont cynophages.('i) Pour de plus amples
renseignements au sujet de cette pratique, nous renvoyons le
lecteur à l'étude bien connue du docteur Bertholon.(5) Aux notions
qu'elle renferme, bornons-nous à ajouter ceci : (HIdoux : Un été
dans le Sud-Tunisien. Au pays des Troglodytes et des Loto^ phages
(Mém. Soc. Bourguignonne de Géogr.et d'Hist., t. XVIJ. Dijon, 1900,
49. p. 84, note 1. (2) D'' Frank: Tunis. Description de cette Régence,
Tp.W^. Mgérie^Etat Tripolitain-Tunis (collection de l'Univers
Pittoresque), Paris, 1850, parle des goûts canivores des anciens
Carthaginois et des modernes Djerbiens. (3) Op. cit., t. II, p. 401-
406. W Op. cit., t. III, p. 116. (5) La Cynophagie dans l'Afrique du
Nord (Congrès de TA/as^. Carthage-Tunis, 1896, Impartie, p. 207-
208. Voir aussi du même auteur : Exploration anthropologique de
l'île de Gerba, 61 pages. Paris, 1897. (E.xtrait de l'Anthropologie, t.
VIII.) On lira sur l'usage de l'hasir
50. - 20 dans le Sahel, à Sousse et à Mahdia,il ne manque pas
de gensqui,le cas échéant, mangent du chien. A Monastir,on élève
même ce quadrupède dans cette intention comme dans le Sud. La
limite nord de la cynophagie est donc une ligne sinueuse Monastir-
Gafsa-BiskraBou-Saâda,etc. Le rat n'est pas considéré dans le nord
de la Tunisie comme figurant parmi les aliments de l'homme. Mais
dans le sud, les Hamama mangent une espèce de gros campagnol
appelé bou bayadh parce qu'il a le ventre tout blanc alors que le
dessus du corps est d'un brun rougeâtre. Les gens du Djerid et du
Nefzaoua se régalent du rat de palmier (far en nkhalj, rongeur
d'assez grande taille, gris et pouvn d'une longue queue. Sa chair est
regardée comme un excellent spécifique contre les inflammations
que détermine l'abus des dattes. Ne quittons pas la question de
l'alimentation sans signaler que les miséreux des campagnes
s'accommodent, faute de mieux, d'herbes diverses ou de tubercules
parmi lesquels ceux de la talrhouda sont les plus appréciés. Les
bulbes des ophrys ou des orchys sont, au contraire, redoutés des
maris, à cause d'une croyance bizarre. Ces plantes, qu'on rencontre
çà et là dans les montagnes, sont confondues sous le nom d'e/ mita
ou el haïa (la morte et la vivante), parce que leurs racines consistent
en deux bourses analogues aux testicules de l'homme, mais dont
l'une, la mita,Qs{ dit-on desséchée. Si un indigène du sexe masculin
vient à consommer la mita,[ est frappé d'impuissance et il ne guérit
qu'à condition de manger d.haïa sœur. On raconte que les femmes
lassées de leur époux et désireuses de se créer un motif légal de
divorce confectionnent pour leur mari des plats où est mêlée une
miVa dont la Aamjumelle a été soigneusement détruite auparavant.
Non moins intéressantes sont certaines habitudes relatives à l'usage
des animaux de bât. Chez les peuplades de l'intérieur, Drid,
OuledAyar, Frechich, Hamama, la coutume défend aux femmes de
monter sur des chevaux (ou juments) ou sur des ânes, prohibition
qui n'est levée qu'en faveur des fillettes, des vieilles ou des malades.
En principe, la femme qui ne veut pas marcher à pied ne doit se
transporter qu'à dos de mulet ou de chameau. Au Cap-Bon, et sur
d'autres points de la côte, au contraire, les femmes peuvent se
51. jucher sur des ânes sans encourir la réprobation populaire.
Indiquons enfin, pour terminer, une croyance commune à tous les
Bédouins au sujet d'une étoile du groupe d'Argo appelée par
euxl/erla page 37 et sur la cynophagie les pages 38-41. Celles-ci
sont fondamentales sur la question. Sur la cynophagie, quelques
renseignements bibliographiques sont signalés dans DoUTTÉ : op.
cit., p. 42, note 2.
52. - 21 — xem ou encore Sotihaïl. Cet astre, qui est
notreCanope, apparaît pcjur la première fois vers la fiu de juillet
après minuit et on lui attribue à ce moment une influence
pernicieuse sur les chameaux. Durant cette nuit-là, les propriétaires
veillent, et dèsqu'El-Merzem pointe au ciel, vite ils font lever leurs
bêles à grands coups de matraque. Celles qui, obéissant àcetle
injonction ou agissant d'elles-mêmes, se dressent sur leur pattes
sont sûres de n'avoir aucun mal, mais les autres risquent de mourir
dans l'année, touchées qu'elles sont par une force maligne. Le
maître prend soigneusement note des animaux qui sont demeurés
couchés afin de s'en débarrassera bon compte dès qu'il le pourra. El-
Merzem n'est dangereuse que la première nuit. Elle brille ensuite
jusqu'à l'automne sans qu'on ait davantage à s'en préoccuper. Ch.
monchicourt.
53. MUNICIPIUM FURNITANUM Le Corpus Inscriptionum
Latinariun d'Afrique, dans son Supplément, coniiait deux villes
antiques ayant porté lenomde/^ur?ii^A]une dans la Proconsulaire,
l'autre dans la Byzacène. LaxjremièreestsituéeàHenchir-el-
Msaadin,prèsdeBordj-el-Youdi, à trente kilomètres environ de Tunis,
sur la route qui se dirige vers Medjez-el-Bab. La désignation de cette
localité sous la domination romaine est fournie par une base
honorifique à l'empereur Valentinien, consacrée par Yordo
Fumitantis.W On a donné aussi le nom de Ficmi aux ruines de
Leinsa-HenchirBoudja, dans la vallée de l'oued Mahrouf, au pied du
djebel Boudja, dernier prolongement du djebel Serdj.2) Cette
identification repose sur la trouvaille faite par M. Gagnât, dans la
forteresse byzantine de Lemsa, d'une inscription que je reproduis en
partie pour la clarté des explications qui vont suivre : (3) P • M V M
M I 0 • L • F • P A P I R SATVRNINO • SAG • P • A • AX CXIII DEC- il
VI raL MVNICIP FVRNITANI GVICVM-OR D 0 • H 0 N 0 R E M • F L •
0 B TVLISSET- PRON -GVM OR N A M E N T • T E M P • M E R C
oèEXCVSATION-HONOR Viennent ensuite huit lignes assez mutilées
qu'il est inutile de trans crire ici. Avant que ces deux inscriptions,
l'une de Msaadin, l'autre de Lemsa, fussent recueillies, Wilmanns,!'*)
a[)rwsGuérin,i'] avait proposé de placer la ville de Fumi indiquée par
les documents ecclésiastiques^] à Ain-Fourna, dans le haut bassin
de l'oued El-Kebir (oued Miliane); mais dès que le premier de ces
textes eut été signalé, cette hypothèse A] Sur la forme Fumi, cf.
Cagnat. Nouv. explorât, épigr. et arch. en Tunisie, Paris, 1887, p. 20
à 22. (1) Corp. Inscr. Latin.,YUl, 147.^2. (2) Sur ces ruines, cf. J.
Poinssot, Bull. des Antiquités afric, II, 1884, p. 80 et suiv. (3)
Gagnât, op. cit., p. 17; C. /. L.,Vni, 12039. Le même personnage
figurait encore sur une autre inscription du même endroit (C. /.
L.,VIII, 12030) où on relève la mention Furnis; ce texte est très
incomplet. (4)C./. L.,VIII, p. 94. II] Voyage archéol., I, p. 422. B]
Gf.'c. /. L.,VIII, p. 94 et p. 937. Voir aussi p. 1435 et p. 1239.
54. — 23 — fut coiiiballuoC) et Si-hinidl, dans le Supplément du
Corpnn^Viib'dndonna résolument quand les deux furent i)ubliés.'2)
Je voudrais aujourd'hui reprendre la question à roccasion et avec
l'aide d'une récente découverte survenue à Aïn-Fourna.(^) Voici la
teneur de ce nouveau docmnent : (*) Pied estai haut de 1' 05, la
l'ge de 0! 55 (lettres : 0™06); encastré dans la forteresse byzantine
d'Aïn-Fourna : l . V I R I 0 L V P 0 V G Co S OKDINARIO LEGA TO
PROV LYCIAE// RI/ / llliO / / I liilllllllillllllllilillilllllllllllllllilllllll 111/
[|lllllllllllllllllllllllllllllll!llllllll 0 I llllllllilllllll llillllllllllllllll I I I A / / ^ /
1IIIII1IIIIIIIIIIIIIIIII1IIIII1IIIIIIIII • PA T R 0 N O 10. M V N I G I
P I • D D P P Gette base honorifique, malgré son mauvais état de
conservation, est importante à plus d'un litre :'5)elle nous apprend
legentiliced'un consul de l'année 23?, dont nous n'avions jusqu'ici
que le cognomen et supplée ainsi utilement à une lacune desFastes
consulaires ;(6) elle nous montre aussi que, peu aprèscette date,
l'agglomération dont les restes assez considérables se voient auprès
de l'Aïn-Fourna était un mMnici/)i?
55. — 24 — la dénomination de Furni vient de la mention
suivante sur le socle déchiffrédans la forteresse
byzanlinedeLemsa,dont j'ai cité plus haut les premières lignes :
dec{iirio), iivirdl{is) municip{ii) FurnUaniS'^) Cette raison est-elle
suffisante? Je ne le crois pas. Il arrive souvent, en effet, qu'un
personnage ayant rempli une fonction dans une certaine cité figure
sur les inscriptions d'une autre : ici, c'est un bienfaiteur dont les
habitants veulent reconnaître les services et publier les mérites; là,
un défunt dont l'épitaphe énumère les divers emplois; ailleurs, un
généreux donateur qui fait construire un monument dans une ville
où il ne vit pas, mais k laquelle il s'intéresse parce qu'il y
estné,parcequ'ilenestle patron, parcequeluiou sa famille possèdent
des propriétés dans la région; d'autres cas encore peuvent s'offrir.
C'est ainsi qu'à La KesserafCA/isiroj^ on rencontre un decurio
colonmeZ'Ae/e/)Me(Medinet-el-Qdima,prèsdeFeriana);f2)àHenchir-
Blaïet (l'ancienne Tepelié), un decurio in colonia Maxiilitat^a
(Rades); (3) à Timgad, un decurio sp'endidissiinae coloniae
Carthaginiensium ;(^) à Khamissa, un decurio et aedilis coloniae
Siccensis ;^^) à Lambèse, un decurio coloniae Thamogadensium
A^) dans le castellum qm existait à Sidi-Merzoug, un iivir coloniae S
iccensis.i'^'iU serait facile de multiplier les exemples; il suffira de
rappeler les personnages ayant exercé des magistratures ou des
sacerdoces àCarthagedont on relève les noms sur des inscriptions
d'Henchir-Maatria (Numluli),(^) de Dougga (Thugga),(^) d'Henchir-
Douemis (UcliiMajus),^^^) de TKxhdiV (Thibaris).
56. - 25 — Il ne s'ensuit donc pas de la présence sur un texte
d'un nom de ville que l'endroit où la pierre a été déterrée doive
nécessairement ne faire qu'un avec cette ville, qu'Henchir-Boudja,
dans le cas qui nous occupe, se soit forcément appelé Furni, parce
qu'on y déchiffre sur une base de statue les mots : dec. iivi{rdl.
municip. Fumiiani. Eu réalité, les ruinesqui couvrent l'IiencliirBoudja
ont eu une autre désii^jnation ; nous savons par un texte
épigraphique'') encastré dans les murs de la même fortification
byzantine que la cité antique sise à Henchir-Boudja était Limisa, la
ville des Limifienses,(oxi le nom s'est conservé dans l'ethnique
moderne de la source : aïn Lemsa. Dès lors, si l'on adoptait
également l'identification, purement gratuite d'ailleurs, de Furni et
d'Henchir-Boudja, on serait assez embarrassé : il faudrait songer à
deux « cités juxtaposées», (2) à une « commune peut-être double »
ou à « une seule et même commune semblant avoir porté un double
nom »;(3) on devrait accepter « l'identité ou le voisinage immédiat
des deux villes antiques Limisa et Fiirni »(*)et, dans l'usage courant,
dire Fumi-Limisa pour être à la fois clair et exact. Autant de solutions
étranges, pleines de difficultés et d'anomalies. Tout s'éclaircit au
contraire si nous admettons que seule la Limisa romaine, dont le
nom se retrouve dans celui d'Aïn-Lemsa, a existé au pied du djebel
Boudjaetquece sont ses ruines seules qui couvrent l'henchir Boudja.
Quant au mtinicipium Fvrnitanum, puisque rien ne nous oblige à le
localiser en cet endroit, il est sage de le chercher ailleurs. * * * Où
faut-il le chercher? Pour ma part, je n'hésite pas à reprendre
l'hypothèse de Guérin et deWilmanns que j'ai relatée plus haut. (5)
Le municipium Furniianum, c'est Aïn-Fourna, dans la haute vallée de
l'oued El-Kebir. Jusqu'ici nous n'avions pour appuyer cette théorie
que la similitude entre le mot de Furni et celui de Fourna, qui, il est
important de le Regia. Cette identification repose uniquement sur un
texte (C. /. L., VIII, 883) où il s'agit de quelqu'un ayant été, entre
autres, curator splendidissimae coloniae Thimidensiuni Regioruni.
Rien ne prouve que ce soit à l'endroit où cette inscription a été
trouvée que ce personnage ait exercé cette fonction. Il faut
employer les documents de ce genre avec réserve et circonspection;
57. on ne peut s'inspirer d'une règle générale, à priori, pour les utiliser.
(1) C./. L.,VIII, 12036. (2) TissOT, Géogr. camp., II, p. 580; Cagnat,
Nouv. explor., p. 19. (3) TouTAiN,Ct7es romai7ies, p. 386; cf. p. 348.
(4) TissoT, op. cit., p. .081. — « Eodem fere loco vel prope ah eo
(municipium Furnitanum) etiam fuisse Limisensium civitatem »
(Schmidt, dans le C. I. L.,VIII, p. 1211). (5) (^f. Gauckler, loc. cit.
58. remarquer, ne peut pas s'expliquer d'une manière
satisfaisante par l'arabe et doit être, par conséquent, un vocable
antérieur, créé ou plutôt adopté par les Romains, légèrement modifié
par l'usage. Aujourd'hui, nous avons une seconde donnée. Nous
constatons d'une part que Is. Fumi de l'inscription de Lemsa était
municipe sans doute entre 183 et 186; (2) de l'autre, sur le texte
d'Aïn-Fourna, récemment découvert, à la dernière ligne nous lisons
municipium peu après 232. L'identification des deux localités n'est
pas évidente, mais elle a un argument de plus en sa faveur. On a fait
valoir, pour justifier l'attribution du nom deFurni àHenchir-Boudja-
Lemsa, que les deux villes de Furni et de Zama devaient être situées
dans la même région, ainsi qu'on peut l'entendre en lisant dans
Optât de Milèvece récit deCaecilianus,duumvir d'^è^Awgni: « Zama
ieram propter lineas coinparandas cum Saturnino et cum venerimus
illo, mittunl ad me in praeiorio ipsi Christiani ut dicerent : Sacrum
praeceptum ad tepervenit? Ego dixi: Non.sed vidijam exempta; et
Zama et Furnis dirui basilicas et uri scripturas vidi. ))(3) Abthugni
semble bien être représenté aujourd'hui par Henchir-esSouar, à
vingt-cinq kilomètres au sud-sud-est de Zagllouan ;W Zama peut
être la Zama qui correspond à Djama ;(•') pour aller d'une de ces
cités à l'autre, il est normal de passer à Aïn-Fourna, à -Fwrnt^
distante d'ailleurs de Djama d'une trentaine de kilomètres
seulement. D'un autre côté, une porte d'f/'rMSi(Henchir-Soudja,
entre le Bargou et le djebel Serdj) s'appelait /
59. — 27 — elles aurait figure, convoyé d'Aïn-Fourna, le socle
qui fait mention du iiviralis municipii Furnitani et qu,pvm'livemenl,
se âvesssiilsuv le forum de Furni. Ce transport n'a rien d'impossible à
priori ; il y a de nombreux cas analogues où il s'est produit. Il me
semble cependant très peu vraisemblable ici. Les deux cités de
Lemsa et d'AïnFourna sont séparées par le massif du Bargou et,
même si elles étaient reliées par une voie romaine, cette route a dû
toujours être très malaisée aux grosses charges. Pourquoi, dès lors,
véhiculer à grands frais et à grande peine des blocs de pierre qu'on
avait bien mieux sous la main, soit sur place même dans l'ancienne
Z-imzsa^soitdansdes ruines plus accessibles et plus proches, comme
celles de Sidi-Apior-Djedidi ou d'Henchir-Khachoun (Muzuc),k quatre
et dix kilomètres à l'est, en terrain fort peu accidenté? La véritable
explication me parait plus simple. P.MummiusSaturnmws ^ decu 7'io
, iiviralis municipii Furniiani, était avantageusement connu dans la
région où s'élevait -Fwrni; il jouissait d'une haute autorité et d'un
grand crédit dans la province tout entière, car il avait été sac(erdos)
p{rovinciae) A{fricae) a{nni)cxiii ; son appui était précieux et il y
avait intérêt à le conquérir. Aussi Vordo des Z-imisensesO format-ille
projet de lui offrir le flaminat perpétuel, escomptant sans doute
quelque riche présent à cette occasion, pensant se concilier un
protecteur puissant pour l'avenir. f^) Mummius s'excusa et refusa
l'honneur qu'on voulait lui décerner; mais, soucieux de ne pas
tromper l'espoir dont on avait pu se flatter, il fit bâtir le pronaos du
temple de Mercure avec tous ses ornements : pron[aum) cum
orname7it{is) tetnpili) Merc(urii) llllljljlllllijl [feci]tA^) C'est pour le
remercier d'une générosité d'autant plus méritoire qu'il y était moins
obligé, que Vordo Limisensis, reconnaissant, lui dédia la statue et le
piédestal dont nous nous occupons, probablement sur le forum, à
Lemsa même. Ainsi, de sérieux motifs inclinent à croire que le
municipium Furnitanuni était à Aïn-Fourna; rien ne s'oppose à cette
manière de voir. Cette identification demeure à l'état d'hypothèse,
mais d'hypothèse solide et de plus en plus plausible. A. MERLIN. (1)
Le mot ordo sans qualificatif ni déterminatif se rapporte à Vordo de
Lemsa; il n'y avait aucun doute pour ceux qui lisaient l'inscription à
60. Lemsa. Cf. C. /. L., VIlf,883; 12253. (2) 11 se pourrait que Mummius
fût né à Lemsa. Il est de la tribu Papiria, qui se retrouve sur une
épitaphe de cette localité (C. I. L.,VIII, 12043). (3) C. /. L.,VIII,
12030; cf. 12027, 12028, 12029.
61. Welcome to our website – the ideal destination for book lovers and
knowledge seekers. With a mission to inspire endlessly, we offer a
vast collection of books, ranging from classic literary works to
specialized publications, self-development books, and children's
literature. Each book is a new journey of discovery, expanding
knowledge and enriching the soul of the reade
Our website is not just a platform for buying books, but a bridge
connecting readers to the timeless values of culture and wisdom. With
an elegant, user-friendly interface and an intelligent search system,
we are committed to providing a quick and convenient shopping
experience. Additionally, our special promotions and home delivery
services ensure that you save time and fully enjoy the joy of reading.
Let us accompany you on the journey of exploring knowledge and
personal growth!
ebookname.com