Ce livre a pour objectif de former à une utilisation active et pratique des méthodes statistiques inférentielles, tout en initiant les étudiants à la démarche théorique et mathématique sous-jacente. Il se veut accessible aux étudiants non mathématiciens de filières universitaires. Il présente les concepts et les techniques de base de l'inférence statistique en respectant un compromis équilibré entre un certain formalisme mathématique et un caractère plus appliqué au travers de nombreux exemples et exercices.
L'ouvrage est constitué de deux parties. La première reprend les éléments de la théorie des probabilités indispensables au développement et à la bonne compréhension de l'inférence statistique. La seconde partie aborde, de manière systématique et rigoureuse, les problèmes d'estimation ponctuelle et par intervalle de confiance, les tests d'hypothèses, l'analyse de la variance et le modèle de régression linéaire, pour conclure par une introduction à la théorie de la décision.
For over fourty years, choosing a statistical model thanks to data consisted in optimizing a criterion based on penalized likelihood (H. Akaike, 1973) or penalized least squares (C. Mallows, 1973). These methods are valid for predictive model choice (regression, classification) and for descriptive models (clustering, mixtures). Most of their properties are asymptotic, but a non asymptotic theory has emerged at the end of the last century (Birgé-Massart, 1997). Instead of choosing the best model among several candidates, model aggregation combines different models, often linearly, allowing better predictions. Bayesian statistics provide a useful framework for model choice and model aggregation with Bayesian Model Averaging.
In a purely predictive context and with very few assumptions, ensemble methods or meta-algorithms, such as boosting and random forests, have proven their efficiency.
This volume originates from the collaboration of high-level specialists: Christophe Biernacki (Université de Lille I), Jean-Michel Marin (Université de Montpellier), Pascal Massart (Université de Paris-Sud), Cathy Maugis-Rabusseau (INSA de Toulouse), Mathilde Mougeot (Université Paris Diderot), and Nicolas Vayatis (École Normale Supérieure de Cachan) who were all speakers at the 16th biennal workshop on advanced statistics organized by the French Statistical Society. In this book, the reader will find a synthesis of the methodologies' foundations and of recent work and applications in various fields.
The French Statistical Society (SFdS) is a non-profit organization that promotes the development of statistics, as well as a professional body for all kinds of statisticians working in public and private sectors. Founded in 1997, SFdS is the heir of the Société de Statistique de Paris, established in 1860. SFdS is a corporate member of the International Statistical Institute and a founding member of FENStatS-the Federation of European National Statistical Societies.
La numérisation du monde a pour conséquence la mise à disposition de masses de données inédites, notamment celles provenant du web.
La statistique qui s'est développée autrefois dans un contexte de rareté des données fait face à de nouveaux défis. Donner du sens aux données, développer des algorithmes prédictifs sans nécessairement avoir de modèle génératif, tels sont quelques-uns des objectifs de l'apprentissage statistique. L'apport d'autres disciplines - informatique et optimisation en particulier - est essentiel compte tenu de la nécessité de traiter rapidement les volumes de données impliqués.
On distingue l'apprentissage supervisé, où l'objectif est de prévoir une réponse à partir de prédicteurs, de l'apprentissage non supervisé, qui recherche des structures et des formes sans chercher à prévoir une réponse particulière. Depuis les réseaux de neurones jusqu'aux forêts aléatoires, en passant par les séparateurs à vaste marge (SVM), de nombreux algorithmes ont été développés, ne reposant que faiblement sur des hypothèses probabilistes. Dans ce contexte, la validation, la capacité de généralisation à de nouvelles données et le passage à l'échelle sont donc essentiels.
Cet ouvrage est le fruit de la collaboration entre spécialistes réputés. Sylvain Arlot (Université Paris Sud), Philippe Besse (INSA de Toulouse), Stéphane Canu (INSA de Rouen), Jean-Michel Poggi (Université Paris Descartes & LMO, Université Paris-Sud Orsay), Emmanuel Viennet (Université Paris 13) et Nathalie Villa-Vialaneix (INRA, Toulouse) réunis à l'occasion des 17es Journées d'étude en statistique organisées par la SFdS. Le lecteur y trouvera une synthèse des fondements et des travaux les plus récents dans le domaine de l'apprentissage statistique, avec des applications dans des domaines variés.
À l'exception notable des essais contrôlés et randomisés, la statistique a longtemps évacué le problème de la causalité considérant qu'il relevait du domaine d'application et des théories afférentes. Bien souvent les cours et les manuels de statistique se contentent de rappeler que corrélation n'est pas causalité et passent rapidement à d'autres sujets. Or, que ce soit en économie, épidémiologie, génétique, médecine, marketing, pour ne citer que quelques domaines, la recherche de modèles causaux et de variables actionnables est incontournable. Aujourd'hui la mise à disposition de données massives ou de grande dimension repose la question de la causalité de manière aigüe.
Dans le prolongement des travaux pionniers de Granger (prix Nobel d'économie en 2003), Pearl (prix Turing en 2011), Rosenbaum et Rubin, pour ne nommer qu'eux, une très large palette de modèles et méthodes pour l'analyse causale, éventuellement hors d'une expérience contrôlée, s'est peu à peu constituée depuis le début des années 1980. Citons entre autres les thèmes suivants : issues potentielles, données contrefactuelles, scores de propension, double-robustesse, diagramme de causalité, réseaux bayésiens, systèmes d'équations structurelles.
Cet ouvrage est le fruit de la collaboration entre spécialistes réputés : Léon Bottou (Facebook AI Research), Antoine Chambaz (université de Paris), Daniel Commenges (Institut national de la santé et de la recherche médicale), Isabelle Drouet (université Paris-Sorbonne), Ron Kenett (KPA Group), Vivian Viallon (International Agency for Research on Cancer) réunis à l'occasion des 18e Journées d'étude en statistique organisées par la SFdS. Le lecteur y trouvera une synthèse des fondements et des travaux les plus récents dans le domaine de la causalité statistique, avec des applications dans des domaines variés.
L 'actualité nous renvoie tous les jours une facette du risque : crise financière, accidents d'avion, dérapages du changement climatique, etc.
Quel est le rôle joué par la statistique dans l'analyse de ces risques et quels sont les outils spécifiquement développés pour cela ?
Cet ouvrage est consacré à une présentation des fondements méthodologiques classiques mais aussi récents, et présente des applications à des domaines variés.