Lien 
vers le site de l'ENS
ÉCOLE NORMALE SUPÉRIEUREPARIS
Lien vers l'accueil
lancer la recherche

» Conférences d’après mars 2011 : nouveau site

 

Atelier Apprentissage 2006–2007

Organisé par : Jean-Michel Marin (INRIA Futurs) et Pascal Massart (univ. Paris XI) et Patricia Reynaud-Bouret (CNRS) et Gilles Stoltz (ENS)

Cette année encore, les séances seront de deux types, des exposés de type séminaire, et un groupe de lecture plus proprement dit, qui s’intéressera aux méthodes d’agrégation (séquentielle, bayésienne, etc.).

Ressources en ligne

  • Type I and type II errors for multiple simultaneous hypothesis testing (à l’occasion du pascal Challenge) (le 9 octobre 2006) — Olivier Teytaud
    On présentera des cadres applicatifs où de nombreuses hypothèses sont testées simultanément, des critères de réussite, et diverses méthodes utilisées pour valider les extractions réalisées. On présentera enfin le challenge Pascal associé.
  • Sélection de modèles par rééchantillonnage (le 23 octobre 2006) — Sylvain Arlot
    Nous proposons une procédure de sélection de modèles par pénalisation, où les pénalités sont calculées à partir des données. Les méthodes de rééchantillonnage utilisées sont à rapprocher à la fois de la validation croisée et des complexités de Rademacher locales. Nous montrons, dans le cadre de la régression sur des histogrammes, que l’estimateur résultant vérifie une inégalité oracle non-asymptotique trajectorielle, avec une constante asymptotiquement égale à 1. Des simulations numériques confirment les bons résultats de la méthode, qui sont compétitifs, voire meilleurs, que ceux d’une pénalisation de type Mallows ou de la validation croisée ’10-fold’.
  • Minimax bounds on the distortion of empirical designed vector quantizers (le 20 novembre 2006) — Andràs Antos
    It is shown by earlier results that the minimax expected (test) distortion redundancy of empirical vector quantizers with three or more levels designed from $n$ independent and identically distributed data points is at least $Omega(1/sqrt{n})$ for the class of distributions on a bounded set. In this paper, a much simpler construction and proof for this are given with much better constants. There are similar bounds for the training distortion of the empirically optimal vector quantizer with three or more levels. These rates, however, do not hold for a one-level quantizer. Here the two-level quantizer case is clarified, showing that it already shares the behavior of the general case. Given that the minimax bounds are proved using a construction that involves discrete distributions, one suspects that for the class of distributions with uniformly bounded continuous densities, the expected distortion redundancy might decrease as $o(1/sqrt{n})$ uniformly. It is shown as well that this is not so, proving that the lower bound for the expected test distortion remains true for these subclasses.
  • Iterated Regularization for High-Dimensional Data: from Boosting to Twin Boosting (le 27 novembre 2006) — Peter Bühlmann
    Boosting algorithms have attracted much attention in the machine learning community as well as in related areas in statistics. They have proven to be very competitive in terms of prediction accuracy in a variety of applications. We present a statistical perspective on boosting, especially for high-dimensional data with many more covariates than sample size. We also show that Twin Boosting, an iterated boosting scheme yielding sparser solutions, can often improve upon boosting in terms of feature selection.
  • Choix de modèle(s) en statistique bayesienne : influence de l’a priori et supports algorithmiques (le 18 décembre 2006) — Christian Robert
    [En collaboration avec Gilles Celeux & Jean-Michel Marin]
    Dans l’approche bayésienne, la sélection d’un modèle dans une famille prédéfinie est à la fois évidente d’un point de vue décisionnel et délicate des points de vue de l’influence des a prioris et de l’implémentation pratique. Dans cet exposé didactique, je m’appuierai sur deux articles récents pour décrire les difficultés de modélisation et de calcul rencontrées dans la sélection de modèles ainsi que les solutions possibles mais incomplètes proposées dans la littérature.
  • Maxiset, sélection de modèles et estimation d’images par bandelettes (le 8 janvier 2007) — Erwan Le Pennec

  • Apprentissage par renforcement et apprentissage statistique (le 22 janvier 2007) — Rémi Munos
    L’apprentissage par renforcement s’intéresse à l’acquisition automatisée de capacités pour la prise de décisions en environnement complexe et incertain. Ce domaine de recherche est né des interactions entre la psychologie expérimentale et les neurosciences dans les années 70 et se modélise naturellement comme un problème de contrôle optimal que l’on désire résoudre de manière adaptative. En effet, il s’agit d’apprendre une stratégie d’action optimale « par l’expérience» , ou par « essais-erreurs» , c’est à dire en fonction des récompenses observées résultantes des prises de décisions passées. Remarquons que ce type d’apprentissage est plus difficile que l’apprentissage supervisé car l’information dont on dispose pour apprendre - le renforcement - est moins informatif qu’en apprentissage supervisé, où l’on dispose de la sortie désirée. On peut néanmoins concevoir des algorithmes d’apprentissage par renforcement mettant en oeuvre des séquences de problèmes d’apprentissage supervisés.
    Dans cet exposé, je présenterai le cadre de la programmation dynamique et expliquerai la nécessaire utilisation de fonctions approchées pour résoudre des problèmes de grande dimension. Je justifierai l’intérêt de développer une analyse en norme Lp (essentiellement L1 ou L2) en programmation dynamique, au lieu de l’analyse usuelle en norme sup. Les conséquences en sont la possibilité d’analyser la performance de méthodes d’apprentissage par renforcement (et de programmation dynamique) combinées à des représentations de fonctions, directement en fonction de la capacité des espaces fonctionnels considérés, établissant ainsi des premiers liens entre l’apprentissage par renforcement et l’apprentissage statistique.
  • Test par rééchantillonnage dans un cadre gaussien corrélé (le 12 mars 2007) — Étienne Roquain
    En collaboration avec Sylvain Arlot et Gilles Blanchard.
    Mots-clés : rééchantillonnage, tests multiples, vecteur gaussien corrélé, inégalités de concentration, quantile symétrisé
    Dans ce travail, on construit un test pour détecter les moyennes positives d’un vecteur gaussien, en contrôlant la probabilité d’avoir au moins une fausse alarme (erreur appelée FWER i.e. "family wise error rate"). On considère ici le cas où les $K$ coordonnées du vecteur peuvent être fortement dépendantes, où la matrice de corrélation est inconnue et où on observe $n$ copies i.i.d de ce vecteur avec $n << K$ (cadre non-asymptotique). Ce cadre correspond à plusieurs cas pratiques (analyse de puces à ADN, analyse d’images, etc). On répond à ce problème par deux approches basées sur un rééchantillonnage du supremum de la moyenne empirique des données : la première utilise des résultats de concentration alors que la seconde utilise une astuce de symétrisation de quantile. On montre que ces deux procédures ont des erreurs rigoureusement contrôlées par le niveau souhaité, et ce quels que soient $K$ et $n$.Lorsque les corrélations sont suffisamment importantes, ces méthodes, qui apprennent implicitement ces corrélations, donnent des résultats meilleurs qu’une simple procédure de Bonferonni. Ceci sera illustré par une étude de simulation.
  • Méthodes d’agrégation en classification : optimalité et applications (le 26 mars 2007) — Guillaume Lecué

  • Algorithmes de chemins de régularisation (le 21 mai 2007) — Stéphane Canu

  • Quelques difficultés rencontrées lors de l’application du machine learning à des problèmes pratiques, et ce que la recherche fondamentale pourrait apporter (le 4 juin 2007) — Olivier Bousquet
    Le but de cet exposé n’est pas de rendre compte de résultats nouveaux, mais plutôt de présenter un ensemble d’observations ou de réflexions issues de l’utilisation d’algorithmes d’apprentissage dans un contexte industriel, dans le but de mettre en avant les point bloquants lors du passage à la pratique. Plusieurs pistes de recherche seront évoquées qui pourraient aider à réduire le fossé entre la théorie et la pratique.
  • Sequential Prediction in Stationary and Ergodic Environment (le 2 juillet 2007) — György Ottucsák
    First, a simple on-line procedure is considered for the prediction of a real-valued sequence. The algorithm is based on a combination of several simple predictors. If the sequence is a realization of an unbounded stationary and ergodic random process then the average of squared errors converges, almost surely, to that of the optimum, given by the Bayes predictor. Second, we use the above techniques for prediction of a binary-valued sequence in the setup introduced and studied by Weissman and Merhav (2001, 2004), where only side information is available for the algorithm. If the side information is also binary-valued (i.e. original sequence is corrupted by a binary sequence) and both processes are realizations of stationary and ergodic random processes then the average of the loss converges, almost surely, to the optimum. An analog result is offered for the classification of binary processes.
  • Model Combination To Improve Over Model Selection (le 2 juillet 2007) — Yuhong Yang
    In recent years, model combination, as an alternative to model selection, has gained much attention. However, a number of methodological and theoretical issues are yet to be fully addressed. In this talk, I plan to share some thoughts/results on model selection diagnostics, adaptive model selection, localized model selection/combination, and on some additional theoretical issues if time permits.

Organisateurs

Jean-Michel_Marin

Jean-Michel Marin (INRIA Futurs)

Pascal_Massart

Pascal Massart (univ. Paris XI)

Laboratoire de Mathématique, Université Paris-Sud

Patricia_Reynaud-Bouret

Patricia Reynaud-Bouret (CNRS)

Département de mathématiques et applications de l’Ecole normale supérieure

Gilles_Stoltz

Gilles Stoltz (ENS)

Département de mathématiques et applications de l’Ecole normale supérieure

En savoir plus sur le cycle...


Cours et séminaires d’enseignement

À partir de l’incomplétude : indécidabilité logique et aléatoire physique

Atelier : Les méthodes de datation en archéologie

Atelier Apprentissage 2006–2007

Atelier Mathématiques et biologie 2006–2007

Comique et connaissance : de Filippo Brunelleschi à Giordano Bruno

Conférences de philosophie à l’École normale supérieure : La neuro-éthique

Conférences sur l’histoire de l’animal dans l’Antiquité

Construction de bases localisées adaptées à la géométrie. Applications : statistique, étude de CMB (fonds diffus cosmologique)

Cours d’automne 2009 du Département de physique

Cours d’histoire médiévale : Les villes italiennes au Moyen Âge

Cours d’initiation à l’histoire médiévale

Cours de chimie des lanthanides

Cours de Jonathan Culler : Théorie de la poésie lyrique

Cours de l’ENS : Cours de géophysique

Cours de l’ENS : Mini-cours de mathématiques

Cours de licence de biologie : communautés-écosystèmes

Cours de licence de biologie : comportement-populations

Cours du Département de physique : Ordres de grandeur en physique

Cours sur l’innovation dans l’art moderne et sa géographie

EALing 2004

EALing 2004

EALing 2004

EALing 2004

EALing 2004

EALing 2004

EALing 2005

EALing 2005

EALing 2005

EALing 2005

EALing 2005

EALing 2005

EALing 2005

EALing 2005

EALing 2005

EALing 2006

EALing 2006

EALing 2006

EALing 2006

EALing 2006

EALing 2006

EALing 2006

EALing 2006

EALing 2006

EALing 2006

EALing 2006

EALing 2006

Histoire de la photographie

Histoire transnationale des organisations internationales en Occident

Journée L’action : Délibérer, décider, accomplir

Journée La classification : Problèmes logiques et épistémologiques

La distribution des nombres premiers

Les singularités et leur résolution

Polémiques dans la République des Lettres : querelles, disputes et controverses autour de la figure de Jean-Jacques Rousseau

Séminaire d’histoire et philosophie des sciences : Chimie, science et société

Séminaire de philosophie : Ricoeur et Derrida dans le contexte de la philosophie du "témoignage"

Séminaire de philosophie : The Cognitive Uses of Causal Order

Séminaires de recherche

Atelier Apprentissage 2005–2006

Atelier Apprentissage 2006–2007

Atelier Mathématiques et biologie 2004–2005

Atelier Mathématiques et biologie 2005–2006

Atelier Mathématiques et biologie 2006–2007

Conférences du département d’Études cognitives

Les lundis de la philosophie

Séminaire Archéologie des sanctuaires celtiques

Séminaire Art, création, cognition

Séminaire de l’ITEM : De l’archive manuscrite au scriptorium électronique

Séminaire de l’ITEM : Genèse et correspondances

Séminaire de l’ITEM : Genèses théâtrales

Séminaire de l’ITEM : Genèses, récit d’auteur / récit de critique

Séminaire de l’ITEM : L’écriture et le souci de la langue

Séminaire du Département de biologie

Séminaire du Département de chimie

Séminaire du Laboratoire de géologie

Séminaire du Laboratoire de météorologie dynamique

Séminaire du Laboratoire de physique statistique

Séminaire Environnement et société

Séminaire européen Sciences sociales et santé mentale

Séminaire général du Département d’informatique

Séminaire général du Département de physique

Séminaire général du Département TAO

Séminaire Histoire de l’enseignement supérieur français, XIX°–XX° siècles

Séminaire Histoire et philosophie des mathématiques

Séminaire Littérature et morale à l’âge classique

Séminaire Louis Pasteur de l’ENS : The design of photosynthesis

Séminaire MHD (SEMHD)

Séminaire Modélisation et méthodes statistiques en sciences sociales

Séminaire Musique et mathématiques

Séminaire Musique et philosophie

Séminaire Philosophie et mathématiques

Séminaire Vision algorithmique et biologique

Séminaire Vision artificielle / Équipe Willow

Séminaire Visualiser et modéliser le cerveau