Algorithmique des données massives
ECTS Maths : 3 ECTS Info : 2 Cours de Période 2
- Teacher Stéphane Boucheron
- Website of the course http://stephane-v-boucheron.fr/courses/mmd/
- Link to the course's Moodle https://moodle.u-paris.fr/enrol/index.php?id=7947
- Prérequis
- Modalités de validation du cours Contrôle continu + examen
- Volume horaire du cours 2h de cours + 1h de travaux dirigés par semaine
- Durée 10 semaines
Syllabus
Usage des méthodes randomisées en traitement des données massives et en traitement des flots de données (streaming). Familiarisation avec Spark. Articulation estimation/optimisation
Sommaire
- Plus proches voisins en grande dimension.
- Locally sensitive hashing et au delà
- Applications aux données textuelles (Spark ML Feature Extraction)
- Compressed sensing
- Reconstruction parfaite des signaux parcimonieux par pénalisation $\ell_1$
- Algorithmes (LASSO, AMMD, Coordinate descent, …)
- Données de streaming
- Échantillonnages
- Comptage approximatif (Hyperloglog, Spark SQL)
- Estimation robuste
- Enjeux
- Median of Means
- Relaxation SDP
Bibliographie
- Arnold, T., & Tilton, L. (2015). Humanities data in R: exploring networks, geospatial data, images, and text. Springer.
- Bandeira, A. S. (2015). Ten lectures and forty-two open problems in the mathematics of data science. Lecture Notes.
- Blum, A., Hopcroft, J., & Kannan, R. (2016). Foundations of data science. Vorabversion eines Lehrbuchs.
- Boucheron, S., Lugosi, G., & Massart, P. (2013). Concentration inequalities: A nonasymptotic theory of independence. Oxford university press.
- Chambers, B., and Matei Z. (2018). Spark: the definitive guide: big data processing made simple. O’Reilly Media, Inc..
- Foucart, S., & Rauhut, H. (2013). A mathematical introduction to compressive sensing. Birkhäuser.
- Leskovec, J., Rajaraman, A., & Ullman, J. D. (2014). Mining of massive datasets. Cambridge university press.
- Lugosi, G. (2017). Lectures on Combinatorial Statistics. St. Flour.
- Moitra, A. (2018). Algorithmic aspects of machine learning. Cambridge University Press.
- Vershynin, R. (2018). High-dimensional probability: An introduction with applications in data science. Cambridge University Press.