Formation Machine Learning

Comprendre et développer des algorithmes de machine learning

Durée 3 jours
Prix(HT) : 1890 €
ML

Prochaines sessions

9 avril 2018
Benoit NOUYRIGAT
Paris
16 mai 2018
Manuel VERRIEZ
Lille

Description

La révolution du Big Data a généré une augmentation fulgurante des volumes de données, des espaces de stockage et de la puissance de calcul permettant de les traiter. Profitant pleinement de ce contexte si favorable, le Machine Learning a considérablement augmenté l'efficacité d'outils que nous utilisons chaque jour, comme les moteurs de recherche et les systèmes de recommandation. Ces champs d'application, qui ne cessent de s'étendre, vont aujourd'hui de la médecine à l'industrie et au secteur financier.

Cette formation propose une présentation étendue du Machine Learning, tel qu'on l'utilise aujourd'hui dans le monde professionnel. Elle a été conçue afin d'être accessible à un public issu d'horizons variés, les pré-requis étant peu nombreux.

Les méthodologies du Machine Learning et ses principaux algorithmes seront présentés, dans leurs concepts comme dans leurs cas typiques d'utilisation. A chaque fois, des mises en application basées sur des domaines diversifiés seront proposées. Elles prendront la forme de labs implémentés en langage Python et utilisant les librairies les plus courantes. Construits de manière didactique, ces labs permettront une approche tangible de la réalité du Machine Learning: la puissance prédictive des modèles, comme leurs limitations, seront étudiées notamment à travers l'analyse quantitative de résultats obtenus. Le sujet moderne et très attracteur du Deep Learning, basé sur les réseaux de neurones, fera l'objet d'une première introduction.

Objectifs

  • Comprendre la Data Science
  • Comprendre le Machine Learning
  • Savoir modéliser un problème de Machine Learning
  • Types de Machine Learning
  • Problématiques du Machine Learning
  • Algorithmes les plus utilisés à travers des exemples d’application
  • Introduction au Deep Learning et aux réseaux de neurones

Pré-requis : 

  • Connaissances de base en algèbre (matrices) et statistiques
  • Connaissances en programmation, idéalement en Python

Public : 

Développeurs, futurs Data Scientists, Architectes, Fonctionnels, Chefs de projets

Pédagogie : 

50% théorie 50% pratique

Programme

Introduction : Big Data & Data Science

Rappels sur l’algèbre (vecteurs et matrices) & statistiques

Machine Learning : Apprentissage automatique

  • Définition et historique
  • Exemples d’applications de l’apprentissage automatique
  • Modélisation d’un problème en Apprentissage automatique
  • Types d’apprentissage (Supervisé/Non supervisé)

Étapes de l’apprentissage

  • Choix du modèle
  • Apprentissage : calcul des paramètres du modèle
  • Sur-apprentissage (Overfitting)
  • Validation, validation croisée, test
  • Critères de comparaison de modèles

Prise en main de Python

  • Le Notebook Jupyter
  • Introduction à la programmation en Python
  • Structures et opérations de bases dans Python
  • LAB 1 : Prise en main de Python
  • Récupération des données
  • Exploration et prétraitement des données (utilisation des librairies Pandas et Numpy)
  • Visualisation des données (utilisation de la librairie Matplotlib)
  • LAB 2 : Exploration et prétraitement des données

Algorithmes d’apprentissage

Régression

  • Cas d’utilisation : Prédiction des prix de vente de maisons
  • Métriques de la régression
  • Régression linéaire
  • Principe et fonctionnement
  • Fonction coût/perte
  • Fonction d’optimisation (algorithme du Gradient Descent)
  • LAB 3 : Régression linéaire
  • Les régressions : multiple, Ridge, Lasso
  • LAB 4 : Régression multiple, régression Ridge & Lasso

Classification

  • Cas d’utilisation : Détection des mails spams
  • Métriques de la classification
  • Régression Logistique
  • SVM (Support Vector Machine)
  • LAB 5 : Régression Logistique & SVM
  • Arbres de décision
  • Forêts aléatoires
  • LAB 6 : Arbres de décision et forêts aléatoires
  • K-NN (les K plus proches voisins)
  • LAB 7 : K-NN

Segmentation & clustering

  • Cas d’utilisation : Segmentation des articles
  • Distances
  • K-moyennes (K-Means)
  • LAB 8 : K-moyennes
  • Spectral clustering
  • Hierarchical clustering
  • LAB 9 : Spectral & Hierarchical clustering

Systèmes de recommandations

  • Cas d’utilisation : Système de recommandation pour un site de e-commerce
  • Content-based filtering
  • LAB 10 : Content-based filtering
  • Collaborative filtering (filtrage collaboratif)
  • LAB 11 : Collaborative filtering

Réduction de dimension

  • Cas d’utilisation : exemple de l’Iris data
  • PCA (Principle Component Analysis)

Apprentissage profond : Deep learning

  • Cas d’utilisation : Classification d’images
  • Réseaux de neurones perceptron multicouches
  • Réseaux de neurones à convulsion
  • Réseaux de neurones récurrents
  • Réseaux autoencoders

Challenges et perspectives