Formations Big Data & Data Science

Durée 3 jours Obtenir un devis

Introduction

  • Définition
  • Données structurées et non structurées
  • Exemples d’applications du NLP
  • Lien avec le Machine Learning

Manipulation des chaines de caractère sous Python

  • Interroger les chaines de caractères et reconnaitre les formes
  • Transformer un texte
  • Formater les chaines de caractère
  • LAB 1 : Prise en main des chaines de caractères

Manipulation des expressions régulières

  • Définition des regex
  • Fonctions de base
  • Recherches et manipulation d’expressions régulières
  • LAB 2 : Recherche de regex dans un corpus de texte

Structurer les données

  • Présentation du vocabulaire
  • Matrice termes-documents
  • Définition des tokens et notions de n-grams
  • Indicateurs classiques en NLP : TF-IDF, TF et TF-Binaire
  • Influence des données sur le choix des indicateurs
  • LAB 3 : Des données non structurées aux données structurées

Réduire la dimensionnalité

  • Intérêt de la réduction de dimensionnalité
  • Différence avec la réduction de dimension
  • Présentation des méthodes classiques de réduction
  • Harmonisation, Correction orthographique, Synonymes
  • Stopwords, Lemmatisation et Stemming
  • LAB 4 : Réduire la dimensionnalité d’une matrice Terme-Document et mesurer l’intérêt de la réduction

Applications d’un algorithme d’apprentissage

  • Rappels de Machine Learning
  • Classification ascendante hiérarchique
  • LAB 5 : Implémenter une classification sur des données non structurées
  • LAB 6 : Analyse des sentiments avec NaiveBayesClassifier

Utilisation du Deep learning pour le NLP

  • Réseaux de neurones
  • LAB 7 : DNN Classifier avec TensorFlow
  • Word embedding
    • Représentation Hot-One-Encoding vs. Dense
    • Word Embeddings avec le modèle Word2Vec
    • Transfert Learning : réutilisation d'un embedding
  • LAB 8 : Scoring / Analyse des sentiments
  • Modèles récurrents (RNN) : Modèle Seq2Seq
    • Traduction automatique avec le modèle Seq2Seq