Analyse statistique et classification automatique de texte avec nltk et scikit-learn

Le but de cette présentation est de donner un aperçu de deux libs python très utiles pour le traitement automatique de données textuelles:

  • nltk (Natural Language Toolkit) permet de "parser" du texte en anglais (et certaines autres langues) pour en extraire la structure des phrases et donc parfois aussi leur sens ;
  • scikit-learn extension pour numpy/scipy qui fournit des implementations de references des principaux algorithmes d'apprentissage artificiel(statistical machine learning)

Pour présenter les concepts mis en jeu de la manière la plus concrète possible, nous prendrons l'exemple de la classification automatiques de documents web (HTML, PDF, email, ...) en fonction du sujet parmis une liste fixe d'une vingtaine de sujet prédéfinis.

links

social