Archives de catégorie : Cuisine traitement de textes

Sémantique de la virgule

Il y a quelques temps, dans une rame de métro, mon regard a été attiré par une petite affiche avec le contenu suivant:Le ciel bleu sur nous peut s’effondrer Et la terre peut bien s’écrouler Peu m’importe si tu m’aimes … Continuer la lecture

Publié dans Cuisine traitement de textes, Marquage sémantique | Laisser un commentaire

Utiliser NLTK sur Heroku avec Python

Sur le principe du billet « Extraire le texte de PDF avec Python« , je vais créer un service qui utilise le package NLTK. NLTK est un ensemble d’outils pour construire en Python des programmes de traitement des langues. Il nécessite donc … Continuer la lecture

Publié dans Cuisine traitement de textes, SemBib | Laisser un commentaire

Extraire le texte de PDF avec Python

Dans le cadre de notre projet d’analyse de la production scientifique de Télécom ParisTech, je récupère beaucoup de fichiers PDF. Pour en analyser le contenu, j’ai notamment besoin d’en récupérer le texte brut. Par ailleurs, comme indiqué dans le billet … Continuer la lecture

Publié dans Cuisine traitement de textes, SemBib | 2 commentaires