Sélectionnez la langue
Select the language
Autres blogs de recherche de notre équipe
-
Articles récents
Sélectionnez la langue
Archives mensuelles : juin 2016
Utiliser NLTK sur Heroku avec Python
Sur le principe du billet « Extraire le texte de PDF avec Python« , je vais créer un service qui utilise le package NLTK. NLTK est un ensemble d’outils pour construire en Python des programmes de traitement des langues. Il nécessite donc … Continuer la lecture
Publié dans Cuisine traitement de textes, SemBib
Laisser un commentaire
Extraire le texte de PDF avec Python
Dans le cadre de notre projet d’analyse de la production scientifique de Télécom ParisTech, je récupère beaucoup de fichiers PDF. Pour en analyser le contenu, j’ai notamment besoin d’en récupérer le texte brut. Par ailleurs, comme indiqué dans le billet … Continuer la lecture
Publié dans Cuisine traitement de textes, SemBib
2 commentaires