Comment convertir un fichier PDF en fichier docx avec Python
Azyat Abdelilah, 02/04/2022
A l’aide de la librairie pdf2docx, on peut convertir un fichier pdf en fichier docx avec quelques lignes de code. Cette librairie fournie plusieurs fonctionnalités, par exemple extraire des textes, images, dessins, et bien sûr d’autres, pour plus de détails, n’hésitez pas de visiter son site officiel à l’adresse suivante :
https://pypi.org/project/pdf2docx/
Voici les étapes à suivre ;
1-installer la librairie pdf2docx en tapant la commande suivante dans le terminal ;
pip install pdf2docx (voir la figure ci-dessous), en important les dépendances.
Dans mon cas je l’ai installé directement dans pyCharm community.
L’étape 2 consiste à créer deux variables pour préciser les fichiers d’entrée qui sera de type PDF à convertir, et de sortie qui sera de type docx, dans notre cas : pdf_file et docx_file.
Remarque : pour faciliter la tâche, on a placé le fichier pdf à convertir dans le même projet sur lequel on travaille. Le fichier docx sera enregistré dans le même projet automatiquement.
Donc, voici le résultat à obtenir, d’ailleurs je veux signaler que si le fichier contient des dizaines de pages ça prendre plusieurs minutes, toutefois, on gagne en termes de qualité du fichier obtenu.