Page 1 sur 1

importer un fichier PDF

Publié : jeu. 02/nov./2017 19:24
par omega
Bonsoir,

J'ai un fichier PDF qui contient une nomenclature de produits pharmaceutiques (environ 1400 produits). Pour éviter la saisie de tous ces produits sur ma table sqlite, je voudrais savoir si c'est possible d'importer ce fichier PDF vers ma table ou vers un fichier texte...

Merci

Re: importer un fichier PDF

Publié : jeu. 02/nov./2017 20:18
par Zorro

Re: importer un fichier PDF

Publié : jeu. 02/nov./2017 21:12
par omega
J'ai vu le module PurePDF, c'est très intéressant, je viens de le télécharger. J'ai parcouru tous (ou la plupart des commandes), mais, comme par hasard, je n'ai pas trouvé ce que je cherche vraiment. La lecture des données du fichier PDF. Presque toutes les commandes existent, sauf la lecture du contenu d'un fichier PDF car c'est cette commande qui va me permettre justement de copier les données du fichier PDF vers ma table sqlite.

Merci encore

Re: importer un fichier PDF

Publié : jeu. 02/nov./2017 22:23
par Ollivier
Bonjour Omega,

je vais te dire une grosse c... erie. Mais je préfère la dire au risque que ça n'en soit une :

Vérifie comment tu peux sélectionner les textes de ton PDF dans un lecteur lambda. Si tu n'obtiens pas une sélection de la forme habituelle comme on a dans un traitement pour sélectionner un mot, une phrase, etc... Mais si tu obtiens plutôt une sélection de type "rectangulaire", ne cherche pas plus loin, ça signifie que ton texte est sous forme d'image (scannée ou pas, qu'importe). Et là c'est un OCR qu'il te faut, (un truc qui lit les mots dans les images et te les transforme en mots plein de faute, mais exploitables) donc chercher une solution en PureBasic risque d'être encore plus coûteux en temps.

Si par contre, tous tes textes dans le PDF semblent sélectionnables au caractère près, là, c'est ok pour PureBasic et falsam pourra éclairer ta lanterne ici. Sinon, si je ne dis pas de onnerie, sous Linux, on peut lire en natif PureBasic un PDF.

Re: importer un fichier PDF

Publié : jeu. 02/nov./2017 23:40
par Patrick88
il existe des convertisseurs "online" pdf vers docx (word)
certains convertissent mieux que d'autres (formatages des textes conservés, image, colonne d'un tableau, etc) faut en essayer plusieurs pour trouver le bon...

pat

Re: importer un fichier PDF

Publié : ven. 03/nov./2017 11:25
par Zorro
omega a écrit :J'ai vu le module PurePDF, c'est très intéressant, je viens de le télécharger. J'ai parcouru tous (ou la plupart des commandes), mais, comme par hasard, je n'ai pas trouvé ce que je cherche vraiment. La lecture des données du fichier PDF. Presque toutes les commandes existent, sauf la lecture du contenu d'un fichier PDF car c'est cette commande qui va me permettre justement de copier les données du fichier PDF vers ma table sqlite.

Merci encore
ici il y a un code qui permet d'extraire le text d'un PDF

http://forums.purebasic.com/english/vie ... 8cf821431e

Re: importer un fichier PDF

Publié : ven. 03/nov./2017 18:30
par Marc56
omega a écrit :J'ai vu le module PurePDF, c'est très intéressant, je viens de le télécharger. J'ai parcouru tous (ou la plupart des commandes), mais, comme par hasard, je n'ai pas trouvé ce que je cherche vraiment. La lecture des données du fichier PDF. Presque toutes les commandes existent, sauf la lecture du contenu d'un fichier PDF car c'est cette commande qui va me permettre justement de copier les données du fichier PDF vers ma table sqlite.
PurePDF est basé sur l’excellente lib FPDF (http://www.fpdf.org/). C'est un générateur de PDF conçu initialement pour PHP. Il ne peut pas extraire le contenu d'un PDF.
Le texte d'un PDF c'est du text brut en langage Postscript.
Pour extraire le texte (à condition qu'il ne soit pas crypté) il faut le plus souvent commencer par décomprimer et ensuite extraire le texte lui-même entre blocs.
Tout est décrit dans le manuel de références (1700 pages en anglais) c'est faisable, tout y est bien décrit, mais c'est ardu :roll:

:wink:

Re: importer un fichier PDF

Publié : ven. 03/nov./2017 19:21
par Zorro
ou lire mon message juste au dessus du tiens :)

Re: importer un fichier PDF

Publié : sam. 04/nov./2017 15:12
par Marc56
Zorro a écrit :ou lire mon message juste au dessus du tiens :)
Je lui ait donné un filet (= la méthode, comment est constitué un document PDF) (en français) c'est plus utile qu'un simple poisson (une/des lib et des exemples)
Enfin, ça vient en complément, si tu préfères :)