Re: [rech] parser ? Picture to pdf ou text ?

Basile Starynkevitch Sat, 21 Jan 2023 07:35:00 -0800


On 21/01/2023 12:49, ptilou wrote:

Bonjour,


J’attaque un travail dedroit compare, il y a pas que les [grands] 
informaticiens et donc je cherche un parser, mais ausi un stockage qui 
m’indexerai beaucoup de document texte ?

Je serais intéressé à comprendre de quel travail de droit comparés'agit-il....

Pour l'analyse de texte on pourrait coder quelque chose en utilisant ungénérateur de parser comme GNU bison<https://www.gnu.org/software/bison/> ou ANTLR <https://www.antlr.org/>ou menhir <https://gallium.inria.fr/~fpottier/menhir/> (qui estfrançais) ou Lemon <https://www.sqlite.org/lemon.html>.

On peut aussi s'inspirer du code de certains shells en logiciel libre(par exemple GNU bash <https://www.gnu.org/software/bash/> ou zsh<https://zsh.org/>) ou d'autres logiciels libres comme RefPerSys<http://refpersys.org/> ou CAIA<https://github.com/bstarynk/caia-pitrat> ou Sqlite<https://www.sqlite.org/>.

Pour le stockage, je suggère d'utiliser une base de données en logiciellibre, par exemple PostGreSQL <https://postgresql.org/> ou MariaDB<https://mariadb.org/> ou Redis <https://redis.io/> ou Sqlite<https://www.sqlite.org/>.


MaxWeberEconomyAndSociety.pdf (archive.org), voila pourquoi je cherche le 
parser !

Pour l’indexation j’ai beaucoup de document je me demande si c’est pas possible 
que freeperso interoge et indexe des base comme legifrance ou hudoc ?

Je n'ai pas compris la question. Free <https://portail.free.fr/> utilisebien sûr des bases de données.

Et concernant vos documents, combien de documents (ou de gigaoctets oude petaoctets) voulez vous stocker?

La lecture du livre de Pierre Delort<https://www.linkedin.com/in/delort/>, collection _Que Sais-je_ au PUF,sur le /Big Data/ serait probablement utile!



Librement.

--
Basile Starynkevitch<[email protected]>
(only mine opinions / les opinions sont miennes uniquement)
92340 Bourg-la-Reine, France
web page: starynkevitch.net/Basile/

Re: [rech] parser ? Picture to pdf ou text ?

Répondre à