Le 18/11/2025 à 08:57, Rand Pritelrohm a écrit :
On 2025-11-18 08:53:10, Basile Starynkevitch wrote:

Bonjour la liste

Je recherche un ou plusieurs fichiers textuels dans le domaine public
en français correct dépassant le mégaoctet chacun.

Je songe par exemple aux textes classiques (par exemple "Les
misérables" de Victor Hugo, ou "L'île mystérieuse" de Jules Verne).

Il me faut un texte qui contienne peu de fautes d'orthographes ou de
grammaire. Et dans un format textuel simple (HTML4 serait convenable,
ou même du texte UTF-8)

Il doit respecter les propriétés statistiques du français usuel,
en particulier la lettre la plus fréquente doit bien être le E
(donc le roman https://fr.wikipedia.org/wiki/La_Disparition_(roman)
ne convient pas).

L'usage que j'en ferais est de tester des algorithmes textuels
(recherche de mots, ....)

Librement


Bonjour,

Tu devrais, peut-être, trouver de quoi alimenter tes tests ici :

     https://www.ebooksgratuits.com/

Cordialement
Rand

Il y a aussi le site de la Bibliothèque Nationale de France, section classiques de la littérature française en téléchargement:
https://gallica.bnf.fr/selections/fr/html/les-classiques-de-la-litterature-francaise

Ou d'une manière plus générale le site international archive.org sur lequel il suffit d'effectuer une recherche avec des termes français en spécifiant le type livre
https://archive.org/

Ensuite il suffit de convertir l'ebook en html ou texte. Je n'ai jamais vraiment utilisé mais ça doit pouvoir se faire en GUI en installant le paquet Calibre, qui fournit aussi l'utilitaire ebook-convert en CLI.

Répondre à