-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 Il 18/04/2013 10:58, Karim ha scritto: > Ciao a tutti, scrivo per sapere se qualcuno di voi si è già imbattuto in > questa problematica o ha qualche consiglio da darmi. > > Ho un blog con circa 700 articoli scritti durante i miei 5 anni di > residenza in Lituania, visto che ho toccato tutti gli argomenti vorrei > farne un libro. > > Per recuperare i post ho visto che c'è un bel script: > > http://python-wordpress-xmlrpc.readthedocs.org/en/latest/examples/posts.html > > > L'ho provato e funziona, ottengo gli articoli. > > Ora il problema è pulirli dal codice html e collezionarli in modo che > siano pubblicabili in un PDF che andrà a finire in mano all'editore per > una prima analisi. >
E' un bel lavoro da fare... > Per la pulizia del testo dall'html ho alcuni dubbi. In alcuni casi > utilizzavo la formattazione classica dell'html per dare enfasi al testo, > a volte includevo dei link e dei video youtube. Forse è meglio > aggiungere i link alla fine dell'articolo giusto per referenza? > Credo di si. > Per creare il pdf potrei generare un documento latex. Pur conoscendo il > latex, non ho mai "automatizzato" il processo, voi sapete qualcosa a > proposito? Probabilmente ti conviene docbook, dato che è XML e per dei semplici articoli non dovresti avere troppi problemi. Vedi se magari trovi qualcosa di già pronto per convertire i post Wordpress in docbook; in seguito dovrai comunque scrivere uno script per ripulire il testo. > [...] Ciao Manlio -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.10 (GNU/Linux) Comment: Using GnuPG with Mozilla - http://enigmail.mozdev.org/ iEYEARECAAYFAlFvuc8ACgkQscQJ24LbaUTcQACfbVq4AtW1tNWCm/jasSeaWFZq 6qsAniRTdzphuW1AL4q6FfnwLhG9eP8f =Q8uZ -----END PGP SIGNATURE----- _______________________________________________ Python mailing list Python@lists.python.it http://lists.python.it/mailman/listinfo/python