Re: Strumento per cercare nelle descrizioni dei pacchetti Debian

2015-12-29 Per discussione Fabio
Ciao Beatrice,

prima di tutto buone feste a tutta la lista!

Il 21/12/2015 09:53, Beatrice Torracca ha scritto:
> già... in effetti ho aggiornato la wordlist sul repository...ma credo
> serva un intervento manuale di qualcuno più in alto...perché non è mai
> cambiata nell'interfaccia.
Infatti deve essere effettuata un'operazione a mano da parte di Martijn,
cosa che con la nuova versione DDTSS2 può essere gestita in autonomia
dai coordinatori da interfaccia Web.

Penso sia utile richiedere di smuovere un pò le acque perchè ritengo che
un progetto come debian meriti uno strumento più avanzato. Questo in
particolare tenendo conto che negli ultimi dieci anni, ~2006 creazione
dell'attuale DDTTSS, il campo delle traduzioni automatiche ha fatto
passi da gigante [1] e [2].

Buona serata
Fabio

[1] https://www.youtube.com/watch?v=G87pHe6mP0I
[2] https://translate.google.com/



Re: Strumento per cercare nelle descrizioni dei pacchetti Debian

2015-12-22 Per discussione Beatrice Torracca
On Monday 21 December 2015, at 21:20 +0100, Alessandro Gandelli wrote:

Ciao,

> mi sono un po' perso nel flusso dei messaggi e magari a questa domanda
> è già stata data una risposta.
> Se così non fosse, qui [1] oltre ai sorgenti del ddtss si trova anche
> un dump del database.
> Se non ricordo male (ci avevo giocato ormai anni fa) viene fatto
> durante l'elaborazione giornaliera delle traduzioni.

no, non aveva risposto nessuno. Grazie mille!! l'ho cercato
parecchio. (altrove :)

grazie ancora,

beatrice



signature.asc
Description: PGP signature


Re: Strumento per cercare nelle descrizioni dei pacchetti Debian

2015-12-21 Per discussione Alessandro Gandelli
Ciao,

Il 21 dicembre 2015 09:53, Beatrice Torracca  ha scritto:
>
> Approfitto visto che sai sicuramente molto sul funzionamento interno del
> sistema. Il database delle traduzioni è disponibile da qualche parte?
> Intendo pubblicamente disponibile.
>

mi sono un po' perso nel flusso dei messaggi e magari a questa domanda
è già stata data una risposta.
Se così non fosse, qui [1] oltre ai sorgenti del ddtss si trova anche
un dump del database.
Se non ricordo male (ci avevo giocato ormai anni fa) viene fatto
durante l'elaborazione giornaliera delle traduzioni.

[1] http://ddtp.debian.net/source/

Ciao,
Alessandro.

>
> beatrice



Re: Strumento per cercare nelle descrizioni dei pacchetti Debian

2015-12-21 Per discussione Beatrice Torracca
On Saturday 19 December 2015, at 20:33 +0100, Fabio wrote:

Ciao Fabio,

> Lo sviluppo di cui parli è DDTSS2 (vedere [1] e [2]).
> Io ho contribuito nello sviluppo del codice nella speranza di dare ai
> traduttori uno strumento più avanzato rispetto all'attuale, però
> purtroppo da quello che conosco ti confermo che è tutto fermo.

Grazie!! Non sapevo (mea culpa) stessi lavorando a questo e mi fa
piacere. Grazie mille!

> E' ancora in attesa una richiesta di pull [3] da febbraio e per cui ho
> contattato più volte Martijn van Oosterhout.
> DDTSS2 ha alcune nuove funzionalità rispetto all'attuale DDTSS e una
> grafica rivisitata:
>  - creazione milestone
>  - migliorata la parte di scambio messaggi/commenti fra i traduttori
>  - possibilità di gestire in autonomia da parte dei coordinatori la wordlist
>   ...

già... in effetti ho aggiornato la wordlist sul repository...ma credo
serva un intervento manuale di qualcuno più in alto...perché non è mai
cambiata nell'interfaccia.

Approfitto visto che sai sicuramente molto sul funzionamento interno del
sistema. Il database delle traduzioni è disponibile da qualche parte?
Intendo pubblicamente disponibile.

Grazie ancora,

beatrice


signature.asc
Description: PGP signature


Re: Strumento per cercare nelle descrizioni dei pacchetti Debian

2015-12-20 Per discussione Daniele Forsi
Il 19 dicembre 2015 10:27, Beatrice Torracca ha scritto:

> Non lo ricordo se l'ho inserito, ma se ti va vuoi mettere una
> sezione/paragrafo su di essa nella pagina del wiki, tra gli strumenti di
> traduzione forse e dove ti sembra ci stia.

ho messo una riga sotto gli script, ma quei commenti nascosti fanno
ripartire la numerazione da 1, idee su come farla proseguire?
https://wiki.debian.org/it/L10n/Italian/DDTP#Strumenti_utilizzati_per_facilitare_il_lavoro_di_traduzione.2Faggiornamento

> DDTSS

> Forse è arrivato il momento di
> smuovere un po' le acque.

smuovi, smuovi, visto poi che Fabio il lavoro l'ha già iniziato

> Volevo farlo in ogni caso anche per vedere di
> capire se è possibile accedere al database del DDTP e per vedere se si
> può incorporare uno script su cui ha lavorato "s3v" che è anch'esso
> molto utile per trovare le descrizioni che richiedono "poco" lavoro per
> essere complete.

altrimenti usiamo greasemonkey, apro un altro thread

> Con la
> distanza di Levehnstein (o come diavolo si scrive) dovrebbe proprio
> essere fattibile. Però non ho idea di quanto tempo richieda il calcolo
> per le migliaia di descrizioni dei pacchetti e soprattutto la lunghezza
> delle stringhe. Immagino pensi di usare l'intero paragrafo come stringa.

sì, vorrei usare i paragrafi, però sono taaanti, secondo i miei
calcoli ieri c'erano 166288 paragrafi diversi tradotti in italiano,
226904 in inglese, ne mancavano 60616, quindi l'ultimo ~23% di
pacchetti contiene il ~26% di paragrafi, speriamo che siano corti :-)

Levenshtein è più adatto per le parole singole, ma nel nostro caso per
le parole singole potrebbe essere più utile un correttore ortogafico
(e se aspell accettasse parole col trattino smetterebbe di segnalare
come errore tutti i nomi dei pacchetti...)

-- 
Daniele Forsi



Re: Strumento per cercare nelle descrizioni dei pacchetti Debian

2015-12-20 Per discussione Daniele Forsi
Il 19 dicembre 2015 20:33, Fabio ha scritto:

> Nel mondo delle tecnologie Big Data si utilizzano programmi per ricerche
> testuali come solr[4] e elasticsearch[5].
> Questi strumenti sono utilizzati per effettuare ricerche testuali anche
> su grandi quantità di dati.

> [4] https://lucene.apache.org/solr/
> [5] https://www.elastic.co/products/elasticsearch

un problema però è scaricando il file delle traduzioni come faccio
ora, la frasi che in un .po diventerebbero "fuzzy" scompaiono da
Translation-it e quindi non le troveresti nel motore di ricerca
proprio quando ti servono come punto di partenza

ho provato elasticsearch e "qualcosa" si ottiene facilmente, basta
convertire il file delle traduzioni in json (poi ci andrebbe costruita
un'interfaccia utente e aggiunte le frasi originali inglesi), se
qualcuno vuole fare una prova di importazione, ho scritto questo,
mando il suo output direttamente a curl, come da riga di esempio:

#!/usr/bin/env python3

# Daniele Forsi 20/12/2015 CC0

# Usage:
# ./control2json.py|curl -s -XPOST
localhost:9200//debian/packages/_bulk --data-binary @/dev/stdin
>/dev/null
# curl -XGET 'localhost:9200/debian/packages/_count?pretty'

import json

filename = "Translation-it"

index = json.dumps({"index": {}})
with open(filename) as f:
item = {"Long-Description": ""}
for line in f.readlines():
if line.startswith(" "):
item["Long-Description"] += line[1:]
elif line == "\n":
print(index)
print(json.dumps(item))
item = {"Long-Description": ""}
else:
key, value = line.strip("\n").split(": ", 1)
item[key] = value

-- 
Daniele Forsi



Re: Strumento per cercare nelle descrizioni dei pacchetti Debian

2015-12-19 Per discussione Fabio
Ciao Beatrice,

Il 19/12/2015 10:27, Beatrice Torracca ha scritto:
> È un vero peccato che lo sviluppo del DDTSS sembra essersi fermato, la
> versione di prova per il futuro era molto promettente, e avrebbe dovuto
> fare qualcosa di simile a mostrare le descrizioni simili con
> suggerimenti di traduzione. Da qualche parte in rete penso sia ancora
> disponibile la versione di prova... Forse è arrivato il momento di
> smuovere un po' le acque.
Lo sviluppo di cui parli è DDTSS2 (vedere [1] e [2]).
Io ho contribuito nello sviluppo del codice nella speranza di dare ai
traduttori uno strumento più avanzato rispetto all'attuale, però
purtroppo da quello che conosco ti confermo che è tutto fermo.
E' ancora in attesa una richiesta di pull [3] da febbraio e per cui ho
contattato più volte Martijn van Oosterhout.
DDTSS2 ha alcune nuove funzionalità rispetto all'attuale DDTSS e una
grafica rivisitata:
 - creazione milestone
 - migliorata la parte di scambio messaggi/commenti fra i traduttori
 - possibilità di gestire in autonomia da parte dei coordinatori la wordlist
  ...

Fra le funzionalità al momento non è stata implementata la parte per i
suggerimenti con descrizioni simili.

>> l'ideale per me sarebbe ottenere dei suggerimenti di traduzione, ad
>> esempio individuando due frasi originali diverse solo per dei dettagli
>> (come Python 2 vs Python 3), qualcuno conosce un sistema già pronto
>> per fare cose del genere? Mi hanno parlato della cluster analysis con
>> R.
Nel mondo delle tecnologie Big Data si utilizzano programmi per ricerche
testuali come solr[4] e elasticsearch[5].
Questi strumenti sono utilizzati per effettuare ricerche testuali anche
su grandi quantità di dati.

[1] https://wiki.debian.org/I18n/DDTP2
[2] https://github.com/kleptog/DDTSS-Django
[3] https://github.com/kleptog/DDTSS-Django/pull/15
[4] https://lucene.apache.org/solr/
[5] https://www.elastic.co/products/elasticsearch

Buon fine settimana
Fabio



Re: Strumento per cercare nelle descrizioni dei pacchetti Debian

2015-12-19 Per discussione Beatrice Torracca
al
On Saturday 12 December 2015, at 17:43 +0100, Daniele Forsi wrote:

Ciao,

> tempo fa ho scritto un'interfaccia web per cercare del testo nelle
> descrizioni dei pacchetti, ieri sera ho aggiornato i dati e spero che
> possa essere utile ad altri

L'ho usata e la uso. Grazie è molto utile.

Non lo ricordo se l'ho inserito, ma se ti va vuoi mettere una
sezione/paragrafo su di essa nella pagina del wiki, tra gli strumenti di
traduzione forse e dove ti sembra ci stia.

Altrimenti con il tempo... prima o poi posso farlo io, ma sarebbe bello
fossi tu stesso a descriverla che sai come funziona.

È un vero peccato che lo sviluppo del DDTSS sembra essersi fermato, la
versione di prova per il futuro era molto promettente, e avrebbe dovuto
fare qualcosa di simile a mostrare le descrizioni simili con
suggerimenti di traduzione. Da qualche parte in rete penso sia ancora
disponibile la versione di prova... Forse è arrivato il momento di
smuovere un po' le acque. Volevo farlo in ogni caso anche per vedere di
capire se è possibile accedere al database del DDTP e per vedere se si
può incorporare uno script su cui ha lavorato "s3v" che è anch'esso
molto utile per trovare le descrizioni che richiedono "poco" lavoro per
essere complete.

> l'ideale per me sarebbe ottenere dei suggerimenti di traduzione, ad
> esempio individuando due frasi originali diverse solo per dei dettagli
> (come Python 2 vs Python 3), qualcuno conosce un sistema già pronto
> per fare cose del genere? Mi hanno parlato della cluster analysis con
> R.

OH! beh effettivamente... io l'ho usata (poco) e vista usare per
sequenze di caratteri molto molto corte (fino ad una decina) e inoltre
mi accontentavo del grafico del cluster non dovevo poi andare
programmaticamente a riprendere le voci nello stesso raggruppamento. Con la
distanza di Levehnstein (o come diavolo si scrive) dovrebbe proprio
essere fattibile. Però non ho idea di quanto tempo richieda il calcolo
per le migliaia di descrizioni dei pacchetti e soprattutto la lunghezza
delle stringhe. Immagino pensi di usare l'intero paragrafo come stringa.

Se fai progressi facci sapere!!

e grazie mille per il lavoro,

beatrice



signature.asc
Description: PGP signature