RE: Ubuntu 11.04, είναι εδώ!

Alexandros Georgopoulos Fri, 29 Apr 2011 07:11:20 -0700

το εγκατάσταση release τι ακριβώς είναι ?


> Date: Fri, 29 Apr 2011 14:17:05 +0300
> Subject: Re: Ubuntu 11.04, είναι εδώ!
> From: [email protected]
> To: [email protected]
> CC: [email protected]
> 
> 2011/4/29 Simos Xenitellis <[email protected]>:
> > 2011/4/29 Pantelis  Koukousoulas <[email protected]>:
> >> 2011/4/29 Simos Xenitellis <[email protected]>:
> >>> 2011/4/29 Βασίλης Παπατσίμπας <[email protected]>:
> >>>> Για 2-3 χρόνια κρατούσα το partition των windows για το abbyy finereader
> >>>> (ΟCR) και για δημιουργία DVD από *avi με υπότιτλους* χρησιμοποιώντας το
> >>>> ConvertxToDvD.
> >>>> Το πρώτο [finereader] το ψάχνω ακόμη... [δε δουλεύει καλά  μέσω wine]
> >>>
> >>> Υπάρχει το πρόγραμμα tesseract που δουλεύει και για ελληνικά,
> >>> http://forum.ubuntu-gr.org/viewtopic.php?f=9&t=16669
> >>
> >> Το tesseract δεν προσφέρει ουσιαστικά τίποτα σε αυτό τον τομέα (η είσοδος 
> >> που
> >> περιμένει είναι γραμμές από χαρακτήρες).
> >>
> >> Το project με τις μεγαλύτερες ελπίδες για ανταγωνιστικό engine είναι το 
> >> Ocropus
> >> που αναπτύσσεται με τη βοήθεια της Google.
> >
> > To tesseract3 είναι το «OCR engine» για προγράμματα όπως το OCRopus,
> > που υποστηρίζουν αναγνώριση της διάταξης του κειμένου.
> 
> To tesseract μπορεί να χρησιμοποιηθεί ως μία από τις επιλογές για
> "line recognizer" στο ocropus. Δηλαδή, το ocropus αφού έχει κάνει
> μια φιλότιμη προσπάθεια για να αναγνωρίσει το layout και να
> βρει το κείμενο και το reading order δίνει μία-μία τις "γραμμές"
> του κειμένου σε μορφή εικόνας στο tesseract (ή στο άλλο δικό
> του recognizer) και παίρνει ως έξοδο ας πούμε χαρακτήρες
> γιατί είναι κάπως πιο πολύπλοκο.
> 
> Η μεγάλη δυσκολία όμως στις μέρες μας είναι περισσότερο στο κομμάτι
> του ocropus παρά στο κομμάτι του tesseract (κατά την ταπεινή μου γνώμη).
> Γι αυτό το λόγο μάλιστα τα "εμπορικά" προγράμματα όπως το finereader
> έχουν μια iterative προσέγγιση και συνδυάζουν την αναγνώριση χαρακτήρων
> και layout.
> 
> Από εκεί και πέρα ως καθαρά έλληνες χρήστες η συνεισφορά μας καταρχήν
> μπορεί να είναι η εκπαίδευση των line recognizers του Ocropus (tesseract
> και neural-network-based) στις ελληνικές γραμματοσειρές και glyphs.
> Αυτό μάλιστα είχε προταθεί ως ένα από τα projects του Greek Coding Camp 2009
> αλλά δυστυχώς δεν παρουσιάστηκε μεγάλη συμμετοχή και ένας άνθρωπος
> είναι δύσκολο να τα κάνει όλα :P  (Τουλάχιστον έχω κώδικα πάνω σε python
> και pango/cairo/freetype που κάνει render κείμενο και σκέτους χαρακτήρες
> από μια μεγάλη ποικιλία ελληνικών γραμματοσειρών ώστε να βοηθήσει στη
> γρήγορη εκπαίδευση). Αν κάποιος ενδιαφέρεται να βοηθήσει μπορούμε να
> διοργανώσουμε κάτι ad-hoc στα πλαίσια της FOSSCOMM 2011 στην Πάτρα.
> 
> > Ως ελληνική κοινότητα ΕΛΛΑΚ, θέλουμε το tesseract3 να είναι όσο το
> > δυνατόν καλύτερα εκπαιδευμένο. Μέχρι στιγμής, ο τύπος που έκανε τη
> > δουλειά φαίνεται να είναι κάποιος ξένος. Θα ήταν καλό να κάναμε τη
> > δουλειά ώστε όλες οι τυπικές ελληνικές γραμματοσειρές να
> > αναγνωρίζονται με σαφήνεια.
> 
> Συμφωνώ 100%. Σε καμία περίπτωση δεν είπα ότι πρέπει να παραμελούμε
> τις ΕΛΛΑΚ προσπάθειες σε κάθε χώρο προς όφελος του proprietary λογισμικού.
> Προσωπικά άλλωστε μόνο σε ΕΛΛΑΚ OCR λογισμικό θα με έβλεπα να συνεισφέρω.
> Απλά επειδή όσο καλά και να εκπαιδευτούν οι line recognizers του Ocropus
> finereader δε θα γίνει, ούτε σε ένα μήνα ούτε σε ένα χρόνο, για προσωρινή λύση
> θα πρότεινα την εγκατάσταση του finereader σε virtualbox seamless mode ή
> τη βελτίωση του wine ώστε να παίζει το finereader εκεί.
> 
> Επίσης, για απλά τυπωμένα κείμενα (χωρίς πολύπλοκο layout, πολλά διαγράμματα
> κλπ) το ocropus ήδη είναι χρήσιμο :)  Ιδιαίτερα δε στην περίπτωση που κάποιος
> θέλει να σκανάρει ένα βιβλίο και θέλει το κείμενο μόνο και μόνο για λόγους
> indexing/search στο παραγόμενο PDF (π.χ., google books)
> 
> > Στο χώρο του ΕΛ/ΛΑΚ υπάρχουν πολλά έργα που βλέπουμε ότι μπορούν να
> > γίνουν καλύτερα. Αυτό πρέπει να το θεωρούμε ως ευκαιρία για συμμετοχή
> > διότι υπάρχει κάτι χρήσιμο να κάνουμε, αντί να τα παρατάμε.
> 
> Φυσικά, αλλά πρέπει να είμαστε και ρεαλιστές σχετικά με το πόσο 
> χρόνο/προσπάθεια
> απαιτείται για κάθε βελτίωση ώστε να έχουμε καλό "resource allocation".
> Γι αυτό είπα ότι το ocropus είναι πολύ καλό ως βάση π.χ., διπλωματικών
> (Αναγνώριση πολυτονικού κειμένου, καλύτεροι αλγόριθμοι για layout, καλύτεροι
> αλγόριθμοι για αναγνώριση ελληνικού κειμένου με χρήση χαρακτηριστικών
> μορφολογίας λέξεων ή/και γραμματικής κλπ)
> 
> Π.χ., υπάρχει ήδη ένα master πάνω στην καλύτερη μεταχείριση halftone
> εικόνων από το ocropus με αποτέλεσμα τον καλύτερο διαχωρισμό κειμένου/εικόνας
> αν θυμάμαι καλά.
> 
> > Μπορούμε οι ίδιοι να δοκιμάσουμε και να επιβεβαιώσουμε αν το
> > tesseract3 ως μηχανή είναι χρήσιμη, και για τις δουλειές αρκετών είναι
> > μια καλή μηχανή OCR.
> 
> Σίγουρα είναι χρήσιμο αλλά δυστυχώς όχι αυτή τη στιγμή για το είδος των
> use-cases που ο πολύς κόσμος χρησιμοποιεί το finereader (business documents).
> Αυτή τη στιγμή όμως υπάρχει μια κινητικότητα στο FOSS OCR (tesseract, ocropus,
> cuneiform, gamera) σε σημείο που σε μερικά χρόνια υπάρχει η δυνατότητα να 
> έχουμε
> ισοδύναμο ή καλύτερο από τα εμπορικά πακέτα OCR τουλάχιστον σε ότι αφορά τον
> "πυρήνα" του συστήματος (αλγόριθμοι αναγνώρισης) αν προσπαθήσουμε αρκετά.
> 
> >> Η εκπαίδευση όμως των recognizers του ocropus για ελληνικά είναι κάτι πιο
> >> ρεαλιστικό.
> >>
> >
> > Εμείς μπορούμε να εκπαιδεύσουμε μια μηχανή OCR, διότι η εκπαίδευση
> > είναι εύκολο πράγμα· δίνεις δοκιμαστικές σελίδες και διορθώνεις το
> > αποτέλεσμα που έβγαλε μια μηχανή.
> 
> Συμφωνώ και μπορούμε και να βελτιώσουμε την ποιότητα της "εκπαίδευσης"
> με λίγη "εξυπνάδα" ως προς τη μέθοδο. Αν κάποιος ενδιαφέρεται όπως είπα
> και πιο πάνω μπορούμε να διοργανώσουμε ένα άτυπο event στα πλαίσια
> της FOSSCOMM 2011 για να κάνουμε αυτή τη δουλειά. (Ή φυσικά κάποιος
> που έχει μπόλικο ελεύθερο χρόνο μπορεί να το κάνει μόνος του και να
> το προσφέρει στην κοινότητά μας ως δώρο)
> 
> > Για το OCRopus+tesseract3 βλέπουμε ότι έχουμε την Google να
> > χρηματοδοτεί το εγχείρημα, και μάλλον αυτό το λογισμικό είναι σε χρήση
> > στο Google Docs.
> > Το OCRopus+(tesseract3 ή κάτι άλλο) φαίνεται να έχει μέλλον, και εμείς
> > μπορούμε να ξεκινήσουμε με την εκπαίδευση της μηχανής στα ελληνικά,
> > που είναι εύκολη αρχή.
> 
> Έχει μέλλον σίγουρα αλλά μάλλον για τις χρήσεις που θέλει ο φίλος μας
> που χρησιμοποιεί το finereader, δεν έχει παρόν :P
> 
> Οπότε το καλύτερο είναι να δουλεύει το finereader στο linux ώστε να μη
> χρειάζεται κάποιος partition των windows γι αυτή τη δουλειά και παράλληλα
> να αναπτύσσουμε ως κοινότητα και τη δική μας εναλλακτική/ανταγωνιστική
> λύση για πιο μακροπρόθεσμα.
> 
> Παντελής
> -- 
> Ubuntu-gr mailing list
> [email protected]
> 
> If you do not want to receive any more messages from the ubuntu-gr mailing 
> list, please follow this link and choose unsubscribe:
> https://lists.ubuntu.com/mailman/listinfo/ubuntu-gr
                                          
-------------- next part --------------
An HTML attachment was scrubbed...
URL: 
<https://lists.ubuntu.com/archives/ubuntu-gr/attachments/20110429/42b6de05/attachment.html>
-- 
Ubuntu-gr mailing list
[email protected]

If you do not want to receive any more messages from the ubuntu-gr mailing 
list, please follow this link and choose unsubscribe:
https://lists.ubuntu.com/mailman/listinfo/ubuntu-gr

RE: Ubuntu 11.04, είναι εδώ!

Απαντηση