Hi, I have approximately the same data set (a column of numbers), and the best solution I've discovered so far is to split the image of a column to several images with a single number in each. Another solution I can propose is to set PageSegMode to 4. PSM 4 is "Assume a single column of text of variable sizes", which seems pretty much what you need.
Перевод на родной: Привет, у меня примерно такой же формат данных, как и у тебя (тоже числа в столбик). Самый лучший способ, который мне удалось найти, и которым я сам пользуюсь - это разбить изображение со столбцом чисел на несколько изображений так, чтобы в каждом изображении было ровно одно число, распознавать их уже по-отдельности. Ещё один способ, который может подойти - задать PageSegMode значение 4. В исходном коде написано, что 4 означает "Assume a single column of text of variable sizes" - по-моему, то, что нужно. -- You received this message because you are subscribed to the Google Groups "tesseract-ocr" group. To unsubscribe from this group and stop receiving emails from it, send an email to [email protected]. To post to this group, send email to [email protected]. Visit this group at http://groups.google.com/group/tesseract-ocr. To view this discussion on the web visit https://groups.google.com/d/msgid/tesseract-ocr/d9b33d7a-3ada-43a2-b823-f9cebe042117%40googlegroups.com. For more options, visit https://groups.google.com/d/optout.

