Existe propriedade em Tesseract OCR para encontrar cordas e excluir página de PDF

votos
0

Eu estava tentando converter uma imagem PDF para PDF texto em Tesseract OCR. Entre eu preciso verificar para página de rosto e remover que a partir do resultado. É possível em si Tessaract OCR para identificar folha de rosto com base em propriedades específicas da página de rosto (Cover page texto correspondente). ou eu tenho que levar toda a saída do resultado OCR tessetact e fornecer minha lógica para fazer a varredura PDF e remover página de rosto. Estou totalmente confuso e qualquer ajuda será apreciada.

Publicado 20/09/2018 em 04:21
fonte usuário
Em outras línguas...                            


1 respostas

votos
0

Não há nenhuma maneira para Tesseract para fazer isso, você deve remover a página de antemão, e, em seguida, entregar a imagem PDF para OCR.

Há uma boa resposta sobre como fazer o que eu lhe disse no https://stackoverflow.com/a/11541587/9740486

Respondeu 20/09/2018 em 11:43
fonte usuário

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more