Força do dicionário em Tesseract 3

votos
9

Como faço para aumentar / diminuir a força do dicionário em tesseract 3?

No FAQ ele diz que eu preciso alterar o valor de NON_WERD e GARBAGE_STRING mas eles não existem no Tesseract 3.

Publicado 20/01/2012 em 12:34
fonte usuário
Em outras línguas...                            


2 respostas

votos
4

De acordo com http://code.google.com/p/tesseract-ocr/wiki/FAQ , você alterar essas variáveis:

enable_new_segsearch    1
language_model_penalty_non_freq_dict_word 0.2
language_model_penalty_non_dict_word 0.3

Aumentar seus valores para fazer Tesseract mais inclinado para palavras do dicionário.

Nota: Você deve definir enable_new_segsearch, caso contrário, eles não têm nenhum efeito .

Respondeu 25/11/2012 em 23:51
fonte usuário

votos
1

Para ligar capacidades de saber linguagem de tesseract inteiramente, execute cada uma delas:

tess.setTessVariable("load_system_dawg", "false");
tess.setTessVariable("load_freq_dawg", "false");
tess.setTessVariable("load_punc_dawg", "false");
tess.setTessVariable("load_number_dawg", "false");
tess.setTessVariable("load_unambig_dawg", "false");
tess.setTessVariable("load_bigram_dawg", "false");
tess.setTessVariable("load_fixed_length_dawgs", "false");

Ou, para um controle mais fino, apenas alguns deles. (Eu não sei de um lugar que explica bem o que todos fazem, mas os nomes são bastante explicativo) Este é o código do meu projeto atual, usando Tess4J, mas você pode facilmente traduzi-los para c ++ ou um arquivo de configuração ou o que você necessidade.

Respondeu 05/07/2013 em 15:55
fonte usuário

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more