Extrair dados de cadeia de PDF de várias páginas Colunas com Python

votos
0

Eu tenho alguns PDFs que são organizados em colunas que eu preciso para raspar. O problema é que cada coluna é multi-página e não é no layout típico para colunas, por exemplo:

******Column 1******************Column 2*************

Sombody once told me Finger and her thumb The world was gonna In the shape of an L Roll me. I ain't the On her forehead. Well *******************NEXT PAGE************************** Sharpest tool in the The years start coming Shed. She was looking And they don't stop coming Kind of dumb with her

Eu tentei usar raspadores PDF padrão como PDFMiner mas ela só vai retornar uma string que se lê como:

Sombody me disse uma vez
o mundo ia
rolar mim. Eu não é o
dedo e o polegar

Qualquer ajuda seria apreciada!

Publicado 02/09/2018 em 05:04
fonte usuário
Em outras línguas...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more