Como faço para extrair documentos do Word a partir de dados recuperados a partir de um dispositivo USB?

votos
1

Eu tenho sido capaz de copiar os dados brutos a partir de um drive USB de outra forma inacessíveis em um arquivo monolítico de cerca de 250MB. Em algum lugar em que blob de bytes são cerca de 40 documentos do Word.

  1. Onde posso encontrar documentação sobre a estrutura interna da palavra documentos tais que eu possa analisar o byte-stream, reconhecer onde um documento do Word começa e termina e extrair uma cópia?

  2. Existem quaisquer bibliotecas em qualquer linguagem de programação específica para esta tarefa?

  3. Alguém pode sugerir uma solução de software já existente para esta questão?

Publicado 10/12/2008 em 05:40
fonte usuário
Em outras línguas...                            


2 respostas

votos
5

Duas abordagens:

Você pode montar arquivos como volumes em linux. Desde que o seu blob binário não está muito corrompida, você provavelmente vai ser capaz de quebrar o sistema de arquivos para descobrir onde os arquivos estão localizados. É (era) uma partição FAT ou NTFS?

Se isso não funcionar, eu olhar para esta seqüência de bytes :

D0 CF 11 E0 A1 B1 1A E1

Estes são os "bytes mágicos" de assinaturas de arquivo de documentos de escritório. Eles podem ocorrer aleatoriamente em outros dados, mas é um começo. Você vai correr em questões importantes se os arquivos são fragmentados.

Além disso, tente recriar peças do documento (s) no Word como é, salve-o em um arquivo e extrair pedaços para procurar no blob (usando grep binário ou qualquer outro). Desde que você tenha informações de todas as partes do arquivo que você deve ser capaz de decodificar WHERE na blob eles são. Montando-o de volta para um binário DOC trabalhando parece muito buscado, mas recuperar o resto do texto não deve ser impossível.

Respondeu 10/12/2008 em 05:52
fonte usuário

votos
2

O Apache POI projeto tem uma biblioteca para ler e escrever todos os tipos de documentos MS Office. Se os arquivos estiverem na nova base de XML OOXML formato, você estará olhando para o início de um arquivo zip como o XML é comprimido.

Respondeu 10/12/2008 em 05:46
fonte usuário

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more