Como curl ou wget uma página web?

votos
16

Eu gostaria de fazer um trabalho cron noturno que vai buscar minha página stackoverflow e diffs-lo a partir da página do dia anterior, para que eu possa ver um resumo mudança da minha perguntas, respostas, classificação, etc.

Infelizmente, eu não poderia obter o direito conjunto de cookies, etc, para fazer este trabalho. Alguma ideia?

Além disso, quando o beta estiver concluído, será a minha página de status de ser acessível sem fazer login?

Publicado 05/08/2008 em 21:38
fonte usuário
Em outras línguas...                            


5 respostas

votos
9

Sua página de status está disponível agora sem efetuar login (clique Sair e experimentá-lo). Quando o beta-cookie é desativada, não haverá nada entre você e sua página de status.

Para wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
Respondeu 05/08/2008 em 21:43
fonte usuário

votos
6

De Mark Harrison

E aqui está o que funciona ...

enrolar -s --cookie soba =. https://stackoverflow.com/users

E para wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
Respondeu 05/08/2008 em 23:04
fonte usuário

votos
3

Boa ideia :)

Eu presumo que você tem wget usado

--load-cookies (filename)

pode ajudar um pouco, mas pode ser mais fácil de usar algo como Mecanizar (em Perl ou Python) para imitar um navegador mais amplamente para obter uma boa aranha.

Respondeu 05/08/2008 em 21:43
fonte usuário

votos
2

E aqui está o que funciona ...

curl -s --cookie soba=. http://stackoverflow.com/users
Respondeu 05/08/2008 em 22:22
fonte usuário

votos
2

Eu não conseguia descobrir como obter os cookies para funcionar, mas eu era capaz de chegar a minha página de status no meu navegador, enquanto eu estava desconectado, então eu suponho que isso vai funcionar uma vez stackoverflow se torna público.

Esta é uma idéia interessante, mas você não vai também pegar diffs do código HTML subjacente? Você tem uma estratégia para evitar acabar com um diff do html e não o conteúdo real?

Respondeu 05/08/2008 em 21:46
fonte usuário

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more