expressão regular C #

votos
2

eu tenho página HTML com link como /with_us.php?page=digit e out.php? i = dígito. Como posso obter todos esses links de página, mas será melhor se eu pode coletar imediatamente somente dígitos a partir deste ligações

Publicado 27/08/2009 em 08:04
fonte usuário
Em outras línguas...                            


2 respostas

votos
3

HTML agilidade pack é ideal para isso; este é quase o mesmo que o exemplo na home page:

foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href]")
{
    string href = link["href"].Value;
}

Agora é só analisar "href"; talvez algo como:

Match match = Regex.Match(href, @"[&?]\w+=(\d+)");
int i;
if (match.Success && int.TryParse(match.Groups[1].Value, out i))
{
    Console.WriteLine(i);
}
Respondeu 27/08/2009 em 08:35
fonte usuário

votos
0

Você pode querer tentar realmente analisar a página e transversing o DOM.

Tente: http://www.codeplex.com/htmlagilitypack

Respondeu 27/08/2009 em 08:12
fonte usuário

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more