Gå til innhold

C#: Regex group, sliter med å matche a-tag


Anbefalte innlegg

Hei,

Som en del av et større prosjekt skal jeg hente ut en del info fra imdb, nemlig alle skuespillerne til en gitt film. Jeg bruker WebClient til å laste ned kildekoden til http://imdb.com/title/tt*******/fullcredits og skal parse denne med regex.

 

HMTL:

<td class="nm"><a href="/name/nm00234567/">Tom Hanks</a></td>

sånn ser det ut på imdb. tenkte at dette i regex ville bli noe slikt:

Regex rx = new Regex(@"<td\sclass=.nm.><a\shref\=.(?<url>(/name/nm\d+/)).>(?<name>(.*))</a></td>", RegexOptions.Singleline | RegexOptions.IgnoreCase);

 

men det funker altså ikke. uttrykket finner første skuespiller i filmen, men leser tydeligvis ikke inn den siste delen med </a></td>, for den leser helt til slutten av stringen. dermed finner den selvsagt bare ett treff også. Hva gjør jeg feil her? Regex er ikke helt min sterke side, så kan hende jeg gjør noe veldig grunnleggende feil her.

 

EDIT: bb-code

Endret av hockey500
Lenke til kommentar
Videoannonse
Annonse

Opprett en konto eller logg inn for å kommentere

Du må være et medlem for å kunne skrive en kommentar

Opprett konto

Det er enkelt å melde seg inn for å starte en ny konto!

Start en konto

Logg inn

Har du allerede en konto? Logg inn her.

Logg inn nå
×
×
  • Opprett ny...