C#: Regex for å hente ut en node i et htmldokument

hpfarstad · 21. september 2008

Hei

Driver og leker meg litt med HTML scraping.

Går greit å hente ut f.eks. linker med tittel etc.

Men nå vil jeg ha grupper som er en stor del av dokumentet.

Har feks. en <ul>

Denne inneholder mange <li>

Disse igjen inneholder mange andre tags f.eks. <div>, <a>, <p>.

Det jeg ønsker er å hente ut hver <li> som en match som jeg skal bruke til noe i etterkant.

Eks.

<ul>
 <li>
 <h1>Test</h1>
 <div class="test">
<p>teste teste</p>
 </div>
 <img src="..."/>
 </li>

 <li>
  ... ca samme som over
 </li>

</ul>

Noen ideer?

Mulig det er andre bedre måter å gjøre det på også... DOM og slikt, men har ikke så god greie på det...

Glenn F. Henriksen · 21. september 2008

Du kan bruke denne for å hente ut innholdet i alle list items på siden

<li>\s*(?<listitem>.*?)\s*</li>

Hvis du har flere UL-er på siden kan du bruke denne først til å hente ut alle UL-ene og deretter kjøre det forrige RexExpet på hvert av innholdene.

<ul>\s*(?<list>.*?)\s*</ul>

Tips: Bruk Expresso til å teste og utarbeide RegExper.

hpfarstad · 21. september 2008

Fantastisk!

Hjertlig takk for hjelpen!

Anbefalte innlegg