Gå til innhold

Hente informasjon fra en table på en nettside


Anbefalte innlegg

Skrevet

Jeg holder på å lage et kontrollpanel for nettby.no som henter info hvert minutt, jeg har problemer med å få ned informasjon fra nettsiden, påloggingen går fint og alt annet fungerer men selve infoen får jeg ikke ned...

 

noen som har noen forslag?

 

på forhånd mange takk =)

Videoannonse
Annonse
Skrevet (endret)
Vet du om noen bedre måte å parse tekst på enn regex?

Som Ståle nevner er regex som regel ikke bra når det gjelder html.

http://stackoverflow.com/questions/1732348/regex-match

 

For python er det BeautifulSoup(en legende i python verden)

Nå kjenner jeg ikke så godt til parsing med C# og VB.

 

Et lite eksp på BeautifulSoup parsing.

#Python
import BeautifulSoup as bs

html = """\
<html>
<head>
  <title>html page</title>
</head>
<body>
 <div>Hello world</div>
</body>
</html>
"""

soup = bs.BeautifulSoup(html)
divs = soup.findAll('div')
children = divs[0].contents
my_data = divs[0].string

print my_data  #Hello world

Endret av SNIPPSAT
Skrevet
Det er feil å bruke regex til å parse HTML.

Jeg vet ... har nesten blitt politianmeldt pga. det der en gang i min ville ungdom.

 

Forøvrig vil jeg vel nesten si at det avhenger litt av hva man leter etter og hvordan siden er bygget opp.

Skrevet
Hva gjorde du?

Vi var noen stk. som starta konsulent-as da alt gikk i dass forrige gang, for å ha noe å gjøre, jobber var det jo ikke å få. Så vi trengte noen bedrifter å spamme med markedsføringa vår, og da var Gule Sider et greit sted å plukke. Inntil det viste seg at ISP'en min ikke hadde noe imot å gi fra seg personopplysninger ... men jeg fikk jo prata meg ut av det og benyttet deretter en anonymiseringsproxy isteden. Nå hadde de vel neppe kommet særlig langt med å hevde at det er opphavsrett på emailadresser og at robots.txt er omfattet av det norske lovverket, men jeg følte vel ikke noe spesielt behov for å knote mer med det der. Vi fikk ihvertfall noen oppdrag og sparte statskassa for en hel del kroner i dagpenger... og jeg er fortsatt veldig usikker på hvaslags skade man egentlig påfører en katalogtjeneste ved å bruke den ...

Opprett en konto eller logg inn for å kommentere

Du må være et medlem for å kunne skrive en kommentar

Opprett konto

Det er enkelt å melde seg inn for å starte en ny konto!

Start en konto

Logg inn

Har du allerede en konto? Logg inn her.

Logg inn nå
  • Hvem er aktive   0 medlemmer

    • Ingen innloggede medlemmer aktive
×
×
  • Opprett ny...