Jump to content
Sign in to follow this  
Knu753n

Hente informasjon fra en table på en nettside

Recommended Posts

Jeg holder på å lage et kontrollpanel for nettby.no som henter info hvert minutt, jeg har problemer med å få ned informasjon fra nettsiden, påloggingen går fint og alt annet fungerer men selve infoen får jeg ikke ned...

 

noen som har noen forslag?

 

på forhånd mange takk =)

Share this post


Link to post
Vet du om noen bedre måte å parse tekst på enn regex?

Som Ståle nevner er regex som regel ikke bra når det gjelder html.

http://stackoverflow.com/questions/1732348/regex-match

 

For python er det BeautifulSoup(en legende i python verden)

Nå kjenner jeg ikke så godt til parsing med C# og VB.

 

Et lite eksp på BeautifulSoup parsing.

#Python
import BeautifulSoup as bs

html = """\
<html>
<head>
  <title>html page</title>
</head>
<body>
 <div>Hello world</div>
</body>
</html>
"""

soup = bs.BeautifulSoup(html)
divs = soup.findAll('div')
children = divs[0].contents
my_data = divs[0].string

print my_data  #Hello world

Edited by SNIPPSAT

Share this post


Link to post
Det er feil å bruke regex til å parse HTML.

Jeg vet ... har nesten blitt politianmeldt pga. det der en gang i min ville ungdom.

 

Forøvrig vil jeg vel nesten si at det avhenger litt av hva man leter etter og hvordan siden er bygget opp.

Share this post


Link to post
Hva gjorde du?

Vi var noen stk. som starta konsulent-as da alt gikk i dass forrige gang, for å ha noe å gjøre, jobber var det jo ikke å få. Så vi trengte noen bedrifter å spamme med markedsføringa vår, og da var Gule Sider et greit sted å plukke. Inntil det viste seg at ISP'en min ikke hadde noe imot å gi fra seg personopplysninger ... men jeg fikk jo prata meg ut av det og benyttet deretter en anonymiseringsproxy isteden. Nå hadde de vel neppe kommet særlig langt med å hevde at det er opphavsrett på emailadresser og at robots.txt er omfattet av det norske lovverket, men jeg følte vel ikke noe spesielt behov for å knote mer med det der. Vi fikk ihvertfall noen oppdrag og sparte statskassa for en hel del kroner i dagpenger... og jeg er fortsatt veldig usikker på hvaslags skade man egentlig påfører en katalogtjeneste ved å bruke den ...

Share this post


Link to post

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

Loading...
Sign in to follow this  

×
×
  • Create New...