Gå til innhold

Hva er det beste nettskraper biblioteket for å skrape store menger informasjon ?


Anbefalte innlegg

Hei, jeg driver å lete etter et godt nettskraper bibliotek for å skrape store mengder informasjon, noen ganger i timen.

 

Biblioteket burde helst være skrevet i Java(tenker å bruke Scala), men kan også være skrevet i enten python eller javascript så lenge det er nogen lunde effektivt.

 

Noen som har noen gode tips ?

 

PS. Hadde vært kjekkt om det også hadde en HTML parser innbyggd, og kunne behandle javascript på en god måte.

Lenke til kommentar
Videoannonse
Annonse

Bruk Jsoup, finn alle a tags, last ned hrefene på nytt, finn alle a tags last ned alle hrefene på nytt osv.....

Hvorfor snakker du om linker ?

 

 

Målet mitt er ikke å samle inn så mye informasjon som mulig. Målet mitt er å samle inn avisartikler for å samle flere nettaviser på samme sted.

Lenke til kommentar

RSS er ikke bra nok?

 

For å svare på spørsmålet ditt liker jeg denne best http://jsoup.org/

http://dispatch-classic.databinder.net/JSoup.html

 

Lykke til!

Vel planen min er å skrape de nettavisene jeg leser, og samle de på en side. Og hvis noen artikler handler om det samme vil man kunne velge imellom nettavisene.

 

 

PS. hadde Heritirx + Jsoup vært en god kombinasjon ?

Endret av pedero
Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Du må være et medlem for å kunne skrive en kommentar

Opprett konto

Det er enkelt å melde seg inn for å starte en ny konto!

Start en konto

Logg inn

Har du allerede en konto? Logg inn her.

Logg inn nå
  • Hvem er aktive   0 medlemmer

    • Ingen innloggede medlemmer aktive
×
×
  • Opprett ny...