Gå til innhold

Hente news fra nettsider.


Anbefalte innlegg

Skrevet

Hei.

 

Tenkte å lage et php script hvor jeg henter news fra nettsider litt her og der. Noen som vet hvordan man gjør dette? Helst uten bruk av RSS fordi noen av de nettsidene jeg skal hente news fra ikke bruker RSS. Hvordan? Takk på forhånd....

 

morty :o

Videoannonse
Annonse
Skrevet

html parsing i verset fall,

 

$rader_med_html = file('http://hw.no');

 

deretter får du se hvordan html ser ut på hver enkelt side og lage en funksjon som henter ut nyhetene fra hver enkelt side.

Skrevet

Vet du hvordan man henter 10 siste fra ITavisen, VG?

 

Noen som har et bra script som kan brukes til å parse html tags? Skal hente nyheter fra et par stykker som ikke har RSS.

Skrevet

Problemet er vel egentlig at jeg ikke bruker Perl, jeg bruker PHP og skal fortsette å bruke det. Noen som har noen scripts som de har lyst til å lære meg angående dette?

 

Har enda ikke fått det til, sliter...HELP!!

Skrevet

Ja dette har jeg og lyst å lære, men jeg er helt blank på php.

 

Hvordan henter man de 5 siste nyhetsoverskriftene fra en side som f.eks. hw.no eller digi.no ?

Noen som kan paste et ferdig laget script? Med timestamp hvis mulig?

Skrevet

syntaxmessig kan perl skrives helt likt php. selvsagt ikke med de samme funksjonsnavnene.

 

det er ikke rare forskjellen, jeg har skrevet en perl variant for de fleste store aviser allerede.

Skrevet

Takk for perl scripts..Men hvordan bruker jeg disse? har ikke vært i nærheten av perl scripts før. Jeg har server som støtter php, mysql. Kan jeg bruke det cgi scriptet du postet på min server?

Skrevet (endret)

takk for bra script!!

hva kan jeg forandre for å hente nyhetene fra en annen side? må jeg endre andre steder enn i andressen. er ikke helt inni dette enda..

 

 

Edit:

 

kan jeg redigere med dreamwaver? får bare opp vanlig tekst når jeg skal redigere det i "code view"..

 

hva innledes et cgi script med?

Endret av tsmidt
Skrevet

et perl script kan ligne på et php script.

 

hvordan dreamweaver takler det, aner jeg ikke. det innledes med en såkalt "she-bang", #!/usr/bin/perl som forteller serveren hvilket program som skal kjøre skriptet.

 

det kan imidlertid ikke "legges inn i" et php-skript eller html-fil slik som php-tagger gjøres i en php-fil.

 

hvis serveren kjører shtml, kan du legge inn en eller annen tag som inkluderer cgi-script, skal google litt og se om jeg finner det.

 

 

Du må nok forandre en del for andre aviser... husk at jeg må lete gjennom HTML fra hardware.no, hvis du ser i skriptet f.eks, så leter jeg etter en <table> med width=472, etter å ha funnet den, leter jeg etter <p> tags uten noen attributer, deretter henter jeg ut første <a> tag etter det, for der ligger nyhetene.

 

Hvordan andre aviser har bygget opp sine nettsider er en helt annen sak... Det må spesialiseres for hver avis (med mindre de bruker rss)

Skrevet

okei.

 

men alstå, hvis jeg har forstått rett kan jeg ikke legge det inn i et php eller html/htm document. jeg må da lagre det som en eget .cgi dokument som det ikke er mulig å lagre det som i dreamwaver.. hvilket program bruker du til cgi?

Skrevet (endret)

Notepad går fint :)

 

det er bare en enkel tekst fil, akkurat som php-filer.

 

Hvis du ser litt nøyere hvordan HTML'en skrives ut, så skal det ikke mye fantasi til for å endre det til ditt layout.

Endret av Torbjørn
Skrevet
Hva er det som er så bra med PHP, egentlig?

Det er sinnsykt lett og har bra dokumentasjon. Dette har også gjort at det finnes 10000000 tutorial sider om php på nettet, dette legger heller ikke noen særlig demper på populariteten.

Skrevet

Hvordan henter man ut RRS fra en webside da? Har funnet en del programmer men ikke php eller cgi script som gjør det.

 

Torbjørn:

Kan man bruke cgi scriptet ditt til å rippe fra siste nytt tabellen på Nyhetsagenten.no ?

Skrevet

nei, cgi-skriptet parser html fra hardware.no. mao er det gjort for å kjenne igjen utseendet til hardware.no, (med alle tabeller, tager, etc... ), veldig spesifikt mao.

 

med litt fantasi skjønner man hva det gjør, hvis man ser nøyere på det.

 

for eksempel vet jeg på forhånd at nyhetene ligger i en tablell med bredde 472, hvilket er det første jeg leter etter.

 

deretter leter den etter <p> tags uten noen attributter satt og henter ut første linken fra etter hver av dem.

 

det er sånn framsiden ser ut til å være bygget opp.

 

andre html sider har sitt eget design.

 

hvis man derimot bruker rss-feed'en, trenger man ikke parse html (som er grunnen til at man "fant opp" rss feed)

Opprett en konto eller logg inn for å kommentere

Du må være et medlem for å kunne skrive en kommentar

Opprett konto

Det er enkelt å melde seg inn for å starte en ny konto!

Start en konto

Logg inn

Har du allerede en konto? Logg inn her.

Logg inn nå
  • Hvem er aktive   0 medlemmer

    • Ingen innloggede medlemmer aktive
×
×
  • Opprett ny...