Gå til innhold

[løst] Hente ut en annen sides title


Anbefalte innlegg

Har laget ett lite script som sjekker tittelen til andre nettsider. Problemet dukker opp på enkelte sider som f.eks: "http://hei.no/hAp/". Det jeg legger merke til er at på disse sidene som er det linjeskift mellom <titile> og </title> men det skulle vel ikke ha noe å si? Vet ikke om det er det som forårsaker feilen heller. Hvordan kan dette fikses? Her er koden jeg bruker:

 

preg_match("/<title>(.*)<\/title>/i", $contents, $tag_contents);

$title = $tag_contents[1];

 

Forøvrig får jeg også feil dersom en side ikke er skrevet i UTF-8 (da blir æøå gjort om til ?). Har en liten kode som sjekker etter meta tag for dette, men ikke alle sider har slike tagger. Hvordan kan jeg detektere tegnsettet til en side uten hjelp av meta tags?

Endret av pulse
Lenke til kommentar
Videoannonse
Annonse
Vist du legger til m modifieren etter i så vil . matche newlines.

Når det kommer til tegnsett så kan du bruke mbstring til å finne ut om ein tekst er utf-8 eller ikkje for å så konvertere til utf, mer om dette står i hjelpe tråden om skandinaviske tegn.

 

red: her har du linken https://www.diskusjon.no/index.php?showtopic=730921

Har sittet utallige timer med tegnsett konvertering, uten hell. Fant da faktisk svaret i den posten du linket til. Det var parameter 2 som jeg hadde feil i denne koden: mb_detect_encoding($contents, 'UTF-8, UTF-16, ISO-8859-1, ISO-8859-15, Windows-1252, ASCII');

-- Tusen takk =D

 

Men regex saken var ikke fult så vellykket. Testet med m modifier, men det hjalp ikke. Andre forslag?

Lenke til kommentar
Prøv med s i stedet. Det er den som matcher . mot alt ink. linjeskift. m er for noe helt annet og benyttes for å si at $ og ^ skal være start og slutt på en linje i stedet for start og slutt på strengen.

Vet ikke helt om jeg forsto dette helt, men har nå prøvd med følgende modifiers (uten hell): i, m, im, is, s, ix, iU

 

edit: får samme feil på denne siden: http://www.gulesider.no/tk/index.c

 

edit2: Doh, min feil der gitt! Det fungerte med "is". Sorry, men takker så meget! =D

Endret av pulse
Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Du må være et medlem for å kunne skrive en kommentar

Opprett konto

Det er enkelt å melde seg inn for å starte en ny konto!

Start en konto

Logg inn

Har du allerede en konto? Logg inn her.

Logg inn nå
×
×
  • Opprett ny...