Farvel til MTBF

hanigjen · 29. oktober 2004

hanigjen: nytter ikke å teste med bare 10 disker, da er det mer tilfeldighetene som avgjør resultatet.

eks: spør 10 folk på gata om de vil stemme Bush eller Kerry - hvis 8 av dem vil stemme Kerry er det ikke det samme som at 80% av alle amerikanere vil stemme Kerry..

Man bør nok ha 1000 eller flere disker i test for å kunne avgjøre MTBF mer nøyaktig.

Eller man kan beregne det på komponentnivå - hvor stor sannsynlighet er det for at en transistor ryker? Er det stor sjanse for at en kondensator ryker? Hvor mange slike kondensatorer finnes i harddisken? Osv..

Her kan man se en slik beregningsmetode

http://www.t-cubed.com/screen_shots.htm

For det første sa jeg noen titalls disker, ikke 10. Og for det andre er det fullt mulig å teste med få disker, men det vil få utslag på feilmarginene. Så lenge du ikke "sampler" hele "befolkningen" så vil man alltid ha usikkerhet, og det er derfor man tar for seg ting som normaldistribusjon i statistikk.

Det er lenge siden jeg hadde statistikk og jeg har ikke brukt det på lang tid, så jeg hadde selv trengt noen kvelder for å sette opp en "vitenskaplig korrekt" test.

Kommer gjerne med et bidrag til en slik test. Virker som det er blitt veldig vanlig å sende ut dritt på markedet. Etter ørten reinstallasjoner pga dårlige disker fra Dell ser jeg gjerne at fokus rettes litt mot kvalitet og ikke bare pris(kvantitet).

Ja, du kan kjøpe SCSI og slik, men problemet i dag er jo at man ofte ikke er garantert et bedre produkt om man betaler mer - det finnes nok selgere som ikke har noen skruppler mot å selge bestemora si som baywatchstjerne.

RottePostei · 29. oktober 2004

I MTBF og MTTF henspeiler failure på at disken ikke fungerer skikkelig. Om disken får en lesefeil (CRC) på en blokk, forsøker på nytt, for så å lese riktig, er dette en feil som maskeres av disken, og er dermed ikke en failure for disken.

MTBF og MTTR (Mean Time To Repair) brukes i forbindelse med beregning av tilgjengelighet for et system. Hvis man har to disker som speiler hverandre, er det større sannsynlighet for at en disk ryker etter ett år enn hvis man bare har en disk. Poenget med å ha to disker er at det er liten sannsynlighet for at begge ryker samtidig. Her kommer MTTR inn. Hvis man kjapt kan få satt inn en ny disk, blir tilgjengeligheten for systemet veldig stor.

Tilgjengelighet = MTBF/(MTTR+MTBF)

pertm · 29. oktober 2004

Jo men det er ikke Mean Time Between Failure som er brukt i artikkelen som MTBF men Mean Time Before Failure. Det virker litt forrvirende med 2 identiske forkortelser med ulik betydning, når det gjelder om nesten det samme.

Litt rart, sidan Hitachi seier at MTBF er Mean Time Between Failure:

http://www.hitachigst.com/hdd/ipl/oem/tech/pfa.htm

Seagate:

http://www.seagate.com/support/glossary/

(trykk på MTBF)

Seagate har begge to skrevet opp så jeg. Jeg vil jo ikke tro det er noen forskjell på Mean Time Before Failure og Mean Time Between Failure når det gjelder harddisker. Når den første feilen skjer er det vel vanligvis ganske raskt slutt for disken.

Simen1 · 29. oktober 2004

el-asso: Det er bra at du setter søkelys på dette temaet. Alt for mange tar MTBF som en slags fasit på akkurat når disken _skal_ kræsje.

Jeg har mange ganger prøvd å påpeke her i forumet at MTBF ikke har noe særlig med virkelige forventninger å gjøre, og alt for mange ganger blitt motsagt av påståelige folk. Typis kargumentasjon er "Du må jo være dum, det står jo svart på hvitt at disken skal vare i 114 år før den kræsjer".

Forøvrig så må jeg si at www.storagereview.com har laget en grei statistikk over diskkræsj. Men jeg er litt missfornøyd med måten de presanterer resultatene. Det burde vært en graf med failure vs. time med standardavvik.

Man bør i hvertfall ha backup av alt man synes er for galt å miste uansett MTBF eller andre lovnader.

knutinh · 29. oktober 2004

Et poeng jeg ikke har sett nevnt er at harddisker ikke har en normalfordelt pdf for feil. Sannsynligvis er den litt "hengekøye-aktig", dvs enten dør disken i løpet av noen uker, eller så dør den i løpet av noen år. Forventningsverdien kan da være ganske misvisende.

Jeg innbiller meg at vi har å gjøre med et ganske komplekst system, der feil til en viss grad kan korrigeres for i hw eller sw (dvs sektorfeil kan fikses med redundante sektorer, eller området merkes som defekt). Dette vil vel dra kurven for diskkrasj litt ut i tid (men kanskje gjøre den brattere)

knut

pertm · 29. oktober 2004

Et poeng jeg ikke har sett nevnt er at harddisker ikke har en normalfordelt pdf for feil. Sannsynligvis er den litt "hengekøye-aktig", dvs enten dør disken i løpet av noen uker, eller så dør den i løpet av noen år. Forventningsverdien kan da være ganske misvisende.

Det er vel fordi det er mest vannlig for mekaniske systemer at de enten går i stykker like etter at de har blitt tatt i bruk, altså en startfase. Ellers kan de gå i stykker når de er utslitt og den er ved enden av livsyklusen. Det er en tredje mulighet og det er i mellom, men der er det ikke så mye som skjer ved vanlig bruk.

38 080 · 29. oktober 2004

Takk, dette var jeg helt uvitende om. Bra at noen har tatt tak i dette. :yes:

PapstSkalle · 30. oktober 2004

...også jeg som bruker en 10mb IBM fra 1998 som systemdisk...burde kanskje ha kastet den da jeg bygde ny maskin i vinter?

Simen1 · 30. oktober 2004

...også jeg som bruker en 10mb IBM fra 1998 som systemdisk...burde kanskje ha kastet den da jeg bygde ny maskin i vinter?

Å bruke den som systemdisk er nok ikke så veldig lurt med tanke på ytelse, men hvis du har plass i kabinettet og på kontrollerene så er det ingen vits i å kaste den. Den kan jo brukes som backup av de viktigste filene dine. Hvis nydisken kræsjer så har du i hvertfall spart på filene på 10GB'en. Når det gjelder levetid så er det ingenting i veien for at disken kan leve i 6 år til, selv om sjansene er små for det så kan man jo bruke den som backup så lenge det varer.

Ola Olsen · 30. oktober 2004

Det hadde faktisk vært jævlig kult om en hw site kjøpte inn et tonn av disker fra hver produsent og kjørte en egen standardisert test. Til helvete med ytelsestester. Ta feks 200GB disker med 8MB cache, kjøp inn noen titalls disker fra hver produsent og kjør en stresstest på dem døgnet rundt i et års tid. Og så har man en side hvor man oppdaterer hvor mange feil som har oppstått - alt fra fullt havari til dårlige sektorer.

Da kunne vi jo funnet ut en gang for alle om det er noen stor forskjell mellom de forskjellige produsentene. Nå er det jo ofte bare synsing. Selv er jeg anti Hitatchi for tiden etter at Dell sendte meg 2 disker som død etter noen ukers bruk.

Ser ikke ut til at Hitachi har rettet problemdiskenene til IBM helt....

Simen1 · 30. oktober 2004

Det hadde faktisk vært jævlig kult om en hw site kjøpte inn et tonn av disker fra hver produsent og kjørte en egen standardisert test. Til helvete med ytelsestester. Ta feks 200GB disker med 8MB cache, kjøp inn noen titalls disker fra hver produsent og kjør en stresstest på dem døgnet rundt i et års tid. Og så har man en side hvor man oppdaterer hvor mange feil som har oppstått - alt fra fullt havari til dårlige sektorer.

Hmm.. Lurer på hva noen titalls 200GB-disker koster nå for tiden? Og hva det ville kostet å teste noen titalls disker av alle modeller fra alle produsentene?

Hvem er det egentlig som har nytte av et sånnt resultat? Ingen kjører jo stresstester på diskene sine 24 timer i døgnet året rundt, så resultatene vil jo ikke gjenspeile den feilraten som vanslige folk vil oppleve.

Og ikke minst: Hvem gidder å lese om 200GB-disker til neste år? Begge to som gidder så lese tester på 80GB-disker i år?

Nei, jeg tror nok ikke noen kommer til å gjennomføre en sånn test. Da er det nok bedre med brukerenes egne erfaringer gjennom StorageReview's Reliability survey.

hanigjen · 30. oktober 2004

Det hadde faktisk vært jævlig kult om en hw site kjøpte inn et tonn av disker fra hver produsent og kjørte en egen standardisert test. Til helvete med ytelsestester. Ta feks 200GB disker med 8MB cache, kjøp inn noen titalls disker fra hver produsent og kjør en stresstest på dem døgnet rundt i et års tid. Og så har man en side hvor man oppdaterer hvor mange feil som har oppstått - alt fra fullt havari til dårlige sektorer.

Hmm.. Lurer på hva noen titalls 200GB-disker koster nå for tiden? Og hva det ville kostet å teste noen titalls disker av alle modeller fra alle produsentene?

Hvem er det egentlig som har nytte av et sånnt resultat? Ingen kjører jo stresstester på diskene sine 24 timer i døgnet året rundt, så resultatene vil jo ikke gjenspeile den feilraten som vanslige folk vil oppleve.

Og ikke minst: Hvem gidder å lese om 200GB-disker til neste år? Begge to som gidder så lese tester på 80GB-disker i år?

Nei, jeg tror nok ikke noen kommer til å gjennomføre en sånn test. Da er det nok bedre med brukerenes egne erfaringer gjennom StorageReview's Reliability survey.

De koster vel rundt 1000-lappen så det ville vært en dyr test ja. Du kan kjøre intensiv testing over kortere tid for å simulere langtids "vanlig" bruk - må selvfølgelig ta hensyn til "microsoft"-bruk med mye oppspinning og slik.

Du har nok helt rett i at vi ikke vil se noen slik test, men det betyr ikke at mange ikke hadde likt å se en slik test. Selv om ikke alle generasjoner av disker har samme failure rate så sier det litt om produsenten om de selger en disk som de vet har uvanlig høy failure rate.

Har ikke sjekket storagereview.com før, artig, men det vil jo ikke ta en produsent(sleip selger/eier) lang tid å legge inn nok feilinfo til at informasjon der ikke er til å stole på - er jo bare en variasjon av astroturfing.

Simen1 · 30. oktober 2004

Har ikke sjekket storagereview.com før, artig, men det vil jo ikke ta en produsent(sleip selger/eier) lang tid å legge inn nok feilinfo til at informasjon der ikke er til å stole på - er jo bare en variasjon av astroturfing.

Storwagereview.com la ned sin forrige versjon av reliability survey av nettopp den grunnen du sikter til. Nå kjører de manuell filtrering av postene, registrering av hver enkelt bruker, har et IP-register og noen metoder de ikke vil snakke om som også skal hindre at det legges inn feilinformasjon.

Mulig det fortsatt blir lagt inn noen feil, men jeg tror ikke det er så mye at statistikken blir dårligere enn ved å oppsummere alle "stemmene" i denne tråden. De feilene som blir lagt inn nå er nok mer at psykologisk art. F.eks at det er mer sansynlig at en bruker vil rapportere om at sin "deathstar" 75GXP har dødd enn andre disker. Hver bruker kan også rapportere om årsaken til kræsj, så man får luket bort sånne "mistet den i gulvet"-disker fra statistikken.

Jeg vet i hvertfall ikke om noen steder med bedre statistikk enn dette...

ilex · 1. november 2004

Jeg har jobbet i bransjen noen år, og er enig i at det er et relativt absurd måltall. Hvordan kan noen påstå at gjennomsnittstid før en disk feiler er 114 år?

Det eneste jeg har vært ute for at tallet har blitt brukt til var fra en kunde som krevde 5 års reklamasjonsrett på en harddisk. Normalt er det å gi to års reklamasjonsrett på slike deler, men kunden viste til MTBF og sa at produsenten oppga forventet levetid til 114 år. Kjøpsloven sier at dersom varen er ment å vare vesentlig lengre enn 2 år, gis det 5 års reklamasjonsrett. Kunden brukte da MTBF for å kreve 5 års reklamasjonsrett. Jeg kunne ikke annet enn å akseptere det. Hvis jeg hadde kontaktet forbrukerrådet, så hadde nok de sagt 2år, men jeg var imponert over logikken i argumentasjonen, og lot det passere. :-)

Erik

Unnskyld meg, men harddisker er forventet å vare mer enn 2 år.

Må nok skuffe deg i antakelsen du tok om forbrukerrådet. Jeg klarte å få 5 års reklamasjons rett på en cd-rom med medhold fra de.

LOZER · 1. november 2004

av meg selv:

100 000 timer (over 11 år).

Hvis 100 identiske harddisker testes i 1000 timer, og man i denne perioden får []B [/b] feil. Blir da MTBF for denne type harddisker 100 000 timer.

Stemmer dette? Hvis en 200GB harddisk har MTBF på 114år, så må en liknende metode brukes. Folkeopplysning: Vi hadde ikke 200GB harddisker i 1890

Brukes Duty Cycle. Eksempel at de testes med en Duty Cycle på 24% ,som vil si sånn cirka 8 timers arbeidsdag 5 dager i uka.

Levetiden vil jo kunne variere mye etter tempratur, strømtilførsel, bruk (mye lesing og skriving) og at den spinnes opp, temperatur, er barndomstiden med og ellers røff håndtering...

Helt greit for meg at slike mål brukes, men for meg er det ganske uintresant... :whistle:

Logg inn

Farvel til MTBF

Anbefalte innlegg

hanigjen

Lenke til kommentar

Videoannonse

RottePostei

Lenke til kommentar

pertm

Lenke til kommentar

Simen1

Lenke til kommentar

knutinh

Lenke til kommentar

pertm

Lenke til kommentar

G

Lenke til kommentar

PapstSkalle

Lenke til kommentar

Simen1

Lenke til kommentar

Ola Olsen

Lenke til kommentar

Simen1

Lenke til kommentar

hanigjen

Lenke til kommentar

Simen1

Lenke til kommentar

ilex

Lenke til kommentar

LOZER

Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Opprett konto

Logg inn

Hvem er aktive 0 medlemmer