Gå til innhold

Nvidias Tesla-familie lansert


Anbefalte innlegg

Videoannonse
Annonse
Tør ikke tenke på prisen engang.

8991923[/snapback]

 

I følge itavisen (http://www.itavisen.no/php/art.php?id=386765) så er det ikke så veldig dyrt, men det er ikke billig.

 

Ett Tesla-kort koster 8994 kroner, mens Deskside Supercomputer kommer på intet mindre enn 45 000 kroner, omregnet fra dollar. Begge er i salg fra august.

 

Men Nvidia Tesla GPU Computing Server koster sikkert "et lite lands statsbudsjett".

Lenke til kommentar
Vil dette kunne hjelpe MMORPG hoster som forsøker å legge det meste utregninger sentralt på spillserverne?

9002028[/snapback]

Kan hjelpe til med beregning av realistisk fysikk vil jeg tro.

 

Ellers er dette et spennende HPC produkt, men jeg er litt skeptisk kan en vel si. Disse støtter ikke IEEE 754 FP og antagelig er det en god del stygge snarveier som er tatt for å skvise ut mest mulig ytelse/watt. Selv om det er akseptabelt for grafikk så er det ikke alltid akseptabelt for HPC software. I beste fall blir validering av resultatet mot andre implementasjoner vanskeligere.

Lenke til kommentar
Vil dette kunne hjelpe MMORPG hoster som forsøker å legge det meste utregninger sentralt på spillserverne?

9002028[/snapback]

Kan hjelpe til med beregning av realistisk fysikk vil jeg tro.

 

Ellers er dette et spennende HPC produkt, men jeg er litt skeptisk kan en vel si. Disse støtter ikke IEEE 754 FP og antagelig er det en god del stygge snarveier som er tatt for å skvise ut mest mulig ytelse/watt. Selv om det er akseptabelt for grafikk så er det ikke alltid akseptabelt for HPC software. I beste fall blir validering av resultatet mot andre implementasjoner vanskeligere.

9002801[/snapback]

 

 

Hvor har du hørt at de ikke støtter IEEE 754 FP ? Så vidt jeg vet er det nettopp denne standarden de følger! Hvis man kjører beregninger som er følsomme for maskinpresisjonen er man uanset på tynn is, hva validering angår.

 

Siden systemet kommer med en C-kompilator kan man vel beregne hva som helst med denne løsningen? Utfordringen ligger i å paralellisere oppgaven i hundrevis av uavhengige operasjoner som kan kjøres samtidig. Men det trenger på ingen måte å være 3D grafikk/fysikk-relaterte oppgaver, selv om prosessorene kalles for GPU'er.

Lenke til kommentar
Ellers er dette et spennende HPC produkt, men jeg er litt skeptisk kan en vel si. Disse støtter ikke IEEE 754 FP og antagelig er det en god del stygge snarveier som er tatt for å skvise ut mest mulig ytelse/watt. Selv om det er akseptabelt for grafikk så er det ikke  alltid akseptabelt for HPC software. I beste fall blir validering av resultatet mot andre implementasjoner vanskeligere.

9002801[/snapback]

Joa, de har strammet opp fp standarden på denne, se nederst på side 7 (nummerert 3) her:

http://www.nvidia.com/docs/IO/43395/tesla_...nical_brief.pdf

De lover t.o.m. dp etterhvert. Ellers må jeg vel si at jeg deler din skepsis. Jeg ser helt klart noen nisjer hvor denne kan være interessant, og det vil sikkert være noen som kjøper den inn for spesialiserte forhold. Gflops tallene høres jo helt enorme ut, men faktisk vil jo en 2.66GHz Clovertown gi teoretisk 85 sp Gflops. D.v.s. at vi ser på en faktor på drøyt fem. I tillegg kommer minne latency og båndbredde fordel, som vel er noe i samme styrkeforhold. Oppsiden blir da ca. faktor fem over eksisterende x86 CPU. Personlig synes jeg vel det er noe skrint, hvis man tar begrensingene i betrakting. Skulle likt å se hvordan de har tenkt å pakke en haug slike i 1U inn i et rackskap, flytende nitrogen til kjøling?

Lenke til kommentar
Joa, de har strammet opp fp standarden på denne, se nederst på side 7 (nummerert 3) her:

http://www.nvidia.com/docs/IO/43395/tesla_...nical_brief.pdf

De lover t.o.m. dp etterhvert. Ellers må jeg vel si at jeg deler din skepsis. Jeg ser helt klart noen nisjer hvor denne kan være interessant, og det vil sikkert være noen som kjøper den inn for spesialiserte forhold. Gflops tallene høres jo helt enorme ut, men faktisk vil jo en 2.66GHz Clovertown gi teoretisk 85 sp Gflops. D.v.s. at vi ser på en faktor på drøyt fem. I tillegg kommer minne latency og båndbredde fordel, som vel er noe i samme styrkeforhold. Oppsiden blir da ca. faktor fem over eksisterende x86 CPU. Personlig synes jeg vel det er noe skrint, hvis man tar begrensingene i betrakting. Skulle likt å se hvordan de har tenkt å pakke en haug slike i 1U inn i et rackskap, flytende nitrogen til kjøling?

9004852[/snapback]

 

Blir vel litt søkt å sammenlikne teoretiske Gflops på to så forskjellige arkitekturer. En x86 har veldig store vanskeligheter med å komme i nærheten av sin teoretiske ytelse på tallknusing, spesielt fordi minnebåndbredde og latency fort blir en flaskehals. GPU'ene til nVidia er satt opp med nok minnebåndbredde til å utnytte prosessorene fullt ut, og i tillegg kan koden kjøres uten noe krevende operativsystem imellom. Den eneste forutsetningen er at oppgaven er egnet for å kjøres på et stort antall prosessorer i parallell.

 

Konklusjonen din om 'bare' 5 ganger ytelsesøkning er ikke logisk, siden du spesifiserer tre uavhengige parametre som alle har 5 ganger bedre ytelse på GPU'en, i følge deg selv (Gflops, minnebåndbredde, minnelatency). Dette skulle gi en øvre grense for ytelsesforbedringen på 5^3 = 125 ganger. Altså: dersom både minnebåndbredd, latency og prosessorytelse utnyttes fullt ut på nVidia GPU'en, så vil ytelsen være 125 ganger bedre enn det som er mulig med den nevnte x86 platformen. Dette resonementet bygger på dine egne opplysninger. Noen nedre grense for ytelsesforbedring er ikke mulig å sette, fordi det avhenger utelukkende av oppgaven som skal løses.

 

Etter min mening er det liten grunn til å være skeptisk. Det er bare å være bevisst på hvordan man kan utnytte 128 prosessorer med ekstremt god minnebåndbredde og latency.

Lenke til kommentar
Blir vel litt søkt å sammenlikne teoretiske Gflops på to så forskjellige arkitekturer.

Hvorfor synes du det? Mange rare dyr på Top500 listen også vettu, så jeg er ikke alene ihvertfall.

En x86 har veldig store vanskeligheter med å komme i nærheten av sin teoretiske ytelse på tallknusing,

og det har ikke en GPU i like stor grad mener du? Eksempelvis benker x86 CPU'er rett under teoretisk peak på matrise multiplikasjon.

 

spesielt fordi minnebåndbredde og latency fort blir en flaskehals. GPU'ene til nVidia er satt opp med nok minnebåndbredde til å utnytte prosessorene fullt ut,

Til en viss grad er jeg enig i latency, men når det gjelder båndbredde, så er ting rimelig likt fordelt på papiret. Teoretisk maks. til Tesla GPU var oppgitt til drøyt 70GB/s hvis jeg husker riktig, mens teoretisk maks for x86 CPU med DDR2-667 er drøyt 10GB/s, hvilket gir ganske lik båndbredde pr. Gflops. Så ditt regnestykke hvor du multipliserer Gflops og båndbredde er nok litt ute på viddene er jeg redd.

og i tillegg kan koden kjøres uten noe krevende operativsystem imellom.

I den grad man i det hele tatt kan se på GPU'en som adskilt fra resten av maskinen mener du? Har du noen grunn til å tro at overhead fra OS utgjør noe vesentlig ytelsestap for en x86?

 

Den eneste forutsetningen er at oppgaven er egnet for å kjøres på et stort antall prosessorer i parallell.
Det hørtes jo veldig greit ut. Så alt som lar seg prallelisere greit kjører som smør på Tesla? Jeg kan vel se for meg ihvertfall et par skjær til i sjøen. Det mest opplagte er begrenset minnemengde.

 

Konklusjonen din om 'bare' 5 ganger ytelsesøkning er ikke logisk, siden du spesifiserer tre uavhengige parametre som alle har 5 ganger bedre ytelse på GPU'en, i følge deg selv (Gflops, minnebåndbredde, minnelatency). Dette skulle gi en øvre grense for ytelsesforbedringen på 5^3 = 125 ganger. Altså: dersom både minnebåndbredd, latency og prosessorytelse utnyttes fullt ut på nVidia GPU'en, så vil ytelsen være 125 ganger bedre enn det som er mulig med den nevnte x86 platformen. Dette resonementet bygger på dine egne opplysninger.

Nei, det bygger på din tro på at disse tre parametrene er uavhengige, hvilket ingen av dem faktisk er. Latency er litt komplisert siden både en x86 og en GPU har et ikke-trivielt minne-hierarki, koblingen mellom båndbredde og Gflps er dog rett fram hvis du tenker litt over det.

 

Noen nedre grense for ytelsesforbedring er ikke mulig å sette, fordi det avhenger utelukkende av oppgaven som skal løses.

Endelig, et punkt vi er enige i :)

 

Etter min mening er det liten grunn til å være skeptisk. Det er bare å være bevisst på hvordan man kan utnytte 128 prosessorer med ekstremt god minnebåndbredde og latency.

9008458[/snapback]

Kanskje du da kan hjelpe meg litt, og fortelle meg hvordan jeg skal utnytte disse. For ordens skyld kan du anta at jeg nettopp tilhører målgruppen for produktet. Argumentasjonen din ovenfor hjalp meg nemlig lite i forhold til å redusere min skepsis.

Lenke til kommentar
Til en viss grad er jeg enig i latency, men når det gjelder båndbredde, så er ting rimelig likt fordelt på papiret. Teoretisk maks. til Tesla GPU var oppgitt til drøyt 70GB/s hvis jeg husker riktig, mens teoretisk maks for x86 CPU med DDR2-667 er drøyt 10GB/s, hvilket gir ganske lik båndbredde pr. Gflops. Så ditt regnestykke hvor du multipliserer Gflops og båndbredde er nok litt ute på viddene er jeg redd.

og i tillegg kan koden kjøres uten noe krevende operativsystem imellom.

På min e6600 må jeg opp i ddr 800 cl 4 1:1 mot cpu for å få ca 9600MB/s syntetisk leseytelse fra rammen i everest så det er ganske mye forskjell fra hva som er teoretisk ytelse og reelt. Dvs. langt mer enn en Intel quadcore har til rådighet av minnebåndbredde. Her stopper den lave fsben til intel opp mye av ytelsen fra ram og blir en flaskehals kontra 384 bit minnebussen på skjermkorta til Nvidia med ddr 3 ram.

Endret av Onanias
Lenke til kommentar
Forsto ikke så mye av diskusjonen over her, men vil systemet feks være effektivt på encoding/decoding og/eller samt grafikkrendering (gitt at noen skriver programvare for det)? Eller er dette bare vanvittig kraftige bordkalkulatorer?

9009218[/snapback]

Grafikk rendering er vel det en GPU er lagd for, så jeg håper inderlig det. Du tenker vel på 3D rendering slik som i Cinebench snarere enn å tegne piksler, og det kan godt hende. Både på 3D rendering og encoding/decoding kjenner jeg kildekoden for dårlig til å analysere hvor godt en GPU egner seg. Jeg stiller meg jo likevel spørsmålet om hvor stort markedet er for et innstikk kort til drøyt ti lapper for å aksellerere disse to oppgavene. Det er vel et godt hint at nvidia selv ikke nevner dette som målgruppen.

 

På min e6600 må jeg opp i ddr 800 cl 4  1:1 mot cpu for å få ca 9600MB/s syntetisk leseytelse fra rammen i everest

Isåfall bør du være forsiktig med å stole på everest. Du får nok vesentlig mindre:

http://www.anandtech.com/cpuchipsets/showdoc.aspx?i=2991&p=3

Nå er jo ikke effektiviteten stort større på en GPU, så den benker båndbredde noe tilsvarende i forhold til teoretisk maks:

http://graphics.stanford.edu/projects/gpub...s/8800GTX-0003/

Faktisk er AMD CPU er mer effektive til å utnytte minnet en nvidia GPUer, så forskjellen krymper der til faktor under fem, mens teoretiske Gflops skiller vesentlig mer (der har en 3GHz dual kjerne 42 SP Gflops som teoretisk maks, så faktor drøyt ti fordel Tesla), så hvis A64 er strøypet av båndbredde, så vil en Tesla være vesentlig mer strøypet av båndbredde på samme problem.

Lenke til kommentar

 

På min e6600 må jeg opp i ddr 800 cl 4  1:1 mot cpu for å få ca 9600MB/s syntetisk leseytelse fra rammen i everest

Isåfall bør du være forsiktig med å stole på everest. Du får nok vesentlig mindre:

http://www.anandtech.com/cpuchipsets/showdoc.aspx?i=2991&p=3

 

Om du leser at jeg skriver 1:1 så betyr det at fsben på cpuen min er overklokket til 400x4=1600 og da kjører i sync med klokkefrekvensen på ddr2 800, som er 400mhz. Fikk vel under 6600MB/s før jeg overklokka cpu fsb. 1066 kontra 1600 er endel forskjell i båndbredde. Usynkron fsb gir ofte ikke noe særlig bra båndbredde.

Lenke til kommentar
Om du leser at jeg skriver 1:1 så betyr det at fsben på cpuen min er overklokket til 400x4=1600 og da kjører i sync med klokkefrekvensen på ddr2 800, som er 400mhz.

Om du leser det jeg skriver så skjønner du at det egentlig er revnende likegyldig for temaet hva ditt overklokkede oppsett gir. Apropos din 1:1 kommentar, som jeg leste, og måtte tolke (jeg foreslår vel at du rett og slett skriver FSB hastigheten istedet hvis du ønsker at folk skal forstå), så ga linken min et greit svar skulle jeg tro. Overgang fra 1066 til 1333 ga som linken viste under 20% økning, ekstrapolerer du til 1600, så er du fortsatt et godt stykke unna ditt tall, ergo min kommentar. Jeg vil gjerne se denne boosten fra synkronisert fsb før jeg tror på den. Du kan jo bare sjekke Sandra båndbredde på maskinen din, og se hva du får.

Lenke til kommentar
Om du leser at jeg skriver 1:1 så betyr det at fsben på cpuen min er overklokket til 400x4=1600 og da kjører i sync med klokkefrekvensen på ddr2 800, som er 400mhz.

Om du leser det jeg skriver så skjønner du at det egentlig er revnende likegyldig for temaet hva ditt overklokkede oppsett gir. Apropos din 1:1 kommentar, som jeg leste, og måtte tolke (jeg foreslår vel at du rett og slett skriver FSB hastigheten istedet hvis du ønsker at folk skal forstå), så ga linken min et greit svar skulle jeg tro. Overgang fra 1066 til 1333 ga som linken viste under 20% økning, ekstrapolerer du til 1600, så er du fortsatt et godt stykke unna ditt tall, ergo min kommentar. Jeg vil gjerne se denne boosten fra synkronisert fsb før jeg tror på den. Du kan jo bare sjekke Sandra båndbredde på maskinen din, og se hva du får.

9026568[/snapback]

Får ikke kjørt noen tester på den pcen før jeg får fiksa ene disken på os raidet mitt. Selvfølgelig er det likegyldig hva mitt oppsett gir i forhold til Tesla, ville bare påpeke at intel quadcorene er kraftig fsb begrensa idag når selv dualcorene deres er det. Amd sine dedikerte HTT lanes er langt overlegen der. Angående de talla se denne sandratesten med 1600fsb dog med 1:2 mot minnefrekvensen og ddr3:Neoseeker test. Men nok offtopic fra meg. Blir spennende å se om de får brukt det til noe skikkelig matnyttig tallknusing.

Lenke til kommentar
Selvfølgelig er det likegyldig hva mitt oppsett gir i forhold til Tesla, ville bare påpeke at intel quadcorene er kraftig fsb begrensa idag når selv dualcorene deres er det.

Mitt inntrykk er at Conroe i liten grad hemmes av båndbredde, unntatt for svært spesielle applikasjoner. Mitt poeng er at en Tesla vil være vel så hemmet av båndbredde, i den grad noen av dem er det. Dette forholdet endres ikke om man ser på benket båndbredde i stedet for teoretisk.

Amd sine dedikerte HTT lanes er langt overlegen der. Angående de talla se denne sandratesten med 1600fsb dog med 1:2 mot minnefrekvensen og ddr3:Neoseeker test.

Denne testen viser tilsvarende skalering som linken jeg ga. Hvor du ender opp med 7.7GB/s for FSB på 1600MHz.

Blir spennende å se om de får brukt det til noe skikkelig matnyttig tallknusing.

Hadde vel i grunnen håpet at noen kunne gjort et forsøk på å overbevise om at dette produktet er noe jeg bør anskaffe. Personlig ser jeg ikke at oppsiden kan rettferdiggjøre ulempene.

Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Du må være et medlem for å kunne skrive en kommentar

Opprett konto

Det er enkelt å melde seg inn for å starte en ny konto!

Start en konto

Logg inn

Har du allerede en konto? Logg inn her.

Logg inn nå
×
×
  • Opprett ny...