Gå til innhold

Nvidia-forsker hardt ut mot Moores lov


Anbefalte innlegg

Videoannonse
Annonse

Nu er vel ikke moores lov noen lov, og har aldri vært noen lov, det var en observasjon/spådom, og kan vel kanskje beskrives som en tese?

 

Forøvrig intresant å skifte ut lov med low i første innlegg.

 

Å si at paralellprosessering er overflødig i stasjonære maskiner er jo mer enn bare semi-fjernt, hvilken rolle har han egentlig? Kundesupport? Skjermkort i dag driver jo nettopp med det, paralellprosessering, med hundre, til og med tusenvis av forskjellige prosessorer.

Lenke til kommentar

Ah dette varmer et elektro/data hjerte. Endelig litt blest om hva man skal gjøre når moores lov ebber ut. Egentlig er svaret enkelt, en må jobbe smartere isteden for hardere og her er det utrolig mye å gå på i forhold til dagens mainstream løsninger.

 

Datamaskiner gjør i all hovedsak tre ting; prosessering, lagring og kommunikasjon. Alle tre områdene må effektiviseres for å oppnå best mulig effektivitet samtidig med at en får økt pålitelig.

 

Prosessering: en må bort fra seriell instruksjonsstrøm. Mulig løsninng: EPIC, men en må også se på SIMD og parallelle adresseområder i RAM for svært parallelle workloads.

 

Kommunikasjon: En må bort fra ren streaming bytes i pakker og over til kanalbaserte meldigner rett til applikasjonen. Mulig løsning: Infiniband, men en må også få dumpet IPv4 slik at routere kan bygges uten milelange tabeller og TCAM som trenger egne kjernekraftverk.

 

Lagring:

En må bort fra flat blokk semantikk og over på objekter. Dette gir langt større sikkerhet og enklere parallellisering. HDD -> SSD overgangen er ortogonalt med dette, men hjelper selvfølgelig vesentlig på ytelse.

Lenke til kommentar
Nvidias sjefsforsker, William Dally, går imidlertid hardt ut og uttaler at Moores lov er død fordi prosessor-ytelsen ikke lenger dobler seg hver 18. måned.

 

Videre indikerer Dally at dagens prosessorer ikke lenger kan tilfredsstille behovet til prosessering i HPC-segmentet (High Performance Computing). Han sammenligner også det å bygge en parallellprosesseringsdatamaskin med x86-arkitektur med å sette flyvinger på et tog.

William Dally anser altså ikke Nvidias prosessorer (GPU) for å være en form for prosessorer.. :hmm:

 

Hvis man tenker så snevert som at prosessor = x86 og at moores lov handler om ytelse så har han helt rett. Men hvorfor tenke så snevert?

 

Men uansett: Moores lov (transistorer/brikke) kommer til å fortsette noen år til før det får en knekk når det ikke lar seg krympe effektivt lengre. Moores lov vil få noen hopp når de begynner å bygge i høyden for deretter å stopp opp igjen. (Man kan jo ikke bygge skyskraper-brikker heller)

Lenke til kommentar

Nu er vel ikke moores lov noen lov, og har aldri vært noen lov, det var en observasjon/spådom, og kan vel kanskje beskrives som en tese?

 

Forøvrig intresant å skifte ut lov med low i første innlegg.

 

Å si at paralellprosessering er overflødig i stasjonære maskiner er jo mer enn bare semi-fjernt, hvilken rolle har han egentlig? Kundesupport? Skjermkort i dag driver jo nettopp med det, paralellprosessering, med hundre, til og med tusenvis av forskjellige prosessorer.

 

Tror ikke helt du forstod hva han mente :p

Forøvrig helt enig med William

Endret av Avean
Lenke til kommentar

For de av dere som lurer fælt på semantikken her så les artikkelen i kilden (xbitlabs, som forøvrig quoter forbes) og bit dere merke i at resonnementet er at "power scaling" har sluttet og at dette har medført slutten for ytelses-skalering. Dette resonnementet er ikke nytt og allment akseptert innen CMOS industrien. Effekten er i utgangspunktet den samme for alle CMOS brikker enten det er CPU, GPU, ASICs eller FPGA. Og det er vel poenget hans. Nå må man tenke smartere for å komme videre. Å skalle hue i vegen med gammeldagse konsepter som serielle ISA og monolittiske minnehierarkier har fått oss hit, men ikke mye lengre. Fysikken setter foreløpig grenser. Kommer det noen nye super transistorer på markedet i nær fremtid så kan vi fortsette likt en stund til før vi igjen stanger hodet i veggen.

 

Edit: om en leser forbes artikkelen som vel er den originale, så får en likevel en sur fornemmelse av at Amdahls lov har gått godeste Mr. Dally hus forbi, men det er vel som forventet fra en GPU leverandør... Alle vil fortelle sine investorer at himmelen er skyfri.

Endret av Anders Jensen
Lenke til kommentar

Overskriften til saken på hw.no er svært misvisende. Det er vel heller klassisk-CPU design han går hardt ut mot. Moores paper ble skrevet da Moore jobbet i Fairchild Semiconductor og reflekterer nettopp dette. Han gjør i stor grad bare observasjoner angående integrerte kretser. Ikke noe om prosessorytelse.

 

Bill Dally sier heller ikke noe om observasjoner som går på at det ligger en ytelse/energi top på rundt 8 prosessorkjerner, som nok kan knyttes til økte krav til kommunikasjon mellom prosessorene bl.a.

 

Angående Anders Jensens innlegg om framtidsløsninger tror jeg nok ikke EPIC vinner frem. Bak EPIC ligger en tanke om at vi kan løse det meste av planleggingsproblemer i kompilatoren. Dette har vist seg vanskelig. Jeg har større tro på prossorer basert på EDGE

Lenke til kommentar

Jeg ser at semantikken jeg kommenterte bare er relatert til Hardware.no-artikkelen og ikke kildene. Nå har jeg lest både Xbit labs, Forbes og kommentarene på Forbes.

 

Først og fremst virker dette som et PR-fremstøt fra Nvidia. Evt. en sunn opplysningkampanje for å få programmerere, investorer osv til å skjønne hvor utviklingen ikke bærer hen og dermed sette inn mer ressurser på alternative løsninger. Helst i favør av Nvidias produkter.

 

Mange skjønner at ørten x86-kjerner ikke er veien å gå i framtida og at noe må gjøres. Men det hersker stor usikkerhet om hva som må gjøres. Noen mener GPU er veien å gå, andre mener hybrid CPU/GPU er veien å gå, andre mener EDGE, noen mener EPIC, noen mener VLIW, noen mener ulike former for optimalisering av x86 osv.

 

Jeg tror at det vil ta tid å endre kursen på et så tungt skip som x86, selv om det har stoppet helt opp, man utstyrer det med vinger og all slags bling bling. x86 vil fortsette i mange år fremover enten man vil eller ikke. Det er mange potensielle "hjelpemotorer" som kan hjelpe skipet i ulike retninger. Mange slike "hjelpemotorer" har også blitt brukt i en årrekke, mens andre er nye eller på tegnebrettet. For å nevne noe:

 

- SIMD har økt parallell-ytelsen ganske betraktelig på neon områder

- Hyperthreading har økt ytelsen og enerigeffektiviteten

- Prediction har vært et feilskjær for energieffektiviteten, men kan likevel være smart om det brukes med omhu når enkeltrådytelsen er en flaskehals

- Bedre cache og minnesystem har redusert "bobler"

- Flere kjerner har gitt økt ytelse til både flertrådede oppgaver og der man har mange enkeltrådete oppgaver.

- "Turbo" har gitt økt fleksibilitet mellom hvor effekten prioriteres: flertråd eller enkeltråd x86.

- GPU har assistert x86-prosessorer i over et tiår. GPU og CPU utfyller hverandre minst like bra nå som før.

- Andre instruksjonssett har blitt brukt en rekke plasser der det er mer hensiktsmessig. Alt fra mikrokontrollere og ARM til Power 6+/Itanium.

 

Jeg er rimelig sikker på at utviklingen vil fortsette på alle disse områdene og at x86 vil bestå i lange tider ennå til tross for sine svakheter. Svakheter som vil bli utfylt av samarbeid og konkurranse med GPU, andre arkitekturer og smarte teknikker for å prioritere effekt på ut i fra hvilken last som kjøres. Bedre minnesystem, SSD og systembusser vil assistere samarbeid mellom prosessorer og resten av systemet.

Lenke til kommentar

Angående Anders Jensens innlegg om framtidsløsninger tror jeg nok ikke EPIC vinner frem. Bak EPIC ligger en tanke om at vi kan løse det meste av planleggingsproblemer i kompilatoren. Dette har vist seg vanskelig. Jeg har større tro på prossorer basert på EDGE

Dette faller vel på sin egen urimelighet da en kompilator til EDGE neppe blir noe mindre komplisert enn en kompilator til EPIC, men det som virkelig gjør dette meningsløst i dag er at en kompilator til supersscalar x86 har samme om ikke større kompleksitet (identisk front-end og IR optimalisering, men uglyass back-end). IR i en kompilator er mye nærmere EPIC enn x86 og ligner vel til forveksling mye på datastrukturen i EDGE (en DAG med SSA).

 

Forøvrig er jeg enig i at EDGE _kan_ vise seg bedre enn EPIC, men jeg tror faren er stor for at EDGE har gått for langt i å optimalisere mhp dataflyt. En EPIC pipeline som er delt inn i et cluster av flere løst sammenkoblede pipelines vil ha samme fordel som en EDGE pipeline mhp at kompilator kan styre dataflyten og dermed redusere fan-out mot registerfil. Dessuten er EPIC her nå, mens EDGE ikke er realistisk før om 10 års tid i masseproduksjon, gitt at noen er villige til å satse.

 

Denne idealistiske fighten mellom EPIC og EDGE gjelder imidlertid ikke for trivielt dataparallell workload. Da er SIMD, og da gjerne i en større vektor implementasjon med gather/scatter, best. Punktum.

Endret av Anders Jensen
Lenke til kommentar

En EDGE-kompilator vil vel benytte seg av allerede iboende struktur i koden (funksjoner) til å generere hyperblokker og dermed vil ikke være så avansert å lage en relativt effektiv naiv implementasjon.

 

Og argumenter om at EPIC er her nå holder vel ikke akkurat vann. Da dagens implementasjoner er skutt i foten av Intel, mhp. at den ligger langt bak både på produksjonsprosess og cache-tetthet i forhold til IBMs POWER7. En kan vel også merke seg at EPIC-prosessorer har vært i salg i snart 10 år uten at de har tatt videre av.

 

Målet til DARPA/UT er vel at EDGE-prototypen deres skal nå 1 TeraFlop innen 2012. Men kommersialisering derfra tar vel fort 3-5 år minst. Så hvis du med realistisk mener i salg, så er nok 10 år et ganske bra estimat.

 

Men den egentlig flaskehalsen som ligger bak både GPU/CPU-design er vel minnebussen.

Lenke til kommentar

Historisk sett er EPIC en suksess på linje med alle andre RISC og CISC ISA som har blitt til noe. Det tar 10 år med research å få et kommersielt produkt og så tar det videre 10 år å få godt fotfeste. Så ja estimatet mitt er ikke tatt ut av lufta. Det er faktisk så lang tid det tar i denne bransjen. Egentlig ikke veldig urimelig om en tar kompleksiteten i et CPU-økosystem i betrakting. Det er ganske langt fra å estimere ytelsen på mikro-benchmarks til å levere et brett sett av pålitelige tjenester.

 

Minne er bare en av flere flaskehalser i dag. Vi må nok bort fra den parallelle DDR# bussen før eller siden, men det vil bare fikse båndbredde problemet, ikke forsinkelsen. FB-DIMM var et halvhjertet forsøk etter at RD-RAM gikk i vasken, men FB-DIMM bygger jo på DDR# implementasjonene ute på modulene og kan kun forbedre båndbredde og kapasitet på bekostning av forsinkelse og effektforbruk. Vi må nok tilbake til noe som ligner på RD-RAM snart...

 

Effektforbruk er også en grunnleggende "flaskehals" vi har, og skyldes at spenningen i CMOS ikke kan skaleres ned særlig mye lengre. Dermed kan ikke effekt per transistor reduseres nevneverdig og det hjelper lite om en bygger tettere, over større arealer eller i høyden. Det er jo nettopp dette Dally påpeker, og litt urettferdig prøver å trekke til fordel for nvidia.

Endret av Anders Jensen
Lenke til kommentar

0,65V høres ganske så optimistisk ut ja, men problemet er at selv dette vil utgjøre lite. Vi er allerede ned på 1V og ytterligere 0,35V reduksjon på 10 år er ikke mye å juble over. Det vil si at vi har en throughput økning på 2,4x (grovt beregnet ut fra 1/0,65^2) de neste 10 år som resultat av spenningsskalering alene. Antagelig på vesentlig bekostning av responstid som effekt av at propagation delay ikke skalerer like bra. Det virkelig interessante blir imidlertid hva som skjer etter dette. Ned til 22nm ser det ut til å gå rimelig greit det er den siste havdelen av dette tiåret og utover som blir virkelig problematisk. Ikke bare med tanke på ytelse men også med tanke på pålitelighet. Flash, CPU og DRAM har store utfordringer her.

 

Kom forresten nettopp over informasjon om at Intel Poulson er nevnt i errata dokumenter hos Intel. I klartekst betyr det at 32nm EPIC CPU allerede er i testbenken hos Intel. Kanskje skal det endelig bli slutt på at intel lemlester EPIC?

Endret av Anders Jensen
Lenke til kommentar

For meg virker det som Moores lov lever i beste velgående, men kun når det gjelder systemer som utnytter flerkjerne-arkitektur fullt ut. De siste årene har jo klokkefrekvensen stått nærmest stille, mens antall kjerner man kan få i et normalt system har doblet seg ca hver 18. måned. Og da er jo loven opprettholdt.

Lenke til kommentar

For meg virker det som Moores lov lever i beste velgående, men kun når det gjelder systemer som utnytter flerkjerne-arkitektur fullt ut. De siste årene har jo klokkefrekvensen stått nærmest stille, mens antall kjerner man kan få i et normalt system har doblet seg ca hver 18. måned. Og da er jo loven opprettholdt.

 

Effektforbruk er også en grunnleggende "flaskehals" vi har, og skyldes at spenningen i CMOS ikke kan skaleres ned særlig mye lengre. Dermed kan ikke effekt per transistor reduseres nevneverdig og det hjelper lite om en bygger tettere, over større arealer eller i høyden.
Lenke til kommentar

Sitat fra fudzilla:

 

Perhaps a user’s comment sums it up best: ”Considering the joke Fermi has become with regard to die size, heat, and relative lack of scale of performance he is best advised to take Moore's law more seriously and produce a decent product.”

Lenke til kommentar

parallell prosessing vil jo fungere best hvis det 2 avskilte berginger som gjøres samtidig eller så opplever man en flaskehals når den en prosessen må vente på data fra en annen. hvis nå systemet spår litt fremover og foretar en beregning som likevel må forkastes p.g. av de andre beregningen så sinker det også systemet. er det i det hele tatt mulig å gjøre noe med dette ?

Lenke til kommentar

nvidias problemer med Fermi er vel mer et bevis på at det er generelle problemer med CMOS heller enn at det ikke er det...

 

Spennings-skalering stagnerte allerede ved overgangen mellom 130nm og 90nm. Sånn sett er dette ikke noe nytt, det tar bare litt tid før entusiastmiljøene får det med seg. Det er effekten av stagnasjonen av spennings-skalering som gjør at det nå stadig oftere ropes ulv, ulv og død over moores lov etc. og det er forsåvidt fullt legitimt om en ignorerer det faktum at Moores lov, eller observesjon om en vil, var tidsbegrenset i sin originale versjon. Observasjonen var at det var mulig å doble antallet enheter på en brikke innen samme økonomiske ramme ca hver 18. mnd. Det spesifiseres ikke at dette ene og alene skal være transistorer eller at de skal bli flere utelukkende ved å bli mindre. Det som skjer nå er at kostnaden av å kjøle ned transistorene blir så høy at en ikke lengre kan doble hver 18. mnd. innen samme økonomiske ramme, selv om en skulle være likgyldig til de ikke-økonomiske effektene av løpsk effektforbruket og er teknisk kapabel til å lage brikker som er dobbelt så stor hver 18. mnd. Så lenge kostnaden ikke skalerer blir det fort uinteressant og for enheter med absolutte krav til effektforbruk, som batteridrevne enheter, hjelper det ikke om kunden sier at penger ikke er noen hindring.

Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Du må være et medlem for å kunne skrive en kommentar

Opprett konto

Det er enkelt å melde seg inn for å starte en ny konto!

Start en konto

Logg inn

Har du allerede en konto? Logg inn her.

Logg inn nå
×
×
  • Opprett ny...