AMD Bulldozer: forvent 16 kjerner

Bolson · 17. desember 2009

lo litt a "Ambitious but rubbish" kommentaren. mest for at jeg så for meg clarkson komme med en hammer for å "fikse" noe. vi får håpe AMD klarer å få noen grønne tall fra cpu avdelinga snart også.

En helt OT kommentar i denne sammenhengen. FTC har saksøkt Intel for akkurat det samme som EU, Xbit Labs.

NB! Dette omfattes ikke av forliket mellom AMD og Intel. Ser ut til å bli et bratt år for Intel på tross av bra produkter. Kanskje AMD faktisk kan gjøre det bra pga. Intel sine synder.

FTC vil vist ha virkemidler omtrent som følger.

To remedy the anticompetitive damage alleged in the complaint, the FTC is seeking an order which includes provisions that would prevent Intel from using threats, bundled prices, or other offers to encourage exclusive deals, hamper competition, or unfairly manipulate the prices of its CPU or GPU chips. The FTC also may seek an order prohibiting Intel from unreasonably excluding or inhibiting the sale of competitive CPUs or GPUs, and prohibiting Intel from making or distributing products that impair the performance–or apparent performance–of non-Intel CPUs and GPUs.

Professional · 18. desember 2009

*gjesp* vekk meg når det er 2011.

kekepower · 18. desember 2009

Tusen takk alle sammen for flotte og innsiktsfulle kommentarer. Jeg forsto alt så mye bedre etter å ha lest alt dere kan :-)

BolleKalle · 18. desember 2009

AMD is also careful to mention that the integer throughput of one of these integer cores is greater than that of the Phenom II's integer units.

Så det pga den delte FT-enheten av ytelsen i er ned ca 10% pr "kjerne"? Hvordan vil dette slå ut for ytelse i spill?

Simen1 · 18. desember 2009

Tallet -10% stammer nok fra den delte FP-enheten ja, men ta tallet med en stor klype salt. Jeg forklarte hvorfor bare noen få innlegg før ditt: #18.

Kirchhoff · 18. desember 2009

Simen1: Jeg tror ikke AMD har den daglige enkeltråd aplikasjonen i tankene når de presanterer tallene sine. Jeg vil tro at de mener at 2 bulldozer moduler vil yte 10% dråligere enn en Shanghai på samme klokkefrekvens i godt trådete oppgaver. Vi snakker peak perfomance her.

Endret 18. desember 2009 av O:M:A

Simen1 · 18. desember 2009

Jeg snakker også om peak performance i scenarioene A, B og C.

Ulike programmer har ulik oppbygning. Noen lar seg tråde lett, andre vanskelig. Noen har mye FP-kode, andre lite. Noen har mye FP-kode samtidig i flere tråder, andre mer tilfeldig mønster av når koden i ulike tråder domineres av FP.

Det er altså en rekke faktorer som vil dra klokkenormalisert #kjernenormalisert ytelse opp eller ned og gjøre at tallet -10% et grovt gjennomsnitt.

Merk at både klokkefrekvens, antallet kjerner, effektbruk, pris og konkurransesituasjonen vil ha mye å si for vurderingen om dette blir gode prosessorer-kjøp i 2011 eller ikke.

Ut i fra det vi vet i dag om ytelse og andre faktorer tror jeg bulldozer blir gode kjøp i 2011.

Personlig velger jeg å oppgradere hoved-PCen fra Athlon64 X2 3800+ s939 til Athlon X2 250 AM3 i vinter og videre derfra til en 2-4 kjerners bulldozer når den kommer. Jeg vurderte lenge Intels Core i5 660 som en mulig kandidat, men har skrotet de planene til fordel for Athlon X2 250. Oppgraderingsmulighetene til bulldozer og intels politikk rundt brikkesett har vært viktige årsaker til at jeg endret planen.

Kirchhoff · 18. desember 2009

Jeg ser poenget ditt med at oppgaver er forskjellige og belaster forskjellig(FP/integer), men jeg tror ikke at de regner med oppgaver som kun bruker en tråd. Slike oppgaver hører fortiden til(jeg tror hvertfall de mener det, mtp deres fokus på å få flere tråder).

According to AMD's roadmaps, Zambezi will use either 4 or 8 Bulldozer cores (that's 2 or 4 modules). The quad-core Zambezi should have roughly 10 - 35% better integer performance than a similarly clocked quad-core Phenom II.

Hvor kommer egentlig -10% fra? Om det er AMD's egne tall, betyr det at vi kan forvente oss i værste fall -10% ytelse, og i beste fall 35% ytelse per tråd(i trådete oppgaver).

Snakk om god løsning da, ved kun 50% økning i die størrelse og likvel så godt som dobbelt så høy ytelse. DVS at om bulldozer ble produsert på dagens 45 nm GF teknikk, ville de kunne lage brikker som yter det samme som shanghai(+/- noen dusin prosent) på 25% mindre silisium(4/2*1,5=3/4).

Merkelig at de ikke har satset på samme arkitektur i bobcat arkitekturen, skulle tro det ville gi betydelig mer ytelse/watt med 2 kjerner på kun 50% større brikke.

efikkan · 18. desember 2009

Hmm, hva med å konvertere float til int, regne ut så tilbake? Ville jo måtte være enklere enn å ha en helt egen float del.

Er du klar over hvordan float lagres i datamaskiner? Det er ikke snakk om en int som har forskjøvet komma. Float er lagret som fortegn, eksponent og presisjon. (les om float )

Hvis du lager programvare som bruker float som en int med komma som er forskjøvet, så burde du brukt int, siden det er vesentlig raskere på omtrent alle CPUer.

HKS · 18. desember 2009

Litt artig at det er AMD som står for innovasjonen og utviklingen av teknologi på prosessorer.

Helt siden K7 har AMD vært ledende på dette og Intel har kopiert.

Kun fordi at AMD integrerte minnekontrolleren før Intel, og utvidet IA32 til 64-bit så mener du at de har stått for all invasjonen??

Prøv igjen!

Simen1 · 18. desember 2009

Jeg ser poenget ditt med at oppgaver er forskjellige og belaster forskjellig(FP/integer), men jeg tror ikke at de regner med oppgaver som kun bruker en tråd. Slike oppgaver hører fortiden til(jeg tror hvertfall de mener det, mtp deres fokus på å få flere tråder).

Entrådete oppgaver hører definitivt ikke fortiden til. Det er mange oppgaver som er serielle i natur og ikke kan paralelliseres effektivt, selv om man vil aldri så mye og har mer penger enn onkel skrue. AMD vet selvsagt dette og har bygget Bulldozer med det i tankene. Dvs. lagt opp til økt parallellisering i både GPU og på brikken, men samtidig prioritert slik at ikke antall tråder går så mye ut over enkeltråd-ytelsen.

According to AMD's roadmaps, Zambezi will use either 4 or 8 Bulldozer cores (that's 2 or 4 modules). The quad-core Zambezi should have roughly 10 - 35% better integer performance than a similarly clocked quad-core Phenom II.

Hvor kommer egentlig -10% fra? Om det er AMD's egne tall, betyr det at vi kan forvente oss i værste fall -10% ytelse, og i beste fall 35% ytelse per tråd(i trådete oppgaver).

Merk at det står integer performance og at det som deles er FP-enheten, ikke integer. Uansett så er det heller ikke snakk om verste fall eller beste fall. Det er kvalifiserte gjetninger/beregninger over gjennomsnittlig ytelse i et utvalg scenarier.

Snakk om god løsning da, ved kun 50% økning i die størrelse og likvel så godt som dobbelt så høy ytelse. DVS at om bulldozer ble produsert på dagens 45 nm GF teknikk, ville de kunne lage brikker som yter det samme som shanghai(+/- noen dusin prosent) på 25% mindre silisium(4/2*1,5=3/4).

Merkelig at de ikke har satset på samme arkitektur i bobcat arkitekturen, skulle tro det ville gi betydelig mer ytelse/watt med 2 kjerner på kun 50% større brikke.

Bobcat har et helt annet fokus: lav energibruk og pris. Ytelse og ytelse per watt er lavere prioritert enn watt og pris. Bobcat blir altså noe lignende Atom. Den store forskjellen blir nok bedre ytelse og tilgjengelighet på bedre grafikkløsninger. AMD sier at Bobcat får 90% av dagens mainstream ytelse. Hva nå enn det betyr at de sammenligner med.

Kirchhoff · 18. desember 2009

Jeg vet alt for lite om integer kjerne og floating point planlegger(scheduler), burde egentlig bare ha holdt kjeft, men jeg skjønner det med at 2 tråder med egen integer kjerne må dele på en FP planlegger(scheduler). Men jeg tror fortsatt ikke at de tar med enkelt trådete oppgaver i sammenligningen, for greien er vel at tallet skal beskrive hvor mye en tråd taper på å dele FP planlegger(og da må begge integer kjernene være i bruk for at delingen skal ha noen effekt).

Noen som har link til sitatet egentlig? Sånn at vi kan se litt nærmere på hva de mener med de 10 prosentene.

Når det gjelder bobcat, hvem som helst kan jo lage en lav effekts prosessor til en RELATIVT veldig lav pris. Det er jo bare å bruke en gammel arkitektur og hive innpå noen instruksjoner og krympe den til dagens produksjonsteknikk(setter det litt på spissen her). Det som er en utfordring tror jeg er å få god ytelse/watt. En enkel bulldozer modul vil vel være rimelig effektiv i forhold til en dobbelkjerne med hver sin FP planlegger, tror jeg hvertfall.

Og jeg ser mange skriver om at GPUen kan ta/kommer til å ta over for FP planleggerene sine oppgaver, jeg lurer på om noen som har prøvd feks ATI sin video konverterer? Jeg prøvde et par ganger på min tidligere 4870 baserte maskin, og det klikket i ett sett og var gjevnt over ubrukelig. Det er dagens tilstand for GPcomputing.

Legger til: Om man vil vite hva AMD mener med dagens mainstream, er det bare å se på noen gamle veikart og se hva de kaller mainstream der.

Endret 18. desember 2009 av O:M:A

GeirGrusom · 18. desember 2009

GPU-en kan ikke ta over for CPU-en fordi GPU-en er 32-bit, mens CPU-en sin FPU er 80-bit. Dessuten mangler GPU-er en stack.

Det jeg derimot er litt skeptisk til, er å ofre ytelse til fordel for flere kjerner. De aller fleste oppgaver lar seg ikke løse parallelt.

Bolson · 18. desember 2009

Jeg ser poenget ditt med at oppgaver er forskjellige og belaster forskjellig(FP/integer), men jeg tror ikke at de regner med oppgaver som kun bruker en tråd. Slike oppgaver hører fortiden til(jeg tror hvertfall de mener det, mtp deres fokus på å få flere tråder).

Entrådete oppgaver hører definitivt ikke fortiden til. Det er mange oppgaver som er serielle i natur og ikke kan paralelliseres effektivt, selv om man vil aldri så mye og har mer penger enn onkel skrue. AMD vet selvsagt dette og har bygget Bulldozer med det i tankene. Dvs. lagt opp til økt parallellisering i både GPU og på brikken, men samtidig prioritert slik at ikke antall tråder går så mye ut over enkeltråd-ytelsen.

Bra sagt Simen1. Det er faktisk en av de store utfordringene knyttet til gode prosessordesign. Intel har vel egentlig løst dette ved hjelp av turbomode. Hadde ikke Nehalem hatt dette så hadde det faktisk vært en relativt dårlig desktopprosessor på en lang rekke typiske oppgaver.

Noe helt annet er det når vi snakker om servere, men i og med hverken AMD eller Intel har ressurser til å holde to helt ulike design gående, så er det kompromiss i arkitekturen.

Ellers tror jeg AMD regner Athlon II og laveste del av Phenom II (X2) som mainstream.

GullLars · 18. desember 2009

Jeg er enig med Bolson i Athlon II og Phenom II x2 som dagens "mainstream" ytelse fra AMD. 90% av dette vil være nydelig ytelse i en lav-effekt bærbar sammen med OS og programmer på et ONFI DDR NAND oppsett. Slenger man på en tilsvarende 5750 GPU med <50% av dagens effektbruk som i tillegg takler GPGPU oppgaver (pålitelig), hardware videoaksellerasjon, de/encoding, og muligens kryptering og kompressjon (ZIP/RAR) så har man et fint oppsett.

Buldozer ser ut til å bli en veldig interresant arkitektur. Skal bli spennende å se hvordan den yter.

Simen1 · 19. desember 2009

O:M:A: Både int og FP har planleggere. Int og FP er ulike typer instruksjoner. En programkode har en miks av de int og FP kode og prosessoren må planlegge hvordan begge deler skal utføres før det sendes til de pipelinene som faktisk gjør arbeidet.

Dette diagrammet skal leses ovenfra og ned for å følge strømmen av instruksjoner og data gjennom prosessoren:

1. Første steg er fetch. Den skumleser koden for å finne ut hva som skal leses fra minnet og organiserer hentingen fra minnet. Den kommuniserer altså med minnekontrolleren og cache.

2. Andre steg er dekoding. x86 instruksjoner har en avleggs og ineffektiv oppbygning fra 80-tallet. Derfor oversettes instruksjonene til noe prosessoren kan jobbe raskere med. Det er RISC-lignende instruksjoner. Noen instruksjoner slås sammen og andre deles opp i enklere steg.

3. Tredje steg er planleggerne (scheduler), en slags køordner. Disse organiserer rekkefølge og orden på hvilke instruksjoner som skal hvor. Antatt tidskritiske instruksjoner får prioritert plass i køa. I skissen er det tegnet inn 10* parallelle køer.

4. Fjerde steg er selve regnejobben. Hver pipeline er en "sklie" som instruksjoner og farer gjennom på rekke og rad. Det er som regel 1-3 instruksjoner i hver sklie av gangen. For hver klokkepuls rykker raden med "regnestykker" ett hakk frem og regnes ut ett hakk mer for hver gang. Når de er ferdig med sklia/pipeline er de ferdig regnet ut. Resultatet havner i L1 cache og dyttes etter hvert videre til L2, L3 og minnet.

5. Fetch, helt øverst i skissen, kan når som helst hente resultater fra L1, L2, L3 og minnet for bruk i senere instruksjoner. Hele syklusen fra fetch til L1 tar ca 8-15 klokkepulser. Det vil si at en instruksjon som venter på resultatet fra forrige instruksjon må vente ca 8-15 klokkepulser før den kan utføres. Det er dette planleggeren holder styr på når køene av instruksjoner skal utføres.

* Antallet køer er noe forenklet. F.eks kan 128 bit FMAC splittes opp til 2 køer a 64bit FMAC.

Det er egentlig to sitater. Ett for Bulldozer og ett for Bobcat:

Bulldozer:

AMD claims that the performance benefit from the second integer core on a single Bulldozer module is up to 80% on threaded code.

(Jeg har sett det samme i en presentasjon også, men finner den ikke i farta.)

Bobcat:

Det er ikke så enkelt å lage en laveffekt prosessor. Man må gjøre mer enn å krympe en gammel prosessor. En prosessor optimaliseres for et område med ca 10 ganger forskjell i TDP. F.eks fra 13-130 Watt, 5-50 Watt, eller 1-10 Watt. Bulldozer antar jeg er optimalisert for ca 15-150 Watt, mens Bobcat er optimalisert for ca 1-10 Watt. De kan selvsagt tøye grensene litt, men å lage en 1 Watt prosessor ut av en 100 Watt prosessor er å tøye strikken for hva som er praktisk mulig, for langt.

Kirchhoff · 19. desember 2009

Simen1: Takk for opplysende post. Intel har jo prøvd å gjennbruke den gamle pentium kjernen, i larabee, de kunne nok laget en ny og mer effektiv kjerne, men å krympe den gamle var nok mye billigere.

Men siden bobcat er "sub 1 watt capable" kan vi regne med at det ikke er snakk om 2 kjerner. Hvordan skal de klare 90% av ytelsen til dagens athlon II da? De må snakke om 45 nm sempron serien.

Hadde vært kult om AMD virkelig hadde satset på gpgpu og spleiset bobcaten med en relativt kraftig gpu.

Legger til: Noe sted å diskutere den nye Danube platformen?

Endret 19. desember 2009 av O:M:A

del_diablo · 19. desember 2009

Men siden bobcat er "sub 1 watt capable" kan vi regne med at det ikke er snakk om 2 kjerner. Hvordan skal de klare 90% av ytelsen til dagens athlon II da? De må snakke om 45 nm sempron serien.

Hadde vært kult om AMD virkelig hadde satset på gpgpu og spleiset bobcaten med en relativt kraftig gpu.

La oss se, siden de har et intigrert GPU regnes sikkert ikke den med på dette.

Og så fjerner vi det som vi bruker GPU til i CPU(float point?). Altså det samme som Bulldozer, men fjern den ekstra "falske" kjernen.

Men la oss si det vi burde ha skreket siden år 2000: La x86 dø!

GullLars · 19. desember 2009

Jeg er enig i at det virker veldig logisk å gå bort fra x86 og velge et mer moderne og optimalisert instruksjonssett.

F.eks. for netbooks og lav-effekt laptops må det kunne være mye å hente i å lage en spesialisert prosessor for å hovedsaklig kjøre Linux, moderne web, kontorprogrammer og media. En slik sak med native støtte for openCL, og så komplimentere denne med en liten effektiv GPGPU chip også med native støtte for openCL/GL(hardware aksellerasjon for media og visuelle saker, og gjøre det mulig å få gjort noe tyngre ting på lavt energibudsjett).

Kirchhoff · 19. desember 2009

Hadde vi fått noen med penger til å satse på dette, hadde jo det vært flott. Men det nærmeste man får idag er jo ARM baserte SOC som man kan instalere Linux på. Kanskje det kommer noen netbooker basert på ARM også, men det blir lite penger inne i bildet.

AMD Bulldozer: forvent 16 kjerner

Anbefalte innlegg

Lenke til kommentar

Videoannonse

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Opprett konto

Logg inn

Populær nå

Hvem er aktive 0 medlemmer