Gå til innhold

AMD Bulldozer: forvent 16 kjerner


Anbefalte innlegg

Videoannonse
Annonse
Flyttallskalkulasjon (floating) flyttes til ett sentralt sted som deles mellom alle modulene ("kjernene")

Dette er en grov feil/mistolking. Det riktige skal være at flyttallskalkulasjoner ikke flyttes til noe sentralt sted, men ligger som en integrert del av et kjernepar. Man vil altså finne en flyttallsenhet per "dobbeltkjerne"-modul.

 

Det ser faktisk ut som om ytelsen per kjerne blir noe lavere enn dagens (ryktes 10 prosent), men siden man kan få plass til 16 kjerner på samme plass som en 8-kjerner i dag, kan utfallet bli ganske så annerledes.

Areal per kjerne eller per modul er så vidt meg bekjent ikke oppgitt noe sted. De har ikke en gang bekreftet hvilken prosessnode de skal produsere den på, selv om det ligger i kortene at det blir 32nm SOI. Rent logisk er det også lite sannsynlig at modulene med ~1,5 kjerne skal bli halvparten så stor som dagens dobbeltkjerner.

 

post-3851-1261060778_thumb.jpg

 

Bulldozer-designet legges opp på en slik måte at det skal være enkelt å endre totaliteten i prosessoren ved å plugge inn andre moduler på senere tidspunkt, eks. bytte ut minnekontroller, grafikkontroller eller annet. Dette er selvfølgelig noe som må gjøres i lab, men skal altså være langt enklere enn tidligere.

Du får det til å høres ut som det går an å gjøre endringer på en ferdig produsert prosessor. Det gjør det ikke. Modulariteten er en fordel som sitter i andre enden av produksjonslinja. Altså de som sitter og designer nye prosessorkjerner. De kan enklere enn før f.eks bytte ut en prosessormodul med en GPU-del.

 

Det sies at Bulldozer-prosessorene vil være kompatibel med de nye sokkeltypene som AMD lanserer i år (G34 og C32).

Det står på veikartet at desktop-versjonene skal være kompatible med AM3-sokkelen.

 

post-3851-1261060540_thumb.jpg

Endret av Simen1
Lenke til kommentar
Flyttallskalkulasjon (floating) flyttes til ett sentralt sted som deles mellom alle modulene ("kjernene")
Dette er en grov feil/mistolking. Det riktige skal være at flyttallskalkulasjoner ikke flyttes til noe sentralt sted, men ligger som en integrert del av et kjernepar. Man vil altså finne en flyttallsenhet per "dobbeltkjerne"-modul.
Det reagerte jeg også på. I denne artikkelen fra Anandtech (som forøvrig er nesten 3 uker gammel) synes jeg de understreket ganske godt at hver modul ville bestå av to integer-enheter og én float-enhet.
Lenke til kommentar

For 20 år siden var Int og float på hver sine prosessorsokler. Som to ulike prosessorer som jobbet i tospann.

 

Disse ble spleiset sammen og kalt en prosessor i bortimot 15 år. I løpet av disse årene ble det også lagt til blant annet SMID i prosessorene og antallet int og float enheter og deres egenskaper er også endret. Men felles for alle disse designene var at en tråd fikk en dedikert gruppe prosessorressurser å jobbe på. En prosessor besto altså av mange ulike prosesseringsmotorer i en slags pakkeløsning kalt prosessor og jobbet alltid med 1 tråd av gangen.

 

Begrepet prosessor fikk et innspill fra Intels HyperTrheading (HT) med "virtuelle prosessorer" uten at det endret navnet prosessor eller kjerne. Intels HT fungerte sånn at en tradisjonell prosessor kunne kjøre to tråder samtidig på de samme prosessorressursene.

 

For ca 5 år siden ble flere kjerner per prosessor aktuelt. Fra da av ble navnet på et et slikt par med int, float med mer endret fra prosessor til kjerne. Man kunne ha flere kjerner per prosessorsokkel. Fortsatt var det sånn at en tråd fikk en gruppe prosessorressurser dedikert til sitt arbeid.

 

Bulldozer bryter det innarbeidede mønstret med å kalle int + float for en prosessor eller en kjerne. En bulldozer-modul består av int + int + float. Fremover vil en slik triplet bli kalt for en modul eller to kjerner. Maskinvaremessig er den mer enn en kjerne, men mindre enn to kjerner. Samtidig kjører modulen to tråder. Trådene har hver sine dedikerte int-enheter, men hvis de vil bruke float så må de dele på float-enheten. Omtrent som intel HT. Bulldozer er altså en mellomting mellom hyperthreading og et komplett sett med doble kjerner. Begrepet dobbetlkjerne vil på nytt bli utfordret fordi dette er en mellomting mellom en enkeltkjerne med HT og en komplett dobbeltkjerne.

 

Løsningen er egentlig ganske genial. AMD får dyttet inn flere av de tingene som er viktige for framtiden (int) per areal, men mindre av det som blir mindre viktig i fremtiden (float) per areal. Misforstå meg riktig. Float-prosessering blir fortsatt viktig, men mye av denne prosesseringen vil gradvis flyttes over på GPU-er etter hvert som maskinvare og programvare modnes for det. Dette synes jeg er et meget spennende og innovativt steg fra AMD. Lanseringen kommer i 2011, men modningen av programvare og maskinvare vil ta mange år.

 

_____________

 

Til slutt en liten kommentar om de nye brikkesettene.

 

- C32 får 2 stk DDR3 minnekanaler og overtar dermed for server-sokkelen socket F (LGA1207)

- G34 får 4 stk DDR3 minnekanaler og danner grunnlag for prosessorer med 8-16 kjerner

Lenke til kommentar
Det blir knallbra dette da, gleder meg til å se hva som kommer til å bli ut av dette.

Tøft at jeg har et kort som støtter AM2 og AM3 men vil kortet mitt da kunne kjøre disse fremtidige prosessorene?

 

Mye tyder på det ja. Men en bios oppdatering er nødvendig når den tid kommer.

 

Litt synd at prosessoren går ned i ytelse pr "kjerne" men de har nok noe på lur.

Lenke til kommentar

Store regnejobber som kan parallellproseseres hører ikke hjemme i CPU, men i GPU. Riktig nok klarer som regel én CPU-kjerne jobben raskere enn én GPU-kjerne, men så får vi opptil flere hundre GPU-kjerner på samme areal som én CPU-kjerne. Det er tilsvarende for effekten. Slik utviklingen går nå, ser det ikke ut til at CPU vil kunne konkurrere på dette feltet.

 

Så at AMD nå kanskje vil gjøre denne endringen er interessant. Utregning av flyttall tar allerede ganske stort areal i en x86-kjerne.

Lenke til kommentar

Dette er et klart skritt i riktig retning. Jeg tror nok ikke det vil gå lange tiden før vi begynner å se integrerte gpuer som tar over for float-enhetene. Når det gjelder begrepet "kjerner" syns jeg vi burde styre unna det og heller se på hvor mange samtidige tråder en prosessor takler. Har vansker med å forstå hva det er de måler med når de sier at ytelsen vil gå ned 10% per kjerne.

Lenke til kommentar
Litt synd at prosessoren går ned i ytelse pr "kjerne" men de har nok noe på lur.

Ta det tallet med en klype salt og se litt dypere på hva som ligger bak den gjennomsnitts-antagelsen. La oss ta utgangspunkt i en bulldozer med 2 moduler og dermed 4 kjerner. Så prøver vi å se for oss ulike typer laster:

 

A. Hvis du kjører et tungt enkeltrådet program så vil det yte fullt ut (100%) fordi det får en hel int enhet og en hel float enhet for seg selv. Bulldozer vil altså gi fulle 100% ytelse uansett om tråden er dominert av int eller float.

 

B. Hvis du kjører et middelt flertrådet program (to tråder) så vil hver tråd velge en av kjernene på hver modul. (logisk kjerne 0 og 2). Da får begge trådene en hel int enhet og en hel float enhet for seg selv. Med andre ord 100% ytelse på begge tråder. Det gjelder også både int og float-dominerte tråder.

 

C. Hvis du kjører et tungt flertrådet program med god skaleringsevne så vil alle de fire trådene kjøre med 100% int-ytelse og ned mot 50% float-ytelse dersom koden er sterkt float-dominert. I reelle programmer med en miks av int og float vil ytelsen ligge et sted mellom 50 og 100%. Merk at scenarie C er perfekt for å kjøre på ennå flere kjerner. Et viktig poeng med bulldozer er nettopp det at man vil få plass til flere kjerner på hver prosessor og flere kjerner per krone. Det man taper av ytelse her vinner man altså igjen på antallet kjerner.

 

Med andre ord har vi tre scenarier A, B og C, der alle tre gir full ytelse og full valuta for pengene.

Lenke til kommentar
Har vansker med å forstå hva det er de måler med når de sier at ytelsen vil gå ned 10% per kjerne.

Jeg tror de sammenligner ulike typer simulerte laster som i scenariene mine A, B og C med tidligere kjernedesign. Forutsetningene er nok samme klokkefrekvens og samme maksimale antall samtidige tråder. F.eks Phenom X4 3 GHz vs Bulldozer 2 moduler/4 kjerner på 3 GHz. Så tar de et gjennomsnitt av resultatene og kommer frem til estimatet 90%.

 

Tallet 90% tar sikkert hensyn til at en bestemt tråd sjelden bruker 100% av float-enheten og dermed overlater overskuddskapasitet til den andre tråden i paret. Tallet tar neppe hensyn til forbedret prosessteknikk (32nm SOI) og kostnadsbesparelsene det medfører. Tallet tar heller neppe hensyn til at man trolig får rundt dobbelt så mange samtidige tråder per krone, eller at klokkefrekvensene trolig øker en smule.

Lenke til kommentar

Bli med i samtalen

Du kan publisere innhold nå og registrere deg senere. Hvis du har en konto, logg inn nå for å poste med kontoen din.

Gjest
Skriv svar til emnet...

×   Du har limt inn tekst med formatering.   Lim inn uten formatering i stedet

  Du kan kun bruke opp til 75 smilefjes.

×   Lenken din har blitt bygget inn på siden automatisk.   Vis som en ordinær lenke i stedet

×   Tidligere tekst har blitt gjenopprettet.   Tøm tekstverktøy

×   Du kan ikke lime inn bilder direkte. Last opp eller legg inn bilder fra URL.

Laster...
×
×
  • Opprett ny...