Gå til innhold

Passerer 1 milliard transistorer


Anbefalte innlegg

Videoannonse
Annonse
Intels 64-bits "Montecito"-prosessor i Itanium-serien vil bryte milliardgrensen ganske kraftig med tanke på antall transistorer. Prosessoren vil nemlig bestå av svimlende 1,72 milliarder transistorer, fordelt på to prosessorkjerner.

 

Det opprinnelige målet var å nå denne milepælen i 2007 og man er dermed to år tidligere ute enn den opprinnelige målsetningen. Det er foreløpig usikkert om målet var for pessimistisk eller om Intel virkelig har fremskyndet utviklingen av Itanium.

 

Det har vel vært snakk om antall transistorer per kjerne, og dét overstiger jo slettes ikke en milliard transistorer enda. Da er det "bare" snakk om 860 millioner transistorer per kjerne, hvis jeg ikke regner helt feil...

Lenke til kommentar
Det har vel vært snakk om antall transistorer per kjerne, og dét overstiger jo slettes ikke en milliard transistorer enda. Da er det "bare" snakk om 860 millioner transistorer per kjerne, hvis jeg ikke regner helt feil...

5022766[/snapback]

Er det ikke transistorer per brikke som er det interresante? Det er jo det moores lov sier noe om. (Noe jeg tror er opprinnelsen til forventningen om 2007.)

 

Lurer på hvor varm denne godbiten blir jeg... :whistle: Tror ikke vanlig luftkjøling holder her nei!

Varmeutviklingen er ikke direkte avhengig av antall transistorer. Det er en ganske uavhengig faktor. Intel bestemmer nok effektutviklingen ut fra mange faktorer. Jeg tipper denne kommer i flere utgaver, både en med ganske høyt effektforbruk (sammenlignet med f.eks Pentium4) og et par versjoner med vesentlig lavere effektforbruk (f.eks ~50W). Luftkjøling er en selvfølge. Vann og fasekjøling hører ikke hjemme i slike systemer.

 

Hvor mange av transistroene er det som ligger i cache da?
Jeg vil anta ca 2 transistorer per bit for selve minnecellene i L2/L3 og ca 10% mer enn det til cachekontrolleren. I tillegg kommer nok en del ekstra for L1-cachen. Totalt drøye 230 mill transistorer. (Det er mulig jeg har litt skivebom her, men jeg prøver det tallet og ser som jeg blir korrigert av A.J. :p )

 

Hvor har en Opteron\Athlon\P4 til sammenligning ?

Opteron, Athlon64 FX og Athlon64 med 1MiB: 105,9 millioner

Athlon64 X2 og Opteron Toledo (2x1M): 233 millioner

Athlon64 X2 Manchester (2x1M): ca 158 millioner

Athlon64 med 512kiB: 68,5 millioner

Sempron: rundt 40 millioner

Celeron: 42 millioner

Pentium4 Northwood: 55 millioner

Pentium4 Prescott 1M: 125 millioner

Pentium-M banias 1M: 77 millioner

Pentium-M dothan 2M: 140 millioner

Pentium D smithfield: 230 millioner

 

486DX var forsåvidt den første desktop-CPUen som rundet 1 million transistorer med sine 1,2 millioner transistorer i 1989. Nå, 16 år senere, rundes altså tusen ganger så mye: 1 milliard. Det vil si en dobling omentrent hvert 1,6 år hvis vi tillater oss en litt kvasi sammenligning av tall (desktop CPU vs. high-end server-CPU)

Endret av Simen1
Lenke til kommentar

Nja dette har jo vært kjent i et par år for oss som følger med, men det er jo greit med en refresh når en nærmer seg lansering.

 

Forøvrig L2 og L3 cachen er SRAM basert og det er dermed 4 eller 6 transistorer per bit i minnecellene. Jeg tror det er snakk om 6T SRAM her. Kapasiteten er ikke det viktigste derfor benytter en mange transistorer per bit for å få opp hastigheten på cellene.

 

Tekniske data for Montecito har vel vært postet her mange ganger før, men jeg kan jo gjenta det jeg har liggende:

 

• Montecito 1.72 mrd. transistorer, dual core, 7 metallag, 90nm, 100W

• 64 mill. logikk transistorer fordelt på to kjerner, arbiter, osv. (Prescott har 70mill. til sammenligning)

• 16k L1 I-cache + 16k L1 D-cache per kjerne (L1 D-cache brukes ikke til flyttall)

• 1M L2 I-cache + 256k D-cache per kjerne

• 24MB (12+12) L3 cache, 1.47 mrd. transistorer 2+GHz ved 0.8V, 4.2W

• Switch on Event Mutlithreading, to tråder per kjerne, fire tråder per chip.

• Klokke krets < 10ps, < 25W (dårligere skew enn på Madison (7ps) men lavere effektforbruk (30-40W for Madison))

• 400 FSB (6.4GB/s), 533 FSB (8.5GB/s) og 667 FSB (10.6GB/s) Chipset vil bli utstyrt med to stk FSB for å få mer båndbredde til 4 socket systemer.

• Pelleston: Dynamisk håndtering av feil I L3 cache

• Foxton: Dynamisk frekvens boost basert på "Activity Factor" (AF) hos en applikasjon)

Også verdt å merke seg at integer register-file har fått to ekstra porter (opp fra 20). Det er også lagt til pop count og shift enheter samt noen nye instruksjoner.

 

Om Intel ligger forran den antatte utviklingen eller ikke blir et definisjonsspørsmål. Å produsere denne 580mm^2 brikken er jo en prestasjon i seg selv. Mesteparten er imidlertid SRAM som er mye enklere å produsere over store arealer enn logikk fordi en nokså enkelt kan legge inn redundans. Intel fant det imidlertid fordelaktig å legge til Pelleston slik at cache som ikke oppfører seg korrekt kan blokeres automatisk selv etter at prosessoren er tatt i bruk hos kunde. Dette er vel et tegn på at de opererer helt på grensen. Jeg mener å ha lest at Intel vil gi en ny CPU gratis om Pelleston slår av mer enn en viss prosent av L3 cache. Tror det var snakk om godt under 1% kanskje 0.1% eller noe slikt. Det er imidlertid mye ytelse å hente på å slippe å designe for absolutt worst case, så selv om dette kan virke som marginalt har det nok en reell konsekvens for hvor høy yield en får på hver klokkefrekvens.

 

Noe en kan merke seg her er at antallet transistorer per kjerne er nede i ca 30 millioner. Det er veldig lite til en så kraftig CPU og skyldes IA64 instruksjonssettet som hjelper til å holde deler at maskinvare kompleksiteten nede. Dette er av enkelte antatt å bli et veldig viktig trumfkort når en om sider blir tvunget over på såkalte throughput arkitekturer (best kjent som multicore) fordi en antar et det blir enklere å holde effektforbruket nede sammtidig som en kan legge seg på en nokså høy ytelse/tråd linje.

Endret av Anders Jensen
Lenke til kommentar

det eneste jeg kommer på er: Impressive.

 

går vk1 elektronikk hvor læreren min for litt siden påsto at det er mest transistorer i ramen, da jeg foralte at det er 222 mill i NV 40 (GF 6800) blei han litt overasket. ser på Simen1s liste at GPU og CPU hos meg blir 302 M (7800 GT) + 223 M (4400+) = 525 M. Det er altså ca 3,5 ganger så mange transistorer i den nye itaniumen. Foresten, hva slags utandelse har du egentelig Anders Jensen?.

Lenke til kommentar

"Pentium4 Northwood: 55 millioner,

Pentium4 Prescott 1M: 125 millioner"

 

Det jeg ikke skjønner, betyr dette med 1 milliard+, at prosessoren blir vanvittig mye raskere?

 

Tipper kanskje nei, ettersom Prescott nesten ikke var bedre enn Northwood, selv om Prescott hadde betydelig fler transistorer.

 

Men, jeg er ikke ekspert.., noen som vet? :)

Lenke til kommentar
"Pentium4 Northwood: 55 millioner,

Pentium4 Prescott 1M: 125 millioner"

 

Det jeg ikke skjønner, betyr dette med 1 milliard+, at prosessoren blir vanvittig mye raskere?

 

5027203[/snapback]

For å sammenligne med bilverdenen: En Volvo F12 lastebil med 12,1 liters motor er ikke raskere enn en Toyota Corolla med 1,4 liters motor selv om motorvolumet (les antall transistorer) er 8,6 ganger høyere.

Men, en lastebil (Itanium) er likevel bedre egnet enn en personbil til visse oppgaver. Kjører du f.eks. SuperPi på en Xeon prosessor vil du bli skuffet sammenlignet med en Northwood eller Prescott med samme klokkehastighet.

 

Nå er kanskje ikke bil analogien helt god siden skillet i bruksområdet er mer markant i lastebil vs. bilverdenen enn i cpu-verdenen, men jeg regner med du forstå tegninga :)

Endret av el-asso
Lenke til kommentar
det eneste jeg kommer på er: Impressive.

 

går vk1 elektronikk hvor læreren min for litt siden påsto at det er mest transistorer i ramen, da jeg foralte at det er 222 mill i NV 40 (GF 6800) blei han litt overasket. ser på Simen1s liste at GPU og CPU hos meg blir 302 M (7800 GT) + 223 M (4400+) = 525 M. Det er altså ca 3,5 ganger så mange transistorer i den nye itaniumen. Foresten, hva slags utandelse har du egentelig Anders Jensen?.

5026562[/snapback]

 

Hei, utdannelsen min er litt over normalen komplisert å redegjøre for i detalj, men kort sakt er det snakk om en ingeniørutdannelse innen teleteknikk med litt ekstra samt at jeg foreløpig har en del fag fra fysikalsk elektronikk og datateknikk (siv.ing) linjene ved NTNU. Er av den sorten som liker å rote litt rundt...

 

Tror nok læreren din har veldig rett i at mesteparten av transistorene ligger i RAM. Det kommer selvsagt mye an på konfigurasjonen, men om en bare teller med DRAM cellene så er jo 1GiB RAM god for 8.6 milliarder transistorer (1 transistor per bit og 8x2^30 bit eller 1 Gigabyte som en gjerne sier). I realiteten er det nok litt mer pga buffere, mulitplexing, styringslogikk osv. Har ikke tallene i hue men regner med det er mellom 9 og 10 milliarder transistorer i en 1GB DRAM modul.

 

Feber:

Det er ikke mulig å si noe konkret om hvordan en prosessor oppfører seg kun basert på antall transistorer som er benyttet i chipen. Når det gjelder Prescott spesielt så skal en være veldig forsiktig med å trekke konklusjoner om trender basert på den. Det er et veldig spesielt design vi aldri har sett maken til før (ligner over hodet ikke på Northwood) og det var også et gedigent feilskjær. F.eks trodde mange at det var noe galt med 90nm prosessen basert på observasjoner av Prescott, noe Dothan blandt annet har motbevist. Som jeg nevte over så er det også veldig få transistorer i Itanium kjernene (ca 30 millioner per kjerne). Det enorme transistorantallet i Montecito skyldes nesten utelukkende de 26MB med L2 og L3 cache. Det kan diskuteres om dette er en fornuftig bruk av transistorene, men om en velger å se det slik at transistorbudsjettet ikke er den største begrensningen per i dag, men heller effektforbruket så gir det langt mer mening. Legg merke til at 24MB L3 cache utgjør hele 1.43 mrd. transistorer og kun forbruker 4.2W ved 2+GHz. Det er en god måte å øke ytelsen uten å øke effektforbruket nevneverdig. Særlig når en tar med i betraktningen at disse prosessorene gjerne brukes i store maskiner med flere titalls eller hundretalls sokler og flere terabyte (TB) med RAM. Ofte er det store datasett og høye tilgangstider i slike maskiner og da er stor cache et must. I mindre maskiner med 1 til 4 sokler vil det neppe være aktuelt å benytte topversjonene i særlig grad (kanskje med unntak av HPTC clustere), men heller gå for langt billigere versjoner med mindre cache.

Endret av Anders Jensen
Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Du må være et medlem for å kunne skrive en kommentar

Opprett konto

Det er enkelt å melde seg inn for å starte en ny konto!

Start en konto

Logg inn

Har du allerede en konto? Logg inn her.

Logg inn nå
  • Hvem er aktive   0 medlemmer

    • Ingen innloggede medlemmer aktive
×
×
  • Opprett ny...