Xeon, Itanium med integrert minnekontroller

Simen1 · 19. juni 2005

Del, og Snorreh: Som A.J. sier: Itanium vil fortsette å øke i ytelse når x86 vil slite mer og mer siden mer og mer. SMT på begge plattformer vil gjøre betingede grener til en viktigere og viktigere del av flaskehalsen. Så jeg tror det er alt for tidlig å utrope noen ytelsemessig vinner.

Tja, hvis du tenker på Itaniums predikering (ILP) så ..

Det var ikke det jeg tenkte på. Jeg tenkte på selve piplinens egenskaper for å håndtere betingede grener uten hjelp av predikator (som forsåvidt ikke alltid fungerer like bra).

Selv har jeg størst tro på flere eksekveringsenheter (ALU/FPU/SIMD) på x86-prosessorer siden det automatisk gir parallelisering, dernest ser jeg frem til enda flere kjerner i prosessorene. AMD har som kjent satset mye på å ha mange eksekveringsenheter på sine prosessorer, og de skal også satse tungt på flerkjerne-prosessorer fremover.

Jeg vil vel heller si at mye av suksessen til AMD i det siste ikke har så mye å gjøre med antall execution units. (De har vel vært omentrent uendret siden K7 ble lansert våren 1999.) Suksessen i det siste handler vel mer om lengden på pipelinen og lav latency til minnet, og dertilhørende små "bobler". Intel valgte en annen løsning på netburst i sin tid: Lang pipeline (og dermed mye større bobler), for å få høyere klokkehastighet, og at de større "boblene" skulle reduseres ved hjelp av kraftig innsats på gren-predikering. Det at netburst har kommet ganske feil ut skyldes at denne strategien førte til langt høyere effekt, og at predikeringen ikke klarte å redusere mengden bobler per tid til det nivået AMD klarte med sin K8 med mye enklere predikering. Jeg tror altså at lengden på pipelinen og den lave latencyen til minnet var en viktigere årsak til AMDs suksess med K8 enn antall execution units. Intel har selvfølgelig lært mye av netburst og har valgt en annen fremgangsmåte på Itanium. Der er pipelinen konstruert for å ennå bedre fjerne bobler. Slik at IPC kan bli betydelig høyere enn på K8. Med færre bobler er det også mulig å legge til flere execution units. (Hvis ikke ILP kan gjøres høy nok likevel så er det ikke noe vits med flere execution units fordi de vil stå arbeidsledige mesteparten av tiden og bare suge ressurser (watt + arealkostnad) på bekostnign av resten av kjernen.

K8 har en fin balanse mellom ILP, bobler og antall execution units i dag, men antall execution units alene vil ikke gjøre noer spesielt mer. Itanium har også en god balanse, men vil på grunn av mindre bobler ved grener gi en høyere ILP hvis det er execution untis nok. Både itanium og K8 kan fint håndtere flertrådete oppgaver bra både nå og i fremtiden ved hjelp av flere kjerner, høyere klokkehastigheter, osv, men på betingede grener (nøstede grener) vil Itanium kjøre i ring rundt K8. Når parallellisering ved hjelp av flere kjerner og flere execution units har gått til det møter minkende grensenytte (diminishing returns), mens Itanium ikke vil møte den veggen på samme måte.

Endret 19. juni 2005 av Simen1

ATWindsor · 19. juni 2005

Selv har jeg størst tro på flere eksekveringsenheter (ALU/FPU/SIMD) på x86-prosessorer siden det automatisk gir parallelisering,

Oi, loop. Den har vi sett før. Merkelig at noen fortsatt tror på dette.

Uten at jeg skal skryte på meg noen som helst slags peiling, så synes jeg mange av argumentene i databransjen gjentaes år for år. Er ikke få ganger i løpet av åra jeg har lest "utvikling på x86 har nådd en vegg", "PCens dager som spillmaskin er talte" "Itanium vil ta over alle høyytelse-segmeneter om kort tid" o.l. For meg som den gjengse mann er det veldig vasnklig å orientere meg når slike dommedagsprofetier kommer annenhver dag.

AtW

Coffie=JavaCode · 19. juni 2005

Bøyer meg i støvet av Anders Jensen, utrolige mengder kunskaper du har.

snorreh du har helt rett i at en dualcore kommer til å slå en IA64 prossesor. Men på skalering så er jo IA64 bedre. For ikke å snakke om at HW kostnader ofte er på bare noen få prosent av software kostnadene. Når du da også tenker på at flere bedrifter tar lisenser per kjerne så vil regnestykke se svært anderledes ut. Et lite eksempel

8way dualcore operton system koster X

8way singelcore IA64 system koster 4X

Her vil nok ytelsen være ganske lik, vanskelig å si noe bestemt om det. La oss si at all den programvaren de vil kjøpe i antall er 50/50 blant de som er per core og de som er per system. Programvare prisene på de som er per system vil nok være betydelig høyere på IA64 eks 6X vs 10X i favør Operton

Vi er på komme til en pris på operton systemet på 7X

og IA64 systemet på 14X

Resten av programvaren er på 1 X per core.

Altså 7+16 = 23X for operton

14+8= 22X for IA64

Dette er jo bare et eksempel tatt ut fra mitt uverdige hode, men you get the point. Alt er ikke så svart hvit som noen mener. Hvis dere vil komentere noe av dette så

1) send en PM

2) har allerde sagt at jeg ikke har noen ordentlige tall på dette, det er bare ment som et oppdiktet eksempel

3) de tallene på både ytelse og kost er som sakt OPPDIKTET og er bare i et tenkt tilfelle, så IKKE quote eller diskuter dette hvis dere er uenige om dette, det er så off topic

On Topic: Angående minnekontrollerene har det noen effekt angående FB-DIM minne? Siden intel ser ut til å integre det ca i samme tid som FD-DIM så lurte jeg om det var noen muligheter så knytte de sammen på en måte.

Er det mulig å integrer minnekontrolerene på en bedre eller verre måte enn det eks AMD har gjort eller er det bare en måte å gjøre det på. Eks så vare det mye snakk om at Intel sin 64bit (for X86) var så dårlig i forhold til AMD sin, men det var jo ikke tilfelle. Vil noe lignende skje igjen?

Kan dette også sees på som at Intel begynner å tenke på noen SOC CPUer? :hmm: Det hadde inte vært så dumt.

Edit: ATWindsor vel ingen X86 prossesor er i høyytelse segmentet, der er det nok bare ensome Power 5 for tiden. IA ypper av og til men har bare ikke klart det.

Endret 19. juni 2005 av Macfan

snorreh · 19. juni 2005

Itanium har også en god balanse, men vil på grunn av mindre bobler ved grener gi en høyere ILP hvis det er execution untis nok. Både itanium og K8 kan fint håndtere flertrådete oppgaver bra både nå og i fremtiden ved hjelp av flere kjerner, høyere klokkehastigheter, osv, men på betingede grener (nøstede grener) vil Itanium kjøre i ring rundt K8. Når parallellisering ved hjelp av flere kjerner og flere execution units har gått til det møter minkende grensenytte (diminishing returns), mens Itanium ikke vil møte den veggen på samme måte.

Beklager, men det har jeg overhodet ingen tro på. Det virker ganske opplagt for de av oss som har hatt den tvilsomme æren av å teste Itanium-systemer at denne arkitekturen også har møtt veggen for lenge siden og Intel tar nå i bruk alle mulige knep i et siste (desperat?) forsøk på å skjule dens mange svakheter. Det hjelper bare så fint lite når alle de andre konkurrentene etterhvert også gjør det samme og resultatet blir i beste fall status quo. Når det gjelder ytelsen til Itanium, så er det som sagt enorm forskjell mellom teori og praksis. Vi har alle hørt snakk om dens såkalte enorme potensial i alle år, men sett svært lite til det i praksis (SPEC-tester o.l. teller ikke). På tide å innse realitetene snart, eller fortsette å håpe på mirakler? :roll:

Endret 20. juni 2005 av snorreh

Del · 19. juni 2005

Punkt 1. Det var jeg, og ikke Snorre som påstod at Dualcore Opteron ga bedre ytelse enn Itanium2. Det gidder jeg ikke engang å diskutere, for det har jeg sett benchmarket på diverse kode, faktisk er en single core opteron i nærheten av ytelsen til en Itanium2.

Punkt 2. Når det gjelder lisenskostnader, så er dette en issue som for meg ser ut til å løse seg. Microsoft har allerede gått klart ut med sin holdning, en pris pr. sokkel. Linux, eller egenprodusert kode er gratis for den som vil, og de fleste leverandører tror jeg må bøye seg for parallelliseringsvinden hvis de skal ha en sjanse. M.a.o. beste kjøp pr. i dag er dual core Opteron. Den relevante sammenligningen er 8xItanium vs. 4xdual Opteron, og dobling av lisenskostnader på Itanium i forhold til Opteron.

Punkt 3. Slik jeg ser det titter Anders i krystallkula, det er framtiden han prøver å spå, og kjører en sterk sak for SMT, ILP og VLIW. Det kan godt hende det blir slik, men x86 sin død har blitt spådd før, og arkitekturen har mirakuløst tilpasset seg. Så hvorfor skulle ikke det skje igjen. Den artikkelen jeg linket opp er det nærmeste jeg har kommet et solid argument, men selv der er det noen åpne spørsmål. At Itanium arkitekturen prøver å ta ILP et godt steg videre er jeg enig i, men de har langt fra lyktes med det ennå.

Punkt 4. Med eller uten Amdahl har vi, tror jeg, ennå ikke sett begynnelsen av hva TLP kan by på for desktopen, og der mener jeg x86 har et godt stykke igjen før den møter veggen. Når den tid kommer er det kanskje helt andre arkitekturer enn Itanium2 som er i skuddet. For de som ikke er klar over det: Amdahls lov gjelder også for IA64, både i forhold til ILP og TLP.

Punkt 5. For ganske kort tid siden kunne ikke x86 adressere mer enn 4GB minne. Hva er det egentlig som gjør det utenkelig at x86 skal kunne adressere flere registre?

@Anders: Ingen tvil om at IBM har vært pionerer, men Cray har vel også fortjent noe kreditt for nyskapning? Ellers lurer jeg på hvem som først fikk en prosessor oppe å gå som eksekverte både 64- og 32-bit kode like effektivt?

@Macman: Hva mener du med at IA64 skalerer bedre?

Endret 20. juni 2005 av Del

Coffie=JavaCode · 20. juni 2005

@Anders: Ingen tvil om at IBM har vært pionerer, men Cray har vel også fortjent noe kreditt for nyskapning? Ellers lurer jeg på hvem som først fikk en prosessor oppe å gå som eksekverte både 64- og 32-bit kode like effektivt?

@Macman: Hva mener du med at IA64 skalerer bedre.

Can you spell PPC970?? Som kom i 2001 var det vel og kunne prossesere 32 og 64 bit like effektivt, det var en stund før apple begynte med de. Men IBM hadde de i noen servere og litt andre ting.

Vel kan hende jeg tar feil men er ikke ytelsestapet mindre på Itanium2 enn på operton ved cluster. Eller er jeg helt på vidden? Vet at Clay har en utrolig lav ytelsestap men trodde Itanium2 hadde enda mindre. Men jeg kan ta feil, hvis jeg har det så bare si i fra.

Når det gjelder lisenskostnader og de prossesorene vi snakker om så har ikke akkurat MS noe å si. Jeg vet ikke om en eneste større maskin som kjører MS. Og programvare produsenter som eks Oracel har gått ut og sakt at det er forsatt per core lisener og det finnes mangen andre produsenter som følger dies eksempel.

Del · 20. juni 2005

Can you spell PPC970?? Som kom i 2001 var det vel og kunne prossesere 32 og 64 bit like effektivt, det var en stund før apple begynte med de. Men IBM hadde de i noen servere og litt andre ting.

Vel kan hende jeg tar feil men er ikke ytelsestapet mindre på Itanium2 enn på operton ved cluster. Eller er jeg helt på vidden? Vet at Clay har en utrolig lav ytelsestap men trodde Itanium2 hadde enda mindre. Men jeg kan ta feil, hvis jeg har det så bare si i fra.

Når det gjelder lisenskostnader og de prossesorene vi snakker om så har ikke akkurat MS noe å si. Jeg vet ikke om en eneste større maskin som kjører MS. Og programvare produsenter som eks Oracel har gått ut og sakt at det er forsatt per core lisener og det finnes mangen andre produsenter som følger dies eksempel.

Når det gjelder PPC970 så stoler jeg på deg, var ikke klar over det.

Når det gjelder dual kjerne AMD prosessorer (enten X2 eller Opteron) så er (enda så mye jeg misliker det) Microsoft sannsynligvis den største leverandøren av software. At de ikke er det på IA64 har selvfølgelig helt naturlige årsaker, de støtter jo ikke arkitekturen. På klynger har du selvfølgelig rett, der har ikke MS noe produkt. Når det gjelder servere og dual-CPU PC'er er bildet ganske annerledes.

Jeg tror Oracle vil få store problemer med sitt standpunkt.

Når det gjelder skalering kan du jo bare sjekke opp SPEC.org, og husk da at kompilatoren til Itanium nok har masse optimaliseringer for disse testene, og til tross for dette kan du vel neppe påstå at de skalerer særlig bedre enn Opteron maskinene. Jeg tror du blander shared memory vs. distributed. En shared memory maskin skalerer bedre fordi kommunikasjonen mellom prosessorene er mye raskere.

@Anders: For ordens skyld kan du jo sjekke opp registertellingen din en gang til, tror du misset noen på AMD, du unngikk også glatt å berømme AMD for at de virkelig er general purpose registre, på IA32 er det halvparten så mange av de, de er også halvparten så lange, og ikke GPRS, dette tror jeg fortsatt ikke kompilatorene har fullt ut utnyttet . Ellers er det jo interessant at du spår alle servere over på VLIW, det er du nok ganske alene om. De embedded systemene du referer til har små krav til ytelse, og noen ganger store krav til lav effekt (eks. mobiltelefon). ARM arkitekturen tilbyr dette. Men som en arkitektur til general purpose, høyytelse CPU er den vel ikke egnet. Det var vel akkurat dette Intel prøvde å fikse med sin EPIC. Interessant at du trakkaserer Power5 for lav ytelse i SPECint, de har jo ca. samme ytelse som Itanium2. Ellers er det jo også litt interessant at HP essensielt ga opp IA64 i 2004 som en blindgate, men du har kanskje noen råd å gi dem.

Endret 22. juni 2005 av Del

Anders Jensen · 23. juni 2005

Del: mulig du synes jeg titter i krystallkula, men jeg ser ikke inn i fremtiden jeg ser på det vi har nå. OoO prosessorer sliter tungt. Nå skal jeg ikke bruke så mye tid på dette. Det er snart sommerferie og når jeg kommer tilbake fra den så ryktes det at 57 watt dual core Montecito på 1.7GHz stå klar for lansering. Så kan en jo sammenligne det mot whatever Tviler på at det vil by på mye problemer å forsvare IA64 etter det. Faktisk snakkes det om 24W på 1.2 GHz. Det er mindre enn _singel_ core PM på samme prosess og da utgjør FSB 1/4 av effektforbruket...

PS jeg har ikke sagt at jeg anntar x86 vil dø på noe som helst vis i denne tråden.

Og når det gjelder SPECint for Power5 så er den 9,2% lavere enn I2. I2 har riktignok 9MB L3 cache, så det forklarer vel forskjellen. Power 5 har jo bare 288MB L3 cache og integrert minnekontroller... Max SPECint memory footprint er vel ca 250MB så her kjøres ALT fra L3 cache. :whistle: save for compulsory miss om de ikke er så freidige å kjøre et oppvarmings heat først for å fylle cache. Tror ikke de lar den gå fra seg nei.

Hvilke registre hadde jeg glemt? x64 har 16GPRs er vi ikke enige om det? Kan godt telle med flere registertyper, men det er så travelt å telle over alle de 350-400 registrene i IA64. GPR er tross alt den viktigste fellesnevneren.

*** En linje med personkarakteristikk er fjernet av moderator ***

Endret 27. juni 2005 av Simen1

Anders Jensen · 24. juni 2005

Selv har jeg størst tro på flere eksekveringsenheter (ALU/FPU/SIMD) på x86-prosessorer siden det automatisk gir parallelisering,

Oi, loop. Den har vi sett før. Merkelig at noen fortsatt tror på dette.

Uten at jeg skal skryte på meg noen som helst slags peiling, så synes jeg mange av argumentene i databransjen gjentaes år for år. Er ikke få ganger i løpet av åra jeg har lest "utvikling på x86 har nådd en vegg", "PCens dager som spillmaskin er talte" "Itanium vil ta over alle høyytelse-segmeneter om kort tid" o.l. For meg som den gjengse mann er det veldig vasnklig å orientere meg når slike dommedagsprofetier kommer annenhver dag.

AtW

Jeg ser ikke likheten mellom hypoteser som faktisk har potensiale i seg til å bli riktige på et tidspunkt og beviselige faktafeil.

Det er imidlertid ikke trivielt å bevise at snorrehs påstand er feil fordi det krever forståelse for scoreboarding og/eller reservation stations.

Anders Jensen · 24. juni 2005

OK hva skal jeg si:Intel and HP demonstrate 4-way Itanium 'Montecito'

I'll make some short translation:

-----8<---------------------------------

They tested a 4 way Itanium Montecito system at 1.6 GHz (so, lower than the final speeds). With no special optimized code for the Itanium it scored 45.8 GFlops against 30 GFlops of a system with dual core Opterons. Unfortunately they don't disclose what type of Opterons.

Some of it's changes:

- It's 0.09 micron compared to current 0.13 (DUH! ).

- It has an FSB of 667 MHz per two sockets (5.4 GB/s per socket, 2.7 GB/s per core) compared to the current 400 MHz per four sockets (1.6 GB/s per socket and core).

- It has a 256 kB data L2 cache and 1 MB data L2 cache compared to the current unified 256 kB L2 cache.

- 24 MB L3 cache compared to the current 9 MB.

- It has support for 2 threads per core (TMT = Temporal Multithreading).

- 1.72 billion transistors compared to the current 592 million.

- 596 mm2 size compared to current 480 mm2.

- 2.0GHz+ compared to current 1.6 GHz.

- 100 W compared to current 120 W.

It is already impressive is that they managed to create a chip with that much cache, that clocks at least 25% higher than the current Itanium, while the pipeline and cache latencies remained the same. But the most impressive part is that it has significantly at lower power requirements. The table below summarizes the voltages it can run at, what maximum speed it can reach at that voltage and how much power it uses:

1.30V 2.2GHz 110W

1.25V 2.1GHz 104W

1.20V 2.1GHz 95W

1.15V 1.9GHz 77W

1.10V 1.9GHz 71W

1.05V 1.8GHz 63W

1.00V 1.7GHz 57W

0.80V 1.2GHz 24W

The 48 GFlops reached in the demonstration was done with CPUs that use less than 57W. It is theoretically possible to make a 1.2 GHz Itanium which has less power requirements than a Pentium M.

It seems because of the power requirements that companies are enthousiastic about the CPU. Although it gets launched at the end of this year, Intel has received more orders already than the previous two generations in total.

Some other enhancements to the core:

- A second shift unit, which can double the performance of encryption software.

- The branch unit has been further optimized for commercial workloads.

- About 7% better performance because L2 cache is not unified anymore for data and code.

- TMT (Temporarl Multi Threading) is supposed to increase performance of database applications by 15% to 35%.

- RAS enhancements including a form of lockstep where each CPU checks the results of the other CPUs.

--------------------------------->8-----

Om dette stemmer så er det bare å si takk og far vell til OoO prosessorer på toppen av ytelsestronen for godt. Alt jeg har sett tilsier at utviklingen bare går en vei.

Simen1 · 24. juni 2005

Det eneste jeg er litt bekymret for er hvordan yield blir og dermed prisene på en brikke med 596 mm^2 og 1720 millioner transistorer. Om det som står over stemmer så er det utrolig imponernede med tanke på ytelse og effekt, men jeg frykter den også kan komme til å sette nye rekorder prismessig.

.. med mindre de har økt graden av redundans på brikken betraktelig.

Anders Jensen · 24. juni 2005

Det blir vel som med Madison 9M. Det er ikke flaggskipet som utgjør volumet. Det skal imidllertid være mye redundans her. Over halvparten av brikken er jo cache og den er i tillegg til "vanlig" redundans også beskyttet ved pelleston teknologien for økt yield, men prisen for disse blir nok ikke hyggelig. Milington bør imidlertid komme godt ned i Xeon/Opteron prisskiktet, men med overlegen ytelse seff... Ikke så rart akkurat. Det var på tisde at nyvinningene i IA64 fikk komme til uttrykk ved en virkelig bra implementasjon. Nå er det egenlig bare å vente på dommen fra IBM. Power5+ blir vel lansert omtrent sammtidig med Montecito vil jeg tro.

snorreh · 26. juni 2005

Montecito har ikke x-bar...

Ok, det må jeg si er svært overraskende og skuffende. Da vil vi nok neppe se rimelige dobbelkjerne Itanium-systemer som yter særlig bra, ettersom denne plattformen også i fremtiden vil være avhengig av dyre brikkesett med ekstern crossbar (ref. HP zx1000).

Montecito har kanskje ikke en crossbar, men det virker som den har en ganske sofistikert arbiter i det minste (se vedlagt bilde). Noe tilsvarende Opterons "System Request Interface" kanskje?

Anders Jensen · 26. juni 2005

Det var vel det jeg viste her ja Selvsagt har den ikke x-bar. Den har sin naturlige plass i NB på dagens FSB baserte systemer. Poenget med Montecitos grensesnitt er å være mest mulig kompatibel med allerede utviklede konsepter for Itanium 2. Noen versjoner er faktisk 100% kompatibel.

Det er godt mulig arbiteren i Montecito har mange likheter med Opterons SRI. Jeg kjenner ikke detaljene i Opterons implementasjon på dette området så det kan jeg ikke uttale meg om. Blandt annet tror jeg det er forskjeller i cache coherency protokollen. Det vil ha konsekvenser for implementasjonen.

Endret 26. juni 2005 av Anders Jensen

Del · 27. juni 2005

PS jeg har ikke sagt at jeg anntar x86 vil dø på noe som helst vis i denne tråden.

Jeg tolket deg dit hen når det gjaldt server, beklager hvis jeg tolket deg feil.

Hvilke registre hadde jeg glemt? x64 har 16GPRs er vi ikke enige om det? Kan godt telle med flere registertyper, men det er så travelt å telle over alle de 350-400 registrene i IA64. GPR er tross alt den viktigste fellesnevneren.

I såfall har vel x86-32 ingen registre verd å nevne?

Del: mulig du synes jeg titter i krystallkula, men jeg ser ikke inn i fremtiden jeg ser på det vi har nå. OoO prosessorer sliter tungt.

For meg ser det ut som om x86 er i bedre shape enn på lenge, og har nesten utkonkurrert IA64 på dennes hjemmebane, så derfor tenkte jeg du siktet til kommende Montecito (og senere generasjoner) når du spådde IA64 sin suksess.

Om dette stemmer så er det bare å si takk og far vell til OoO prosessorer på toppen av ytelsestronen for godt. Alt jeg har sett tilsier at utviklingen bare går en vei.

Kan godt hende, men det har kostet flesk: 24MB cache og 1,72 milliarder transistorer. Tilsvarende tall for den nye A64 FX-57 1MB cache, og 114 millioner transistorer, og likevel tror jeg ikke den nye Montecito akkurat vil knuse FX-57 i SPECint (hvor mye den vinner med får vi jo tidsnok se, til høsten kanskje). Jada, jeg er klar over at kommende Montecito er dual-core, men selv om du deler tallene på to er de formidable.

Det er snart sommerferie og når jeg kommer tilbake fra den så ryktes det at 57 watt dual core Montecito på 1.7GHz stå klar for lansering. Så kan en jo sammenligne det mot whatever Tviler på at det vil by på mye problemer å forsvare IA64 etter det. Faktisk snakkes det om 24W på 1.2 GHz. Det er mindre enn _singel_ core PM på samme prosess og da utgjør FSB 1/4 av effektforbruket...

Det er virkelig imponerende tall, og gode nyheter for IA64. Likevel er det vel naturlig å nevne x86 sin størmbruk. Tar igjen utgangspunkt i den nyeste i familien, FX-57 (du tar jo tross alt utgangspunkt i en som ennå ikke er lansert). x-bitlabs målte størmbruk på denne til 73,4 watt, en dual-kjerne utgave vil naturligvis trekke noe mer, men ikke all verden. Til sammenligning drar toppmodellen av Montecito (i følge den ferske linken du ga, vet ikke hvor offisielle de dataene er) 110 watt.

*** Et par linjer med personkarakteristikk er fjernet av moderator ***

Endret 27. juni 2005 av Simen1

Simen1 · 27. juni 2005

Del: Nå konkurrerer ikke FX75 i nærheten av samme segment som Montecito, så det blir vel litt kunstig og teoretisk å sammenligne disse. Forøvrig synes jeg vi bør holde oss litt nærmere emnet. (FX57 har lite med emnet å gjøre)

PS. Jeg setter pris på om dere ikke legger opp til kverulering og personkarakteristikker. Personkarakteristikker redigeres bort fra to av deres innlegg så snart dette innlegget er lagt inn.

Del · 27. juni 2005

FX-serien og Opteron bruker samme kjerne, hadde FX-tallene for hånden. Men tar poenget, beklager adferden.

Anders Jensen · 27. juni 2005

Hvilke registre hadde jeg glemt? x64 har 16GPRs er vi ikke enige om det? Kan godt telle med flere registertyper, men det er så travelt å telle over alle de 350-400 registrene i IA64. GPR er tross alt den viktigste fellesnevneren.

I såfall har vel x86-32 ingen registre verd å nevne?

Helvette da man, kan du snart komme til sakens kjerne? Du kverulerer i vei på dette punktet uten selv å komme med et synspunkt. Er det mulig å skremme noe slikt ut av deg? Jeg er faktisk interessert i å få kjennskap til hva du mener jeg konkluderte feil ikke bare at du er uenig... :nei:

Kan godt hende, men det har kostet flesk: 24MB cache og 1,72 milliarder transistorer. Tilsvarende tall for den nye A64 FX-57 1MB cache, og 114 millioner transistorer, og likevel tror jeg ikke den nye Montecito akkurat vil knuse FX-57 i SPECint (hvor mye den vinner med får vi jo tidsnok se, til høsten kanskje). Jada, jeg er klar over at kommende Montecito er dual-core, men selv om du deler tallene på to er de formidable.

FX57 vil vel få litt over 2000 SPECint. Montecito på 2,2 GHz vil vel få litt over 2500 SPECint, på en kjerne. SPECint type ytelse er også å regne for det svakeste punktet til Itanium prosessorene. De er ikke optimalisert for denne typen ytelse. Sammenlign DC Opteron og Montecito på TPC, SPECint/fp når den kommer og du vil få et greit bilde av hhv. commercial, integer og technical computing. Bør imidlertid huske at kompilatorene til IPF fremdeles er noe uferdig. De optimaliserer ikke veldig godt over hele fjøla per dags dato.

Transistorbudsjett er uvesentlig det som teller er produksjonskostnad (salgspris for kunden seff...), ytelse og effektforbruk.

Endret 27. juni 2005 av Anders Jensen

snorreh · 27. juni 2005

Denne diskusjonen begynner å bli ganske gammel og loslitt nå ettersom ingen nye argumenter er bedre enn kritikken som Ian D. Romanick og Linus Torvalds har kommet med mot EPIC/IA64:

http://www.cs.pdx.edu/~idr/epic.html

All of this sounds pretty good. EPIC will solve all of our CPU performance problems, make our games and databases run faster, feed starving children in Africa, etc., etc. However, I'm a sceptic, and as such I see a number of problems with both EPIC in general and Intel's implementation of EPIC.
[...]

In general, I think that EPIC is a good idea, but I don't think it's the answer to CPU performance problems.

http://www.ussg.iu.edu/hypermail/linux/ker...302.2/1909.html

The low register count isn't an issue when you code in any high-level language, and it has actually forced x86 implementors to do a hell of a lot better job than the competition when it comes to memory loads and stores - which helps in general. While the RISC people were off trying to optimize their compilers to generate loops that used all 32 registers efficiently, the x86 implementors instead made the chip run fast on varied loads and used tons of register renaming hardware (and looking at _memory_ renaming too).

IA64 made all the mistakes anybody else did, and threw out all the good parts of the x86 because people thought those parts were ugly. They aren't ugly, they're the "charming oddity" that makes it do well. Look at them the right way and you realize that a lot of the grottyness is exactly _why_ the x86 works so well (yeah, and the fact that they are everywhere ).

Endret 27. juni 2005 av snorreh

Del · 27. juni 2005

[Helvette da man, kan du snart komme til sakens kjerne? Du kverulerer i vei på dette punktet uten selv å komme med et synspunkt. Er det mulig å skremme noe slikt ut av deg? Jeg er faktisk interessert i å få kjennskap til hva du mener jeg konkluderte feil ikke bare at du er uenig...

FX57 vil vel få litt over 2000 SPECint. Montecito på 2,2 GHz vil vel få litt over 2500 SPECint, på en kjerne. SPECint type ytelse er også å regne for det svakeste punktet til Itanium prosessorene. De er ikke optimalisert for denne typen ytelse. Sammenlign DC Opteron og Montecito på TPC, SPECint/fp når den kommer og du vil få et greit bilde av hhv. commercial, integer og technical computing. Bør imidlertid huske at kompilatorene til IPF fremdeles er noe uferdig. De optimaliserer ikke veldig godt over hele fjøla per dags dato.

Transistorbudsjett er uvesentlig det som teller er produksjonskostnad (salgspris for kunden seff...), ytelse og effektforbruk.

Siden du vil ha svar, skal du få det, men det blir kort. Jeg tror det er akkurat denne dialogen Simen ville ha slutt på.

Når det gjelder registrene til x86-64 var dette ment som en liten bibemerkning fra meg, ikke noe stort poeng. SSE registrene er 16x128 bit, mens GPRS utgjør halvparten 16x64 bit. Det at GPRS registrene nettopp er GPRS syntes jeg også kunne bemerkes, her mener jeg AMD gjorde en god og viktig jobb når de specket x86-64. Ellers er arkitekturen så forskjellig at jeg synes en register sammenligning ikke er veldig interessant.

Når det gjelder SPECint er det mulig jeg misforstod deg, jeg trodde det var nettopp her vi skulle se de store problemene for x86, men det var kanskje bare for Power5. Ellers hadde det vært interessant å fått et link som bekreftet SPECint ytelsen du nevner for Montecito.

Når det gjelder pris, så ville jeg faktisk bli ganske glad om IA64 skulle bli så billig som du indikerer, med suveren ytelse. Litt fristet til å lede meg inn i en produksjonsprisdiskusjon, men det er virkelig OT her.

@snorreh: Takk for flotte linker, Torvalds' link var skikkelig morsom å lese!

Xeon, Itanium med integrert minnekontroller

Anbefalte innlegg

Lenke til kommentar

Videoannonse

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Opprett konto

Logg inn

Populær nå

Hvem er aktive 0 medlemmer