Verdens raskeste linuxcluster når nesten 20Tflops

Knick Knack · 20. mai 2004

Ifølge presentasjonen så skalerer programvaren tilnærmet perfekt (~100% effektivitet) med antall prosessorer for hele systemet (se s. 15), og det er en skaleringsanalyse på de påfølgende sidene.

Nå ble jo ikke tallet 100% nevnt noe sted i den presentasjonen i forbindelse med effektivitet, så jeg anntar at det var ren spekulasjon. Ellers tviler jeg ikke på at Cray er istand til å bygge maskiner og nettverk som gjør at effektiviteten "scales nearly perfectly"(~90% tipper jeg). Det er tross alt maskinkonstruksjonen og nettverket som avgjør effektiviteten, ikke cpu, med mindre en har store mengder cache, mulighet til å laste data i god tid før de trengs og "latency hiding" teknikker. Opteron har ingen av disse Itanium mangler foreløpig den siste.

I likhet med "Big Mac" kan "Thunder" også bare plukkes ned og selges som enkelt maskiner når den er blitt utrangert. Thunder består av "helt standard" 4U servere. Det er vel og merke noe mer snevert marked for 4-way itanium systemer enn 2-way G5, men så er det da også en god stund til den er avlegs.

-NeoRag-: Et "like stort" Opteron cluster yter vel likt? Tflops er vel den mest naturlige størrelsen å måle etter. Så hva er tyngst av 1kg bomull og 1kg bly?

Cray antar at de kan levere 40+ teraOPS theoretical peak performance med 10,368 prosessorer. dvs. 20+ Tflops theoretical peak ved 5184 prosessorer. Så spørs det om det holder til å nå 19.94 Tflops sustained.

Endret 20. mai 2004 av Knick Knack

Coffie=JavaCode · 20. mai 2004

Tror nok Power 5 hadde vært fint å ha. Kjenner en i USA som har fått prøve den, angående DNA stukturering, eller noe sånt. Tror nok en slik hadde vært fint å ha, for å spille kabal, og minesveiper.

Hørte at IBM skulle bygge en superduper cluster.

IBM has recently said that the Department of Energy will use 12,000 Power 5 CPUs for its ASCI Purple supercomputer which will hardly flop along at 100 teraflops.

http://www.theinquirer.net/?article=10225

http://www.itweek.co.uk/News/1137113

More powerful

The deal also includes an order for a second, more powerful computer cluster called Blue Gene/L, which will be capable of a theoretical peak performance of 363 teraflops per second.

This system will include 160,000 CPUs and will run Linux software, will be completed by 2005, Teyssedre said. But IBM would not say whether this system would also use Power 5 chips.

Taken together, the two systems indicate the pace of change in the field of high-performance computing. The combined bill for both systems is $290m, and the combined processing power of these two systems will be 50 percent greater than the combined power of the 500 fastest supercomputers currently listed by independent benchmarking group Top500.org.

Endret 20. mai 2004 av Macfan

snorreh · 20. mai 2004

Linux Networx Lightning, som ifjor høst ble levert til Los Alamos National Laboratory, er også Opteron-basert og ligger nå på 6. plass på Top500-listen med en ytelse på 11.26 teraflops:

http://www.fcw.com/fcw/articles/2003/0825/...ng-08-25-03.asp

"As one of the largest cluster supercomputers ever built, Lightning will consist of 2,816 Advanced Micro Devices Inc. Opteron processors and 1,408 dual-processor nodes, all of which will be interconnected by Myricom Inc.'s Myrinet high-speed network.

The project, with a total value of nearly $10 million, will be the first 64-bit Linux supercomputer in the ASC program.

Lightning is designed to have a theoretical peak speed of 11.26 trillion calculations per second. This speed will certainly rank Lightning among the top 10 supercomputers in the world and will give researchers at Los Alamos more computing strength, said Dean Hutchings, Linux Networx's chief operating officer."

Mer informasjon om Lightning finnes her:

http://www.lnxi.com/news/lightning_info.php

Cluster Overview:

Theoretical Peak of 11.26 teraflops
Supports the ASCI program
2,816 AMD 2.0 GHz Opteron processors
Myrinet 2000 Lanai XP interconnect
ICE Box 3.0 Cluster management appliance
Beowulf Distributed Process Space (BProc) Configuration

Ifølge Xbitlabs så er Lightning og Orange (et mindre system også levert av Linux Networx) bygget opp av noder som bruker standard Arima HDAMA-hovedkort:

http://www.xbitlabs.com/news/cpu/display/20030814153104.html

"The “Orange” cluster will be part of Los Alamos’ Institutional Computing project that supports scientific, medical and environmental research such as the design of antibiotics and simulations of wildfires and water resources. Orange, a 256-node dual-processor cluster, is expected to be the first large-scale AMD Opteron processor-based cluster using InfiniBand technology for greater interconnect bandwidth and scalability.

Both the “Lightning” and “Orange” clusters are being designed, built and integrated for Los Alamos National Laboratory by LinuxNetworx and will be powered by the AMD Opteron processor Model 244. Both clusters will utilize the Arima HDAMA mainboard."

Endret 20. mai 2004 av snorreh

snorreh · 20. mai 2004

Ifølge presentasjonen så skalerer programvaren tilnærmet perfekt (~100% effektivitet) med antall prosessorer for hele systemet (se s. 15), og det er en skaleringsanalyse på de påfølgende sidene.

Nå ble jo ikke tallet 100% nevnt noe sted i den presentasjonen i forbindelse med effektivitet, så jeg anntar at det var ren spekulasjon. Ellers tviler jeg ikke på at Cray er istand til å bygge maskiner og nettverk som gjør at effektiviteten "scales nearly perfectly"(~90% tipper jeg). Det er tross alt maskinkonstruksjonen og nettverket som avgjør effektiviteten, ikke cpu, med mindre en har store mengder cache, mulighet til å laste data i god tid før de trengs og "latency hiding" teknikker. Opteron har ingen av disse Itanium mangler foreløpig den siste.

Ja, men ikke glem at EPIC-kode er ca. 2.8 ganger større enn vanlig x86-kode så i den sammenheng så blir ikke Itanium2 sin tilsynelatende store cache så veldig imponerende. Opteron har dessuten flere fordeler som integrert minnekontroller og HyperTransport som langt på vei veier opp for dette. Jeg minner også om at det kommer dobbelt-kjerne Opteron med større cache til neste år

Du glemmer også et meget viktig poeng, nemlig PRIS og på det området kan ikke Itanium-løsninger konkurrere med Opteron-løsninger som denne historien fra AIP gir en klar indikasjon på:

http://www.supercomputingonline.com/article.php?sid=6203

"Until recently, this would have meant investing millions of pounds in an expensive supercomputer and paying the manufacturer 10 to 20 percent of the purchase price each year to maintain it, but now there is a real alternative, offering true return on investment.

“The alternative is clusters of computers of standard design which are configured to perform many tasks in parallel, like a true parallel high-performance computer” explains Matthias. “The performance is the same as a traditional supercomputer, but at a tenth of the cost.”

“We bought the solution in two stages” explains Matthias. “In 2002 we a small 32bit machine with 72 CPUs and spent almost one year testing the technology to find out what it was we needed to invest in to get the optimum performance. We struggled with the limited 4GB per CPU of memory that 32bit technology offered, but at the time the only alternative was Intel’s 64-bit Itanium processors and they were way out of our budget” he explains.

By the time the Institute was ready to go out to tender for stage two, AMD had launched an affordable 64-bit rival to Intel’s Itanium processor, designed to exploit PC technology. “This new technology was of great interest to us” explains Matthias. “It was the first microprocessor on the market to natively support both 32-bit and 64-bit applications and although we hadn’t tested it out, there was data to suggest that this would give us what we needed.”

Det skulle ikke forundre meg om man kan få minst dobbelt så mange 4-veis Opteron-noder til samme prisen som en enkelt 4-veis Itanium2-node, siden man idag såvidt jeg vet kan få opptil 4 stk. 2-veis Opteron-noder til samme prisen som 1 stk. 2-veis Itanium2-node.

Cray antar at de kan levere 40+ teraOPS theoretical peak performance med 10,368 prosessorer. dvs. 20+ Tflops theoretical peak ved 5184 prosessorer. Så spørs det om det holder til å nå 19.94 Tflops sustained.

Unnskyld meg, men hva er det du prøver å si her? :huh:

Husk nå på at hele dette rare teraflops begrepet som Top500-listen bygger på kommer utelukkende fra LINPACK. Selv synes jeg den benchmarken er en helt håpløs indikator på ytelse, men det er nå engang slik at det er målet som brukes for å rangere superdatamaskiner og det må man bare akseptere.

Endret 20. mai 2004 av snorreh

Knick Knack · 20. mai 2004

Cray antar at de kan levere 40+ teraOPS theoretical peak performance med 10,368 prosessorer. dvs. 20+ Tflops theoretical peak ved 5184 prosessorer. Så spørs det om det holder til å nå 19.94 Tflops sustained.

Unnskyld meg, men hva er det du prøver å si her?

-NeoRag- lurte på hvor mye ytelse en får ut fra et "like stort" Opteron cluster. Jeg prøvde vel bare å forklare at det var bedre å prøve å finne ut hvor mange prosessorer en behøver for å få tilsvarende ytelse, da størrelse i denne sammenheng er best uttrykt som Tflops. Klart det kan sikkert vurderes annerledes. En kan jo tenke på størrelsen av et system som antall prosessorer også. Jeg fant imidlertid ikke det som mest naturlig i clustersammenheng siden cpu type og antall bare er en del av det totale bildet. SGI har f.eks. bygd en NUMA maskin med 512 Itanium 2 prosessorer. Det ville ikke vært riktig å sammenligne denne med 256 dualnode maskiner koblet sammen med gigabit ethernet selv om en har samme type CPU og (naturlig nok) samme antall. Begge ville nok ha tilsvarende Linpack ytelse, men SGI maskinen ville ha langt bedre ytelse i apps hvor parallellitet ikke er like enkelt å oppnå, slik som værsimulering, siden den er NUMA med høy båndbredde og lav forsinkelse og ikke cluster. 512-way SMP hadde teoretisk sett vært best, men det lar seg ikke bygge uten at en går like ekstremt til verks som Cray tidligere gjorde. Det koster også veldig mye.

Endret 20. mai 2004 av Knick Knack

gspr · 20. mai 2004

Tenk dere en Beowulf-cluster med...

Lautsprecher · 20. mai 2004

Bare lurer på hva'n macci hadde klart med det sånt cluster.

[Håper-i-det-lengste-mode]

Endret 20. mai 2004 av Lautsprecher

snorreh · 20. mai 2004

Knick Knack: Ja, nettopp :yes:

Idag handler det stort sett om pris/ytelse og tradisjonelle superdatamaskiner blir stadig oftere byttet ut med mye rimeligere kluster-løsninger. På dette området så er Opteron-klustere utvilsomt best hva ytelse/pris angår, og derfor satser også flere tradisjonelle aktører på slike løsninger som f.eks. Cray's XD1:

http://www.cray.com/products/systems/xd1/

Også flere andre av de store aktørerene leverer kluster-løsninger basert på 2-veis Opteron-bokser idag, bl.a. IBM, HP og Sun. HP er allerede ute med 4-veis Opteron-bokser, og iløpet av året så vil nok også 8-veis Opteron-bokser være godt utbredt i markedet tipper jeg. Hverken Power5 eller Itanium2 kan konkurrere med Opteron i slike rimelige kluster-løsninger, men har istedet sin eget nisje i markedet der andre kriterier enn pris er gjeldende og hvor kluster-løsninger ikke er å foretrekke.

Endret 20. mai 2004 av snorreh

Coffie=JavaCode · 20. mai 2004

Tror faktisk Apple sitt cluster var det rimeligste per Terrabite. Så der er nok Operton slått. :hmm:

Dette står i fortid, men det er vel ikke bygget så mange clustere siden ca Oktober.

The machine is the first supercomputer based on Macs; it is one of the few supercomputers built entirely from off-the-shelf components and it cost a bargain-bucket price -- only $5.2 million. By comparison, most of the top 10 supercomputers cost about $40 million and up. The Earth Simulator cost $350 million.

"It is impressive, absolutely impressive what they've done," said Dongarra. "($5.2 million is) a very low number for a computer of this size and power."

Dongarra said the cost is so low he questioned whether the college got a special discount. Lockhart couldn't be reached for an answer.

Dongarra said in terms of the number of processors, Big Mac's closest analog is a cluster of 2,300 2.4 GHz Xeon processors at Lawrence Livermore National Laboratory. Clocked at 7.6 teraflops, the cluster is currently ranked third. "It will be interesting to see where the G5 comes in comparison to this machine," he said.

http://www.wired.com/news/technology/0,1282,60821,00.html

http://www.bayarea.net/~kins/AboutMe/why_G...t_clusters.html

Endret 20. mai 2004 av Macfan

MonkyBOY · 20. mai 2004

1kv = 1000w

1mw = 1000000w

altså en halv er da

500000*50=25000000 øre /100 =250000 kroner i timen

Er dette riktig? :wow:

snorreh · 20. mai 2004

Tror faktisk Apple sitt cluster var det rimeligste per Terrabite. Så der er nok Operton slått.

Dette står i fortid, men det er vel ikke bygget så mange clustere siden ca Oktober.

Terrabite, hva er det? :dontgetit:

Husk nå på at VirginiaTech's Terascale ikke er særlig representativ for prisen på tilsvarende kluster-løsninger i det åpne markedet siden den er basert på saftige rabatter og godvilje fra samtlige innvolverte leverandører og en god del frivillig arbeid

Endret 20. mai 2004 av snorreh

Knick Knack · 20. mai 2004

Snorreh: Om en behøver billige clustre eller må ha dyre er avhengig av hva slags oppgaver det skal løse. Det er også slik at interconnect og maskiner utgjør den største kostnaden ikke selve cpu. De spesialbygde maskinene som brukes til Red Storm vil på ingen måte bli billigere enn cluster bygd med standard Itanium servere, men vil sikkert bli mer effektiv enn Itanium clusteret på oppgaver hvor en må ha rask tilgang til store datamengder. Dette fordi Cray ser ut til å lage et langt mer sofistikert interconnect. Quadrics er bra, men det er fortsatt et rimelig "standard" cluster nettverk. Mer som GbE på steroider i likhet med myrinet og infiniband. Kan ikke sammenlignes med de interconnects som brukes i earth simulator og Cray x1.

Cray XD1 leverer sikkert svært høy ytelse i forhold til prisen, men det forutsetter at en kjører apps som enkelt lar seg parallellisere massivt. Apps som ikke tillater det krever dyre systemer uavhengig av CPU type siden cpu kostnaden ikke vil være domminerende.

Coffie=JavaCode · 20. mai 2004

Tror faktisk Apple sitt cluster var det rimeligste per Terrabite. Så der er nok Operton slått.

Dette står i fortid, men det er vel ikke bygget så mange clustere siden ca Oktober.

Mulig det, men husk nå på at VirginiaTech's Terascale ikke er særlig representativ for prisen på tilsvarende kluster-løsninger i det åpne markedet siden den er basert på saftige rabatter og godvilje fra samtlige innvolverte leverandører og en god del frivillig arbeid

Terrabite?

Vel sier du at de fikk 5mill$ i støtte?? Det høres utrolig usansynlig ut. Apple er ikke så stor. De har nok fått rabatter, men når du kjøper 2200CPUer får du nok rabatt fra alle.

Og en litten glipp der skulle være Tfops.

1) Uansett hvordan du snur og venner på det, så er det høyest usansynlig at de totale kostnadene hadde kommet over 7Mill$.

2) Tror nok at de andre super clusterene har fått litt frivelig hjelp. Og de fleste super clusterene (top 5) har nok fått mer rabatt en det dette clusteret har kostet totalt.

Endret 20. mai 2004 av Macfan

Neptyr · 20. mai 2004

og hvor mye koster en halv megawatt?

En kilowattime koster vel 50 øre, så regn ivei =)

*går ikke god for strømprisen!*

kan få en halv megawatt gratis av meg, men ikke lenge.

Hvis du tilbyr, så veldig gjerne.!

(for , samma å lite du bruker en halv megawatt, så har du alikavel brukt en halv megawatt! , om du fatta det.)

Knick Knack · 20. mai 2004

Tror det begynner å bli noe forvirrig rundt hva som er den viktigste komponenten i et cluster. Det er nemlig nettverket. Klart Japanerne kunne fått høyere teoretisk ytelse ved å kjøpe standart hyllevare som gigabit ethernet og Xeon prosessorer. De hadde vel fått et forferdelig stort cluster for de $350 mill. de svidde av. Problemet var at de skulle bruke systemet til beregning av været her på jorda. Dette lar seg greit bryte opp i mange tråder, men resultatene som beregnes i en tråd vil alltid være avhengig av resultater fra andre tråder, uansett hvordan en bryter opp denne typen programmer i tråder. Derfor er det i dette tilfellet viktig å lage et cluster som effektivt tillater at alle trådene kan aksessere alle data som er generert. Dette oppnås ikke ved å koble 20.000 singelnode maskiner via gigabit Ethernet. Det er faktisk den verst tenkelige konfigurasjonen for et slikt problem. 10.000 dualnoder ville vært dobbelt så bra, men fortsatt ellendig. I følge Cray så kan clustre av denne typen (dualnode + GbE) ligge på ca 1-5% effektivitet på slike typer oppgaver. Tar jeg ikke mye feil så vil SGIs 512-way NUMA maskin yte langt bedre enn "Thunder" med sine 1024 quadnodes og nøyaktig samme CPU, når det kommer til å lage en værmelding. Hadde oppgaven f.eks vært kodeknekking så hadde nok Thunder vært ganske nøyaktig 8 ganger raskere enn SGI maskina, hvilket gjenspeiler den teoretiske regnekapasiteten.

Endret 20. mai 2004 av Knick Knack

Knick Knack · 20. mai 2004

og hvor mye koster en halv megawatt?

En kilowattime koster vel 50 øre, så regn ivei =)

*går ikke god for strømprisen!*

kan få en halv megawatt gratis av meg, men ikke lenge.

Hvis du tilbyr, så veldig gjerne.!

(for , samma å lite du bruker en halv megawatt, så har du alikavel brukt en halv megawatt! , om du fatta det.)

Jeg kan dessverre ikke levere på døra, men om du stikker innom så har jeg liggende noen keramiske kondensatorer her. Jeg kan bare lade opp de og så kortslutter vi dem.

kommer vel knapt til å se gnisten, men en kan jo regne på det etterpå.

DrErling · 20. mai 2004

Det clusteret, og d2ol for alle penga

Tar vel rotta på hele team anandtech.

Kunne jo bedt på våre knær om de kunne regge d2ol norge sin brukerkonto og kjøre den en liten ettermiddag eller noe, slik at vi fikk et seriøst forsprang på KraftKuene og resten av d2ol eliten.

DrE

Knick Knack · 20. mai 2004

Ikke for å disse min egen tråd, men les her:

Cray CTO: Linux clusters don't play in HPC

Det han sier er selvsagt både rett og galt på en og samme tid. Skikkelig HPC får du ikke gjort med cluster, men slike "trivielle" parallelle oppgaver hvor det går fint med x antall tusen noder som mer eller mindre seiler sin egen skjø...

snorreh · 20. mai 2004

Knick Knack: Selv om jeg ikke helt kjenner til alle detaljene, så virker det han sier meget interessant:

"Cluster vendors would have you believe that their performance is the linear sum of each of their respective GFLOPS [Giga Floating Point Operations Per Second]," he said. "Most cluster [experts] know now that users are fortunate to get more than 8% of the peak performance in sustained performance."

Cray XD1 marries the performance of large SMPs with the economics of cluster solutions, according to Terry. It will also pair new interconnect and management technologies with AMD Opteron 64-bit processors in a direct-connected processor (DCP) architecture. Its parallel-processing capabilities will directly link together processors to relieve memory contention and interconnect bottlenecks found in cluster systems.

"The Cray XD1 is not a traditional cluster; it does not use I/O interfaces for memory and message passing semantics," said Terry. "For HPC, the most important thing is application performance, and the Cray XD1 is specifically designed to maximize application performance."

For mer informasjon om DCP (Direct Connected Processor)-arkitekturen så se her:

http://www.cray.com/products/systems/xd1/dcp.html

Samt dette PDF-dokumentet:

Closing the gap between peak and achievable performance in HPC

Den inneholder en interessant sammenligning av ytelsen til forskjellige typer "interconnects" og en analyse av skalering

Endret 20. mai 2004 av snorreh

Eddie123 · 20. mai 2004

1kv = 1000w
1mw = 1000000w

altså en halv er da

500000*50=25000000 øre /100 =250000 kroner i timen

Er dette riktig?

Nei, det er ikke riktig.

en halv Megawatt er 500KiloWatt

Hvis prisen på 1 Kilowatt er 50 øre, så blir en halv megawatt 0,5*500 =250 Kroner pr time.

Logg inn

Verdens raskeste linuxcluster når nesten 20Tflops

Anbefalte innlegg

Knick Knack

Videoannonse

Coffie=JavaCode

snorreh

snorreh

Knick Knack

gspr

Lautsprecher

snorreh

Coffie=JavaCode

MonkyBOY

snorreh

Knick Knack

Coffie=JavaCode

Neptyr

Knick Knack

Knick Knack

DrErling

Knick Knack

snorreh

Eddie123

Opprett en konto eller logg inn for å kommentere

Opprett konto

Logg inn

Populær nå

Det er ikke rart at det er så mange ensomme i dagens Norge når sånne påstander får oppmerksomhet 1 2 3

Krigen mellom Israel og Hamas 1 2 3 4 1435

Hvem er aktive 0 medlemmer