Bulldozer rollt an....

Status
Für weitere Antworten geschlossen.
Statt 8 Module und 16 Threads für Interlagos mit ~2,5 GHz hätte man dann bei vergleichbarer TDP vielleicht 32-40 Kerne / Threads bei ~2 GHz. Ok, hört sich ein bisschen wie Larrabee an. Als GP Many-Core Prozessor finde ich das Konzept aber nicht so schlecht. Nur als GPU taugt es halt nicht.
Wäre sicher etwas für FB-Server wenn man denen ihrem Benchmarks glauben kann würde so ein Prozessor mit genug Cache und uncore wohl besser skallien als die bestehenden Opterons.
 
@OBR's TrueCrypt-Test: Er verwendet standardmäßig 1GB: http://pctuning.tyden.cz/hardware/p...vou-metodiku-test-prvnich-7-procesoru?start=6 Alle anderen Vergleichswerte von dem unrühmlichen Blog stammen auch von da. Auf der Seite wurde unter dem Autor (Obermeier) auch der kürzlich gezeigte OC-Versuch mit Video geposted. Im Text steht ganz klar "B0", was ja auch schon aus dem Video heraus analysiert wurde. Von der Logik der Abläufe her würde ich gar nicht mal so sehr an den "Bulldy"-Leaks zweifeln. Kinderschuhprobleme und nicht angepasste SW/Grafiktreiber/Scheduler usw. könnten auch in der Realität erstmal wirken. Das hat schon mancher erkannt :)
 
Hmm...würden 128bit denn reichen? - ich meine, mit AVX-Support bräuchte man ja 265bit eigentlich...
Nur softwareseitig. 256-bit ist doch nichts anderes als 8x 32-bit (single precision) oder 4x 64-bit (double precision). Das lässt sich auch über 128-bit FPUs realisieren, nur halt in zwei Takten. Wurde zB ähnlich bei K8 / Pentium-M und SSE so gemacht. Eine 128-bit SIMD Pipeline, aber 64-bit FPUs. Man darf auch nicht vergessen, einem Bulldozer Thread steht letztendlich auch nur ein 128-bit FMAC zur Verfügung. Die Frage wäre, ob man Bobcat noch FMA spendieren sollte.


Wie groß würde der passende UnCore-Teil aussehen, welcher die 20 Cores ordentlich versorgen könnte?
Schwierig zu sagen. Gehen wir mal davon aus, dass der Chip ebenfalls bei TSMC in Bulk gefertigt werden würde. 32 nm gibt's dort ja nicht, das nächste wäre dann 28 nm. Ein Bobcat Kern in 40 nm braucht inklusive 0,5 MiB L2 knapp 8 mm². Gehen wir von ~40% Flächeneinsparung in 28 nm und etwas zusätzlicher Logik (zB 128-bit FPU) aus, dann landen wir bei ~5 mm² pro Kern. 32-40 Kerne bräuchten demzufolge 160-200 mm². Bei einer Chipgrösse von vielleicht 400 mm², siehe SB-E, blieben also noch 200-240 mm² für shared Cache und iNB. Und das wohlgemerkt für ein synthetisiertes Design. Interlagos braucht scheinbar >600 mm². Und ob der mehr Performance als ein solcher 32-40 Bobcat bieten würde, ist fraglich.

Simple Rechnung, K10.5 wäre gegenüber Bobcat mit 128-bit FPU vermutlich etwa 10% pro Takt schneller. Sind wir mal optimistisch und Bulldozer legt noch 15% drauf. Dann wäre Bulldozer etwa 25% schneller pro Takt als unser fiktiver Bobcat.

Bulldozer: 8 Module / 16 Threads, 2,5 GHz = 8 * 1,8 (CMT) * 1,25 (IPC) * 2,5 (Takt) = 45
Bobcat: 32 Kerne / 32 Threads, 2 GHz = 32 * 1 (IPC) * 2 (Takt) = 64

Über 40% mehr theoretische Performance bei doppelt so vielen Threads und lediglich 2/3 der Chipfläche. Ist natürlich eine recht oberflächliche Betrachtung. Aber durchaus interessant, ob so ein Bobcat machbar wäre.
 
Wie groß würde der passende UnCore-Teil aussehen, welcher die 20 Cores ordentlich versorgen könnte?

Naja bei Sockel G34:
- so 64MB L3 Cache
- 4-Kanal DDR3-1866
- 4 cHT Links @ 3,2GHz

dabei sollte man auch die Cache-Anbindung auf 256Bit erweitern und natürlich den NB-Takt anheben
 
Zuletzt bearbeitet:
Schwierig zu sagen. Gehen wir mal davon aus, dass der Chip ebenfalls bei TSMC in Bulk gefertigt werden würde. 32 nm gibt's dort ja nicht, das nächste wäre dann 28 nm. Ein Bobcat Kern in 40 nm braucht inklusive 0,5 MiB L2 knapp 8 mm². Gehen wir von ~40% Flächeneinsparung in 28 nm und etwas zusätzlicher Logik (zB 128-bit FPU) aus, dann landen wir bei ~5 mm² pro Kern. 32-40 Kerne bräuchten demzufolge 160-200 mm². Bei einer Chipgrösse von vielleicht 400 mm², siehe SB-E, blieben also noch 200-240 mm² für shared Cache und iNB. Und das wohlgemerkt für ein synthetisiertes Design. Interlagos braucht scheinbar >600 mm². Und ob der mehr Performance als ein solcher 32-40 Bobcat bieten würde, ist fraglich.

Simple Rechnung, K10.5 wäre gegenüber Bobcat mit 128-bit FPU vermutlich etwa 10% pro Takt schneller. Sind wir mal optimistisch und Bulldozer legt noch 15% drauf. Dann wäre Bulldozer etwa 25% schneller pro Takt als unser fiktiver Bobcat.

Bulldozer: 8 Module / 16 Threads, 2,5 GHz = 8 * 1,8 (CMT) * 1,25 (IPC) * 2,5 (Takt) = 45
Bobcat: 32 Kerne / 32 Threads, 2 GHz = 32 * 1 (IPC) * 2 (Takt) = 64

Über 40% mehr theoretische Performance bei doppelt so vielen Threads und lediglich 2/3 der Chipfläche. Ist natürlich eine recht oberflächliche Betrachtung. Aber durchaus interessant, ob so ein Bobcat machbar wäre.
Danke für die Ausführung. Klingt schon sehr interessant. AMDs nächster Schritt in Sachen Bobcat wäre ja die QuadCore-Variante, wenn ich mich nicht irre. Mal sehn wie die performt.
 
Microsoft hatte mal eine ähnliche Rechnung aufgemacht. Nur ging es dabei nicht um Bobcat sondern um den Atom. Man versuchte Intel vorzurechnen, dass ein Atom-Cluster deutlich effizienter ist als die aktuellen Xeons. Intel kommentierte dies mit schweigen.
 
Ging Sun´s Niagara nicht auch in die Richtung viele "schwache" Kerne und 4fach SMT.
Die Frage ist halt ob man damit nicht nur eine Nische besetzt weil hin und wieder braucht man doch eine Single-Thread-Leistung.
Wenn die Antwortzeiten relativ egal sind und viele Threads da sind aber sicherlich eine interessante Sache.
Nur kann AMD das verkaufen? und in Mengen das sich die Entwicklung lohnt?
Hoffentlich sehe ich das zu pessimistisch aber im Serverbereich mach ich mir ernste Sorgen.
 
Welche klassische Serveranwendung die von vielen Threads profitiert (DB, HTTP(s), Fileserver, etc.) braucht denn FP-Power ?
 
Bulldozer: 8 Module / 16 Threads, 2,5 GHz = 8 * 1,8 (CMT) * 1,25 (IPC) * 2,5 (Takt) = 45
Bobcat: 32 Kerne / 32 Threads, 2 GHz = 32 * 1 (IPC) * 2 (Takt) = 64

Nette Rechnung, aber da sich die der meiste Software Code nicht beliebig parallelisieren lässt eher Wunschdenken. Die Aufwendigere Verschaltung der Kerne hast du aber nicht berücksichtigt und den Verwaltungsaufwand etc,.

Siehe GPUs da gibt es auch erst ein paar Applikationen und AMDs GPU Design ist nun auch an der Grenze des sinnvollen angelangt. Des weiteren kann durch die Synchronisation auch viel Performance verloren gehen, teilweise mehr als gewonnen werden kann. Langsam verrennen sich einige in das je mehr Kerne je besser, genauso war es auch mal bei den GHz... der Mix machts hohe IPC, viele GHz und viele Kerne ;D

Oracle geht auch von 16 Kernen auf 8 Kerne zurück und verbessert die Performance je Thread.
 
Oracle geht auch von 16 Kernen auf 8 Kerne zurück und verbessert die Performance je Thread.
Wobei man bedenken muss das mit dem T5 wieder 16 Kerne kommen werden. Man reduziert heute die Kerneanzahl um die grösseren Kerne mit mehr Taktpotential Threads pro Kernen unterzubringen, um morgen wieder mehr Kerne auf der warscheinlich gleichen Fläche Platzieren zu könne beim nächsten Shrink.
 
Zuletzt bearbeitet:
Die Aufwendigere Verschaltung der Kerne hast du aber nicht berücksichtigt und den Verwaltungsaufwand etc,.
Soweit ich weiß sind GPUs viel komplexer als CPUs, du weißt wieviele Einheiten in einem Radeon Chip drin stecken, 32 CPU Kerne sind dagegen nichts.
 
Soweit ich weiß sind GPUs viel komplexer als CPUs, du weißt wieviele Einheiten in einem Radeon Chip drin stecken, 32 CPU Kerne sind dagegen nichts.


GPUs kannst nicht einfach mit CPUs vergleichen.
 
Nette Rechnung, aber da sich die der meiste Software Code nicht beliebig parallelisieren lässt eher Wunschdenken. Die Aufwendigere Verschaltung der Kerne hast du aber nicht berücksichtigt und den Verwaltungsaufwand etc,.

Das bezog sich mehr auf Webanwendungen. Hier bekommt jeder Request seinen eigenen Thead. Bei einer stark frequentierten Plattform kann das Konzept schon aufgehen.
 
Nette Rechnung, aber da sich die der meiste Software Code nicht beliebig parallelisieren lässt eher Wunschdenken. Die Aufwendigere Verschaltung der Kerne hast du aber nicht berücksichtigt und den Verwaltungsaufwand etc,.
Man sollte schon zu Ende lesen. Ich habe die Sätze darunter nicht grundlos geschrieben. Jedem hier sollte klar sein, dass das ganze komplexer ist. ;)
 
Microsoft hatte mal eine ähnliche Rechnung aufgemacht. Nur ging es dabei nicht um Bobcat sondern um den Atom. Man versuchte Intel vorzurechnen, dass ein Atom-Cluster deutlich effizienter ist als die aktuellen Xeons. Intel kommentierte dies mit schweigen.
Inzwischen schweigt Intel dazu nicht mehr. Ist war hier nicht sonderlich relevant, aber wenn du dir die Analyst Day 2011 Slides durchsiehst wirst du sehen, dass solche Atom Server bereits aktiv beworben werden. Dort wird auch Facebook als Beispiel gebracht wo so etwas im Einsatz ist, was genau dem von dir genannten Szenario entspricht.
 
Bin bei hartware.de auf folgende news gestossen:
http://www.hartware.net/news_52578.html
Quelle ist zdnet jedoch schon vom 24.08...
eventuell wurde dies hier schon diskutiert.
http://www.zdnet.com/blog/computers/amd-reveals-new-details-on-upcoming-bulldozer-chips/6587

Nur wieder schlechter Journalismus, in der Quelle steht:

Within the next week or so AMD should begin shipping its FX Series processors, its first high-end chip based on an entirely new core design since the introduction of the Family 10h, better-known as Barcelona, almost exactly four years ago. At the annual Hot Chips semiconductor conference last week, AMD provided some new details on the innovative Bulldozer architecture behind both the FX Series for desktops and new Opteron server processors.

Aus einer persönlichen Spekulation des zdnets Autors, dass AMD in der nächsten Woche oder so (der Type weiß also nichts) Bulldozer verschicken sollte plus der Aussage, dass AMD auf der hotchips wieder ein paar mehr Details über die Architektur gelüftet hat, wird bei hartware die felsenfeste Info, dass AMD auf der hotchips gesagt hätte, dass BD nächste Woche ausgeliefert wird.

Info von Charlie dazu:
Hmm... I was at Hot Chips, and I don't remember hearing that.
http://www.semiaccurate.com/forums/showpost.php?p=131215&postcount=468
 
Soweit ich weiß sind GPUs viel komplexer als CPUs, du weißt wieviele Einheiten in einem Radeon Chip drin stecken, 32 CPU Kerne sind dagegen nichts.

Umgekehrt CPUs sind viel komplexer diese können schließlich beliebige Befehle ausführen. GPUs haben im Verhältnis dagegen nur ein paar Befehle die sie ausführen können, sonst würde man ja auch mit Cuda und OpenCL viel weiter sein. Erst die letzte Cuda Version ist C/C++ kompatibel (ich glaube das sogar immer noch ein paar Befehle fehlen).
Die GPU Designs werden häufiger erneuert, fast jeder Shrink beinhaltet grundlegend Änderungen. Die aktuellen Radeons 89x0 habe fast nichts mehr mit dem R600 gemeinsam. In einem K10.6 steckt immer noch sehr viel vom K8 und ich glaube nicht das bei den Grafikkarten soviel mehr Entwicklungsaufwand drin steckt.
.
EDIT :
.

Man sollte schon zu Ende lesen. Ich habe die Sätze darunter nicht grundlos geschrieben. Jedem hier sollte klar sein, dass das ganze komplexer ist. ;)

Das habe ich. Nur war mir der Satz darunter für evtl. Leser die nicht so tief in der Materie sind etwas knapp bemessen. Ich wollte einfach nur die anderen Teilaspekte etwas ausführlicher aufführen, damit diese Leser nicht von unrealistischen 1:1 Performancesprüngen träumen. Des wegen sollte man sich nicht gleich angriffen fühlen ;)


Im Desktop Bereich sehe ich (bisher) für CPUs mit sinkender Singel-Thread Leistung und besserem Multi-Thread Leistung keinen Platz. Klar im Server Umfeld sieht es anders aus aber selbst das ist bei ein meisten aktuellen Anwendungen eher eine Sättigung zu beobachten bzw. Grenzen zu erkennen. Die Ganz großen Firmen wie Google, Facebook und Co. sind da schon die Ausnahme.
 
..... Klar im Server Umfeld sieht es anders aus aber selbst das ist bei ein meisten aktuellen Anwendungen eher eine Sättigung zu beobachten bzw. Grenzen zu erkennen. Die Ganz großen Firmen wie Google, Facebook und Co. sind da schon die Ausnahme.

wie ist das gemeint mit der sättigung bei servern?
der desktop-markt stagniert oder schrumpft sogar (in den erste welt ländern),
aber der server markt? siehe hier 3. Absatz
http://www.heise.de/newsticker/meldung/Grossrechner-kurbeln-das-Server-Geschaeft-an-1331023.html
und das geht nun schon seit einigen jahren so; wenn man hier, wo sich noch was verdienen läßt, marktanteile einbüßt, ist das besonders bitter, wenn interessiert da noch der desktop markt?
und ist das bulldozer design nicht eigentlich auch auf diverse server workloads zugeschnitten? wenn dazu jemand mal was sagen kann ...
 
hm... ich kann zwar kein Japanisch und auf der verlinkten Quelle auf der Seite die ich poste finde ich nicht woher die Person das hat aber:
http://blog.livedoor.jp/dot2ch/archives/51994519.html

FX-8170?4M/8C?3.9GHz (TC 4.5GHz)?L2 2MBx4/L3 8MB?TDP125W?12?Q1
FX-8150?4M/8C?3.6GHz (TC 4.2GHz)?L2 2MBx4/L3 8MB?TDP125W?11?9?
FX-8120?4M/8C?3.1GHz (TC 4.0GHz)?L2 2MBx4/L3 8MB?TDP 95W?12?Q1
FX-8100?4M/8C?2.8GHz (TC 3.7GHz)?L2 2MBx4/L3 8MB?TDP 95W?11?9?
FX-6120?3M/6C?3.6GHz (TC 4.2GHz)?L2 2MBx3/L3 8MB?TDP 95W?12?Q1
FX-6100?3M/6C?3.3GHz (TC 3.9GHz)?L2 2MBx3/L3 8MB?TDP 95W?11?9?
FX-4120?2M/4C?3.9GHz (TC 4.1GHz)?L2 2MBx2/L3 8MB?TDP 95W?12?Q1
FX-4100?2M/4C?3.6GHz (TC 3.8GHz)?L2 2MBx2/L3 8MB?TDP 95W?11?9?
FX-3150??M/3C?3.6GHz (TC 3.8GHz)?L2 1MBx3/L3???TDP 80W?11?Q4?OEM??

und mit google translator den text darüber noch teilweise übersetzt:
The "Bulldozer" to the next week or so according to that which is ZD.net is set to start shipping.

d.h. die Person nimmt Bezug auf den Artikel auf ZDnet... wobei dort ja keine Termine genannt wurden...
 
wie ist das gemeint mit der sättigung bei servern?

Windows Server 2008 R2 hat mit über 64 CPUs Probleme, bei 128 ist Schicht im Schacht.
Für eine Anwendung können max 64 CPUs bereit gestellt werden. Linux läuft ab 80 (?) auch nicht ohne weiteres, es müssen z. B. spezielle Anpassungen vorgenommen werden.
(laut ct)

Kleine bis Mittlere Unternehmen benötigen nicht mehr ganz so schnell Wachsende Rechenpower. SAP & Co. kommt auch an die Grenze und der Bedarf wächst nur noch durch eher seltene/außergewöhnlich Aufgabenstellungen. Im regulären Betriebt ist ein massiver Überschuss an Rechenleistung, häufig sind dann noch andere Flaschenhälse die zum Tragen kommen HDDs, Netzwerk etc. Die meisten/wichtigsten Reports können in ein paar Sec. oder Min. erstellt werden, das hängt natürlich von div. Faktoren (Hardware, Datenbank,...) ab.

Viele Server werden nicht Primär wegen mangelnder Rechenleistung ausgetauscht, sondern wegen auslaufendem Support, Verfügbarkeit von Ersatzteilen, etc.
 
Windows Server 2008 R2 hat mit über 64 CPUs Probleme, bei 128 ist Schicht im Schacht.
Für eine Anwendung können max 64 CPUs bereit gestellt werden. Linux läuft ab 80 (?) auch nicht ohne weiteres, es müssen z. B. spezielle Anpassungen vorgenommen werden.
(laut ct)

Nope bei Server 2008r2 ist bei 256 derzeit ENDE ! (vorher waren es 64! - gab schon Intel Demo-Systeme wo se 256 gezeigt haben)

Es gibt schon Anwendungsbereiche wo so viele Kerne (was auch immer) Verwendung finden:
- Gamesserver wo 20-40 Spiele drauf laufen
- BOINC
- VM-Server
- Datenbank-Server mit 10-20 Tausen Usern dran ..
- Webserver mit mehreren Webseiten (so 100 kleine bzw einige Große [ stellt euch einen Server mit 20 Seite a Planet3Dnow vor ] )
...

Aber mit jedem Kern (w.a.i.) steigt der Verwaltungsoverhead ..
 
Zuletzt bearbeitet:
Nope bei Server 2008r2 ist bei 256 derzeit ENDE ! (vorher waren es 64! - gab schon Intel Demo-Systeme wo se 256 gezeigt haben)
Theorie != Praxis?!
heise.de
Im Artikel der ct 12/11 steht es ausführlicher drin.

Es gibt schon Anwendungsbereiche wo so viele Kerne (was auch immer) Verwendung finden:
- Gamesserver wo 20-40 Spiele drauf laufen
- BOINC
- VM-Server
- Datenbank-Server mit 10-20 Tausen Usern dran ..
- Webserver mit mehreren Webseiten (so 100 kleine bzw einige Große [ stellt euch einen Server mit 20 Seite a Planet3Dnow vor ] )
...

Aber mit jedem Kern (w.a.i.) steigt der Verwaltungsoverhead ..

Welche der Anwendungen sind für kleine oder mittelständische Unternehmen davon relevant?!
Klar haben IT-Firmen die mit Soft- oder Hardware vertrieben höhere Ansprüche, aber das ist nun mal ein Bruchteil der Firmen in der BRD.
 
Status
Für weitere Antworten geschlossen.
Zurück
Oben Unten