AMD Zen - 14nm, 8 Kerne, 95W TDP & DDR4?

UNRUHEHERD

Cadet
★ Themenstarter ★
Mitglied seit
17.05.2014
Beiträge
13
Renomée
13
Hier der Artikel von Computerbase mit Eckdaten, die sich auf Sweclockers beziehen (darf leider keine Links posten):

"Auf Volcanic Islands in den letzten beiden Jahren und Pirate Islands als Erwartung für dieses Jahr soll bei AMDs Radeon-Grafikkarten im kommenden Jahr die GPU-Serie mit dem Codenamen Arctic Islands folgen. Parallel dazu wird im zweiten Halbjahr 2016 die neue Prozessorarchitektur Zen erwartet.

Details zu beiden Lösungen sind bestenfalls Mangelware. Die Zen-Architektur soll ihr Debüt laut Sweclockers im dritten Quartal 2016 feiern. Die Grundlage soll die 14-nm-Fertigung inklusive FinFET-Technologie bei Globalfoundries sein. Die neue CPU samt integrierter Northbridge wird darüber hinaus PCI Express 3.0 mit einer unbekannten Anzahl an Lanes bieten. Neu ist auch der Sockel FM3, der für die CPUs mit dem Codenamen Summit Ridge bei maximal acht Kernen inklusive SMT-Unterstützung, also bis zu 16 Threads, mit einer TDP von bis zu 95 Watt bereitgestellt wird. Hinzu soll sich die Southbridge mit dem Codenamen Promontory mit bisher unbekannten Features gesellen. Für Ende 2016 üblich wird als Hauptspeicher dann DDR4, bei maximal 95 Watt vermutlich als Dual-Channel-Lösung, erwartet.

Noch weniger Informationen gibt es zur übernächsten Generation der AMD-Grafikkarten. Auch dort wird aufgrund der Fertigungssprünge in den Foundrys auf bis zu 14 nm ein größerer Schritt vermutet, der bei den in diesem Jahr erwarteten Pirate Islands noch nicht zum Einsatz kommt. AMD hatte im Rahmen der letzten Quartalszahlen verlauten lassen, dass die Firma aktiv 14-nm-Produkte designe. Da es jedoch vom Design bis zur Verfügbarkeit im Einzelhandel sehr lange dauert, klingt eine Produktvorstellug 2016 alles andere als unrealistisch."


Allerdings soll es erst im Q3 2016 soweit sein. Nach ersten Andeutungen noch von Rory Read bin ich gespannt und hoffe auf Jim Kellers Kompetenz. Gleichwohl ich nicht weiß, was ich mir bis dahin kaufen soll. ;)
 
Zuletzt bearbeitet:

Crashtest

Redaktion
☆☆☆☆☆☆
Mitglied seit
11.11.2008
Beiträge
9.142
Renomée
1.325
Standort
Leipzig
  • Docking@Home
  • BOINC Pentathlon 2011
  • BOINC Pentathlon 2012
  • BOINC Pentathlon 2013
  • BOINC Pentathlon 2014
  • BOINC Pentathlon 2015
  • BOINC Pentathlon 2016
  • BOINC Pentathlon 2017
  • BOINC Pentathlon 2018
  • BOINC Pentathlon 2019
  • BOINC Pentathlon 2020
  • THOR Challenge 2020
  • BOINC Pentathlon 2021
Naja da der 8M/16T Excavator-Shrink in 20nm schon im 95W-Bereich werkelt (Sockel Gnext mit Quad-DDR4) sollte auch ein "schlechterer" Sockel FM3 mit Dual gehen.

Einzig die Tatsache, dass AMD weder den 28nm 8M/16T Steamroller (120W mit DDR3) noch den 28nm 8M/16T Excavator (105W mit DDR4) nicht bringt - kann man nicht verstehen - fertig sind beide. Vom "neuen" Excavator-Shring in 20nm (ES) ganz zu schweigen....

Wäre auch für die Serverinfrastruktur zwingend notwendig .... ein neuer Unterbau als Ersatz des G34 (aus 2011) mit QuadDDR4, neuem Chipsatz, ein Derivat des aktuellen A88X statt des Uralten SP5100 (aus 2010) aber ist halt kein Wille seitens AMD da - Anfragen dazu schon !?

Anmerkungen:
- die Crossbar in allen 3 (SR-A2, XV-A1, XS-A0) haben einen PCIE 3.0 Rootcomplex mit bis zu 3 Ports (2x16 [davon 1 Teilbar auf 8/4/1/1/1/1] + 1x4 [Chipsatz]) oder 1 Port und bis zu 4 HT-Links ...
- der IMC ist in allen 3 288Bit (Quad mit ECC) mit Support für DDR3 (SR) bzw. DDR3 und DDR4 (XV u. XS). Der mögliche GDDR5 Support ist jedoch in allen 3 "reserved" ; in Pumaderivaten jedoch "aviable"
- Zen ist bisher als reine CPU geplant dh kein GPU-Teil onboard - soll jedoch bei Bedarf auch als APU (jedoch nur 3M/6T nachgeschoben werden)

Zen sollte ursprünglich den gleichen Unterbau wie XV und XS bekommen:
- Desktopsockel bis 100W - FM3 (Dual-Channel DDR4, mehr PCIe aber kein HT-Links)
- Serversockel bis 125W (SE) - Gnext (Quad-Channel DDR4 mit (reg)ECC und HT-Links für MP, weniger PCIe)
- erstmal kein!!! Mobil

Ein Bug im Speichercontroller war auch der Grund für Kaveri-Sockeli FM2+ (DDR3) statt ursprünglich geplanten FM3 (DDR4)

Fazit:
14nm Finfet 8M/16T CPU im Bereich 3,5GHz, rd 40PCIe Lanes, Dual oder Quad DDR4 ist für AMD kein Problem in 2016 - ob's jetzt (01/2015) schon geht ... naja in 20nm Excavatorshrink ja aber derzeit noch etwas zu groß für die 4x4cm CPUs (FM2x, AM3x)
 

Alter Sack

Lt. Commander
Mitglied seit
10.03.2013
Beiträge
143
Renomée
0
Standort
Dennheritz
Deutet der Sockel FM3 nicht auf eine Apu hin?
Ich persönlich möchte keine reine CPU mehr kaufen. Ausser zum spielen braucht es keine extra Grafikkarte
und falls HBM an Board ist, nichtmal zwingend dazu.
 

Crashtest

Redaktion
☆☆☆☆☆☆
Mitglied seit
11.11.2008
Beiträge
9.142
Renomée
1.325
Standort
Leipzig
  • Docking@Home
  • BOINC Pentathlon 2011
  • BOINC Pentathlon 2012
  • BOINC Pentathlon 2013
  • BOINC Pentathlon 2014
  • BOINC Pentathlon 2015
  • BOINC Pentathlon 2016
  • BOINC Pentathlon 2017
  • BOINC Pentathlon 2018
  • BOINC Pentathlon 2019
  • BOINC Pentathlon 2020
  • THOR Challenge 2020
  • BOINC Pentathlon 2021
Der FM2(+) bzw. FM3 Sockel ist für reine CPUs (mit IMC und PCIE-Rootcomplex) und APUs (zusätzlich mit GPU) vorgesehen.

Ein Verweis auf den gestrichenen Komodo (5M/10T CPU mit Piledriverkernen ohne Grafikteile onboard) als Beispiel ... ; auch gibt es jetzt schon 2M/4T "CPUs" - Athlons mit deaktivierter Grafik für FM2 und FM2+

AMD hat als ES auch 8M/16T Steamroller CPUs für FM2+ wie auch Excavator CPUs für FM2+ jedoch sind die einfach zu groß (kaum Platz noch für HS) und einfach "zu teuer" in der Produktion - bei gleicher DIE-Größe sind APUs billiger als reine CPUs

Der letzte AMD Chef wollte halt Execution auf Kosten der Highend-CPUs (egal ob große Server oder FX-Reihe) - sonst könntest du ein Quad-Channel-DDR4-8M/16T Excavator-System anstatt nen CorEI 7 5960-System kaufen
 

UNRUHEHERD

Cadet
★ Themenstarter ★
Mitglied seit
17.05.2014
Beiträge
13
Renomée
13
Deutet der Sockel FM3 nicht auf eine Apu hin?
Ich persönlich möchte keine reine CPU mehr kaufen. Ausser zum spielen braucht es keine extra Grafikkarte
und falls HBM an Board ist, nichtmal zwingend dazu.

Von Sweclockers und Computerbase kommt gerade die Nachricht, dass parallel zu Zen (womöglich früher zum Überbrücken eventueller Wartezeiten?) Bristol Ridge die Exkavator-Kerne auf den Desktop bringen soll. Allerdings noch in 28nm - schätzungsweise um die begehrteren Kapazitäten in 14 nm für Zen und damit den High-Performance-Markt zu nutzen und die R&D-Kosten für die Module in Carrizo auch im Mainstream-Desktop Segment einzuspielen. Das könnte ich mir vorstellen.
 

Locuza

Commodore Special
Mitglied seit
03.03.2011
Beiträge
351
Renomée
3
- Zen ist bisher als reine CPU geplant dh kein GPU-Teil onboard - soll jedoch bei Bedarf auch als APU (jedoch nur 3M/6T nachgeschoben werden)
Wie kann man sich das in Zukunft vorstellen?

2015 erscheinen die ersten zwei HSA Skybridge Socs.
Puma+ und A57.

2016 im High-Performance Sektor dann nur K12/Zen als reine CPUs, die Roadmap vom November 2013 hat Nachfolger für die low-power HSA SoCs für 2016 eingeplant:

http://extreme.pcgameshardware.de/attachments/801845d1422378106-amd-zen-angeblich-8-kerne-plus-smt-14-nm-amd-embedded-solutions-2012-2016-roadmap.jpg

Wird da wieder recycling betrieben?
Oder entwickelt AMD Puma als low-power core weiter und verwendet Standard ARM-Cores?
Oder wird hier irgendwann ein switch zu Zen/K12 vollzogen?
 

amdfanuwe

Grand Admiral Special
Mitglied seit
24.06.2010
Beiträge
2.372
Renomée
34
Der letzte AMD Chef wollte halt Execution auf Kosten der Highend-CPUs (egal ob große Server oder FX-Reihe) - sonst könntest du ein Quad-Channel-DDR4-8M/16T Excavator-System anstatt nen CorEI 7 5960-System kaufen

Der letzte Chef hat alles gestrichen, was keinen genügend großen Gewinn erwarten ließ.
Die Nachfrage im Konsumerbereich war halt zu gering und im Serverbereich hat AMD kaum noch Marktanteile um high end 8/16 Kerner gewinnbringend verkaufen zu können.
Wenn bei der Rechnung: Verkaufspreis - Entwicklungskosten/ erwartete Stückzahl + Herstellungskosten = Gewinn
ein Minus beim Gewinn steht, wirds halt nicht gemacht.
 

miriquidi

Vice Admiral Special
Mitglied seit
09.11.2011
Beiträge
686
Renomée
30
AMD hat als ES auch 8M/16T Steamroller CPUs für FM2+ wie auch Excavator CPUs für FM2+ jedoch sind die einfach zu groß (kaum Platz noch für HS) und einfach "zu teuer" in der Produktion - bei gleicher DIE-Größe sind APUs billiger als reine CPUs
Woher kommen denn die Informationen?
 

Crashtest

Redaktion
☆☆☆☆☆☆
Mitglied seit
11.11.2008
Beiträge
9.142
Renomée
1.325
Standort
Leipzig
  • Docking@Home
  • BOINC Pentathlon 2011
  • BOINC Pentathlon 2012
  • BOINC Pentathlon 2013
  • BOINC Pentathlon 2014
  • BOINC Pentathlon 2015
  • BOINC Pentathlon 2016
  • BOINC Pentathlon 2017
  • BOINC Pentathlon 2018
  • BOINC Pentathlon 2019
  • BOINC Pentathlon 2020
  • THOR Challenge 2020
  • BOINC Pentathlon 2021
Lustigerweise hat Lisa zuletzt ja angegeben, dass neue Highendprodukte von den Großkunden gefordert wurden und deshalb entwickelt werden (müssen)

AMD macht seit Jahren "Recycling" !!!! Oder besser Baukasten über Generationen !

Beispiel Speichercontroller:

der aktuell verbaute Speichercontroller im Kaveri ist der Gleiche der auch in der XB1 und PS4 steckt
- im Kaveri nur 2/4 aktiv mit DDR3
- in XB1 4/4 aktiv mit DDR3
- in PS4 4/4 aktiv mit GDDR5

AMD baut halt diesen "Baustein" in fast alle CPUs und APUs ein - nur beim Jaguar und Beema hat AMD einige Teile davon wegrationalisiert

AMDs Design ist recht einfach - wie LEGO:

Grundplatte (DIE-Träger im Sockel wasauchimmer)
- 4x Baustein1 CPU-Modul
- 1x Baustein2 IMC
- 1x Baustein3 Xbar
- 1x Baustein4 SharedL3 Cache
fertig ist eine 4M/8T CPU etwa Orochi

Baut man jedoch auf größere Grundplatte
- 8x Baustein1a
- 1x Baustein2
- 1x Baustein3
- 1x Baustein4
hat man auf einmal nen 8M/16T Excavator ...

So spart AMD Entwicklungskosten - muss nur der jeweilige Baustein entwickelt und alles zusammengefummelt werden.

Wenn dann eine Firma wie Sony kommt und halt 4x Baustein 1c und statt Baustein4 halt Baustein5 will (GPU) geht dies auch ... wird halt die GPU intern über die Links angesprochen statt andere CPUs - so machts AMD beim Kaveri : 2 "modifizierte" HT-Links als Anbindung der Grafik (Onion und OnionPlus sind über die HT-Register D18F0x84 und D18F0xA4 erreichbar)


Momentan deutet es bei AMD auf folgendes hin:

- SOC LGA für x86 und ARM Minisystem und Miniserver
- SOC BGA für Mobil
- FM3 für mittlere bis große Desktops
- Sockel Gnext für Highenddesktop und MP-Server
- Custom bei Bedarf

Es gibt leider noch genügend Bereiche wo NUMA sehr wichtig ist - geht mit 1P-SOC nicht ... daher auch weiterhin HT in neuem Gewand

Ob AMD nun ein "Refresh" des Kaveri bringt und dem nen neuen Fakenamen verpasst (wie einst bei Richland statt Trinity) mag dahin stehen - AMD kann mehr wenn sie nur wollen

Ich will nicht behaupten, dass ein Kaverirefresh mit Steamroller für Desktop ansteht, wenn Excavator fertig ist und nur "Baustein" ausgetauscht werden muss ....
 

Duplex

Admiral Special
Mitglied seit
02.05.2009
Beiträge
1.909
Renomée
57
Naja da der 8M/16T Excavator-Shrink in 20nm schon im 95W-Bereich werkelt (Sockel Gnext mit Quad-DDR4) sollte auch ein "schlechterer" Sockel FM3 mit Dual gehen.
Ich hoffe das man sowas nicht sehen wird, CMT ist neben Netburst der größte reinfall !!!
AMD braucht wie Intel ein breites Design mit SMT, alles andere kommt im Markt nicht gut an.
 

WindHund

Grand Admiral Special
Mitglied seit
30.01.2008
Beiträge
11.403
Renomée
342
Standort
Im wilden Süden (0711)
  • BOINC Pentathlon 2011
  • BOINC Pentathlon 2012
  • BOINC Pentathlon 2013
  • BOINC Pentathlon 2014
  • BOINC Pentathlon 2016
  • BOINC Pentathlon 2021
Ich hoffe das man sowas nicht sehen wird, CMT ist neben Netburst der größte reinfall !!!
AMD braucht wie Intel ein breites Design mit SMT, alles andere kommt im Markt nicht gut an.
Ja, wir wollen Hypertransport aka PCIe Root Komplexe!
Unglaublich wie eine flexible FPU CMT dermaßen pushen kann! ;D
 

miriquidi

Vice Admiral Special
Mitglied seit
09.11.2011
Beiträge
686
Renomée
30
Ich hoffe das man sowas nicht sehen wird, CMT ist neben Netburst der größte reinfall !!!
AMD braucht wie Intel ein breites Design mit SMT, alles andere kommt im Markt nicht gut an.
Zumindest für alle Applikationen abseits der Serverwelt, in denen gegebener Code in minimaler Zeit ausgeführt werden soll.
Nur mal ehrlich: Ein hypothetischer AMD Opteron 64xx mit 32 Integerkernen und je 2,5 GHz heute noch jemanden hinterm Ofen hervorlocken? Ich habe da ja meine Zweifel, schon nur aus Sicht der Software-Lizenzkosten (die öfters mit Kernen skalieren).
 

Opteron

Redaktion
☆☆☆☆☆☆
Mitglied seit
13.08.2002
Beiträge
23.644
Renomée
2.252
  • SIMAP Race
  • Spinhenge ESL
  • BOINC Pentathlon 2012
Ich hoffe das man sowas nicht sehen wird, CMT ist neben Netburst der größte reinfall !!!
AMD braucht wie Intel ein breites Design mit SMT, alles andere kommt im Markt nicht gut an.

Na komm, das hatten wir doch schon 1000x durchgekaut. CMT per se ist genauso schlecht wie SMT schlecht ist, weil der P4 ein Reinfall war.
Ne IPC von unter 1,0 ist für ne 2issue-Einheit, also mit einer theoretisch max. IPC von 2,0 einfach unterirdisch. Nicht nur prozentual, sondern v.a. auch absolut.

Um die IPC zu erhöhen brauchts ne Menge Tricks und Know-How, das hat(te) - wie man sieht - bisher nur Intel, kein Wunder wenn man dann hochhaus verliert, wenn die das dann auch noch auf ne 3issue-Architektur anwenden.

Ein Bulldozer mit zusätzlichem SMT wär nett gewesen, dann hätte man wenigsten nen tollen Durchsatz in Boinc.

Anders gesagt: Breite, dicke Cores plus SMT sind der einfachere Weg. Breitere Kerne kann man, die sorgen dann schonmal für ne passable Grund-IPC, zwar mit ner miesen Ausbeute, z.B. IPC von 1,5 bei max. möglichen 4 oder so, aber hej- das ist absolut gesehen immer noch besser als 0,9. Auf die restlichen Rechenwerke, lässt man dann gegebenenfalls noch nen 2. Thread per SMT los, damit die nicht so nutzlos in der Gegen herumstehen, fertig ist die Chose. Aus viel Resourcen ne gute Leistung rauszuholen ist schlicht einfacher als aus wenig.

Die Preisfrage ist nun, ob es vielleicht sogar unmöglich ist, aus einem 2issue-Rechenwerk ne IPC von ~1,5 herauszukitzeln. Solange man aber nichts hat, was eindeutig nachweist, dass man das kann, sollte man als kleine Firma den einfacheren Weg wählen.

Für Zen wünsch ich mir CMT und SMT, also 4 Threads pro Modul, wobei der einzelne Kern fetter werden würde, 3-4 issue statt 2 und 32kb L1 und etwas kürzerer Pipeline mit ADD/SUB in einem Takt statt zwei. In 14nm sollte man für sowas Platz haben.

Ein dicker fetter 6-8issue Core mit 64kB L1 und 4fach SMT klänge auf dem Papier zwar auch gut, aber dort gibts erstens das Problem der starken IPC-Ausbeuteabnahme bei Architekturen >4issue und zweitens das Problem der limitierenden Cacheports. Da kann man nicht endlos viel unterbringen. In der Regel hat man Ports für 2xLesen und 1xSchreiben, was schon von einem Thread voll belegt werden kann. Der 2. Thread muss dann halt ggf. warten bis er dran kommt. Das geht sicherlich noch oft gut, ein Thread wird nie dauerhaft alle Ports belegen, außer vielleicht in Benchmarks, aber bei 4 Threads würde die IPC wohl sicher zu stark sinken.

Besser man hat Zugriff auf einen eigenen L1D-Cache, der entsprechend neue Ports anbietet.
Alternativ gäbs höchstens noch irgendwas "ingeniöses" z.B. höherer Takt für die L1-Zellen/DDR-Verfahren an den Ports, um den Zugriff zu verdoppelt, ohne die Threads warten zu lassen, aber von AMD erwarte ich sowas nicht, auch nicht von Keller. Der soll erstmal ein passables Grunddesign abliefern, tunen kann man später immer noch ^^

Die FPU könnte prinzipiell so bleiben wie sie ist, nur auf 256bit verdoppelt, zusammen im Modul per Doubles dann AVX512 kompatibel. Aber vermutlich wird man auch die auf kleinere Taktraten = kürzere Latenzen tunen wollen. Ob da dann noch viel vom ursprünglichen Design übrig bliebe ...

Das Front-End noch ... da hat AMD ja nun lang genug herumexperimentiert und sollte wissen, was für 2 Threads besser ist. Für ein Modul mit SMT müsste man das Teil damit "nur" verdoppeln. Den I-Cache auf 128kB zu vergrößern (falls das reichen sollte) böte sich sowieso an. Falls es wg. der 4 Threads auch dort Zugriffsprobleme geben sollte dann halt wieder 2x64kB oder 96, wobei in dem Fall aber die Geschichte mit den Doubles für AVX512 nicht funktionieren würde ... so wichtig wird das aber auch nicht sein, ist nur ne Kompatibilitätsfrage.

Generell erwarte ich eher größere Caches, erstens wg. 14nm, zweitens wg AMDs HD-Library. Man könnte die eingesparte Fläche zwar auch für mehr Module nutzen, aber bei AMD sollte es jetzt klar sein, dass man erstmal ne vernünftig IPC braucht, bevor man an mehr Kerne denken kann. Außerdem gibts in 14nm ganz sicher genügend Platz für 8 Module(wären mit CMT+SMT 32 Threads) aufwärts und die werden erstmal für Server und Co. reichen. Für uns Otto-Normaluser reicht sicher auch die Version mit 4M/16T. Von daher hoffe ich, dass man größere Caches erwarten kann. Keller hatte ja beim letzten Apple-Design auch 64kB L1 vorgesehen und das ohne SMT/CMT also nur für einen Thread ... von daher scheint er auch ein Cache-Fan zu sein und wird sich da auch hoffentlich nicht reinreden lassen.

Unter Read hätt ich so nen fetten Kern nicht erwartet, aber der ist ja jetzt weg vom Fenster und keiner kauft mehr AMD CPUs .. vielleicht reist die Lisa ja gerade wieder das Ruder herum, wenns oben schon geheißen hat, dass Kunden größere CPUs fordern... wollen wirs mal aus AMD-Fan-Sicht hoffen :)

@Crashtest:
Das heißt bei AMD "M-Space" nicht Lego ^^
(Wobei die Frage ist, ob man das bei AMD selbst noch weiss, viele Marketingleute aus der Zeit werden nicht mehr an Bord sein und den Technikern sind Namen sowieso egal ^^)
 

miriquidi

Vice Admiral Special
Mitglied seit
09.11.2011
Beiträge
686
Renomée
30
Für Zen wünsch ich mir CMT und SMT, also 4 Threads pro Modul, wobei der einzelne Kern fetter werden würde, 3-4 issue statt 2 und 32kb L1 und etwas kürzerer Pipeline mit ADD/SUB in einem Takt statt zwei. In 14nm sollte man für sowas Platz haben.
Im Mobilbereich kostet das Single-Thread-Leistung, weil man die Module (zumindest bisher) nur im Ganzen stromlos schalten kann. Wenn man nur einen Thread braucht, hätte man dann wieder zwei Dekoder, zwei Integerkerne, zwei L1-Caches usw. "am Netz" - einen mehr als nötig. Die Leckströme senken die verfügbare TDP des eigentlichen laufenden Rechenwerks, die erreichbare Turbotaktrate sinkte.

Ich für meinen Teil würde auf einen aufgebohrten Jaguar evtl. mit SMT tippen und recht wenig L2-Cache pro Kern tippen (0,5 - 1 MB). Ich frage mich eher, ob sie wieder einen gemeinsamen L2-Cache für zwei oder vier Kerne einbauen. Ich würde auf nein tippen.
 

Opteron

Redaktion
☆☆☆☆☆☆
Mitglied seit
13.08.2002
Beiträge
23.644
Renomée
2.252
  • SIMAP Race
  • Spinhenge ESL
  • BOINC Pentathlon 2012
Ich für meinen Teil würde auf einen aufgebohrten Jaguar evtl. mit SMT tippen und recht wenig L2-Cache pro Kern tippen (0,5 - 1 MB). Ich frage mich eher, ob sie wieder einen gemeinsamen L2-Cache für zwei oder vier Kerne einbauen. Ich würde auf nein tippen.
Das war mein bisheriger Tipp, aber nachdem jetzt die Rede von den Großkunden war ...
Was hast Du gegen den gemeinsamen Cache? Ich find den prima, jeder Kern hat nen 512kB-Block und falls nur 1 Thread läuft hat man die vollen 2MB zur Verfügung.
Wär jetzt die Frage, ob man so ein Design auch für nen L1-Cache hinbekäme, das wärs. Aber vermutlich würde die Latenz zu stark steigen.
Ist dann aber auch die Frage, wieviel tiefere Puffer man noch hat. Mit nem L0-Cache und tiefen Load/Store-Queues gings vielleicht.
Im Mobilbereich kostet das Single-Thread-Leistung, weil man die Module (zumindest bisher) nur im Ganzen stromlos schalten kann. Wenn man nur einen Thread braucht, hätte man dann wieder zwei Dekoder, zwei Integerkerne, zwei L1-Caches usw. "am Netz" - einen mehr als nötig. Die Leckströme senken die verfügbare TDP des eigentlichen laufenden Rechenwerks, die erreichbare Turbotaktrate sinkte.
Im Mobilbereich wo es wirklich auf nen Ministromverbrauch ankommt, wird man die kleinen ARM-Kerne von der Stange nehmen, so tief würde ich als AMD nicht sinken wollen ^^
2 Kerne/1Modul kann man in 14nm außerdem sicherlich stromsparend betreiben und auch nutzen.
 

miriquidi

Vice Admiral Special
Mitglied seit
09.11.2011
Beiträge
686
Renomée
30
Was hast Du gegen den gemeinsamen Cache? Ich find den prima, jeder Kern hat nen 512kB-Block und falls nur 1 Thread läuft hat man die vollen 2MB zur Verfügung.
Wär jetzt die Frage, ob man so ein Design auch für nen L1-Cache hinbekäme, das wärs. Aber vermutlich würde die Latenz zu stark steigen.
Die Latenz des L2 wird durch den großen Cache auch steigen. Bulldozers L2-Cache ist schnarchlangsam, der vom Jaguar nicht viel besser. Zumindest wenn man das mit dem des K8 oder K10 vergleicht.

2 Kerne/1Modul kann man in 14nm außerdem sicherlich stromsparend betreiben und auch nutzen.
Wollte nur sagen, dass man damit von vornherein etwas aufgibt, das man mit "echten" Einzelkernen nicht hätte.
 

Opteron

Redaktion
☆☆☆☆☆☆
Mitglied seit
13.08.2002
Beiträge
23.644
Renomée
2.252
  • SIMAP Race
  • Spinhenge ESL
  • BOINC Pentathlon 2012
Die Latenz des L2 wird durch den großen Cache auch steigen. Bulldozers L2-Cache ist schnarchlangsam, der vom Jaguar nicht viel besser. Zumindest wenn man das mit dem des K8 oder K10 vergleicht.
Naja, das ist konzeptbedingt, der L2 läuft beim Jaguar ja auch nur mit halben Takt.

Solange der L1 groß genug ist und die meisten Zugriffe abpuffert, darf der L2 auch etwas langsamer sein, das muss man nur gut abstimmen. Mit SMT wärs aus Durchsatzsicht auch egal, wenn ein Thread wartet, darf halt der andere ran (aus IPC-Sicht ist das aber natürlich keine Lösung).

BD war in der Hinsicht mit den kleinen L1-Caches aber wohl keine so gute Lösung. Wenn der Mini-L1D wenigstens schnell in 2 Takten Daten geliefert hätte, aber es waren halt 4.

Wollte nur sagen, dass man damit von vornherein etwas aufgibt, das man mit "echten" Einzelkernen nicht hätte.
Ja, aber wenns die Einzelkerne sowieso schon billig von der Stange gibt, kann man das ruhig aufgeben. Irgendwo muss man sich dann auch unterscheiden können, sonst bekommt man seine CPUs nicht los.
 

y33H@

Admiral Special
Mitglied seit
16.05.2011
Beiträge
1.768
Renomée
10
Warum wird Zen/Summit Ridge als x86-Pendant zum K12 gesehen? 95W sprechen klar gegen Low-Power.
 

Stryki

Admiral Special
Mitglied seit
12.10.2009
Beiträge
1.171
Renomée
8
Vielleicht geht die maximale Ausbaustufe von k12 auch bis 95 W hoch? soll ja ein Serverchip werden da gilt ja nur Leistung/Verbrauch und nicht was der Akku leistet ( kann es gerade nicht besser ausdrücken nicht mein tag heute) die kleineren Bereiche will man vielleicht nur noch mit aufgelöteten Lösungen bestreiten und im Bereich 45 bis 95 eine Plattform bieten die alles frisst. Zumindest könnte man so den Aufwand für Validierung etc optimieren und vermutlich genügend Bordherstellern die Plattform schmackhaft machen?
 

OBrian

Moderation MBDB, ,
Mitglied seit
16.10.2000
Beiträge
17.036
Renomée
267
Standort
NRW
Warum wird Zen/Summit Ridge als x86-Pendant zum K12 gesehen? 95W sprechen klar gegen Low-Power.
es wird als Pendant gesehen, weil es in der gleichen Zeit kommen soll. Nach Skybridge, was ARM und x86 auf gleicher Plattform zusammenführt, dafür aber altbekannte Kerne verwendet, kommen dann ziemlich zeitgleich zwei neue Architekturen für ARM (K12) und x86 (eben Zen). Und wenn die dann auch austauschbar die gleiche Plattform besiedeln sollen, kann man auch vom gleichen TDP-Budget ausgehen.

Aber zur TDP ist dabei doch nichts gesagt worden. Ich halte K12 nebenbei gesagt für eine als ziemlich stark angelegte ARM-Architektur, das wird kein Angriff auf den 0,nix-bis-5-W-Bereich, wo sich alle bisherigen ARM-Hersteller tummeln, sondern sicherlich eine ausgewachsene "fette" CPU, nur eben mit ARM. Sowas gabs bisher nicht und daher wird AMD hier auch als einziger Anbieter dastehen, was optimale Absatzchancen verspricht. Wenn man dann Zen noch als Ersatz für Bulldozer sieht, dann man sich für beide durchaus eine Plattform von 30 bis 100 W vorstellen, für ausgewachsene Notebooks und Desktops sowie Server jedweder Couleur. Nicht vergessen, deren Vorgängerplattform Skybridge (soll ja dieses Jahr irgendwann kommen) mit den schwächeren Kernen A57 und Puma+ wird ja dann noch eine Weile im Handel bleiben und den Markt bedienen können, der kleinere und billigere Chips wünscht.
 

Atombossler

Admiral Special
Mitglied seit
28.04.2013
Beiträge
1.425
Renomée
65
Standort
Andere Sphären
... Bristol Ridge und Summit Ridge trotz verschiedener Architektur einen Sockel teilen werden: Der neue Sockel FM3 soll nicht nur die Nachfolge des AM3+ im gehobenen Leistungssegment sondern auch des FM2+ im Mainstream-Segment antreten.

Zitat von hier im Update.
Wer hätte gedacht das AMD doch noch auf die Idee kommt das "Sockel-Chaos" zu vereinfachen (zu Ihrem eigenen Besten/Gewinn).
Das macht Sinn und sag ich schon ewig.
Fängt an mir zu gefallen.
Nur der Start des Bristol Ridge ist ein wenig spät für meinen Geschmack, Q3'15 wär da deutlich besser und
könnte die Plattform schön einführen.
Weihnachten '16 könnt man sich dann schön smooth 'n fetten Octo-Zen reinsetzen, wird die doofe Graphic los und
hat die gewünschte Anzahl Cores. *buck*
 

gruffi

Grand Admiral Special
Mitglied seit
08.03.2008
Beiträge
5.393
Renomée
65
Standort
vorhanden
Ich hoffe das man sowas nicht sehen wird, CMT ist neben Netburst der größte reinfall !!!
AMD braucht wie Intel ein breites Design mit SMT, alles andere kommt im Markt nicht gut an.
Schöne Grüsse vom Leierkastenmann, der hätte gerne seine Platte zurück. Selbst nach der x-ten Wiederholung hält diese Behauptung keiner näheren Prüfung stand.

Reines SMT ist abseits von Servern einfach nur unsinnig und unnütz. ARM zeigt das seit Jahren recht eindrucksvoll. Das haben Athlon X2 und später C2D übrigens auch schon. SMT ist im Client Markt weder gewünscht, noch gewollt. Ausser Intel nutzt das dort auch keiner. Intel hat es bei Nehalem auch nur wieder eingeführt, weil der primär für Server entwickelt wurde. Beim Atom hat man es nach der Umstellung von In-Order auf OoO wieder rausgehauen. Und das aus gutem Grund. SMT ist nur ein kleines Zubrot, um die Auslastung der vorhandenen Ausführungseinheiten bei ausreichend Threads zu maximieren. Im Client Markt hat man aber nicht x-beliebig viele Threads. Da setzt man besser auf vollwertige Kerne, um die Performance zu maximieren. Und bei Low Power Designs ist der erhöhte Energiebedarf des Kerns durch SMT unerwünscht.

CMT ist definitiv noch das beste an Bulldozer. Mit Netburst hat das nicht das geringste zu tun. Der hatte ganz andere Probleme. Der grösste Schwachsinn, den AMD bei K12 / Zen machen könnte, wäre etwas wie HTT zu implementieren. Einzig singlethreaded Kerne ala Cyclone oder eine Weiterentwicklung von CMT machen Sinn. Intel selbst hat ja mit Haswell das Backend mit mehr Ausführungspipelines aufgebohrt und damit indirekt bestätigt, dass AMDs Weg mit CMT durchaus der richtige war.


Bulldozers L2-Cache ist schnarchlangsam, der vom Jaguar nicht viel besser. Zumindest wenn man das mit dem des K8 oder K10 vergleicht.
Steamrollers L2 hat ähnliche Schreib- und Kopierraten wie der K10. Die Leserate hingegen ist etwa doppelt so hoch. "Schnarchlangsam" ist der L2 definitiv nicht. Lediglich die Latenz ist höher. Aber man sollte halt auch bedenken, dass der L2 bei Steamroller viermal so gross ist wie bei Deneb/Propus und doppelt so gross wie bei Llano.
 

sompe

Grand Admiral Special
Mitglied seit
09.02.2009
Beiträge
11.917
Renomée
1.260
@ gruffi
Wobei ich vermute das K12 / Zen primär für den Server/Workstation Markt entwickelt wird, wodurch es dann wieder sinnvoll sein könnte.
Das es letztendlich wieder seinen Weg in den Desktop Markt finden dürfte steht wiederum auf einen ganz anderen Blatt geschrieben.
Zumindest lief es miener Meinug nach bereits seit dem Athlon so ab und für das untere Leistungssegment kamen dann die gestutzten Designs.

@Atombossler
Wenn AMD ein Sockel Chaos hat, hat Intel dann den Sockel GAU? *buck*
 

Duplex

Admiral Special
Mitglied seit
02.05.2009
Beiträge
1.909
Renomée
57
@Opteron
Ein breites Design mit viel IPC und optimale Aulastung der Ressourcen ist sinnvoller als die CMT Geschichte.
Kurze Pipeline (14-16 Stufen), 32-64KB L1D Cache, 4 ALUs + 4 AGUs, 2x 256 Bit FPU, AVX-2, 2 Fach SMT, Fullspeed Cache (wie CPU Takt), IPC 1.6-1.8.
Gegenüber K10 mit IPC 1.2 wäre das schon eine gute Steigerung. (Kennst noch den Alpha EV8 ;))
Alles andere kommt im Markt leider nicht gut an, wichtig ist hohe Singlethread Performance bei wenig Energie, hohe Singlethread Performance bedeutet dann auch hohe Multithread Performance.

@gruffi
Ein Core i3 mit SMT ist Low Power, der schlägt teiwleise ein FX8 in Games!!!
SMT ist bei einem breiten Kern mit sicherheit keine verschwendung, SMT braucht ca. 5% Chipfläche und bringt mind. 20% mehr Durchsatz bei den i5 bis i7, bei den i3 ist der Durchsatz schon manchmal über 30%, das nehme ich bei einer IPC 2 gerne mit. Intels Kerne sind sehr klein geworden, in 200mm² kannst du inzwischen 8 Kerne einbauen!
 
Zuletzt bearbeitet:

sompe

Grand Admiral Special
Mitglied seit
09.02.2009
Beiträge
11.917
Renomée
1.260
@gruffi
Ein Core i3 mit SMT ist Low Power, der schlägt teiwleise ein FX8 in Games!!!

Leg nem V8 6 Zylinder tot und es dürfte schwer sein nem Trabbi zu entkommen.....gleiches Prinzip.

Das Märchen mit den Mindestens 20% ist auch immer wieder witzig denn zwischen 0 und 100% ist alles drin, je nachdem wie mies die Pipeline ausgelastet ist.
 
Zuletzt bearbeitet:
Oben Unten