AMD Zen - 14nm, 8 Kerne, 95W TDP & DDR4?

@drSeehas
Ja so wird es wohl sein. Wohl einfach auch weil ja HBM als Quasi-LLC noch vorhanden ist.

Zudem erinnert mich das an das PS4-Design wo jeweils 4 Jaguarcores geclustert werden zu einem Modul. Hier hat man eigentlich vollständige 4-Cores inkl. L3 Cache mit 8 Threads, die man beliebig skalieren kann. Die GPU kann auch beliebig variieren, da sie auf dem Interposer auch als seperate xPU angebunden sein kann und somit auch unterschiedlich grosse und schnelle Ausbaustufen modular getauscht werden können.

Auf diese Weise wären, anders als bei der Kaveri-Linie die ja alle auf ein und dem selben Die basieren, sehr kostengünstig unterschiedliche APU-Größen möglich und vor allem der Verbrauch der einzelnen Komponenten nochmals optimiert.
 
CMT+SMT wäre für den Mobilmarkt ein Klotz am Bein, weil immer ein ganzes Modul anstatt eines Einzelkerns im Betrieb sein muss.
Das wäre SMT dann aber auch. ARM CPUs, Jaguar/Puma, Silvermont usw haben alle kein SMT. Man kann übrigens auch ungenutzte Logik innerhalb eines Kerns/Moduls abschalten, um Strom zu sparen. Daher muss das erst mal nichts bedeuten.


@topic

Schaut insgesamt alles sehr plausibel aus. Der Aufbau erinnert wie erwartet stark an ARM, 4-Kern Cluster mit dediziertem 512 KB Cache (nein, keine 256 KB, schöne Grüsse an Opteron ;D ) und 8 MB shared L3. Bleibt die Frage, wie viele GPU Shader implementiert werden. 1024 sind wohl mindestens zu erwarten. Wobei ich auch bis zu 2048 für möglich halte. Je nachdem wie gross der Chip wird. So ein Prozessor mit halb so vielen Einheiten und maximal 150W TDP wäre schon genial und ausreichend für mich, um nächstes Jahr aufzurüsten.
 
Schaut insgesamt alles sehr plausibel aus. Der Aufbau erinnert wie erwartet stark an ARM, 4-Kern Cluster mit dediziertem 512 KB Cache (nein, keine 256 KB, schöne Grüsse an Opteron
grin.gif
) und 8 MB shared L3.

Nett, errinert irgendwie an M7 und (S4) war da nicht mal ein Gerücht O schliesst ihre HW Entwicklung und kauft die Extern ein.

Würde auch dazu passen das Catalyst auf deren OS kommen soll, laut eines Forentroll im AMD Support-Forum.
 
@Gruffi

1024 sind sicher nur ab den HP-Apu´s

beim A10 z.b. wären eher 768 oder 896 oder vielleicht gar "nur" eine 7770 mit 640,
Aber selbst eine 7770 mit 640 kommt schon auf 1,2TFLOP

Ich freu mich schon auf den dann neuen A6,
wenn dieser einen Nachfolger bekommt :P
 
Zuletzt bearbeitet:
Ich denke auch dass die Bonaire GPU am nächsten an die Leistungswerte ran kommt. Die R7 260X hat 896 Shader und ist recht aktuell. Die Leistung liegt auf Höhe einer HD 5870 und hat ein Powerbudget wie eine 7750. Kaveri war in etwa so schnell wie eine 7750 mit seinen 512 Shadern. Somit dürfte mit den 896 Shadern genug TDP Budget für schnelle, neue Kerne vorhanden sein, sofern diese nicht mehr Verbrauchen als Kaveris Steamroller-Kerne. Aber genau da erwartet man ja den größten Sprung und daher kann ich mir hier doch recht hohe Singlethreadleistungen bei den Zen-Kernen vorstellen. Sollte man an der Arichtektur noch etwas tweaken um statt 896 ganze 1024 Shader zu ermöglichen, was durchaus im Bereich des möglichen liegt, sähe es im Marketing nochmals besser aus mit einer Verdoppelung.

Und jetzt haben wir noch keinen einzigen Vorteil durch die 14nm Fertigung eingerechnet.
 
1024 sind sicher nur ab den HP-Apu´s
Das Blockdiagramm beschreibt eine HPC APU für Server. Da sollte AMD schon klotzen und nicht kleckern. Die aktuellen FirePros besitzen bereits 2816 Shader. Fiji wird gar 4096 Shader besitzen. Deshalb wären zumindest halb so viele Shader oder auch mehr für eine solche HPC APU schon wünschenswert. Vergiss nicht, wir reden hier von einem 14nm Design, welches deutlich mehr Transistoren pro mm² im Vergleich zu aktuellen 28nm Designs besitzt (>2x). Da sollten selbst bei einem A10 für Desktops mindestens 1024 Shader drin sein. Allerdings ist es fraglich, ob wir so eine Zen APU im kommenden Jahr für Desktops sehen werden.
 
Die 16 Zen Kerne müssen ja auch nicht zwangsweiße suf einem Die liegen sondern vlt. auf 4 verteilt. Für den consumer Bereich gibt es dann 4 oder 8 Kerne optional mit nem normalen midrange gpu Die neben dran.
Den Vollausbau gibt es dann nur für spezielle große HPC Sockel mit entsprechenden speziellen Kühlkonstruktionen oder gleich als Einschubkarte.

Ich glaube kaum dass wir quad channel ddr4 mit ecc im normalen Endbenutzer Markt sehen werden.
Für APU Varianten wird man vielleicht sogar maximal 4 Kerne mit eben maximal Mittelklasse GPUs bis ca. 120 Watt sehen. Da kommen dann schließlich auch schon 150-200W TDP heraus die man auf einem normalen Sockel erst mal wegbekommen muss.
 
Bulldozer ist auch in der Praxis nicht schlecht?Verbesserungswürdig aber nicht schlecht.
 
Ich gebe nur zu bedenken, dass Bulldozer auf dem Papier auch gut aussah.

Hmmm war Bulldozer wirklich NUR auf dem Papier gut........ODER wurd Bulldozer nur von einem gewissen Pressekreis schlecht geschrieben.......?!
Ich kann auch nur sagen das es NICHT am Papier lag das eine ehr Sehr Gute CPU so schlecht ist/war......
 
Ich gebe nur zu bedenken, dass Bulldozer auf dem Papier auch gut aussah.
Bulldozer wurde vor allem aber von einem suboptimalen Fertigungsprozess und Kinderkrankheiten beim ursprünglichen Design eingebremst. Kaveri und Carrizo zeigen eigentlich recht gut, was möglich gewesen wäre, wenn das Produkt von Beginn an ausgereifter gewesen wäre.
 
Hmmm war Bulldozer wirklich NUR auf dem Papier gut........ODER wurd Bulldozer nur von einem gewissen Pressekreis schlecht geschrieben.......?!
Ich kann auch nur sagen das es NICHT am Papier lag das eine ehr Sehr Gute CPU so schlecht ist/war......
Naja, es ist eben ein neues Design gewesen, das lag bestimmt auch an mangelndem Wissen wie geht was.
Zumal es ja auch nicht so viele Infos gab, aber jetzt "Intel" oder die Presse an die Wand zu Stellen finde ich nicht notwendig.

Es gab ja auch Probleme mit dem Betriebssystem Timer, evt. ist AMD daher auch aus der Benchmark Geschichte ausgestiegen.
Ich bin mit meinem ECC System soweit zufrieden, wäre auch schlimm wenn nicht. ;)

P.S. meine DDR3 Speicher Bänke haben ebenfalls 4x 72Bit Konfiguration, DDR4 wurde unter anderem auch wegen ECC eingeführt. ;)
 
Vielleicht haben wir hier aber auch nur ein Verständnisproblem. Schattenregister haben für mich eine spezielle Bedeutung. Nämlich dass sie den aktuellen Zustand eines GPRs enthalten, um ihn bei Bedarf zurückzuschreiben. Dafür braucht man wie gesagt nicht viele. Renaming ist dann nochmal eine andere Baustelle. Wenn du mit Schattenregister hingegen alle Register im PRF ausser den Architekturregistern meinst, dann stimmt das schon. Da sollten es bei Jaguar 40 sein, 64 - 16 (GPRs) - 6 (Segment Register) - 1 (IP) - 1 (Flags).
Gute Güte natürlich lags daran. Jetzt musst Du mir dann aber erklären, wie Du auf Deine "spezielle Bedeutung" kommst. Wenn ich von 40 Äpfeln rede, machts doch die Aussage: Ne da sind nur 5 Boskoop, doch keinen Sinn. "Schattenregister" ist ein allgemeiner Begriff für alle Register eines Chips, die die ISA nicht sieht, weil sie eben im Verborgenen= Schatten liegen. Über den Grund dieses Versteckspiels sagt der Begriff aber nicht aus. Wenn Dus jetzt in spezialisieren willst, dann kann man das machen, muss es dann aber halt sagen.
Also die OoO-Schattenregister oder so ähnlich. Wenn nichts dabei steht meint man schlicht alle. Wenn ich sage "Mercedesauto", dann mein ich alle Mercedesmodelle und nicht den SL500.

Wieso Du dann aber ausgerechnet die "Spezialität" auf den Oberbegriff projizierst, die nur wenige Register braucht, finde ich dann erst recht merkwürdig. Normalerweise macht man das nur mit der "Spezialität", die den Löwenanteil ausmacht. Z.B. sagte man zum VW Käfer früher mal nur VW, eben weil die Mehrzahl der VW Modelle Käfer waren, da ist jedem klar, was gemeint ist.

Naja OT-Diskussion ... das Rätsel ist ja jetzt gelöst. Wir halten also fest, es gibt in modernen Kernarchitekturen ne Menge mehr Register, als das Instruction-Set vorschreibt. Die heißen Schattenregister und davon gibts wiederum mehrere Unterarten.

Single-thread interessiert uns aber nicht. Der Kern ist nun mal für SMT ausgelegt. Also müssen wir es auch pro Thread betrachten.
Öh, wie soll das gehen? Das ist vielleicht ein Argument bei CMT, wo man an die Register und L1-Cache des Nachbarcores nicht rankommt, aber das ist bei SMT bekanntlich anders.
Wenn nur ein Thread läuft, hat der alles zur Verfügung. Davon ab ist das für die Diskussion hier aber total unwichtig, da es wieder auf die Begriffsdefinition von "Schattenregister" rausläuft, was wir schon geklärt haben.

Zum neuen Bildchen ... ja da gibts zwar 512 kB L2 Cache, aber auch 8 MB L3. Da ich von 256 L2 und 4 MB L3 ausging, war meine Prognose vom Verhältnis her besser als Deine mit "1 MB L2, aber mindestens 512" :)

Aber auch wenn das Verhältnis stimmt, wars dann wohl für ne inclusive Strategie. 2 MB L3 wird man freiwillig wohl kaum verbraten, es sei den es hätte Vorteile bei Koheränzabfragen von Nachbar-Quad-Clustern. Nachdem das bei dezidierten L3-Caches ziemlich aufwendig sein dürfte, könnten 2MB weniger L3 die Kröte sein, die man dafür schlucken muss. Oder halt wieder ein Directory im L3, wie schon ab dem K10 X6. Irgendwie muss man die Kohärenz performant unter Kontrolle bringen. HT Assist hat anno dazumal ja einiges gebracht, das wär jetzt nicht anders und konzeptionell scheint jetzt quasi ein "4P-SoC" zu sein. VOn Grundsatz her nichts anderes als ein Quad-Opteronsystem früher, die Abfragen sind die gleichen. Auch wenn sie jetzt ondie / oninterposer etwas schneller laufen werden, will man keinen Datenstau aufgrund zahlloser unnützer Kohärenz-Abfragen.

Außerdem noch interessant, angeblich kann jeder Kern 2 Threads verarbeiten. Damit fällt die Option SMT+CMT schon mal weg, entweder wird CMT ODER SMT verwendet.

Aber warten wir mal ab, ob das überhaupt wirklich alles so stimmt ...

@Casi030:
Kommt drauf an, wie detailliert das "Papier" ist. Das Aktuelle jetzt zu Zen sagt ja erstmal auch nichts aus. Es besteht immer noch die Möglichkeit, dass das alles nur Puma++ Kerne mit SMT und L2 wären. Cache ist schon wichtig, aber halt nur eine Kenngröße von vielen. Solange man nicht alle auf nem Papier hat, sagt es nicht viel aus.
 
Jetzt musst Du mir dann aber erklären, wie Du auf Deine "spezielle Bedeutung" kommst.
Das ist nicht meine "spezielle Bedeutung". So wird es in technischen Dokumenten häufig gehandhabt. Es ist eher deine "spezielle Bedeutung", wenn du in sämtlichen physischen Registern ausser den GPRs Schattenregister siehst. Üblicherweise sind sie das eben nicht, da Schattenregister eine spezielle Funktion innerhalb der physischen Register erfüllen.

"Schattenregister" ist ein allgemeiner Begriff für alle Register eines Chips, die die ISA nicht sieht, weil sie eben im Verborgenen= Schatten liegen.
Nein. "Schatten" steht hier nicht dafür, dass etwas im Verborgenen liegt. "Schatten" hat in dem Fall die Bedeutung, dass etwas beiläufig überwacht wird. Also im Sinne von "beschatten" statt "verbergen".

Öh, wie soll das gehen? Das ist vielleicht ein Argument bei CMT, wo man an die Register und L1-Cache des Nachbarcores nicht rankommt, aber das ist bei SMT bekanntlich anders.
Steht wo? Kannst du nachweisen, wie das PRF bei CMT und SMT konkret aufgebaut ist und Register-Sets gehandelt werden? Ich denke nicht, da das implementationsspezifisch ist. Und was hat der L1 hier verloren? Es ging nur um Register, nicht um Cache.

Zum neuen Bildchen ... ja da gibts zwar 512 kB L2 Cache, aber auch 8 MB L3. Da ich von 256 L2 und 4 MB L3 ausging, war meine Prognose vom Verhältnis her besser als Deine mit "1 MB L2, aber mindestens 512"
Wie soll die Prognose besser sein, wenn ich gar nichts von konkreten L3 Grössen gesagt habe? Wir können ja nochmal auf dein Verhältnis zurückkommen, dann zwischen L1 und L2, wenn mehr zum L1 durchsickert. Fakt ist, sofern das Blockdiagramm echt ist, dass deine Prognose zum L2 zu niedrig war. Hatte dir das nicht schon vorher jemand gesagt? ;)

Außerdem noch interessant, angeblich kann jeder Kern 2 Threads verarbeiten. Damit fällt die Option SMT+CMT schon mal weg, entweder wird CMT ODER SMT verwendet.
Deswegen fällt die Option SMT+CMT aber nicht weg. Das wäre ja trotzdem möglich anhand des gezeigten Aufbaus. Ich würde vielmehr sagen, die Option fällt deshalb recht wahrscheinlich weg, weil jeder Kern einen eigenen L2 Cache besitzt. Was auf vollwertige Kerne hindeutet. Gäbe es Module wie bei Bulldozers CMT, dann müsste der L2 Cache eigentlich von mehreren Pseudokernen geteilt werden. Aber gut, selbst so kann man es noch nicht hundertprozentig ausschliessen. Theoretisch möglich wäre auch ein CMT Design mit zB 4 Pseudokernen und dedizierten L2 Caches.
 
Naja, es ist eben ein neues Design gewesen, das lag bestimmt auch an mangelndem Wissen wie geht was.
Zumal es ja auch nicht so viele Infos gab, aber jetzt "Intel" oder die Presse an die Wand zu Stellen finde ich nicht notwendig.
Es gab ja auch Probleme mit dem Betriebssystem Timer, evt. ist AMD daher auch aus der Benchmark Geschichte ausgestiegen.
Sicher lief am Anfang auch nicht alles Rund,nur schau dir die Benchmarks an.
CineBench ist eins der besten Beispiele,CB verwendet doch immer noch den R11.5,lobt die Intel hoch das sie dort so schnell sind und erwähnt aber mit keiner Silbe das der Benchmark nur auf Intel CPUs optimiert ist.
Spieletests,es werden immer noch Stark Spiele genommen die recht wenig Kerne Verwenden,alte Engines sind und nie länger als 10 - 20s dauer an rausgesuchten Stellen.
Und dann wird behauptet das die CPU XY nur so schnell ist.Hallo,wie kann ich so etwas behaupten wenn ich gerade einmal 0,00001% von einem sich ständig ändernden Spiel getestet habe.Mein Diagramm genau zeigt das ich ne kurze Kurve nach Unten an dieser Stelle habe.Es wird aber nicht erwähnt das zu 98% weiterhin die GPU begrenzt.
Schlimmer noch das dann behauptet wird das ein Intel dann aber überhaupt nicht ausbremst und mit der nächsten Generation hast wieder ein + von 5%,übertaktet bringt der dann noch mal 10%,ABER der Intel reicht locker aus und nur AMD CPUs bremsen die Grakas aus..........
@Casi030:
Kommt drauf an, wie detailliert das "Papier" ist. Das Aktuelle jetzt zu Zen sagt ja erstmal auch nichts aus. Es besteht immer noch die Möglichkeit, dass das alles nur Puma++ Kerne mit SMT und L2 wären. Cache ist schon wichtig, aber halt nur eine Kenngröße von vielen. Solange man nicht alle auf nem Papier hat, sagt es nicht viel aus.
Auf dem Papier kann die CPU noch so gut sein,wenn ich als Tester nicht will das sie gut abschneidet,dann schneidet sie auch nicht gut ab egal ob ich dafür Benchmarks verwende,oder einfach nur ne große Seite bin wo sich kleine nach richten müssen um nicht als Unglaubwürdig dar zu stehen......

Aber NUR Puma++ ?!
Schau dir doch nur mal Kabini an,beschnitten wie sonst was,kann aber bei gleichem Takt jetzt schon fast mit den FX mithalten.Gegen Kaveri haben die keine Schnitte,bis jetzt.
 
Das Blockdiagramm beschreibt eine HPC APU für Server. Da sollte AMD schon klotzen und nicht kleckern. Die aktuellen FirePros besitzen bereits 2816 Shader. Fiji wird gar 4096 Shader besitzen. Deshalb wären zumindest halb so viele Shader oder auch mehr für eine solche HPC APU schon wünschenswert. Vergiss nicht, wir reden hier von einem 14nm Design, welches deutlich mehr Transistoren pro mm² im Vergleich zu aktuellen 28nm Designs besitzt (>2x). Da sollten selbst bei einem A10 für Desktops mindestens 1024 Shader drin sein. Allerdings ist es fraglich, ob wir so eine Zen APU im kommenden Jahr für Desktops sehen werden.

Thema HPC:
Es solle Ja Apus von 150-300W geben.

Consumer:
Am realistischen halte ich die 768-896 shader,
selbst die 896 shader bieten bei höherem Takt genug Leistung @1100mhz ca. 2,1Tflop

Und diese Leistung will erstmal mit genug Durchsatz versorgt erden,
Bei nur DualC. DDR4 sollten dann mehr als 640 shader schon ans Limit kommen
 
Zuletzt bearbeitet:
@Zalpower: Vergiss den HBM nicht.
 
Für Spieler ist das ein Hoffnungsschimmer, für den Rest der Applikationen fehlt der noch.
 
Damit würde sich mit Zen schon das Interposer-Konzept bewahrheiten, wie hier im Prognose-Thread geschrieben:
http://www.planet3dnow.de/vbulletin...ffen-koennte?p=4994712&viewfull=1#post4994712

Passend zu Interposer und Interconnects eine Präsentation von GF. Wenn ich das richtig deute, scheint das Konzept des "Heterogenous Packaging" bei GF schon seit min. 2012 zu bestehen, und die bisherigen Lösungen mit eigens auf den Kompromiss der "APU" zugeschnittenen Substraten und Prozessen lediglich Übergangslösungen (gewesen) zu sein.



Es sollte enorme Vorteile haben, CPU, GPU, Kontroller, Speicher, etc. wieder mit dem jeweils besten dafür geeigneten "Silizium" und Prozess herzustellen, und die Integration auf einem gemeinsamen Interposer vorzunehmen.

Was mich überrascht ist, dass dies bereits mit den Produkten im nächsten Jahr (?) der Fall sein könnte.


Etwas ausführlicher die Herausforderungen und Vorteile, Präsentation von Applied Materials
 
Naja Amd hat von mir als Apu Kunde im Jahre 2016 nicht mehr viel wenn es mit dem Spielemarkt so weiter geht,
ich sehe immer weniger einen Grund meinen A6 bzw. einen der Anderen zu wechseln.

Für diverse Indie Games und wenige "andere" reicht der A6 immer noch,
Ich verliere immer mehr die Lust an den Spielen mit dem DLC Wahn, Always-On Wahn und Microtransaktionen in Vollpreis Games:(
 
Naja Amd hat von mir als Apu Kunde im Jahre 2016 nicht mehr viel wenn es mit dem Spielemarkt so weiter geht,
ich sehe immer weniger einen Grund meinen A6 bzw. einen der Anderen zu wechseln.

Für diverse Indie Games und wenige "andere" reicht der A6 immer noch,
Ich verliere immer mehr die Lust an den Spielen mit dem DLC Wahn, Always-On Wahn und Microtransaktionen in Vollpreis Games:(

Ja,sehe ich auch bei mir.
Wenn dann kauf ich nur noch zum Testen,die APUs reichen so was von aus für ein kleines Spielchen zwischen durch.
Ich hab irgendwie auch keine Ahnung mehr was ich mir kaufen soll.
HD 7950 gegen ne R9 3XX Tauschen damit ich wieder vorn dabei bin zum Testen.....dafür brauch ich dann aber auch wieder nen Wasserkühler.......
Nächstes Jahr Zen und mein FX ablösen.......der eh schon in der Ecke verstaubt.......und ich diesen dann nach weiteren 5 Jahren mit 20 Betriebsstunden weiter verkaufen kann.......
Mittlerweile ist aber auch ein reger Überschuss an Konsumgeräten vorhanden,das einige schon 2 oder 3 Geräte am laufen haben......
Beispiel Tochter,sitzt am Tablet und schaut dabei Fernsehen.Spielt am Händy und schaut übers Tablet Kindersendung.....Der PC ist Nebensache geworden.
 
Zurück
Oben Unten