AMD Zen - 14nm, 8 Kerne, 95W TDP & DDR4?

@hot
Solche großen Unterschiede hatte man bestenfalls wenn man haufenweise Kram mitlaufen ließ der einen fröhlich den Prozessor auslastete, Stichwort DC.
Und was war damals nochmal in Spielen schneller? Ein 3800+ oder ein X2 3800+?
Aber faszinierend das du damals einen E0 gehabt haben sollst denn gehe ich nach Wikipedia dann gab es den nicht denn die X2 fingen erst ab Rev. E4 an.

Ein zweiter Thread hat die Systeme schon deutlich fluffiger gemacht, egal ob Windows oder Linux. Hinreichend RAM vorausgesetzt.
 
@hot
Solche großen Unterschiede hatte man bestenfalls wenn man haufenweise Kram mitlaufen ließ der einen fröhlich den Prozessor auslastete, Stichwort DC.
Und was war damals nochmal in Spielen schneller? Ein 3800+ oder ein X2 3800+?
Aber faszinierend das du damals einen E0 gehabt haben sollst denn gehe ich nach Wikipedia dann gab es den nicht denn die X2 fingen erst ab Rev. E4 an.
Dann wars halt ein E4. Ich glaub die E6 waren nativ 1MB pro Kern und die E4 512kB oder so. Es ist nunmal Fakt, dass sich ein Windows mit 2 Kernen erheblich flüssiger bedienen lässt als mit einem Kern. Auch Taskswitches aus Spielen werden ohne lange Wartezeiten möglich. Ich sag ja, es war wie bei einer SSD, mehr Komfort auf den man nicht mehr verzichten wollte. Es ging gar nicht um die FPS, Spiele waren zu der Zeit fast alle Singlethreaded mit ein paar wenigen Ausnahmen. Dennoch war der Prozessor ne Anschaffung wert, die E4 gingen weg wie warme Semmeln für fast 300€.
 
Zuletzt bearbeitet:
Sofern haufenweise parallel lief, ja aber genau das versuchten gerade die Spieler zu vermeiden und es existierte ohnehin kaum ein Spiel das den zweiten Kern nutzte. Der einzige Vorteil war das Hintergrundprogramme auf den ausweichen konnten, wodurch gerade bei vielen Hintergrundprozessen es sich natürlich flüssiger anfühlte aber nicht in dem Maß wie beim Wechsel von der HDD zu einer SSD.
Wie gesagt, es geht um die Zeit vom Wechsel zum Dualcore, also die zeit wo ohnehin die meisten auf den Singlecore ausgerichtet waren. Gab ja damals genug Leute die alle Nase nach ihr System neu aufsetzten um den ausbremsenden Ballast möglichst schnell wieder los zu werden.
Ich habe die Zeit sehr deutlich mit erlebt, war mit nem 939er X2 4400+ unterwegs (gewechselt vom 939er 3500+) und konnte davor schon mit einem Athlon MP System meine Erfahrungen sammeln und die waren exakt die gleichen wie heute. Sofern die Programme nicht die zusätzlichen Kerne nutzten bestimmte die Einzelkern Leistung das Ergebnis und woran orientierte sich der Mob? Exakt an diesen Benchmark Ergebnissen und etwas anderes kennt er eh nicht.
Exakt das gleiche Gejubel sieht man ja auch heute wenn z.B. die FX-6/8 mit dem i3 oder gar Pentium verglichen werden und dabei konsequent die vom Programm ungenutzten und damit freien Ressourcen ignoriert werden.
 
@ y33H@ - das hat jetzt aber nix mit AMD Zen zu tun oder? :-)

Trotzdem habe ich diesen Anwendungsfall sehr oft.
Und kann das nur bestätigen - Der FX-8350 zeigt sich gänzlich unbeeindruckt.
Man kann also die Videos im Hintergrund rendern lassen und nebenbei noch ein wenig die Zeit mit Zocken verbringen.

Gruß Lehmann
 
Die wenigsten Leute rendern halt parallel zum Spiel ständig im Hintergrund (zB) Videos ... wenn doch, sieht es so aus:

http://www.pcgameshardware.de/CPU-Hardware-154106/Specials/CPU-Multitasking-Test-1075340/
Das ist fast schon ein perfekter, wenn auch seltener Use Case für CMT überhaupt. Viele (v.a. ältere) Spiele lasten nicht alle Kerne aus und Video-Encoding kann auf n Kerne limitiert werden. Bei den SMT-Prozessoren könnte man ja mal verschiedene Core-Pinnings probieren, ansonsten landen dank SMT zwei konkurrierende Threads auf einem Kern, wo dann Videoencoding die Issue Ports für Int-SIMD nutzt, während das Game gern die gleichen Ports für Integer+FP gebrauchen könnte. Die sicher ausgelastete L/S-Unit wird ebenso geshared (bei CMT auch separat). Und so weiter..
 
Wurde in etwa so gemacht:
PCGH schrieb:
Für reproduzierbarere Ergebnisse pinnen wir den Benchmark an den hinteren beide Recheneinheiten fest – im Falle eines Prozessors mit SMT nutzen wir hierfür die "echten" Kerne und im Falle eines Chips mit Piledriver-Technik die zwei Module.
 
Der Test ist aber dennoch mal was anderes, da er einer der wenigen Tests ist wo mal auf das Multitasking eingegangen wurde.
Ein Punkt fehlte mir aber damals schon gewaltig. Die Ergebnisse des x264-HD Benchmarks bzw. wieviel Rechenleistung dafür übrig blieb.
 
Der einzige Vorteil war das Hintergrundprogramme auf den ausweichen konnten, wodurch gerade bei vielen Hintergrundprozessen es sich natürlich flüssiger anfühlte aber nicht in dem Maß wie beim Wechsel von der HDD zu einer SSD.

Also ich kann das auch insofern bestätigen, dass sich der Wechsel von SingleCore auf MultiCore wie HDD zu SSD anfühlt. :P

Damals hatte ich Gothic 3 probiert und das Nachladen der Map im Spielverlauf ging mit dem Multicore deutlich flotter von statten (Ich nutzte damals schon 2 HDD in RAID 0)

Sry für OT
 
Der Test ist aber dennoch mal was anderes, da er einer der wenigen Tests ist wo mal auf das Multitasking eingegangen wurde.
Ein Punkt fehlte mir aber damals schon gewaltig. Die Ergebnisse des x264-HD Benchmarks bzw. wieviel Rechenleistung dafür übrig blieb.
Da hätte IIRC den Testumfang gesprengt, da der x264 ewig läuft bei drei Durchgängen pro CPU.
 
Das K10 CMT ist falsch, denke ich. K10 waren ja die Phenoms und die hatten kein CMT.
Aber der K9 war tatsächlich als massive parralell arbeitende CPU geplant, siehe englische Wikipedia:
https://en.wikipedia.org/wiki/AMD_K9
The existence of a massively parallel CPU design concept for heavily multi threaded applications has also been revealed, as a planned successor to K8. This was reportedly canceled in the conceptualization phase, after about 6 months' work.
Ob diese geplante CPU CMT hatte weiß ich nicht, aber mag so sein.
Erst nachdem dieser K9 verworfen wurde, hat man den K8 X2 aufgesetzt und später als K9 bezeichnet.

Also quasi so:
K8 -> K9 CMT -> K8 X2 -> K10 -> K8 128Bit X4 -> 45nm BD -> 32nm BD



Welcher K8 X4 128 Bit?
 
Welcher K8 X4 128 Bit?

Das war als antwort auf den beitrag von "hot" kurz vorher.
2011 waren 2 Kerne schon wichtig und 4 Threads optional, mehr war Luxus. Heute werden 4 Kerne wichtig und mehr optional. Trotzdem stimmt das, 4 echte Kerne wären 1000x besser gewesen als 4 2er Module.
Bis zum K8 x2 hat AMD alles richtig gemacht, ab da wär eine neue µArchitektur mit wenigen starken Kernen nötig gewesen, damit wär man garantiert konkurrenzfähig geblieben, da Intel ja noch den Nachteil des FSB für einige Zeit hatte.
K8 -> K8 X2 -> K9 (fiktiv, nicht CMT) X2 -> K9 X4 -> aufgebohrtes Design.
Die Realität sah anders aus
K8 -> K9 CMT -> K8 X2 -> K10 CMT -> K8 128Bit X4 -> 45nm BD -> 32nm BD


Ich glaube worauf hot hinauswollte ist, das AMD mehrmals neue designs entwickeln wollte auf basis der CMT idee, dies aber mehrmals verworfen hat.
Das hat beim K9 angefangen der verworfen wurde und an dessen stelle der K8 X2 kam (der dann K9 genannt wurde)
Und hat sich dann wohl wiederholt und anstelle eines K10 mit CMT design kam wieder "nur" ein aufgebohrter K8 als Phenom I + II.
D.h. der K8 128Bit X4 steht hier für den Phenom mit 128bit FPU fähigkeiten der anstelle eines geplanten CMT designs kam.
Hier nochmal verbessert:
K8 -> K9 CMT[/STRIKE] -> K8 X2(Später K9 genannt) -> [STRIKE]geplanter K10 CMT -> K8 128Bit X4 (als K10 erschienen) -> 45nm BD -> 32nm BD

Der Punkt den hot machen wollte ist, denke ich, dass AMD schon sehr lange das CMT design versucht hat zu benutzen aber immer wieder in letzter minute davon abgerückt ist. Deshalb gab es keine "großartigen" weiterentwicklungen von K8 bis K10 weil die alle auf K8 basierten und schnell bereitgestellt werden mussten. Erst der Bulldozer kam dann als neu entwickelte CMT basierte CPU. Aber die entwicklung an CPUs mit CMT ging schon um die Jahrtausendwende los und hat seit dem ressourcen verschlungen.
AMD hätte also das CMT aufgeben sollen und auf die entwicklung leistungsfähiger "normaler" mehr-kern CPUs setzen sollen (Wie Intel es getan hat).
 
Hi
ich finde cmt garnicht als falsch, es hat mir ein sehr gutes arbeitsgefühl grade mit vielen applikationen gegeben, was ich so nicht bei intel kannte.
problematisch war nur die single core leistung und die hätte man mit einigen tricks auch verbessern können, zb. ein modul zb. als singel kern maximal
sehr hoch tackten und alle anderen kerne runter/aus schalten. das hat zb beim zweimoduler ja auch sehr gut funktioniert.
die max paralelisierte leistung der fx ist auch heute ausreichend gut es hingt nur pro singel kern was gefühlt sehr gut ausgeschlachtet wird.
 
Ich denke AMD hat dort schon rausgeholt, was mit vernünftigen Aufwand rauszuholen ist. Das Problem ist ein Stück weit, dass durch das CMT Konzept das Modul von der Fläche zwangsläufig größer wird, was die Laufzeiten der Signale und den dafür benötigte Energieaufwand steigert. Beides ist schlecht für SingleThread-Leistung.
Zudem fehlt AMD einfach der Joker des µOp Caches der Schleifen von der x86-Befehlsebene auf die µ-OP Ebene verlagert und die x86 Dekoder entlastet. Das bringt einfach sehr viel Geschwindigkeit und spart einiges an Strom. Die Intels haben ja auch erst seit Sandy Brigde so an Boden gewonnen.

Ist ein µOp-Cache mit Loop-Funktion im Zen vorgesehen?
 
Dank HSA sollte auch ein extrem breiter Kern für Single-Thread-Performance kombiniert mit einem Dutzend Katzenkernen machbar sein. Aber solch heterogene CPUs sehen wir wohl erst, wenn die iGPU mit dem CPU-Teil verschmilzt.
 
Nur wird bei ARM immer zwischen den kompletten Kernen gewechselt und es sind nicht alle aktiv.

Ein Zen-artiger breiter Kern mit einem TDP-Budget von ~50 W kombiniert z.B. 12 Katzenkernen mit 12x 5 W (~2 GHz) dürfte in allen Lebenslagen ziemlich gut unterwegs sein. Und wenn man die Katzenkerne von der Größe sieht, wäre das auch vom Platz kein Problem.
 
Bei ARM gibt es zwei (oder drei) Sätze an Kernen, von denen nur ein kompletter Satz aktiv ist. So ist es vielleicht etwas verständlicher.
 
Im big-LITTLE Konzept von ARM, wie z.B. in Samsungs Exynos SoCs sind derzeit immer entweder die großen oder die kleinen kerne aktiv. So meinte NOFX es. :)
Dies nennt sich Cluster Switching oder HMP (Hetergenouse Multi-Processing), da typischerweise 4 Kerne als Cluster zusammengefasst waren die gemeinsam angesteuert werden.
So ist es unter Android zumeist konfiguriert worden, doch unter Linux gibt es Implemnentationen von der Linaro Gruppe die anders konfiguriert sind und darüber hinaus gehen: http://linuxgizmos.com/linaro-optimizes-linux-support-for-arm-big-little/
Eine Technik genannt GTS (Global Task Scheduler) kommt hier nun zum Einsatz mit folgenden verbesserten Eigenschaften:
GTS benefits
Touted highlights of GTS include:

  • Ability to use all cores simultaneously for improved peak performance
  • Better support for non-symmetrical SoCs, such as having two Cortex-A15 cores along with four Cortex–A7 cores
  • Finer-grained control of workloads that are migrated between cores, reducing kernel overhead and increasing power efficiency
  • Up to 10 percent improvement in performance/Watt ratio due to faster switching decisions
Diese basiert allerdings auch auf der schon angewendeten Implementation bei IKS (In-Kernel Switching) welche auch schon Mischbetrieb von grossen und kleinen Kernen ermöglicht. Gute Übersicht zu dem Thema:
http://events.linuxfoundation.org/sites/events/files/slides/GTS_Anderson.pdf
Laut denen benutzen die Galaxy S4/5 und einige Chromebooks von Samsung GTS. Nur soll dies auch nicht mehr weiter verfolgt werden wegen diverser Probleme, die auch beschrieben werden im PDF. Dort wird sogar klar gesagt GTS ist tot.

Als neuer Ansatz wird nun EAS (Energy Aware Scheduling) entwickelt.
 
Ist ein µOp-Cache mit Loop-Funktion im Zen vorgesehen?
Na solche Designfeinheiten weiss man jetzt noch nicht. Einerseits wärs natürlich gut, wenns das gäbe, andererseits ist die Frage, ob man ein neues Design gleich wieder mit sowas belasten will. Je mehr KnoffHoff man einbaut, desto höher sind die Risiken von Bugs.

Also das muss man sich überlegen, ob man das will. Da die Rechenwerke wenigstens durch SMT ausgelastet werden können, würde ich in der ersten Version darauf verzichten.
Der IPC-Sprung von BD wird auch so groß genug sein und wenn das SMT-Speedup höher ausfällt dürfte Zen gut genug sein.
 
Bei den Vergleichen AMD Kontra Intel wird aber auch immer gerne vernachlässigt dass Intel in Sachen Fertigung meistens einen ganzen Node voraus ist.
Es ist eine Sache große Kerne designen zu wollen, aber sie mit gutem yield gefertigt zu bekommen, auf Takt zu kriegen und dann noch sowohl in Leistung wie bei den Kosten konkurrenzfähig zu sein ist eine ganz andere Geschichte.
Intel kann es sich leisten ein großes Design mit schlechtem yield zu fertigen, weil die Stückzahlen haben dass einem schwindelig wird. Im Klartext, die kleineren, leicht herzustellenden Kerne subventioneren die Monstren.
Wenn man wie AMD erstmal zusehen muss überhaupt was verkauft zu kriegen weil alle Welt nur Intel kennt und der Meinung ist dass alles andere ja sowieso nix taugt (Derartige Vorurteile habe ich zur Athlon64 Ära zur Genüge in Firmen gehört, da hat man lieber mehrere hundert P4 angeschafft).
Von Werbezuschüssen, Hilfestellung bei Entwicklung von Gadgets, mainboards etc. ganz zu schweigen. AMD müsste doppelt so schnell sein und das zu max. 75% des Preises um ernstgenommen zu werden.
Eben deswegen, wird meiner Meinung nach auch ZEN nicht wirklich was ändern. Er sit ein interessanter Prozessor und ich bin gespannt, aber die grundlegende Marktsituation wird sich nicht ändern. Nicht in den nächsten 10 Jahren. Vorher sitzen wir alle mit ARM-Betriebenen Maschinen da, bevor Intel sich ernsthaft geschlagen gibt.
Allem Gerede von Freier Marktwirtschaft zum trotze sollte man nicht vergessen dass fairer Wettbewerb eine Illusion ist - das geht schon aufgrund der Ausgangsbedingungen kaum.
I bezug auf µOp cache bin ich allerdings nicht opterons Meinung. ZEN hat sienen IPC-Vorsprung ja nicht durch Heinzelmännchen. Genau wie Intel sich die Höhere IPC nicht aus den Fingern saugt, ein µOp cache kann genau dazu beitragen. Gerade mit mehreren Threads auf einem Kern. Also her damit, das wäre schon bei BD überfällig gewesen um das Frontend zu entlasten (Und IMHO sinnvoller als die Frontent-Trennung bei Kaveri, aber was solls)
 
Zurück
Oben Unten