Intel Haswell - AVX2 | FMA3 | 22nm

Hiho,

Ich bin seit Jahren ein treuer Leser dieses Forums.
Jetzt habe ich mich mal anmelden, da ich hier immer wieder DAS Argument für eine steigernde IPC des neuen HW lese und um dieses "Argument" einfach mal aus meiner sicht zu entkräften .

"Die IPC muss steigen, den wirds auch im Server-segment ohne GPU geben!"

Ich sehe null Gründe im Moment die IPC für Server zu steigern, da mir irgendwie auch keine Singlesthread lastigen Anwendungen für aktuelle Server einfallen.

Das IPC und multithreed-leistung nicht zwangsläufig Hand in Hand gehen müssen zeigt uns der Bulldozer zu dem doch recht eindrucksvoll, diverse Benchmarks die dies untermauern wurden auch von planet3Dnow gemacht.

Haswell bekommt ne weitere ALU, das steht ja allen anschein fest und wie ihr in den vergangen Threads gezeigt habt bringt SMT momentan um die 20%, warum sollte Intell also für Server die IPC steigern, wenn sie mit dieser Architektur schon die SMT-Leistung steigern?
Wenn sie jetzt statt ca. 20% etwa 35% rausholen bringt das den Servern Wahrscheinlich wesentlich mehr, somal wir daran denken müssen das die 20% nutzen mit Anwender- und nicht mit spezialiesierter Software erreicht wurden.

Mein Fazit hier, Intel kämpft weiterhin an allen Fronten:
Low power gegen ARM
steigende Multithread/SMT performance -> Server
Steigende GPU-Performance -> AMD's APU's
Ist eine sehr starre Einteilung die echten Grenzen sind natürlich stark verschwommen.
Es sei denn, jemand will darüber diskutieren das sinkende Leistungsaufnahme für Server egal wäre. xD

Ps: Wer jetzt die IPC aufeinmal für den desktopmarkt will, diese absatzzahlen wird das Marketing von HP und Dell schon richten. ;)
 
Dann sage ich mal ... Herzlich Willkommen Serodres ;D
Ich sehe das mit den Fronten sehr ähnlich.
Daher schrieb ich ja, dass es nicht das Ende der Welt bedeutet, wenn die IPC nicht gesteigert wird.
Es gibt auch für Intel Andere und m.M nach auch wichtigere Baustellen.

Gruß Lehmann
 
Zuletzt bearbeitet:
Ein 2008 gekaufter Mittelklasse-PC unterscheidet sich nicht wahnsinnig von einem 2013 gekauften Mittelklasse-PC bei "normaler Desktop / Word" Beanspruchung.

Jetzt erkläre aber mal deinem Kunden, dass Geräte altern,
dass Kondensatoren um die Ohren fliegen,
dass Lüfter in Wollmäuse beissen,
dass Festplatten sich penibelst Temperaturspitzen aufnotieren, um bei der 8ten Temperuterspitze aus zu fallen.

Früher war das einfach, ein drei Jahre alter PC hatte halb so viele MHz wie ein aktueller PC und gut.

Wieso zählt man nicht wenigstens irgendwelche Pseudo-Ratings zusammen?

Einen guten Termin gibt es jetzt dann noch:
April 2014 - der Tag an dem die XP-Sicherheitspatches enden(eigentlich könnte man einen Film wie beim 21.12.2012 draus machen *lol* ).
Wir sind gerade dabei FUD unter die Leute zu streuen - dann können wir endlich zumindest die gaaaaaanz alten Kisten leichter wegrasieren.

Blos gut, dass jetzt die Lifestyle(-Tablet-)Schiene startet, dann schmeisst man die Geräte nach 3 Jahren weg, weil sie dann "outdated hässlich" sind.
 
IPC ist ne Design Entscheidung. AMD hat die Rochade versucht und es hatte nicht geklappt.
IBM ist dagegen mit seinem Power7 Design wiederum höchst erfolgreich (In-Order @ 5GHz), obwohl da die IPC nicht gerade rosig zu sein scheint.

Anhand der Architekturdetails, die Intel veröffentlicht hat, muss man vo einer höheren IPC ausgehen: Mehr Register, Ports usw. Die Cores werden fetter, weil die Fertigung das erlaubt.
Nur: Das ist evolutionär. 10% Fortschritt oder so, mehr werdens nicht werden.

Gespannt bin ich aber auf die ersten Programme, welche das Transactional Memory wirklich nutzen. Wenn die Haswell Architektur ein Killer Feature besitzt, dann dieses.
 
Der nächste zu Haswell, diesmal Multithreading: Fritz Chess
Haswell Bench aus dem Anand Forum

Ich bin mal gespannt, ob sich die eingeschlagene Kerbe vertieft, d.h. es weiter in Richtung +5% Single Threading und +10% Multithreading geht, was die ominöse "IPC" dieses Rechenknechts betrifft. Falls ja, müsste mal schnell einiges an Benchmark- und Test-Software für AVX2 flott gemacht werden, damit die ursprünglichen +15% zumindest im Durchschnitt stimmen.
.
EDIT :
.

Man verzeihe mir meinen zynischen Unterton. Aus dem gleichen Thread noch Pollack's Rule und der hier (in-order wohlgemerkt):

IssueWidthvsIPC.png
 
Zuletzt bearbeitet:
Na das sind Duplex-Angaben, also offizieller als die hochoffiziellen Intel-Angaben. Wehe die Ingenieure halten sich nicht daran, dann gibt's eins auf die Finger ;)
 
Was meint Duplex zu den neuen Testergebnissen mit einem Vorserien-Exemplar, welche das geahnte Performance-Bild (+5% IPC single thread, +10% IPC multi thread) weiter untermauern?
 
Was meint Duplex zu den neuen Testergebnissen mit einem Vorserien-Exemplar, welche das geahnte Performance-Bild (+5% IPC single thread, +10% IPC multi thread) weiter untermauern?


Es sind 8% im IPC Test. Wenn die geringere Bandbreite am unreifen System liegt, könnte das etwas höher liegen. Das klingt hier schonmal gut:

As a side note, AMD's A10-5800K registered 225,000 samples per second, less than the Core i7-3770K.

Almost certainly, however, a (mobile) part with twice as many execution units and 128 MB of L4/eDRAM at 1.2 GHz would blow Trinity out of the water in games.
 
Die L1 Bandbreite ist zugegeben exorbitant (ist das allein dem transactional memory zu verdanken?). Darüber hinaus sagen die theoretischen Tests jedoch wenig zur Performance in "praktischen" Applikationen. Single-threaded fallen mir z.B. Lame und iTunes auf, welche beide mit gut 3% Mehr-Performance gegenüber einem gleichgetakteten IVB schon buchstäblich "zickig" wirken.
Daneben lässt sich der Rest der Testapplikationen in "poorly threaded", "multithreaded" und "gpu-supported" einteilen. Mit etwas "badmouthing" könnte man die von dir genannten 8% Ersterem zuweisen, wobei Zweiteres mit tw. nahe +15% durchaus die Stärken der Aufbohrung des Designs beweist ("fetter Kern", wie von mir schon in früheren Posts zur Sprache gebracht), und letzteres aufgrund von AMDs gewaltigen OpenCl-Vorsprung regelrecht uninteressant in Intel-Benchmarks wirkt.

Wenn ich mit meinem Fazit provozieren wollte, könnte ich noch nachsetzen, dass auch die Technologie-Führerschaft aufgrund schlecht geschriebener Software (und Kompiler) den Effekt des abnehmenden Grenznutzens erfährt.
Ich bin mal gespannt auf die weiteren Daten (Transistoren, Fläche, und P/W).
 
Zuletzt bearbeitet:
Die L1 Bandbreite ist zugegeben exorbitant (ist das allein dem transactional memory zu verdanken?).
Ne, die brauchen sie, dass 256bit FMA in nem Rutsch durchgehen. FMA sind ja 2 Instruktionen, also braucht man bei 256bit zwei davon, ergo braucht man ein fettes 512bit L1-Interface...
 
Das klingt hier schonmal gut:

As a side note, AMD's A10-5800K registered 225,000 samples per second, less than the Core i7-3770K.
Almost certainly, however, a (mobile) part with twice as many execution units and 128 MB of L4/eDRAM at 1.2 GHz would blow Trinity out of the water in games.

Nur zum direkten Vergleich - das ist ein Teil des Textes unter den ersten vier Spielebenchmarks...

AMD's Trinity-based A10-5800K achieves an average of 20.39 FPS at 1920x1080, besting the Core i7-4770K in its current state.

With an average frame rate of 35.8 at 1920x1080, the A10-5800K is again quicker than the Core i7-4770K with it beta drivers.

Nevertheless, the Trinity-based A10-5800K currently looks faster still, achieving more than 45 FPS at 1920x1080 in this same test.

AMD's A10-5800K, averaging more than 60 FPS at 1920x1080, is currently much more playable.
 
Ist ja schön wenn durch die neue Architektur die Multithreadleistung potenziell zunimmt, aber im vorgestellten Lineup aus 14 CPUs werden gerade mal 3 Stück überhaupt HT haben. Das sind zum einen das i7 Top-Modell und dessen K Version und zum Anderen der kleinste i5 mit 2 Kernen.
Trotzdem steigt auch bei den ganzen reinen 4 Kern CPUs die Standard TDP wieder von 77 auf 84 Watt.

Schaut eher so aus, als ob es wirklich spürbare Verbesserung nur auf GPU Seite gab, was bei den Desktop Modellen aber wieder mal zu wenig ist, um mit AMD mithalten zu können. Bei den Notebookmodellen mag das ganze besser aussehen, aber das muss sich erst zeigen, genauso wie bei den Trinity Nachfolgern auch.
Darüber hinaus schaut die OpenCl Beschleunigung auf den GPUs auch eher schlecht aus. Häufig sind die CPU Kerne sowieso schneller und die Verbesserung zum Vorgänger sind in den echten Anwendungen kaum Vorhanden. Nur bei Sandra lässt sich hier wirklich eine Steigerung erkennen.
 
Ne, die brauchen sie, dass 256bit FMA in nem Rutsch durchgehen. FMA sind ja 2 Instruktionen, also braucht man bei 256bit zwei davon, ergo braucht man ein fettes 512bit L1-Interface...
Die Frage war zugegeben sehr naiv gestellt. Dann mal weiter so: An welcher Stelle, d.h. in welchem Benchmark sollte sich denn der Vorteil des TM definitiv zeigen?
 
Ne, die brauchen sie, dass 256bit FMA in nem Rutsch durchgehen. FMA sind ja 2 Instruktionen, also braucht man bei 256bit zwei davon, ergo braucht man ein fettes 512bit L1-Interface...
2 Operationen, nicht 2 Instruktionen. ;)


Die Frage war zugegeben sehr naiv gestellt. Dann mal weiter so: An welcher Stelle, d.h. in welchem Benchmark sollte sich denn der Vorteil des TM definitiv zeigen?
In Legacy Apps erst mal gar nicht. Dafür brauchen Anwendungen entsprechenden ISA Support. Ich würde mir durch TM aber auch keine signifikanten Geschwindigkeitszuwächse erhoffen. Da geht es eher darum, die parallele Verarbeitung zu vereinfachen. Also bisherige Synchronisierungsverfahren zu eliminieren (Mutex, Semaphore, Event, etc). Wenn du Glück hast, springt das eine oder andere Prozent bessere Threadskalierung heraus. Mehr ist es im Endeffekt aber nicht.
 
Zuletzt bearbeitet:
Was meint Duplex zu den neuen Testergebnissen mit einem Vorserien-Exemplar, welche das geahnte Performance-Bild (+5% IPC single thread, +10% IPC multi thread) weiter untermauern?
Diese Vorab Tests solltest du schnell vergessen, die haben letztendlich nichts zu sagen, warte auf richtige Tests indem auch eine GTX Titan dabei ist.
Ob Single oder Multithreading ist auch irrelevant, am ende zählt nur das Gesamte Ergebniss, da wird durchschnitlich locker 15% mehr Performance als Sandy Bridge rauskommen.
 
Zuletzt bearbeitet:
Die Frage war zugegeben sehr naiv gestellt. Dann mal weiter so: An welcher Stelle, d.h. in welchem Benchmark sollte sich denn der Vorteil des TM definitiv zeigen?
Irgendwo stand, dass die K-Modelle kein TM bekämen, das würde wie ECC abgeschaltet.
Ergo: Vorteil gibts voerst wohl nur in speicherintensiven Serverapps. Spiele etc. werden dafür erstmal nicht programmiert werden. Ist aber ja auch normal, im Endeffekt ist es nichts anderes als ne neue x86-Erweiterung. Es dauerte bis sich SSE2 durchsetzte, genauso wie x64, aktuell ist AVX noch so gut wie taufrisch, TM wird noch länger brauchen.

@gruffi: Lol, ja Danke. Immer wenn man nicht aufpasst ^^
 
@gruffi, Opteron:
Danke für's Klarstellen bzgl. TM.

Diese Vorab Tests solltest du schnell vergessen, die haben letztendlich nichts zu sagen, warte auf richtige Tests indem auch eine GTX Titan dabei ist.
Ob Single oder Multithreading ist auch irrelevant, am ende zählt nur das Gesamte Ergebniss, da wird durchschnitlich locker 15% mehr Performance als Sandy Bridge rauskommen.
Wozu bringst du im Haswell/Broadwell Thread den GTX Titan ins Spiel?
 
Die TDP steigt, weil die VRMs mit auf dem DIE sind. Die produzieren auch zusätzlich Abwärme, welche abgeführt werden muß. Dafür sollte das übrige Board sparsamer werden.
Bin schon auf die mini-itx Ableger gespannt.
 
Zuletzt bearbeitet:
Zurück
Oben Unten