Was kommt (nach den ersten Deneb (K10.5+)) fuer den Desktop bis zum Launch der BD(APUs)?

Erste 1055T Benches:
http://www.amdzone.com/phpbb3/viewtopic.php?f=52&t=137523

Nicht viel Aufregendes, 3DMark 06 mit 890er IGP, brauchbar ist nur der CPU Score:
~5100

3dMark Vantage:
~ 14500 CPU Punkte

Dazu noch Cinebench mit nem miserable SpeedUp von ~4,6, das Ding kann wahrscheinlich schlecht auf 6 Kerne verteilen, vermute ich mal. Gibts irgendwo Werte von Intels 6 Kern (Ohne Hyperthreading) ?

Ansonsten noch alle CPU-Z Fenster, somit leider bestätigt: Nachwievor nur 2 GHz NB Takt :(

ciao

Alex
 
Erste 1055T Benches:
http://www.amdzone.com/phpbb3/viewtopic.php?f=52&t=137523

Nicht viel Aufregendes, 3DMark 06 mit 890er IGP, brauchbar ist nur der CPU Score:
~5100

3dMark Vantage:
~ 14500 CPU Punkte

Dazu noch Cinebench mit nem miserable SpeedUp von ~4,6, das Ding kann wahrscheinlich schlecht auf 6 Kerne verteilen, vermute ich mal. Gibts irgendwo Werte von Intels 6 Kern (Ohne Hyperthreading) ?

Ansonsten noch alle CPU-Z Fenster, somit leider bestätigt: Nachwievor nur 2 GHz NB Takt :(

ciao

Alex
Glaube ich nicht, denn mit 8-Kernen läuft es richtig. AMD bzw Intel

Wenn dann liegt es am Turbo, da wenn nur 1 Kern aktiv ist, dieser höher getaktet sei muss, als wenn alle 6 aktiv wären. Daher auch der komische Speedup-Faktor.
 
Zuletzt bearbeitet:
Der Bench ist aber auch mit R10 gemacht, dein funktionierendes Beispiel ist mit R11. Und zwischen den beiden Versionen hat sich doch erheblich was getan.

Trotzdem könnte dieses Verhalten auf eine Speicher bzw. Northbridge Limitierung hindeuten, was natürlich gelinde gesagt blöd wäre.
 
Glaube ich nicht, denn mit 8-Kernen läuft es richtig. AMD bzw Intel
Ja eben, auf 2 4 8 16 Kernen läufts gut, aber auf 3 6 9 12 gibts womöglich Probleme ... hängt halt vom Algo ab, wie gut der die Arbeit aufteilen kann.

Wenn dann liegt es am Turbo, da wenn nur 1 Kern aktiv ist, dieser höher getaktet sei muss, als wenn alle 6 aktiv wären. Daher auch der komisch Speedup-Faktor
Na Turbo sollte doch größtenteils bei Cinebench deaktiv sein ... sieht man doch auch an den Auslastungsgraphen.

Bei einem Run sind da aber fast nur 4 Kerne aktiv, komischer Unterschied ... das spräche dann eher für meine Idee, dass 6 Threads nicht vorgesehen sind. Das +0,5 beim 4,5er Speedup wäre dann halt wegen Turbo.

ciao

Alex
 
Der Bench ist aber auch mit R10 gemacht, dein funktionierendes Beispiel ist mit R11. Und zwischen den beiden Versionen hat sich doch erheblich was getan.

Trotzdem könnte dieses Verhalten auf eine Speicher bzw. Northbridge Limitierung hindeuten, was natürlich gelinde gesagt blöd wäre.

hab ich auch gerade bemerkt :(
 
Nein Opteron, die Idee mit dem Turbo kann schon stimmen. Wenn der Singlethread bench gemacht wird, dreht der eine belastete Kern hoch. Wenn dann alle Kerne was zu tun haben, geht die Taktrate der Kerne runter, weshalb der Speedup geringer ausfällt. Eigentlich ganz logisch.
 
Nein Opteron, die Idee mit dem Turbo kann schon stimmen. Wenn der Singlethread bench gemacht wird, dreht der eine belastete Kern hoch. Wenn dann alle Kerne was zu tun haben, geht die Taktrate der Kerne runter, weshalb der Speedup geringer ausfällt. Eigentlich ganz logisch.

Aahhh, so herum gedacht, ok, jetzt hab ichs kapiert ;-)
In Zahlen ausgedrückt, wenn der single Thread @3,6 GHz gebencht wird, kanns natürlich keinen x6 Faktor auf 6 Kerne mit 3,2 GHz geben.
Edit: Bzw. im 1055T Fall, 3,3 Ghz zu 2,8 GHz.

Edit2:
Taktbereiningt (Single Ergebnis geteilt durch 3,3 x 2, 8 gäbs nen Speed Up von 5,4 wäre schon besser.

1CPU (mit Turbo) = 2758 Punkte
Taktbereinigt: 2340,12 Punkte
Speedup: 12642 / 2340 = 5,4

Thx

Alex
 
Zuletzt bearbeitet:
Aahhh, so herum gedacht, ok, jetzt hab ichs kapiert ;-)
In Zahlen ausgedrückt, wenn der single Thread @3,6 GHz gebencht wird, kanns natürlich keinen x6 Faktor auf 6 Kerne mit 3,2 GHz geben.
Edit: Bzw. im 1055T Fall, 3,3 Ghz zu 2,8 GHz.

Thx

Alex

richtig. so meinte ich das auch.

Übrigends der gleiche Effekt passiert auch bei Intels HT.
Im 1-Kern Test bekommt der Thread den ganzen Core, und im Multi-Kern-Test nur noch den halben.. wodurch der Speedup-Faktor in die Knie geht.
 
Hmm, sind nicht die Cinebenchwerte unglaublich niedrig?

Ein Athlon II X4 620 hat lt. CB im 1 CPU schon über 2800 Punkte bzw. ein 965 hat im x-CPU 14500 Punkte. Von den Intels noch überhaupt nicht geredet...

Hmm
 
Irgend etwas stimmt aber immernoch nicht.
Die 2758 Punkte sind für einen K10.5 Kern bei 3,3GHz viel zu wenig.
Das sollten mehr als 3500 Punkte sein, ich habe leider mein Ergebnis nicht im Kopf, sehe aber gerade ein P3D-Ergebnis bei 3,0 GHz.
 
Taktbereiningt (Single Ergebnis geteilt durch 3,3 x 2, 8 gäbs nen Speed Up von 5,4 wäre schon besser.

1CPU (mit Turbo) = 2758 Punkte
Taktbereinigt: 2340,12 Punkte
Speedup: 12642 / 2340 = 5,4
Ah, Danke. Die Bilder kann ich noch nicht sehen. Zum Vergleich: Ein PhII 940 hat 9752 P, taktbereinigt also etwa 40% Plus beim 1055T, wenn die Zahlen passen.
.
EDIT :
.

Irgend etwas stimmt aber immernoch nicht.
Die 2758 Punkte sind für einen K10.5 Kern bei 3,3GHz viel zu wenig.
Das sollten mehr als 3500 Punkte sein, ich habe leider mein Ergebnis nicht im Kopf, sehe aber gerade ein P3D-Ergebnis bei 3,0 GHz.
Vllt. wegen 64-Bit-Version.
 
Vllt. wegen 64-Bit-Version.
Danke Dresdenboy, stimmt
32bit ... hatte ich ganz aus den Augen verloren.
Passend hierzu habe ich einen Screenshot eines Windsor 3,35 GHz gefunden.
Die Single-Score Punkte deuten mit 27xx auch beim 1055T auf 3,3 GHz.

cinebenchr10am27.12.20io95.jpg
 
Hmm... dass ein Windsor-K8 und ein moderner K10 bei quasi Taktgleichheit Single-Core praktisch den sselben Score erbringen zeugt nicht grade von tollen IPC-Vorteilen der K10er... !?
Wo sind denn da die 15% K10-Vorsprung?
 
Hmm... dass ein Windsor-K8 und ein moderner K10 bei quasi Taktgleichheit Single-Core praktisch den sselben Score erbringen zeugt nicht grade von tollen IPC-Vorteilen der K10er... !?
Wo sind denn da die 15% K10-Vorsprung?

Lege erst einmal nicht zu viel Wert auf den Wert.
Das System kann oder muss nicht optimal eingestellt gewesen sein, da gibt es viele Faktoren.
Opteron rechnete kurz ein taktbereiningtes Single Ergebnis von 2340 Punkten aus.
Mein Wald und Wiesen Test eben auf meinem Propus System @ 2,8GHz hier brachte auf Anhieb ein Ergebnis von 2366 Punkten.
Und der Phenom müsste dort doch mehr bringen...!?

2wn4go3.jpg
 
Hmm... dass ein Windsor-K8 und ein moderner K10 bei quasi Taktgleichheit Single-Core praktisch den sselben Score erbringen zeugt nicht grade von tollen IPC-Vorteilen der K10er... !?
Wo sind denn da die 15% K10-Vorsprung?
In der IntelInside Abfrage ...

Im Ernst, R10 hat keine K10 Optimierungen, da wurde schon früher gemutmaßt, dass deshalb nur x87 code zum Zuge kommt, da das beim K8 schneller war.

Hab das jetzt aber beim R11 nicht nachgeprüft. Nach der Theorie sollte der K10 dann schneller sein (wenn der Code überhaupt 128bit SSE nutzen kann).

ciao

Alex
 
Auf P3DNow treten immer wieder "physikalische" Rechnungen zu Tage, in denen die Verlustleistung in Abhängigkeit von der anliegenden Spannung und dem Takt errechnet wird.
Die Formeln dazu kommen dann anscheinend aus der Formelsammlung der Mittelstufe und sind gültig z.B. für den Ohmschen Widerstand (P ~ U*I).
Nun ist aber ein moderner Prozessor etwas anderes. Wer sich ernsthaft Gedanken über die tatsächlichen Zusammenhänge machen will, sollte unbedingt ein Dokument von AMD beherzigen, in dem ausnahmsweise mal alle Daten (Strom, Spannung, TDP) für verschiedene Betriebsmodi (P-States) angegeben sind. Ab Seite 75 ist der nach inzwischen fünf Jahren etwas ergraute Turion 64 beschrieben. Er wurde noch in 90nm gefertigt, insofern ist der Fall sogar etwas einfacher, da die statische Leakage gegenüber der dynamischen vernachlässigbar ist.

Konkret gilt es, folgende Tupel formeltechnisch unter einen Hut zu bringen (ich beziehe mich auf die OPN TMSMT32BQX4LD ab Seite 81):
Takt, Spannung, Strom, TDP
1800MHz, 1.2V, 18.7A, 24.0W
1600MHz, 1.15V, 15.8A, 19.9W
800MHz, 0.9V, 6.2A, 7.9W

Auch wenn das Ergebnis unter 45nm (mit hoher dynamischer Leakage) wieder anders ausfallen wird, zeigt es immerhin doch, dass die hier im Forum gerne angewandte Formel P ~U^2 nicht vom Ohmschen Widerstand auf einen Prozessor übertragbar ist.
Ein Prozessor hat zwar in erster Näherung einen "Arbeitsbereich", in dem die Verlustleistung in etwa quadratisch mit der Spannung steigt, aber auf einem riesigen Offset U0 (gemäß P~U0+k*U^2). MfG
Für CMOS gilt P = C * V² * f.
Für eine aktive Schaltung P = 1/2 * C * V² * f.
Oder genauer:
P_active = 1/2 * Activity_Factor * Switching_Factor * Cswitch * Area * V² * freq

P_total ist dann P_active + I_shoot_through * V + I_static * V

Der lineare Zusammenhang zw. f und P und der quadratische zw. V und P wird durch die Leakage natürlich geringer. Da wir sie nicht kennen, können wir auch nicht damit rechnen und müssten wieder schätzen.

Schließlich konnte man AMD's TDP-Werte schon seit dem K8 als TDP = Icc_max * Vcc_max + P_io ermitteln.
 
Zuletzt bearbeitet:
Für eine aktive Schaltung P = 1/2 * C * V² * f.

Die Gleichung kann man ja anhand zweier Tupel aus oben leicht verifizieren.
Die Konstante C ist dann ja nach einfacher Umrechnung:
C = 2 * P / ( V^2*f)
Ich nehme die Werte von 800MHz und 1800MHz und erhalte die Zahlenwerte(ohne Berücksichtigung der Einheiten):
C(800) = 0,0244
C(1800)= 0,0185
Warum liegt die "Konstante" C bei 800MHz rund 30% höher als bei 1800MHz?
MfG
 
Die Gleichung kann man ja anhand zweier Tupel aus oben leicht verifizieren.
Die Konstante C ist dann ja nach einfacher Umrechnung:
C = 2 * P / ( V^2*f)
Ich nehme die Werte von 800MHz und 1800MHz und erhalte die Zahlenwerte(ohne Berücksichtigung der Einheiten):
C(800) = 0,0244
C(1800)= 0,0185
Warum liegt die "Konstante" C bei 800MHz rund 30% höher als bei 1800MHz?
MfG
DDBoy hat aber auch noch mit I_shoot_through * V + I_static * V gerechnet.
Aber Disskusion ist etwas sinnlos. Du sagts P = P(0) + const * CU². Dresdenboy schreibt mehr oder weniger P=const1*U + const2*U².
Rein mathematisch könnte ich jetzt behaupten P = c0+ c1*U + c2*U² + ... + cn*U^n. Da P(U=0)=0 ist c0=0. Alles ab der 3. Potenz drücken wir in den Skat. Überleg mal was ürbig bleibt.

Gruß S.
 
Die Gleichung kann man ja anhand zweier Tupel aus oben leicht verifizieren.
Die Konstante C ist dann ja nach einfacher Umrechnung:
C = 2 * P / ( V^2*f)
Ich nehme die Werte von 800MHz und 1800MHz und erhalte die Zahlenwerte(ohne Berücksichtigung der Einheiten):
C(800) = 0,0244
C(1800)= 0,0185
Warum liegt die "Konstante" C bei 800MHz rund 30% höher als bei 1800MHz?
MfG
Mit zunehmendem Anteil der Leckströme wird es wichtiger, I_shoot_through und I_static einzubeziehen. Die verzerren natürlich als Anteil von P deine Rechnung. Mist, zu langsam ;)
 
@Sciing und Matthias
Das sage ich doch gerade, P ~ U^2 ist so nicht anwendbar.
Nebenbei war in 90nm (daher kommen die Zahlen) die statische Leakage noch quasi vernachlässigbar und wohl kaum der Grund dafür, dass der obige Faktor um 30% daneben liegt.

In 45nm wird es viel komplizierter und du hast quasi ohne Takt Verlustleistung aufgrund der enormen statischen Leakage. Seit geraumer Zeit dient ein guter Teil der Transistorlogik dazu, in weniger benötigten Bereichen vorübergehend Takte zu reduzieren oder Spannungen abzusenken.

Ich will hier nicht kleinlich sein, aber mich wurmt immer wieder der nicht zutreffende Ansatz von P ~ U^2 und P ~ f. M.E. taugt der noch nicht einmal für Abschätzungen. MfG
 
... Ich will hier nicht kleinlich sein, aber mich wurmt immer wieder der nicht zutreffende Ansatz von P ~ U^2 und P ~ f. M.E. taugt der noch nicht einmal für Abschätzungen. MfG
Betrachte es als didaktisches Beispiel, dass viele noch nicht mal das Mittelschul-Beispiel verinnerlicht haben.

Natürlich ist das bei modernen Halbleitern immer noch komplexer und auch du bist in Versuchung dein Modell zu vereinfachen. Tatsache ist aber nun mal, dass seit 130 nm und kleiner (Intels Horrorbeispiel ist der Prescott in 90 nm) die statischen Leckströme immer wichtiger in der Rechnung werden.

Dresdenboys Einwände haben schon einen Grund, wer schon mal in einer Uni/Hoschschule gelehrt hat ...

MFG Bobo(2010)
 
Zuletzt bearbeitet:
@Sciing und Matthias
Das sage ich doch gerade, P ~ U^2 ist so nicht anwendbar.
Nebenbei war in 90nm (daher kommen die Zahlen) die statische Leakage noch quasi vernachlässigbar und wohl kaum der Grund dafür, dass der obige Faktor um 30% daneben liegt.

In 45nm wird es viel komplizierter und du hast quasi ohne Takt Verlustleistung aufgrund der enormen statischen Leakage. Seit geraumer Zeit dient ein guter Teil der Transistorlogik dazu, in weniger benötigten Bereichen vorübergehend Takte zu reduzieren oder Spannungen abzusenken.

Ich will hier nicht kleinlich sein, aber mich wurmt immer wieder der nicht zutreffende Ansatz von P ~ U^2 und P ~ f. M.E. taugt der noch nicht einmal für Abschätzungen. MfG
Mein Ansatz zu Beginn ist auch das Ergebnis eines Kompromisses, der meine verfügbare Zeit involviert. ;) Übrigens gibt es bei den AMD-Werten auch Northbridge- und I/O-Power, welche sich etwas anders verhalten als die Cores. Diese müsste man auch noch herausrechnen. Ideal wäre natürlich, wenn jemand von AMD das kurzerhand vorrechnet (Delegation unsererseits). Aber so schön einfach geht es selten.

Die zunehmende Leakage bei 32nm (natürlich auch abhängig von der Anzahl der Transistoren) diente mir doch auch schon als Argument für schlanke, hochtaktende Integer-Cores beim BD.
 
Ein Prozessor hat zwar in erster Näherung einen "Arbeitsbereich", in dem die Verlustleistung in etwa quadratisch mit der Spannung steigt, aber auf einem riesigen Offset U0 (gemäß P~U0+k*U^2).
Herzlichen Glückwunsch. Du hast gerade erkannt, dass eine CPU auch einen Uncore Bereich besitzt. ;D

Hmm... dass ein Windsor-K8 und ein moderner K10 bei quasi Taktgleichheit Single-Core praktisch den sselben Score erbringen zeugt nicht grade von tollen IPC-Vorteilen der K10er... !?
Nee, das zeugt eher von der tollen Cinebench Optimierung für AMD CPUs. Ich sag nur ICC. :]
 
Zurück
Oben Unten