App installieren
How to install the app on iOS
Follow along with the video below to see how to install our site as a web app on your home screen.
Anmerkung: This feature may not be available in some browsers.
Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden.
Du solltest ein Upgrade durchführen oder ein alternativer Browser verwenden.
Du solltest ein Upgrade durchführen oder ein alternativer Browser verwenden.
Zambezi - Fehler, Bugs, mangelnde Performance - Woran liegt es?
- Ersteller rasmus
- Erstellt am
Ge0rgy
Grand Admiral Special
- Mitglied seit
- 14.07.2006
- Beiträge
- 4.322
- Renomée
- 82
- Mein Laptop
- Lenovo Thinkpad X60s
- Prozessor
- Phenom II 955 BE
- Mainboard
- DFI LanParty DK 790FXB-M3H5
- Kühlung
- Noctua NH-U12P
- Speicher
- 4GB OCZ Platinum DDR1600 7-7-7 @ 1333 6-6-6
- Grafikprozessor
- Radeon 4850 1GB
- HDD
- Western Digital Caviar Black 1TB
- Netzteil
- Enermax Modu 525W
- Betriebssystem
- Linux, Vista x64
- Webbrowser
- Firefox 3.5
Also AFAIK war die Branch Prediction bei den K10 noch nicht so das Gelbe vom Ei.
Agner Fog hat mal einen K10 / Core2 - Vergleich gebracht zu Barcelona-Zeiten und dabei hat er die Sprungvorhersage der Core2-Architektur explizit wegen ihrer exzellenten Trefferquote gelobt. Die vom K10 war zwar ok, aber nicht sooo der Wahnsinn. Sogar der K6 soll eine vergleichsweise sehr gute Branch Prediction gehabt haben während die vom K7 wiederum als "eher simpel" bezeichnet wurde.
Da die K8 und K10 vergleichsweise ziemlich große L1 - Caches hatten mag das Ganze abgefedert worden sein. Dennoch war die Branch Prediction nicht unbedingt AMDs große Stärke in den letzten Architekturen. Ergo eine Verbesserung tut hier Not.
Zumal mit längeren Pipelines auch eine Missprediction mehr wehtut.
Trotzdem sei angemerkt, dass BDs Pipeline nicht übertrieben lang ist. Ein paar Stufen mehr als K10, aber immernoch im Rahmen dessen was z.B. Nehalem hatte.
BD hat im Moment das Problem dass der L1 klein ist, das Write-Through Cachedesign auf dem Desktop eher suboptimal und wenn dann dazu noch die Branch-Prediction verbesserungswürdig ist - nunja...
Also sollen sies Verbessern und dann schau mer was rauskommt.
Agner Fog hat mal einen K10 / Core2 - Vergleich gebracht zu Barcelona-Zeiten und dabei hat er die Sprungvorhersage der Core2-Architektur explizit wegen ihrer exzellenten Trefferquote gelobt. Die vom K10 war zwar ok, aber nicht sooo der Wahnsinn. Sogar der K6 soll eine vergleichsweise sehr gute Branch Prediction gehabt haben während die vom K7 wiederum als "eher simpel" bezeichnet wurde.
Da die K8 und K10 vergleichsweise ziemlich große L1 - Caches hatten mag das Ganze abgefedert worden sein. Dennoch war die Branch Prediction nicht unbedingt AMDs große Stärke in den letzten Architekturen. Ergo eine Verbesserung tut hier Not.
Zumal mit längeren Pipelines auch eine Missprediction mehr wehtut.
Trotzdem sei angemerkt, dass BDs Pipeline nicht übertrieben lang ist. Ein paar Stufen mehr als K10, aber immernoch im Rahmen dessen was z.B. Nehalem hatte.
BD hat im Moment das Problem dass der L1 klein ist, das Write-Through Cachedesign auf dem Desktop eher suboptimal und wenn dann dazu noch die Branch-Prediction verbesserungswürdig ist - nunja...
Also sollen sies Verbessern und dann schau mer was rauskommt.
Complicated
Grand Admiral Special
- Mitglied seit
- 08.10.2010
- Beiträge
- 4.949
- Renomée
- 441
- Mein Laptop
- Lenovo T15, Lenovo S540
- Prozessor
- AMD Ryzen 7 3700X
- Mainboard
- MSI X570-A PRO
- Kühlung
- Scythe Kama Angle - passiv
- Speicher
- 32 GB (4x 8 GB) G.Skill TridentZ Neo DDR4-3600 CL16-19-19-39
- Grafikprozessor
- Sapphire Radeon RX 5700 Pulse 8GB PCIe 4.0
- Display
- 27", Lenovo, 2560x1440
- SSD
- 1 TB Gigabyte AORUS M.2 PCIe 4.0 x4 NVMe 1.3
- HDD
- 2 TB WD Caviar Green EADS, NAS QNAP
- Optisches Laufwerk
- Samsung SH-223L
- Gehäuse
- Lian Li PC-B25BF
- Netzteil
- Corsair RM550X ATX Modular (80+Gold) 550 Watt
- Betriebssystem
- Win 10 Pro.
Den Abschnitt habe ich doch zitiertHmm, und woher hast du, dass diese bis zu 98% auf aktuelle x86 CPUs zutrifft? Ich muss aber zugeben, dass ich jetzt aber nicht alles gelesen habe.
Ge0rgy
Grand Admiral Special
- Mitglied seit
- 14.07.2006
- Beiträge
- 4.322
- Renomée
- 82
- Mein Laptop
- Lenovo Thinkpad X60s
- Prozessor
- Phenom II 955 BE
- Mainboard
- DFI LanParty DK 790FXB-M3H5
- Kühlung
- Noctua NH-U12P
- Speicher
- 4GB OCZ Platinum DDR1600 7-7-7 @ 1333 6-6-6
- Grafikprozessor
- Radeon 4850 1GB
- HDD
- Western Digital Caviar Black 1TB
- Netzteil
- Enermax Modu 525W
- Betriebssystem
- Linux, Vista x64
- Webbrowser
- Firefox 3.5
@Compilcated
Das ist aber eine sehr generelle Aussage die einfach mal "moderne CPUs" über einen Kamm schert, dabei bin ich mir ziemlich sicher dass es da deutliche Unterschiede gibt.
Oftmals werden mit "moderne CPUs" nämlich auch nur die letzten 2 Generationen Intel-Chips beschrieben...
Das ist aber eine sehr generelle Aussage die einfach mal "moderne CPUs" über einen Kamm schert, dabei bin ich mir ziemlich sicher dass es da deutliche Unterschiede gibt.
Oftmals werden mit "moderne CPUs" nämlich auch nur die letzten 2 Generationen Intel-Chips beschrieben...
Complicated
Grand Admiral Special
- Mitglied seit
- 08.10.2010
- Beiträge
- 4.949
- Renomée
- 441
- Mein Laptop
- Lenovo T15, Lenovo S540
- Prozessor
- AMD Ryzen 7 3700X
- Mainboard
- MSI X570-A PRO
- Kühlung
- Scythe Kama Angle - passiv
- Speicher
- 32 GB (4x 8 GB) G.Skill TridentZ Neo DDR4-3600 CL16-19-19-39
- Grafikprozessor
- Sapphire Radeon RX 5700 Pulse 8GB PCIe 4.0
- Display
- 27", Lenovo, 2560x1440
- SSD
- 1 TB Gigabyte AORUS M.2 PCIe 4.0 x4 NVMe 1.3
- HDD
- 2 TB WD Caviar Green EADS, NAS QNAP
- Optisches Laufwerk
- Samsung SH-223L
- Gehäuse
- Lian Li PC-B25BF
- Netzteil
- Corsair RM550X ATX Modular (80+Gold) 550 Watt
- Betriebssystem
- Win 10 Pro.
Nun ja der Link auf Anand von Lynxeye bestätigt das ja. Ich wollte das einfach nur mal ins Verhältnis setzen, da ich die kolportierten 30% Verbesserung der "falschvorhersage" schwerlich als beste Performance Verbesserung ausmachen kann.
Auch sieht man bei Anand, dass der K10 nicht besser als BD war und somit auch dort nicht die Ursache für manches schlechtere Benchmark Ergebnis zu suchen ist - Cinbebench war ja gerade so ein Kandidat der oft als "Beweis" herangezogen wurde, dass BD langsamer als K10 sei.
Auch sieht man bei Anand, dass der K10 nicht besser als BD war und somit auch dort nicht die Ursache für manches schlechtere Benchmark Ergebnis zu suchen ist - Cinbebench war ja gerade so ein Kandidat der oft als "Beweis" herangezogen wurde, dass BD langsamer als K10 sei.
Ge0rgy
Grand Admiral Special
- Mitglied seit
- 14.07.2006
- Beiträge
- 4.322
- Renomée
- 82
- Mein Laptop
- Lenovo Thinkpad X60s
- Prozessor
- Phenom II 955 BE
- Mainboard
- DFI LanParty DK 790FXB-M3H5
- Kühlung
- Noctua NH-U12P
- Speicher
- 4GB OCZ Platinum DDR1600 7-7-7 @ 1333 6-6-6
- Grafikprozessor
- Radeon 4850 1GB
- HDD
- Western Digital Caviar Black 1TB
- Netzteil
- Enermax Modu 525W
- Betriebssystem
- Linux, Vista x64
- Webbrowser
- Firefox 3.5
Nun, ein Audi TT RS verliert auch gegen einen Porsche Cayenne... - im Offroad-Track...
Klar, neben der unbekannten Performance-Effizienz und Performance (max-Takt) kommt beim 28nm-Bulk neben der Flächenreduzierung die unbekannte Yield hinzu.Wo sich aber natürlich die Frage stellt, wie gut der neue Prozess anläuft und sich entwickelt. Wenn die Fehleranfälligkeit höher ist wie beim doch schon seit einiger Zeit laufenden 32nm Prozess, ist es ja nichteinmal zwangsweise billiger...
Ohne Zahlen zu kennen, ist das alles beschissen zu beurteilen
Aus irgendwelchen Gründen sollten 28nm-Bulk besser [Performance-Effizienz-Frage oder die Kosten-Frage (Yield*Fläche)]sein als 32nm-SOI, da AMD sonst keinen Anreiz hätte, diesen zu verwenden. Da bei AMD schon die eine oder andere Fertigung etwas in die Hose ging (= Verspätungen & Yield) sind Probleme nicht auszuschließen.
Deshalb achte ich auf Yield-Aussagen von Kaveri & Kabini besonders.
Wobei auch jene "Aussagen" interessant sind, die nicht gemacht wurden.
Denn Trinity wurde erstmals Juni 2011 gezeigt und lauffähig schon Sept 2011.
Wenn es langsam kein Lebenszeichen von Kaveri gibt, dann wäre das weniger gute Anzeichen, für einen guten Start Mitte 2013. Aber nicht jedes Anzeichen muss dann der Tat entsprechen.
amdfanuwe
Grand Admiral Special
- Mitglied seit
- 24.06.2010
- Beiträge
- 2.372
- Renomée
- 34
- Prozessor
- 4200+
- Mainboard
- M3A-H/HDMI
- Kühlung
- ein ziemlich dicker
- Speicher
- 2GB
- Grafikprozessor
- onboard
- Display
- Samsung 20"
- HDD
- WD 1,5TB
- Netzteil
- Extern 100W
- Betriebssystem
- XP, AndLinux
- Webbrowser
- Firefox
- Verschiedenes
- Kaum hörbar
Vielleicht hat Rory was an der Informationspolitik geändert? Erst sicherstellen, dass man was ordentliches hat und produzieren kann, dann erst an die Öffentlichkeit?
Llano und BD haben AMDs Ruf ziemlich geschadet weil zu viele Erwartungen geweckt wurden.
Llano und BD haben AMDs Ruf ziemlich geschadet weil zu viele Erwartungen geweckt wurden.
Zur Branch Prediction: Getestet eben mit FX-8120, Cinebench R11.5 (64-Bit), Einzelkern, festgepinnt auf Core0, Nutzung der Performance_Event_Counter: Falsche Sprungvorhersage ca. 5,4%: Sprung-Instruktionen ca. 197,9 Mrd., davon falsch vorhergesagt ca.10,7 Mrd. (damit die Größenordnungen klar werden !).
Ge0rgy
Grand Admiral Special
- Mitglied seit
- 14.07.2006
- Beiträge
- 4.322
- Renomée
- 82
- Mein Laptop
- Lenovo Thinkpad X60s
- Prozessor
- Phenom II 955 BE
- Mainboard
- DFI LanParty DK 790FXB-M3H5
- Kühlung
- Noctua NH-U12P
- Speicher
- 4GB OCZ Platinum DDR1600 7-7-7 @ 1333 6-6-6
- Grafikprozessor
- Radeon 4850 1GB
- HDD
- Western Digital Caviar Black 1TB
- Netzteil
- Enermax Modu 525W
- Betriebssystem
- Linux, Vista x64
- Webbrowser
- Firefox 3.5
ok, also immerhin eine Trefferquote von knapp 95%.
Damit können wir die tolle +30% Verbeserung erstmal als Marketingzahl betrachten...
Damit können wir die tolle +30% Verbeserung erstmal als Marketingzahl betrachten...
@GeOrgy: Bitte beachten: Der Wert bezieht sich auf eine bestimmte Anwendung (hier Cinebench)! Ich habe das "Hintergrund-Rauschen" rausgerechnet (würde aber nichts weiter am Prozent-Wert ändern). Lasse ich auf dem Test-PC nichts weiter laufen, also nur die "Dienst-Programme", beträgt die Fehlerquote knapp 8,4%. Da ist aber ein Haufen Novell-Gelumpe dabei, das will ich AMD nun wirklich nicht anlasten . Da ich jetzt zu Hause bin, werde ich das Testprogramm mal für Intel umschreiben und auf meinem i7-3770K testen.
95% bedeutet jeder zwanzigste Sprung geht daneben, wenn man das auf jeden fünfundzwanzigsten optimieren kann (oder fast) wird klar wie abhängig das ganze vom Code ist.
Hat da einer Zahlen Hinweise wie oft so etwas vorkommt und wann? ich hab dunkel in Erinnerung das in der CT selbst kleine Verbesserungen da immer sehr gelobt wurden.
Hat da einer Zahlen Hinweise wie oft so etwas vorkommt und wann? ich hab dunkel in Erinnerung das in der CT selbst kleine Verbesserungen da immer sehr gelobt wurden.
Zarniwoop
Cadet
- Mitglied seit
- 20.12.2005
- Beiträge
- 17
- Renomée
- 0
Man darf sich nicht davon täuschen lassen, dass bei einer momentanen (angenommenen) Trefferquote von 95% eine Reduktion der falsch vorhergesagten Sprünge um 30% lediglich eine nicht besonders spetakulär aussehende Steigerung um 1.5%-Punkte auf 96.5% bewirkt.
Wie schon öfters erwähnt, kostet ein falsch vorhergesagter Sprung ein Vielfaches eines richtig vorhergesagten Sprung, und deswegen sind es die fünf Prozent, die Zeit verbrauchen. Und wenn man die um 30% reduzieren kann, dann hat sich eines der wesentlichen Dinge, die Zeit verbrauchen, um 30% verringert.
Meiner Meinung nach ist das also schon ein relativ großes Ding.
Das Gleiche gilt ja auch für Cache-Misses, die ja auch meistens irgendwo im einstelligen Prozentbereich liegen, dafür aber richtig kosten. Auch hier ist jeder gesparte Cache-Miss eine große Verbesserung.
Wie schon öfters erwähnt, kostet ein falsch vorhergesagter Sprung ein Vielfaches eines richtig vorhergesagten Sprung, und deswegen sind es die fünf Prozent, die Zeit verbrauchen. Und wenn man die um 30% reduzieren kann, dann hat sich eines der wesentlichen Dinge, die Zeit verbrauchen, um 30% verringert.
Meiner Meinung nach ist das also schon ein relativ großes Ding.
Das Gleiche gilt ja auch für Cache-Misses, die ja auch meistens irgendwo im einstelligen Prozentbereich liegen, dafür aber richtig kosten. Auch hier ist jeder gesparte Cache-Miss eine große Verbesserung.
gruffi
Grand Admiral Special
- Mitglied seit
- 08.03.2008
- Beiträge
- 5.393
- Renomée
- 65
- Standort
- vorhanden
- Prozessor
- AMD Ryzen 5 1600
- Mainboard
- MSI B350M PRO-VDH
- Kühlung
- Wraith Spire
- Speicher
- 2x 8 GB DDR4-2400 CL16
- Grafikprozessor
- XFX Radeon R7 260X
- Display
- LG W2361
- SSD
- Crucial CT250BX100SSD1
- HDD
- Toshiba DT01ACA200
- Optisches Laufwerk
- LG Blu-Ray-Brenner BH16NS40
- Soundkarte
- Realtek HD Audio
- Gehäuse
- Sharkoon MA-I1000
- Netzteil
- be quiet! Pure Power 9 350W
- Betriebssystem
- Windows 10 Professional 64-bit
- Webbrowser
- Mozilla Firefox
- Verschiedenes
- https://valid.x86.fr/mb4f0j
Soweit ich weiss, ist der Fritz Chess Benchmark sehr abhängig von guter Sprungvorhersage. Könntest du das mal testen? Den Benchmark findest du zB hier.Zur Branch Prediction: Getestet eben mit FX-8120, Cinebench R11.5 (64-Bit), Einzelkern, festgepinnt auf Core0, Nutzung der Performance_Event_Counter: Falsche Sprungvorhersage ca. 5,4%: Sprung-Instruktionen ca. 197,9 Mrd., davon falsch vorhergesagt ca.10,7 Mrd. (damit die Größenordnungen klar werden !).
Complicated
Grand Admiral Special
- Mitglied seit
- 08.10.2010
- Beiträge
- 4.949
- Renomée
- 441
- Mein Laptop
- Lenovo T15, Lenovo S540
- Prozessor
- AMD Ryzen 7 3700X
- Mainboard
- MSI X570-A PRO
- Kühlung
- Scythe Kama Angle - passiv
- Speicher
- 32 GB (4x 8 GB) G.Skill TridentZ Neo DDR4-3600 CL16-19-19-39
- Grafikprozessor
- Sapphire Radeon RX 5700 Pulse 8GB PCIe 4.0
- Display
- 27", Lenovo, 2560x1440
- SSD
- 1 TB Gigabyte AORUS M.2 PCIe 4.0 x4 NVMe 1.3
- HDD
- 2 TB WD Caviar Green EADS, NAS QNAP
- Optisches Laufwerk
- Samsung SH-223L
- Gehäuse
- Lian Li PC-B25BF
- Netzteil
- Corsair RM550X ATX Modular (80+Gold) 550 Watt
- Betriebssystem
- Win 10 Pro.
Ich denke hier wäre tatsächlich auch noch mal interessant zu wissen wie gross die "Penalty" ist bei Falschvorhersagen. Ist diese im Prinzip so lang wie die Pipline in Takten?
Würde das heissen je kürzer die Pipeline, desto geringer die "Penalty" bei Missprediction?
Das würde im Prinzip bedeuten, dass bei 95% Trefferquote und einer 20 stages langen Pipe (rein rechnerisch) die 5% falsch vorhergesagten ca. genau so viel Zeit verbrauchen wie die 95% korrekt voraus geladenen Code? Kann man das so ungefähr simple zusammenfassen?
Würde das heissen je kürzer die Pipeline, desto geringer die "Penalty" bei Missprediction?
Das würde im Prinzip bedeuten, dass bei 95% Trefferquote und einer 20 stages langen Pipe (rein rechnerisch) die 5% falsch vorhergesagten ca. genau so viel Zeit verbrauchen wie die 95% korrekt voraus geladenen Code? Kann man das so ungefähr simple zusammenfassen?
Zarniwoop
Cadet
- Mitglied seit
- 20.12.2005
- Beiträge
- 17
- Renomée
- 0
Kann man das so ungefähr simple zusammenfassen?
Well, it's complicated...
Nee mal im Ernst: Das hängt auf jeden Fall zusammen. Es gibt sicherlich einige Optimierungen, dass die Pipeline frühestmöglich geflusht wird wenn klar ist, dass der jump woanders hingeht. Oder dank OoO könnte man bedingte Sprünge möglchst früh auswerten,
Opteron
Redaktion
☆☆☆☆☆☆
Jo, einzige Ausnahme ist Intel mit dem neuen (sei Sandy) µOp Cache, der hält auch die Instruktionen für den anderen Zweig vor, d.h. im Falschvorhersagefall spart sich ein Sandy die ersten 3 Pipelinestufen im Decoder.Ich denke hier wäre tatsächlich auch noch mal interessant zu wissen wie gross die "Penalty" ist bei Falschvorhersagen. Ist diese im Prinzip so lang wie die Pipline in Takten?
Würde das heissen je kürzer die Pipeline, desto geringer die "Penalty" bei Missprediction?
AMDs Cache in den Patenten war eigentlich genau auch aus diesem Grund geplant, deswegen hieß er ja auch "Redirect / Recovery-Cache".
Keine Ahnung aber, ob AMD den nun einbaut, oder erst nur nen Loop-Detector
gruffi
Grand Admiral Special
- Mitglied seit
- 08.03.2008
- Beiträge
- 5.393
- Renomée
- 65
- Standort
- vorhanden
- Prozessor
- AMD Ryzen 5 1600
- Mainboard
- MSI B350M PRO-VDH
- Kühlung
- Wraith Spire
- Speicher
- 2x 8 GB DDR4-2400 CL16
- Grafikprozessor
- XFX Radeon R7 260X
- Display
- LG W2361
- SSD
- Crucial CT250BX100SSD1
- HDD
- Toshiba DT01ACA200
- Optisches Laufwerk
- LG Blu-Ray-Brenner BH16NS40
- Soundkarte
- Realtek HD Audio
- Gehäuse
- Sharkoon MA-I1000
- Netzteil
- be quiet! Pure Power 9 350W
- Betriebssystem
- Windows 10 Professional 64-bit
- Webbrowser
- Mozilla Firefox
- Verschiedenes
- https://valid.x86.fr/mb4f0j
Im Grunde, ja. Die Penalty für Misprediction sollte bei Bulldozer also mindestens 15 Takte betragen. Pauschalisieren lässt sich das aber nicht. Da spielen noch ein paar andere Faktoren mit rein. Ich würde Agner Fogs Architektur PDF empfehlen. Da steht einiges zu dem Thema und zu verschiedenen x86 Architekturen.Ich denke hier wäre tatsächlich auch noch mal interessant zu wissen wie gross die "Penalty" ist bei Falschvorhersagen. Ist diese im Prinzip so lang wie die Pipline in Takten?
Würde das heissen je kürzer die Pipeline, desto geringer die "Penalty" bei Missprediction?
@gruffi: Tut mir leid, aber den Fritz-Test auf dem FX-8120 kann ich erst am Montag durchführen (die Kiste steht im Büro). Ich habe aber eben auf dem i7-3770K getestet: Falsche Vorhersagen = 6,9% (50,1 Mrd. zu 3,47 Mrd., 1 Kern = Core0).
Bei BD liegt die minimale Branch misprediction penalty bei 20 Takten, die maximale Branch misprediction penalty liegt bei < 30 Takten.
Zum Vergleich: Beim K10 liegt die minimale Branch misprediction penalty bei 12 Takten.
Bei SandyBridge liegt die minimale Branch misprediction penalty bei 14 Takten. Nur wenn die Instruktion nicht im µop-Cache gefunden wird, erhöht sich diese auf 17 Takte.
Zum Vergleich: Beim K10 liegt die minimale Branch misprediction penalty bei 12 Takten.
Bei SandyBridge liegt die minimale Branch misprediction penalty bei 14 Takten. Nur wenn die Instruktion nicht im µop-Cache gefunden wird, erhöht sich diese auf 17 Takte.
gruffi
Grand Admiral Special
- Mitglied seit
- 08.03.2008
- Beiträge
- 5.393
- Renomée
- 65
- Standort
- vorhanden
- Prozessor
- AMD Ryzen 5 1600
- Mainboard
- MSI B350M PRO-VDH
- Kühlung
- Wraith Spire
- Speicher
- 2x 8 GB DDR4-2400 CL16
- Grafikprozessor
- XFX Radeon R7 260X
- Display
- LG W2361
- SSD
- Crucial CT250BX100SSD1
- HDD
- Toshiba DT01ACA200
- Optisches Laufwerk
- LG Blu-Ray-Brenner BH16NS40
- Soundkarte
- Realtek HD Audio
- Gehäuse
- Sharkoon MA-I1000
- Netzteil
- be quiet! Pure Power 9 350W
- Betriebssystem
- Windows 10 Professional 64-bit
- Webbrowser
- Mozilla Firefox
- Verschiedenes
- https://valid.x86.fr/mb4f0j
Sind die 50,1 Mrd die gesamten Predictions oder nur die erfolgreichen? Bei letzterem wären es ~6,5%.@gruffi: Tut mir leid, aber den Fritz-Test auf dem FX-8120 kann ich erst am Montag durchführen (die Kiste steht im Büro). Ich habe aber eben auf dem i7-3770K getestet: Falsche Vorhersagen = 6,9% (50,1 Mrd. zu 3,47 Mrd., 1 Kern = Core0).
Der SOG für Family 15h sagt klar was anderes:Bei BD liegt die minimale Branch misprediction penalty bei 20 Takten, die maximale Branch misprediction penalty liegt bei < 30 Takten.
The minimum branch misprediction
penalty is 20 cycles in the case of conditional and indirect branches and 15 cycles for unconditional
direct branches and returns.
Auch hier sagt der SOG für Family 10h und 12h klar was anderes:Zum Vergleich: Beim K10 liegt die minimale Branch misprediction penalty bei 12 Takten.
In the event of a misprediction, the minimum penalty is 10
cycles.
@gruffi: Sind alle abgearbeiteten Sprung-Instruktionen (egal ob Sprung ausgeführt oder nicht). Ich verweise mal auf: "Intel® 64 and IA-32 Architectures Software Developer’s Manual, Combined Volumes: 1, 2A, 2B, 2C, 3A, 3B and 3C; 325462-043US May 2012"; dort Vol.3B, Seite 18-56. Beim Test verwendet habe ich jeweils UMask = 04H (All_branches).
Kunibert_KA
Lt. Commander
- Mitglied seit
- 05.11.2004
- Beiträge
- 133
- Renomée
- 1
Laut Anantech:
Das sind die min Takte. Je nach dem was geladen werden muss usw. kann es auch viel länger werden. Habe da etwas von bis zu 100 cycles beim PIV in Erinnerung.
Die Branch Prediction des Bulldozer ist besser als die des K10, aber schlechter als die des Sandys. Selbst wenn eine Misprediction weniger häufig vorkommt (als beim K10) tut sie mehr weh. Ich glaube nicht das sie so viel besser ist als das sie die härtere Penalty ausgleichen könnte.
Anandtech:
'The numbers above show the minimum branch misprediction penalty, and the fact is that the Bulldozer architecture has a branch misprediction penalty that is 66% higher than the previous generation. That means that the branch prediction of Bulldozer must correctly predict 40% of the pesky branches that were mispredicted by the K10 to compensate (at the same clock). Unfortunately, that kind of massive branch prediction improvement is almost impossible to achieve.'
Code:
Branch Prediction
Architecture Branch Misprediction Penalty (min)
AMD K10 (Barcelona, Magny-Cours) 12 cycles
AMD Bulldozer 20 cycles
Pentium 4 (NetBurst) 20 cycles
Core 2 (Conroe, Penryn) 15 cycles
Nehalem 17 cycles
Sandy Bridge 14-17 cycles
Die Branch Prediction des Bulldozer ist besser als die des K10, aber schlechter als die des Sandys. Selbst wenn eine Misprediction weniger häufig vorkommt (als beim K10) tut sie mehr weh. Ich glaube nicht das sie so viel besser ist als das sie die härtere Penalty ausgleichen könnte.
Anandtech:
'The numbers above show the minimum branch misprediction penalty, and the fact is that the Bulldozer architecture has a branch misprediction penalty that is 66% higher than the previous generation. That means that the branch prediction of Bulldozer must correctly predict 40% of the pesky branches that were mispredicted by the K10 to compensate (at the same clock). Unfortunately, that kind of massive branch prediction improvement is almost impossible to achieve.'
gruffi
Grand Admiral Special
- Mitglied seit
- 08.03.2008
- Beiträge
- 5.393
- Renomée
- 65
- Standort
- vorhanden
- Prozessor
- AMD Ryzen 5 1600
- Mainboard
- MSI B350M PRO-VDH
- Kühlung
- Wraith Spire
- Speicher
- 2x 8 GB DDR4-2400 CL16
- Grafikprozessor
- XFX Radeon R7 260X
- Display
- LG W2361
- SSD
- Crucial CT250BX100SSD1
- HDD
- Toshiba DT01ACA200
- Optisches Laufwerk
- LG Blu-Ray-Brenner BH16NS40
- Soundkarte
- Realtek HD Audio
- Gehäuse
- Sharkoon MA-I1000
- Netzteil
- be quiet! Pure Power 9 350W
- Betriebssystem
- Windows 10 Professional 64-bit
- Webbrowser
- Mozilla Firefox
- Verschiedenes
- https://valid.x86.fr/mb4f0j
@Helle53
Ok. Ja dann sind's 6,9%. Kein grosses Ding, war mir nur nicht ganz sicher.
Ok. Ja dann sind's 6,9%. Kein grosses Ding, war mir nur nicht ganz sicher.
Interessiert mir ehrlich gesagt nicht die Bohne, was Anandtech schreibt. Die haben schon zu viel Unsinn zu Bulldozer geschrieben. Die offiziellen Dokumente von AMD sagen jedenfalls eindeutig: Minimum Penalty Stars/Husky = 10 Takte, Minimum Penalty Bulldozer = 15 Takte.Laut Anantech: ...
Ähnliche Themen
- Antworten
- 9
- Aufrufe
- 5K
- Antworten
- 10
- Aufrufe
- 4K