App installieren
How to install the app on iOS
Follow along with the video below to see how to install our site as a web app on your home screen.
Anmerkung: This feature may not be available in some browsers.
Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden.
Du solltest ein Upgrade durchführen oder ein alternativer Browser verwenden.
Du solltest ein Upgrade durchführen oder ein alternativer Browser verwenden.
Bulldozer rollt an....
- Ersteller neax
- Erstellt am
- Status
- Für weitere Antworten geschlossen.
ONH
Grand Admiral Special
@BR
Da hast du ganz recht, wie hier vor ein paar Wochen Verlinkt war, wird ein Supercomputer mit 12Core@2,1GHz auf 8Modul@2.3GHz Server CPU aktualisiert ohen die Kühlung zu ändern, somit ergibt sich für ein Modul@2.3GHz eine TDP von 14W.
3,5Ghz für einen 16-Core Interlagos halte ich für ausgeschlossen, selbst für die TDP=140Watt-Version, denn 140Watt/16=8,75Watt; und darin wäre auch noch der Uncore enthalten, sodass dann ein Core @3,5Ghz nur noch rund 8Watt hätte. Und ich bezweifle sehr, dass AMD demnächst einen 1Modul-BD mit einer TDP=18Watt mit 3,5Ghz auspacken kann.
Da hast du ganz recht, wie hier vor ein paar Wochen Verlinkt war, wird ein Supercomputer mit 12Core@2,1GHz auf 8Modul@2.3GHz Server CPU aktualisiert ohen die Kühlung zu ändern, somit ergibt sich für ein Modul@2.3GHz eine TDP von 14W.
gruffi
Grand Admiral Special
- Mitglied seit
- 08.03.2008
- Beiträge
- 5.393
- Renomée
- 65
- Standort
- vorhanden
- Prozessor
- AMD Ryzen 5 1600
- Mainboard
- MSI B350M PRO-VDH
- Kühlung
- Wraith Spire
- Speicher
- 2x 8 GB DDR4-2400 CL16
- Grafikprozessor
- XFX Radeon R7 260X
- Display
- LG W2361
- SSD
- Crucial CT250BX100SSD1
- HDD
- Toshiba DT01ACA200
- Optisches Laufwerk
- LG Blu-Ray-Brenner BH16NS40
- Soundkarte
- Realtek HD Audio
- Gehäuse
- Sharkoon MA-I1000
- Netzteil
- be quiet! Pure Power 9 350W
- Betriebssystem
- Windows 10 Professional 64-bit
- Webbrowser
- Mozilla Firefox
- Verschiedenes
- https://valid.x86.fr/mb4f0j
Du schreibst schon wieder solches wirres Zeug wie gestern. Ohne Vergleichsbasis lässt sich überhaupt nichts über ein Einzelbein oder eben einen Kern bzw logischen Prozessor herleiten.Beispiel:
Man denke sich zwei Tierchen - eins mit sechs und eins mit vier Beinchen.
Beide rennen los zum Kaese an der Tischkante - das sechsbeinige Tier ist als erster am Kaese und gewinnt.
Nun werden beide Tiere von der 'machmirnureinBein-Seuche' befallen und verlieren alle Beine bis aus jeweils eins.
Nun liegt wieder eine Stueck Kaese und eine Aspirin an der Tischkante - beide humplen wieder von gleichen Stelle wie zuvor los.
Wer wird die Kopf- und Gliederschmerzen als erst los? Ja, richtig der Ex-Vierbeiner.
Warum? Sein verbliebendes Bein war staerker als eins des Ex-Sechsbeiners - ausserdem war er etwas kleiner und hatte weniger zu tragen.
Auch wenn im normalen Leben der Sechsbeiner immer gewonnen haette - gibt es Situationen, in denen er auch verliert. Das Einzelbein des Sechsbeiners ist verglichen mit einem Einzelbein des Vierbeiners eben schwaecher.
Und genauso wenig heisst das, dass es mit nur einem Beinchen langsam wäre.Man denke sich ein Tier mit sechs Beinen - nur weil es mit sechs Beinchen schnell ist - heisst es nicht, dass es auch noch mit einem noch waere.
LoRDxRaVeN
Grand Admiral Special
- Mitglied seit
- 20.01.2009
- Beiträge
- 4.169
- Renomée
- 64
- Standort
- Oberösterreich - Studium in Wien
- Mein Laptop
- Lenovo Thinkpad Edge 11
- Prozessor
- Phenom II X4 955 C3
- Mainboard
- Gigabyte GA-MA790X-DS4
- Kühlung
- Xigmatek Thor's Hammer + Enermax Twister Lüfter
- Speicher
- 4 x 1GB DDR2-800 Samsung
- Grafikprozessor
- Sapphire HD4870 512MB mit Referenzkühler
- Display
- 22'' Samung SyncMaster 2233BW 1680x1050
- HDD
- Hitachi Deskstar 250GB, Western Digital Caviar Green EADS 1TB
- Optisches Laufwerk
- Plextor PX-130A, Plextor Px-716SA
- Soundkarte
- onboard
- Gehäuse
- Aspire
- Netzteil
- Enermax PRO82+ II 425W ATX 2.3
- Betriebssystem
- Windows 7 Professional Studentenversion
- Webbrowser
- Firefox siebenunddreißigsttausend
- Schau Dir das System auf sysprofile.de an
Im Moment sehe ich das Thema Singlethreadperformance (aus meiner prozessortechnisch beschränkten Sicht) so:
Das einzige, was BD als "besondere Eigenschaft" können muss, damit er hohe Singlethreadperformance erreicht, ist, dass ein Integerkern = alle non-shared Komponenten) hoch takten kann (im Idealfall knapp doppelt so hoch als im Multithreading-Betrieb). Alle shared-Komponenten sind ja sowieso weit überdimensioniert (wenn sie nur einen Thread bedienen müssen) und das thermische (bzw. hald Strom-) Budget ist durch Clock- und Powergating der anderen, nicht verwendeten Module ja sowieso mehr als groß genug.
Also nur ein verhältnissmäßig kleiner Teil des Siliziums bzw. der Transistoren muss sehr hoch taktbar sein. Von der längeren Pipe, welche dies begünstigen würde, haben wir schon gehört - damit diese keine (oder nur geringe) Nachteile hat, gibt es diverse Gegenmaßnahmen.
Und das verhältnismäßig hohe Takte siliziumtechnisch machbar sind, sieht man z.B. bei IBM...
An die Leute die sich mit der Materie auskennen: Ist es technisch überhaupt machbar, dass ein (so wie vorhin definierter) Integerkern um einiges höher taktet, als der Rest des Moduls (also die shared-Komponenten)?
Wenn dies (so ähnlich) möglich ist, wie ich mir das vorstelle, könnte BD sehrwohl sehr hohe Singlethreadperformance bieten
LG
Das einzige, was BD als "besondere Eigenschaft" können muss, damit er hohe Singlethreadperformance erreicht, ist, dass ein Integerkern = alle non-shared Komponenten) hoch takten kann (im Idealfall knapp doppelt so hoch als im Multithreading-Betrieb). Alle shared-Komponenten sind ja sowieso weit überdimensioniert (wenn sie nur einen Thread bedienen müssen) und das thermische (bzw. hald Strom-) Budget ist durch Clock- und Powergating der anderen, nicht verwendeten Module ja sowieso mehr als groß genug.
Also nur ein verhältnissmäßig kleiner Teil des Siliziums bzw. der Transistoren muss sehr hoch taktbar sein. Von der längeren Pipe, welche dies begünstigen würde, haben wir schon gehört - damit diese keine (oder nur geringe) Nachteile hat, gibt es diverse Gegenmaßnahmen.
Und das verhältnismäßig hohe Takte siliziumtechnisch machbar sind, sieht man z.B. bei IBM...
An die Leute die sich mit der Materie auskennen: Ist es technisch überhaupt machbar, dass ein (so wie vorhin definierter) Integerkern um einiges höher taktet, als der Rest des Moduls (also die shared-Komponenten)?
Wenn dies (so ähnlich) möglich ist, wie ich mir das vorstelle, könnte BD sehrwohl sehr hohe Singlethreadperformance bieten
LG
Zuletzt bearbeitet:
gruffi
Grand Admiral Special
- Mitglied seit
- 08.03.2008
- Beiträge
- 5.393
- Renomée
- 65
- Standort
- vorhanden
- Prozessor
- AMD Ryzen 5 1600
- Mainboard
- MSI B350M PRO-VDH
- Kühlung
- Wraith Spire
- Speicher
- 2x 8 GB DDR4-2400 CL16
- Grafikprozessor
- XFX Radeon R7 260X
- Display
- LG W2361
- SSD
- Crucial CT250BX100SSD1
- HDD
- Toshiba DT01ACA200
- Optisches Laufwerk
- LG Blu-Ray-Brenner BH16NS40
- Soundkarte
- Realtek HD Audio
- Gehäuse
- Sharkoon MA-I1000
- Netzteil
- be quiet! Pure Power 9 350W
- Betriebssystem
- Windows 10 Professional 64-bit
- Webbrowser
- Mozilla Firefox
- Verschiedenes
- https://valid.x86.fr/mb4f0j
Ich sehe ehrlich gesagt nicht, dass man einen sehr hohen Takt braucht. Ein Bild sagt manchmal mehr als tausend Worte. Man vergleiche einfach mal die Dimensionierung des alten und des neuen Integer Clusters.
Wenn AMD solche Folien rausgibt und ein Integer Cluster pro Takt weniger leistet als der alte, dann hätte man definitiv was falsch gemacht, entweder in der Entwicklungs- oder Marketingabteilung.
Wenn AMD solche Folien rausgibt und ein Integer Cluster pro Takt weniger leistet als der alte, dann hätte man definitiv was falsch gemacht, entweder in der Entwicklungs- oder Marketingabteilung.
Solche Sprüche wären aber von der Marketing-Abteilung in Ordnung.Wenn AMD solche Folien rausgibt und ein Integer Cluster pro Takt weniger leistet als der alte, dann hätte man definitiv was falsch gemacht, entweder in der Entwicklungs- oder Marketingabteilung.
Wenn ein BD-Modul im selben Takt nur 90-95% eines K10-Dual-Core leistet, aber nur 80% Stromverbraucht, dann können sie immer noch den Takt erhöhen und bei gleichem Stromverbrauch schneller zu sein.
Wenn du dich verarscht fühlst, dann bitte, aber die Aufgabe der Marketing-Abteilung ist nun mal, ihr Produkt im besserem Licht darzustellen.
PS: Ich hatte jetzt nur deinen Beitrag gelesen und die Vorigen nicht.
Dazu könnte man die Bobcat 90% Mainstream CPU Folie verlinken. Letztlich ist es relativ sinnlos weil zu allem eine verlässliche Basis fehlt. Keiner außer AMD weiß was die Basis für die Vergleiche ist oder ob man einfach dem Powerpointpraktikanten gesagt hat: Mach das mal so ist grob unsere Vorstellung dabei.
nazgul99
Grand Admiral Special
- Mitglied seit
- 01.05.2005
- Beiträge
- 3.592
- Renomée
- 224
- Standort
- Irgendwo in der Nähe
- Mein Laptop
- ThinkPad Edge E145 / 8GB / M500 480GB / Kubuntu /// Asus U38N / 6GB / Matt / Postville / Kubuntu/W8
- Prozessor
- AMD A10-7800
- Mainboard
- MSI A88XI AC
- Kühlung
- Scythe Shuriken Rev.2
- Speicher
- 2x 8GB DDR3-2133
- Grafikprozessor
- IGP
- Display
- HP LP2465, MVA, 1920x1200, 24"
- SSD
- Samsung 850 EVO 500GB
- HDD
- ST9500325AS 500GB
- Optisches Laufwerk
- ja, so'n USB-Dings
- Soundkarte
- onboard, optisch -> SMSL Q5 PRO -> ELAC EL60
- Gehäuse
- Silverstone ML06B
- Netzteil
- SST-ST30SF
- Betriebssystem
- Kubuntu
- Webbrowser
- Firefox
- Verschiedenes
- Synology DS414slim 3x 1,5 TB RAID5
Hmmm ...
in der nächsten c't 7/2011 (Abonnenten: 12.3., Kiosk: 14.3.) werden unter dem Titel "Mainboards für Phenom und Core i7" AM3-Mainboards gegen LGA1366-Mainboards antreten. Nun überschneiden sich aber die Preise für LGA1366-CPUs (mindestens €220) und AM3-CPUs (bis knapp €200) nicht. So ein Vergleich wäre eigentlich grenzwertig bis blödsinnig - obere Mittelklasse vs. Highend? Soll uns das vielleicht etwas sagen und es wurde an einer bestimmten Stelle ein winziges "+" weggelassen?
Im gleichen Heft wird es einen CPU-Wegweiser ("Athlon, Phenom oder Turion, Core i7, i5, i3 oder Core 2 Duo [...]") geben, soso ... Und - Achtung modern: "Ein Überblick über aktuelle Desktop-, Mobil- und Handy-Prozessoren".
in der nächsten c't 7/2011 (Abonnenten: 12.3., Kiosk: 14.3.) werden unter dem Titel "Mainboards für Phenom und Core i7" AM3-Mainboards gegen LGA1366-Mainboards antreten. Nun überschneiden sich aber die Preise für LGA1366-CPUs (mindestens €220) und AM3-CPUs (bis knapp €200) nicht. So ein Vergleich wäre eigentlich grenzwertig bis blödsinnig - obere Mittelklasse vs. Highend? Soll uns das vielleicht etwas sagen und es wurde an einer bestimmten Stelle ein winziges "+" weggelassen?
Im gleichen Heft wird es einen CPU-Wegweiser ("Athlon, Phenom oder Turion, Core i7, i5, i3 oder Core 2 Duo [...]") geben, soso ... Und - Achtung modern: "Ein Überblick über aktuelle Desktop-, Mobil- und Handy-Prozessoren".
Es gibt Themen die immer jedes Jahr in der gleichen Ausgabe kommen. Wie zu Weihnachten das typische mein Komplettrechner geht nicht ABC usw.
Ich wette Bulldozer wird kurz erwähnt mehr aber auch nicht, erst recht nicht wenn wirklich nichts zur Cebit kommt.
Ich wette Bulldozer wird kurz erwähnt mehr aber auch nicht, erst recht nicht wenn wirklich nichts zur Cebit kommt.
Markus Everson
Grand Admiral Special
Im Moment sehe ich das Thema Singlethreadperformance (aus meiner prozessortechnisch beschränkten Sicht) so:
Das einzige, was BD als "besondere Eigenschaft" können muss, damit er hohe Singlethreadperformance erreicht, ist, dass ein Integerkern = alle non-shared Komponenten) hoch takten kann
Könntest Du das bitte nochmal wiederholen? Ich konnte Dich nicht vollständig verstehen weil irgendwo in meinem Kopf ständig eine Stimme "PentiumIV" brüllt...
LoRDxRaVeN
Grand Admiral Special
- Mitglied seit
- 20.01.2009
- Beiträge
- 4.169
- Renomée
- 64
- Standort
- Oberösterreich - Studium in Wien
- Mein Laptop
- Lenovo Thinkpad Edge 11
- Prozessor
- Phenom II X4 955 C3
- Mainboard
- Gigabyte GA-MA790X-DS4
- Kühlung
- Xigmatek Thor's Hammer + Enermax Twister Lüfter
- Speicher
- 4 x 1GB DDR2-800 Samsung
- Grafikprozessor
- Sapphire HD4870 512MB mit Referenzkühler
- Display
- 22'' Samung SyncMaster 2233BW 1680x1050
- HDD
- Hitachi Deskstar 250GB, Western Digital Caviar Green EADS 1TB
- Optisches Laufwerk
- Plextor PX-130A, Plextor Px-716SA
- Soundkarte
- onboard
- Gehäuse
- Aspire
- Netzteil
- Enermax PRO82+ II 425W ATX 2.3
- Betriebssystem
- Windows 7 Professional Studentenversion
- Webbrowser
- Firefox siebenunddreißigsttausend
- Schau Dir das System auf sysprofile.de an
Ich sehe ehrlich gesagt nicht, dass man einen sehr hohen Takt braucht.
"Brauchen" ist natürlich relativ. Denn ich bin ja auch der Meinung (wie andere hier), dass hohe Singlethreadleistung in der Praxis nur selten tatsächlich benötigt wird.
Aber zumindest könnte man es als hervorragendes Marketingmittel heranziehen. (So sehe ich schon den aktuellen Thuban-Turbo: Ein Marketingmittel, dass man braucht)
Und so wie ich es beschrieben habe, wäre der hohe Takt hald die Vorraussetzung bzw. eine Möglichkeit die sowieso vorhandenen (shared) Ressourcen (aus)zu nützen.
LG
WindHund
Grand Admiral Special
- Mitglied seit
- 30.01.2008
- Beiträge
- 12.228
- Renomée
- 536
- Standort
- Im wilden Süden (0711)
- Mitglied der Planet 3DNow! Kavallerie!
- Aktuelle Projekte
- NumberFields@home
- Lieblingsprojekt
- none, try all
- Meine Systeme
- RYZEN R9 3900XT @ ASRock Taichi X570 & ASUS RX Vega64
- BOINC-Statistiken
- Prozessor
- AMD Ryzen 9 5950X
- Mainboard
- ASRock 570X Taichi P5.05 Certified
- Kühlung
- AlphaCool Eisblock XPX, 366x40mm Radiator 6l Brutto m³
- Speicher
- 2x 16 GiB DDR4-3600 CL26 Kingston (Dual Rank, unbuffered ECC)
- Grafikprozessor
- 1x ASRock Radeon RX 6950XT Formula OC 16GByte GDDR6 VRAM
- Display
- SAMSUNG Neo QLED QN92BA 43" up to 4K@144Hz FreeSync PP HDR10+
- SSD
- WD_Black SN850 PCI-Express 4.0 NVME
- HDD
- 3 Stück
- Optisches Laufwerk
- 1x HL-DT-ST BD-RE BH10LS30 SATA2
- Soundkarte
- HD Audio (onboard)
- Gehäuse
- SF-2000 Big Tower
- Netzteil
- Corsair RM1000X (80+ Gold)
- Tastatur
- Habe ich
- Maus
- Han I
- Betriebssystem
- Windows 10 x64 Professional (up to date!)
- Webbrowser
- @Chrome.Google & Edge Chrome
lol, hab mich schon gewundert warum bei CPUz der uncore (Northbridge) Takt bei der RAM Anzeige fehlt, bei der Sandy Bridge CPU.Ich nehme mal stark an, dass der L2 mit fullspeed läuft. Da der dicke 2MB hat, müssen die 8MB L3 nicht mit voller Geschwindigkeit laufen. Intel hat durch den kleinen 0,25MB L2 viel mehr L2 <> L3 Traffic, erst recht wenn da 2 Threads laufen. Deswegen bekamen sie mit Sandy auch nen schönen IPC Nachschlag, nachdem der L3@Fullspeed läuft.
Aha, dann bin ich mal gespannt inwiefern sich das beim Bulli auswirkt mit dem höheren NB-Takt.
Was ist denn der aktuelle Stand dabei, hab noch 2,4GHz+ im Hinterkopf.
MfG
genau +20% mehr als K10.5Was ist denn der aktuelle Stand dabei, hab noch 2,4GHz+ im Hinterkopf.
WindHund
Grand Admiral Special
- Mitglied seit
- 30.01.2008
- Beiträge
- 12.228
- Renomée
- 536
- Standort
- Im wilden Süden (0711)
- Mitglied der Planet 3DNow! Kavallerie!
- Aktuelle Projekte
- NumberFields@home
- Lieblingsprojekt
- none, try all
- Meine Systeme
- RYZEN R9 3900XT @ ASRock Taichi X570 & ASUS RX Vega64
- BOINC-Statistiken
- Prozessor
- AMD Ryzen 9 5950X
- Mainboard
- ASRock 570X Taichi P5.05 Certified
- Kühlung
- AlphaCool Eisblock XPX, 366x40mm Radiator 6l Brutto m³
- Speicher
- 2x 16 GiB DDR4-3600 CL26 Kingston (Dual Rank, unbuffered ECC)
- Grafikprozessor
- 1x ASRock Radeon RX 6950XT Formula OC 16GByte GDDR6 VRAM
- Display
- SAMSUNG Neo QLED QN92BA 43" up to 4K@144Hz FreeSync PP HDR10+
- SSD
- WD_Black SN850 PCI-Express 4.0 NVME
- HDD
- 3 Stück
- Optisches Laufwerk
- 1x HL-DT-ST BD-RE BH10LS30 SATA2
- Soundkarte
- HD Audio (onboard)
- Gehäuse
- SF-2000 Big Tower
- Netzteil
- Corsair RM1000X (80+ Gold)
- Tastatur
- Habe ich
- Maus
- Han I
- Betriebssystem
- Windows 10 x64 Professional (up to date!)
- Webbrowser
- @Chrome.Google & Edge Chrome
Mehr Leistung oder mehr Takt? (Quelle?)genau +20% mehr als K10.5
Opteron
Redaktion
☆☆☆☆☆☆
Naja, JF AMD erzählt zum Bildchen das Mär von den 3AGU/ALU Pärchen, was bekanntermaßen Käse ist.Ich sehe ehrlich gesagt nicht, dass man einen sehr hohen Takt braucht. Ein Bild sagt manchmal mehr als tausend Worte. Man vergleiche einfach mal die Dimensionierung des alten und des neuen Integer Clusters.
<Bild>
Wenn AMD solche Folien rausgibt und ein Integer Cluster pro Takt weniger leistet als der alte, dann hätte man definitiv was falsch gemacht, entweder in der Entwicklungs- oder Marketingabteilung.
Ab gesehen davon hat ein MC keine FMAC FPU, den Fehler gibt er aber immerhin zu.
AM Ende ist die Glaubwürdigkeit des Bildchens aber ziemlich angeknackst ..
LoRDxRaVeN
Grand Admiral Special
- Mitglied seit
- 20.01.2009
- Beiträge
- 4.169
- Renomée
- 64
- Standort
- Oberösterreich - Studium in Wien
- Mein Laptop
- Lenovo Thinkpad Edge 11
- Prozessor
- Phenom II X4 955 C3
- Mainboard
- Gigabyte GA-MA790X-DS4
- Kühlung
- Xigmatek Thor's Hammer + Enermax Twister Lüfter
- Speicher
- 4 x 1GB DDR2-800 Samsung
- Grafikprozessor
- Sapphire HD4870 512MB mit Referenzkühler
- Display
- 22'' Samung SyncMaster 2233BW 1680x1050
- HDD
- Hitachi Deskstar 250GB, Western Digital Caviar Green EADS 1TB
- Optisches Laufwerk
- Plextor PX-130A, Plextor Px-716SA
- Soundkarte
- onboard
- Gehäuse
- Aspire
- Netzteil
- Enermax PRO82+ II 425W ATX 2.3
- Betriebssystem
- Windows 7 Professional Studentenversion
- Webbrowser
- Firefox siebenunddreißigsttausend
- Schau Dir das System auf sysprofile.de an
Ich konnte Dich nicht vollständig verstehen weil irgendwo in meinem Kopf ständig eine Stimme "PentiumIV" brüllt...
Wie gesagt ist mein technisches Verständnis auf das Thema bezogen beschränkt.
Argumente die ich aber trotzdem aufzählen bzw. wiederholen kann:
- völlig andere Bedingungen/Voraussetzungen (130/90nm vs. 32nm mit diversen, zusätzlichen "Eigenschaften")
- "längere Pipe" ist nicht gleichbedeutet mit "gleich oder ähnlich lange, wie die vom P4"
- auch etwas andere Gründe, weshalb man hohen Takt als Lösung einsetzen will (nur ein kleiner Teil muss hoch getaktet werden und auch nur für den Singlethreadfall)
Leg' das alles bitte nicht auf die Goldwaage, denn das ist ja nur meine Vorstellung von der Sache...
LG
gruffi
Grand Admiral Special
- Mitglied seit
- 08.03.2008
- Beiträge
- 5.393
- Renomée
- 65
- Standort
- vorhanden
- Prozessor
- AMD Ryzen 5 1600
- Mainboard
- MSI B350M PRO-VDH
- Kühlung
- Wraith Spire
- Speicher
- 2x 8 GB DDR4-2400 CL16
- Grafikprozessor
- XFX Radeon R7 260X
- Display
- LG W2361
- SSD
- Crucial CT250BX100SSD1
- HDD
- Toshiba DT01ACA200
- Optisches Laufwerk
- LG Blu-Ray-Brenner BH16NS40
- Soundkarte
- Realtek HD Audio
- Gehäuse
- Sharkoon MA-I1000
- Netzteil
- be quiet! Pure Power 9 350W
- Betriebssystem
- Windows 10 Professional 64-bit
- Webbrowser
- Mozilla Firefox
- Verschiedenes
- https://valid.x86.fr/mb4f0j
Begründung?Naja, JF AMD erzählt zum Bildchen das Mär von den 3AGU/ALU Pärchen, was bekanntermaßen Käse ist.
bbott
Grand Admiral Special
- Mitglied seit
- 11.11.2001
- Beiträge
- 4.363
- Renomée
- 60
- Mein Laptop
- HP Compaq 8510p
- Prozessor
- AMD FX-8370
- Mainboard
- Asus M5A99X
- Kühlung
- Corsair H60
- Speicher
- 16GB DDR3-1866 Crucial
- Grafikprozessor
- Sapphire HD5770
- Display
- 4k 27" DELL
- SSD
- Samsung Evo 850
- HDD
- 2x Seagate 7200.12
- Optisches Laufwerk
- Pioneer, Plextor
- Soundkarte
- Creative X-Fi Xtreme Music
- Gehäuse
- Silverstone TJ-02S
- Netzteil
- Enermax 450W
- Betriebssystem
- Windows 7
Begründung?
Weil in der Grafik so weit ich das sehe/verstanden habe beim Magny Cours eine Pipline für ein AGU und ALU steht, also ein Pärchen. Zusammen also 6 Recheneinheiten ergeben.
Beim Bulldozer stehen zwei Pipelines für AGU und zwei für ALU, wobei diese nicht 1:1 Vergleichbar sind weil sie etwas mehr können.
Das reale Verhältnis ist etwa Magny Cours 6:4 Bulldozer, im Bild ist es ein 3:4 Verhältnis.
Deswegen gingen anfangs nach Veröffentlichung des Bildes auch viele davon aus, dass es 4 AGUs und 4 ALUs wären.
Dresdenboy
Redaktion
☆☆☆☆☆☆
Ich glaube, das Problem, die ALUs/AGUs zu verstehen, ist die fehlende genaue Doku. Ich sah auch erst im CodeAnalyst Pipeline Simulator, dass bei einem Int-Befehl mit Mem-Operand nicht 2mal issued wird, sondern halt der längere "Pipeline-Weg" (vereinfacht) issue - agu - data cache - data cache - exu verwendet wird. Das heißt aber auch, dass das ein relativ starres Schema ist. So ein Befehl kann m.W. praktisch nur ausgeführt werden, wenn schon zum Beginn der Adressberechnung alle Operanden bereit sind. BD sollte dagegen unabhängig schonmal die Speicheradresse berechnen und die Daten aus dem Cache holen können.
gruffi
Grand Admiral Special
- Mitglied seit
- 08.03.2008
- Beiträge
- 5.393
- Renomée
- 65
- Standort
- vorhanden
- Prozessor
- AMD Ryzen 5 1600
- Mainboard
- MSI B350M PRO-VDH
- Kühlung
- Wraith Spire
- Speicher
- 2x 8 GB DDR4-2400 CL16
- Grafikprozessor
- XFX Radeon R7 260X
- Display
- LG W2361
- SSD
- Crucial CT250BX100SSD1
- HDD
- Toshiba DT01ACA200
- Optisches Laufwerk
- LG Blu-Ray-Brenner BH16NS40
- Soundkarte
- Realtek HD Audio
- Gehäuse
- Sharkoon MA-I1000
- Netzteil
- be quiet! Pure Power 9 350W
- Betriebssystem
- Windows 10 Professional 64-bit
- Webbrowser
- Mozilla Firefox
- Verschiedenes
- https://valid.x86.fr/mb4f0j
Deswegen ist die Darstellung doch aber nicht falsch. Aus dem Bild geht überhaupt nicht hervor, wie viele Ausführungseinheiten vorhanden sind. Wenn ich mal aus dem Software Optimization Guide für 10h zitieren darf:Weil in der Grafik so weit ich das sehe/verstanden habe beim Magny Cours eine Pipline für ein AGU und ALU steht, also ein Pärchen. Zusammen also 6 Recheneinheiten ergeben.
Beim Bulldozer stehen zwei Pipelines für AGU und zwei für ALU, wobei diese nicht 1:1 Vergleichbar sind weil sie etwas mehr können.
Das reale Verhältnis ist etwa Magny Cours 6:4 Bulldozer, im Bild ist es ein 3:4 Verhältnis.
Und genau diese 3 Pipes sind auch bei Magny Cours visualisiert. Bulldozer hat nun eine Pipe mehr, eben 4. Inwiefern Pipes und Ausführungseinheiten zwischen Bulldozer und K10 vergleichbar sind, ist wiederum ein anderes Thema und bisher noch unklar.The integer execution pipeline consists of three identical pipes (0, 1, and 2). Each integer pipe consists of an arithmetic-logic unit (ALU) and an address generation unit (AGU).
Du schreibst schon wieder solches wirres Zeug wie gestern. Ohne Vergleichsbasis lässt sich überhaupt nichts über ein Einzelbein oder eben einen Kern bzw logischen Prozessor herleiten.
Und genauso wenig heisst das, dass es mit nur einem Beinchen langsam wäre.
Ich kann nicht mehr helfen und gebe auf.
bbott
Grand Admiral Special
- Mitglied seit
- 11.11.2001
- Beiträge
- 4.363
- Renomée
- 60
- Mein Laptop
- HP Compaq 8510p
- Prozessor
- AMD FX-8370
- Mainboard
- Asus M5A99X
- Kühlung
- Corsair H60
- Speicher
- 16GB DDR3-1866 Crucial
- Grafikprozessor
- Sapphire HD5770
- Display
- 4k 27" DELL
- SSD
- Samsung Evo 850
- HDD
- 2x Seagate 7200.12
- Optisches Laufwerk
- Pioneer, Plextor
- Soundkarte
- Creative X-Fi Xtreme Music
- Gehäuse
- Silverstone TJ-02S
- Netzteil
- Enermax 450W
- Betriebssystem
- Windows 7
Und genau diese 3 Pipes sind auch bei Magny Cours visualisiert. Bulldozer hat nun eine Pipe mehr, eben 4. Inwiefern Pipes und Ausführungseinheiten zwischen Bulldozer und K10 vergleichbar sind, ist wiederum ein anderes Thema und bisher noch unklar.
Sollte Bulldozer nicht 2 AGU und 2 ALUs bekommen?!
Opteron
Redaktion
☆☆☆☆☆☆
Da ist mal wieder ein Verständnisfehler (nicht von Dir, sondern allgemein) zw. Pipeline und Unit. Wo ist da der Unterschied ? Gibts nicht, Unit ist nur der funktionale Begriff, Pipeline der technische. ALU und AGU sind trotz der "Unit" Bezeichnung immer noch Pipelines.Und genau diese 3 Pipes sind auch bei Magny Cours visualisiert. Bulldozer hat nun eine Pipe mehr, eben 4. Inwiefern Pipes und Ausführungseinheiten zwischen Bulldozer und K10 vergleichbar sind, ist wiederum ein anderes Thema und bisher noch unklar.
K10 konnte mit den 3 Pipelinepärchen/Units oder was auch immer pro Takt 3 AGU Ops und 3 ALU Ops losschicken. BD kann aber nur je 2.
Die Illustration ist dann einigermaßen ok, wenn man hervorheben will, das die 2 ALU und 2 AGUs nicht mehr starr gekoppelt sind. AGU2 kann auch Adressen für ALU1 berechnen, das ging vorher nicht. Aber im theoretischen Maximum kommt man trotzdem nicht am Durchsatz des MCs heran. Aber naja - darin liegt wohl auch der Hase im Pfeffer, gab ja die andere Aussage, dass das 3te Pärchen nur ~5%+ schaffte. Da die IPC insgesamt steigen wird, wollte AMD da wohl visualisieren, dass die Pipelines des BDs schneller werden, und hat sich gedacht, dass das ne gute Idee wäre, wenn sie da 4 ins Bild klatschen. Für die "Finanzexperten" sicherlich ein probates Mittel, aber jedem Ingenieur stellen sich die Nackenhaare zu Berge.
Aussnahme: Die neuen AGUs können wirklich mehr, als die alten. Aber danach schauts im Moment nicht aus.
@Dresdenboy:
Hm, das ist doch der normale Ablauf, oder nicht? Bevor der ALU Befehl mit MemOp loslegen kann, braucht er erstmal seine Speicheradresse, d.h. die ALU µOp warten erstmal im Scheduler, bis die AGU µOp fertig ist. Durchsatz kann trotzdem 2 µOps pro Takt sein, da die beiden µOps ja nicht aus der gleichen MacroOp stammen müssen.
Zuletzt bearbeitet:
mocad_tom
Admiral Special
- Mitglied seit
- 17.06.2004
- Beiträge
- 1.234
- Renomée
- 52
Am richtigsten(wenn es das gibt) ist man wohl wenn man es als Issue-Wide bezeichnet.
Ein BD-Integer-Core wird wohl 2-Issue-Wide sein. K10.5 war noch 3 Issue-Wide.
Nehalem ist 4-Issue-Wide.
DDB hat gestern noch eine Erklärung von Fruehe gefunden und bei Twitter gepostet:
Damit wollte er die 180% Zahl erklären.
mMn dreht sich die ganze Diskussion ziemlich im Kreis.
Die einzigen wirklich verlässlichen Zahlen sind die von dem Supercomputer - und das klingt Okay aber nicht umwerfend.
Ein BD-Integer-Core wird wohl 2-Issue-Wide sein. K10.5 war noch 3 Issue-Wide.
Nehalem ist 4-Issue-Wide.
DDB hat gestern noch eine Erklärung von Fruehe gefunden und bei Twitter gepostet:
Ein haufen Holz.OK, daddy is going to do some math, everyone follow along please.
First: There is only ONE performance number that has been legally cleared, 16-core Interlagos will give 50% more throughput than 12-core Opteron 6100. This is a statement about throughput and about server workloads only. You CANNOT make any client performance assumptions about that statement.
Now, let's get started.
First, everything that I am about to say below is about THROUGHPUT and throughput is different than speed. If you do not understand that, then please stop reading here.
Second, ALL comparisons are against the same cores, these are not comparison different generations nor are they comparisons against different architectures.
Assume that a processor core has 100% throughput.
Adding a second core to an architecture is typically going to give ~95% greater throughput. There is obviously some overhead because the threads will stall, the threads will wait for each other and the threads may share data. So, two completely independent cores would equal 195% (100% for the first core, 95% for the second core.)
Looking at SPEC int and SPEC FP, Hyperthreading gives you 14% greater throughput for integer and 22% greater throughput for FP. Let's just average the two together.
One core is 100%. Two cores are 118%. Everyone following so far? We have 195% for 2 threads on 2 cores and we have 118% for 2 threads on 1 core.
Now, one bulldozer core is 100%. Running 2 threads on 2 seperate modules would lead to ~195%, it's consistent with running on two independent cores.
Running 2 threads on the same module is ~180%.
You can see why the strategy is more appealing than HT when it comes to threaded workloads. And, yes, the world is becoming more threaded.
Now, where does the 90% come from? What is 180% /2? 90%.
People have argued that there is a 10% overhead for sharing because you are not getting 200%. But, as we saw before, 2 cores actually only equals 195%, so the net per core if you divide the workload is actually 97.5%, so it is roughly a 7-8% delta from just having cores.
Now, before anyone starts complaining about this overhead and saying that AMD is compromising single thread performance (because the fanboys will), keep in mind that a processor with HT equals ~118% for 2 threads, so per thread that equals 59%, so there is a ~36% hit for HT. This is specifically why I think that people need to stay away from talking about it. If you want to pick on AMD for the 7-8%, you have to acknowledge the ~36% hit from HT. But ultimately that is not how people jusdge these things. Having 5 people in a car consumes more gas than driving alone, but nobody talks about the increase in gas consumption because it is so much less than 5 individual cars driving to the same place.
So, now you know the approximate metrics about how the numbers work out. But what does that mean to a processor? Well, let's do some rough math to show where the architecture shines.
An Orochi die has 8 cores. Let's say, for sake of argument, that if we blew up the design and said not modules, only independent cores, we'd end up with about 6 cores.
Now let's compare the two with the assumption that all of the cores are independent on one and in modules on the other. For sake of argument we will assume that all cores scale identically and that all modules scale identically. The fact that incremental cores scale to something less than 100% is already comprehended in the 180% number, so don't fixate on that. In reality the 3rd core would not be at 95% but we are holding that constant for example.
Mythical 6-core bulldozer:
100% + 95% + 95% + 95% + 95% + 95% = 575%
Orochi die with 4 modules:
180% + 180% + 180% + 180% = 720%
What if we had just done a 4 core and added HT (keeping in the same die space):
100% + 95% +95% +95% + 18% + 18% + 18% + 18% = 457%
What about a 6 core with HT (has to assume more die space):
100% + 95% +95% +95% +95% +95% + 18% + 18% + 18% + 18% + 18% + 18% = 683%
(Spoiler alert - this is a comparison using the same cores, do NOT start saying that there is a 25% performance gain over a 6-core Thuban, which I am sure someone is already starting to type.)
The reality is that by making the architecture modular and by sharing some resources you are able to squeeze more throughput out of the design than if you tried to use independent cores or tried to use HT. In the last example I did not take into consideration that the HT circuitry would have delivered an extra 5% circuitry overhead....
Every design has some degree of tradeoff involved, there is no free lunch. The goal behind BD was to increase core count and get more throughput. Because cores scale better than HT, it's the most predictable way to get there.
When you do the math on die space vs. throughput, you find that adding more cores is the best way to get to higher throughput. Taking a small hit on overall performance but having the extra space for additional cores is a much better tradeoff in my mind.
Nothing I have provided above would allow anyone to make a performance estimate of BD vs. either our current architecture or our compeition, so, everyone please use this as a learning experience and do not try to make a performance estimate, OK?
Damit wollte er die 180% Zahl erklären.
mMn dreht sich die ganze Diskussion ziemlich im Kreis.
Die einzigen wirklich verlässlichen Zahlen sind die von dem Supercomputer - und das klingt Okay aber nicht umwerfend.
- Status
- Für weitere Antworten geschlossen.
Ähnliche Themen
- Antworten
- 119
- Aufrufe
- 10K
- Antworten
- 102
- Aufrufe
- 11K
- Antworten
- 6
- Aufrufe
- 1K