App installieren
How to install the app on iOS
Follow along with the video below to see how to install our site as a web app on your home screen.
Anmerkung: This feature may not be available in some browsers.
Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden.
Du solltest ein Upgrade durchführen oder ein alternativer Browser verwenden.
Du solltest ein Upgrade durchführen oder ein alternativer Browser verwenden.
AMD Zen - 14nm, 8 Kerne, 95W TDP & DDR4?
- Ersteller UNRUHEHERD
- Erstellt am
Onkel_Dithmeyer
Redaktion
☆☆☆☆☆☆
- Mitglied seit
- 22.04.2008
- Beiträge
- 12.943
- Renomée
- 4.014
- Standort
- Zlavti
- Aktuelle Projekte
- Universe@home
- Lieblingsprojekt
- Universe@home
- Meine Systeme
- cd0726792825f6f563c8fc4afd8a10b9
- BOINC-Statistiken
- Prozessor
- Ryzen 9 3900X @4000 MHz//1,15V
- Mainboard
- MSI X370 XPOWER GAMING TITANIUM
- Kühlung
- Custom Wasserkühlung vom So. G34
- Speicher
- 4x8 GB @ 3000 MHz
- Grafikprozessor
- Radeon R9 Nano
- Display
- HP ZR30W & HP LP3065
- SSD
- 2 TB ADATA
- Optisches Laufwerk
- LG
- Soundkarte
- Im Headset
- Gehäuse
- Xigmatek
- Netzteil
- BeQuiet Dark Pro 9
- Tastatur
- GSkill KM570
- Maus
- GSkill MX780
- Betriebssystem
- Ubuntu 20.04
- Webbrowser
- Firefox Version 94715469
- Internetanbindung
- ▼100 Mbit ▲5 Mbit
AMD und Intel haben doch ein gegenseitiges Patentabkommen.
sompe
Grand Admiral Special
- Mitglied seit
- 09.02.2009
- Beiträge
- 14.374
- Renomée
- 1.978
- Mein Laptop
- Dell G5 15 SE 5505 Eclipse Black
- Prozessor
- AMD Ryzen 9 3950X
- Mainboard
- MSI MPG X570 GAMING PRO CARBON WIFI
- Kühlung
- Wasserkühlung
- Speicher
- 4x 16 GB G.Skill Trident Z RGB, DDR4-3200, CL14
- Grafikprozessor
- AMD Radeon RX 6900 XT
- Display
- 1x 32" LG 32UD89-W + 1x 24" Dell Ultrasharp 2405FPW
- SSD
- Samsung SSD 980 PRO 1TB, Crucial MX500 500GB, Intel 600p 512GB, Intel 600p 1TB
- HDD
- Western Digital WD Red 2 & 3TB
- Optisches Laufwerk
- LG GGC-H20L
- Soundkarte
- onboard
- Gehäuse
- Thermaltake Armor
- Netzteil
- be quiet! Dark Power Pro 11 1000W
- Betriebssystem
- Windows 10 Professional, Windows 7 Professional 64 Bit, Ubuntu 20.04 LTS
- Webbrowser
- Firefox
@OBrian
Ach komm....16 GB HBM für die CPU?? Das glaube ich erst wenn ich es als fertiges Produkt sehe, zumindest im Desktop Bereich.
Mit mehr als 1-2 GB rechne ich da noch nicht einmal ansatzweise, eher weniger.
Zudem ist IPC bekanntlich nicht alles. Was bringt eine Verdoppelung der IPC wenn der Chip dann nur noch die halbe Taktfrequenz schafft? Solche Effekte konnte man ja schon beim Kaveri vs. Richland Vergleich sehen. Die IPC des Kaveris ist besser allerdings taktet er geringer, wodurch es wieder zur 0 mutiert oder der Kaveri zum Teil gar langsamer ist.
Am wichtigsten ist in meinen Augen die Steigerung der singlethread Performance und der Energieeffizienz. Von der Gesammtperformance her sind die bereits heute schnell genug um konkurrenzfähig zu sein. Die Achillesferse ist die Unterforderung durch die Software.
@Onkel_Dithmeyer
Bedeutet aber nicht das sie es für lau bekommen oder es Intel freiwillig freigibt.
Ach komm....16 GB HBM für die CPU?? Das glaube ich erst wenn ich es als fertiges Produkt sehe, zumindest im Desktop Bereich.
Mit mehr als 1-2 GB rechne ich da noch nicht einmal ansatzweise, eher weniger.
Zudem ist IPC bekanntlich nicht alles. Was bringt eine Verdoppelung der IPC wenn der Chip dann nur noch die halbe Taktfrequenz schafft? Solche Effekte konnte man ja schon beim Kaveri vs. Richland Vergleich sehen. Die IPC des Kaveris ist besser allerdings taktet er geringer, wodurch es wieder zur 0 mutiert oder der Kaveri zum Teil gar langsamer ist.
Am wichtigsten ist in meinen Augen die Steigerung der singlethread Performance und der Energieeffizienz. Von der Gesammtperformance her sind die bereits heute schnell genug um konkurrenzfähig zu sein. Die Achillesferse ist die Unterforderung durch die Software.
@Onkel_Dithmeyer
Bedeutet aber nicht das sie es für lau bekommen oder es Intel freiwillig freigibt.
Zuletzt bearbeitet:
y33H@
Admiral Special
- Mitglied seit
- 16.05.2011
- Beiträge
- 1.768
- Renomée
- 10
Gibt es eben doch. Intel liefert grob 50 Prozent mehr IPC bei Wald- und Wiesen-Code und erreicht auch 4 GHz (4790K vs FX-8370). Genau das ist ja das Problem: AMD kann die viel niedrigere IPC nicht durch Takt oder Kerne ausgleichen, außer in niedrigeren Preisklassen wie FX-63x0 vs Core i3 oder Kaveri vs Pentium.Und es gibt nicht so etwas wie "meilenweit vorne" zu sein bei der IPC. Das könnte man auch problemlos morgen machen mit 3facher IPC des Haswell Kerns. Nur wenn der eben nicht über 500 MHz takten kann deswegen, dann nützt mir die takbereinigte IPC-Vergleicherei herzlich wenig.
Opteron
Redaktion
☆☆☆☆☆☆
@Onkel_Dithmeyer
Bedeutet aber nicht das sie es für lau bekommen oder es Intel freiwillig freigibt.
Freigegeben ist alles, aber das Problem ist das, dass mans erst einmal nachbauen und ins eigene Design anpassen muss. Sieht man z.B. daran, dass AMD sogar nen Loop Puffer hat, aber halt nur auf Steinzeitniveau, da wird ein Teil des L1I-Caches genutzt und falls die Daten dort sind spart man sich die Abfrage der anderen Cachebänke, was etwas Energie spart.
Verglichen mit Sandys µOp-Cache, der den kompletten Decoder abschaltet natürlich witzlos. Falls AMD beim BD-Cluster-Design bleiben würde, könnte man aufs Energiesparen auch verzichten. Ein µOp-Cache würde in dem Fall einfach das gemeinsame Front-End entlasten und mehr Decoderresourcen für den 2. Thread frei lassen. Bei intel ist das nicht so wichtig da ein SMT-Thread noch alles andere gemeinsam benutzt und es nicht am Decodieren klemmt, aber bei nem CMT-Design könnte das dann der Flaschenhals sein.
Naja, kommt Zeit kommt Zen. Mit den ganzen Energiesparmaßnahmen und den HD-Libs könnte sich AMD vielleicht sogar nen Viel-Hilft-Viel-Ansatz leisten und einfach nen breiten Decoder verbauen.
sompe
Grand Admiral Special
- Mitglied seit
- 09.02.2009
- Beiträge
- 14.374
- Renomée
- 1.978
- Mein Laptop
- Dell G5 15 SE 5505 Eclipse Black
- Prozessor
- AMD Ryzen 9 3950X
- Mainboard
- MSI MPG X570 GAMING PRO CARBON WIFI
- Kühlung
- Wasserkühlung
- Speicher
- 4x 16 GB G.Skill Trident Z RGB, DDR4-3200, CL14
- Grafikprozessor
- AMD Radeon RX 6900 XT
- Display
- 1x 32" LG 32UD89-W + 1x 24" Dell Ultrasharp 2405FPW
- SSD
- Samsung SSD 980 PRO 1TB, Crucial MX500 500GB, Intel 600p 512GB, Intel 600p 1TB
- HDD
- Western Digital WD Red 2 & 3TB
- Optisches Laufwerk
- LG GGC-H20L
- Soundkarte
- onboard
- Gehäuse
- Thermaltake Armor
- Netzteil
- be quiet! Dark Power Pro 11 1000W
- Betriebssystem
- Windows 10 Professional, Windows 7 Professional 64 Bit, Ubuntu 20.04 LTS
- Webbrowser
- Firefox
Wenn Zen ein SMT Design wird ist das doch eh wieder hinfällig, oder?
Und muss AMD nicht für solche Technologien nicht auch etwas anbieten? Es ist schließlich ein Patenttauschabkommen. Ich habe leider kein Plan von der Thematik.
Und muss AMD nicht für solche Technologien nicht auch etwas anbieten? Es ist schließlich ein Patenttauschabkommen. Ich habe leider kein Plan von der Thematik.
BoMbY
Grand Admiral Special
- Mitglied seit
- 22.11.2001
- Beiträge
- 7.468
- Renomée
- 293
- Standort
- Aachen
- Prozessor
- Ryzen 3700X
- Mainboard
- Gigabyte X570 Aorus Elite
- Kühlung
- Noctua NH-U12A
- Speicher
- 2x16 GB, G.Skill F4-3200C14D-32GVK @ 3600 16-16-16-32-48-1T
- Grafikprozessor
- RX 5700 XTX
- Display
- Samsung CHG70, 32", 2560x1440@144Hz, FreeSync2
- SSD
- AORUS NVMe Gen4 SSD 2TB, Samsung 960 EVO 1TB, Samsung 840 EVO 1TB, Samsung 850 EVO 512GB
- Optisches Laufwerk
- Sony BD-5300S-0B (eSATA)
- Gehäuse
- Phanteks Evolv ATX
- Netzteil
- Enermax Platimax D.F. 750W
- Betriebssystem
- Windows 10
- Webbrowser
- Firefox
Also wenn sich Fudzilla das alles selbst ausdenkt, dann sind sie auf jeden Fall sehr kreativ:
http://www.fudzilla.com/news/processors/37599-32-core-opteron-supports-2p-sockets
What we can confirm is that the 32-core processor actually uses 8 cores per die on four die ona MCM (Multi Chip Module) socketed LGA design.
Each MCM module with 8 cores has two memory channels with up to 2 DIMMs per channel. The maximum TDP for the Opteron Zen 2016 series is set at the standard 140W and there will be a 120W TDP SKU, as well as lower TDP parts.
AMD also has something called Combo Links that combines 8-16 bit links (2 per die) and this link can take the form of xGMI, PCIe, SATA, SATA Express, 10Gbase-KR or SGMII. There will be boards with 1P socket configurations and 2P socket configurations for more than one LGA socketed processor.
Dual socket 2P motherboards support four AMD External Global Memory interconnect xGMI links, or one per die. The standard 2P board comes with maximum of 64 PCIe lanes per socket, 16 SATA laners, four 10GigE and four 1GigE per socket.
AMD relies on coherent interconnect for 2-socket configurations that should enable faster inter-socket communication between two CPUs.
http://www.fudzilla.com/news/processors/37599-32-core-opteron-supports-2p-sockets
Oder jemand füttert sie
Ist ja ne nette Möglichkeit zu schauen, welche Informationen über welchen Kanal laufen, wenn man viele Details reinpackt, die sich in Kleinigkeiten unterscheiden und dann schaut, wo was veröffentlicht wird.
Ist ja ne nette Möglichkeit zu schauen, welche Informationen über welchen Kanal laufen, wenn man viele Details reinpackt, die sich in Kleinigkeiten unterscheiden und dann schaut, wo was veröffentlicht wird.
ONH
Grand Admiral Special
Ein wunderbares Instrument um unliebsame Personen loszuwerden. Info gezielt verteilen intern und extern. Danach das ganze gezielt an falsche Stellen weiterleiten. Faszinierend zum zuschauen, vorallem wenn es dan schief geht.
BoMbY
Grand Admiral Special
- Mitglied seit
- 22.11.2001
- Beiträge
- 7.468
- Renomée
- 293
- Standort
- Aachen
- Prozessor
- Ryzen 3700X
- Mainboard
- Gigabyte X570 Aorus Elite
- Kühlung
- Noctua NH-U12A
- Speicher
- 2x16 GB, G.Skill F4-3200C14D-32GVK @ 3600 16-16-16-32-48-1T
- Grafikprozessor
- RX 5700 XTX
- Display
- Samsung CHG70, 32", 2560x1440@144Hz, FreeSync2
- SSD
- AORUS NVMe Gen4 SSD 2TB, Samsung 960 EVO 1TB, Samsung 840 EVO 1TB, Samsung 850 EVO 512GB
- Optisches Laufwerk
- Sony BD-5300S-0B (eSATA)
- Gehäuse
- Phanteks Evolv ATX
- Netzteil
- Enermax Platimax D.F. 750W
- Betriebssystem
- Windows 10
- Webbrowser
- Firefox
140W für 32 Kerne könnte heißen CPUs mit ~35W bei 8 Kernen, oder ~70W für 16 Kerne, oder sogar weniger. Damit könnte eine ~95W 16-Kern-Desktop-APU nicht unwahrscheinlich sein, oder?
Opteron
Redaktion
☆☆☆☆☆☆
Deswegen schrieb ich ja, dass das nur gälte WENN sie beim BD-Ansatz blieben. Wenns SMT wird, könnte man Intels Ansatz kopieren - wenn mans kann.Wenn Zen ein SMT Design wird ist das doch eh wieder hinfällig, oder?
Ich sag nur ATi ... seit AMDs Kauf von ATi darf Intel auch die ganzen GPU-Patente benutzen. Ohne die dürften sie ihre IGPs sicher nicht so einfach bauen.Und muss AMD nicht für solche Technologien nicht auch etwas anbieten? Es ist schließlich ein Patenttauschabkommen. Ich habe leider kein Plan von der Thematik.
Hm ok, also so langsam machts Sinn ... ein 8core Die mit nur 2 DDR4-Kanälen .. sowas würde dann sicher auch in den APU-Mainstream-Sockel passen.Also wenn sich Fudzilla das alles selbst ausdenkt, dann sind sie auf jeden Fall sehr kreativ:
Gut für uns - aber eher schlecht für die Serverkunden. Bin mal gespannt, was so ein zusammengebasteltes 4P-System on a chip leisten wird, v.a. wenns dann nur 1 DIMM-Kanal pro 8 Kerne gibt. Vor dem Hintergrund sind die 8MB L3 pro Quadcluster sicher nicht zu klein gewählt.
So gesehen bleibt sich AMD doch treu, keine Dickschiff-Dies, aber Dickschiff-MCMs
Der Vorteil liegt auf der Hand, mit kleineren Dies kann AMD früher als Intel vielkernige Server-CPUs im neuesten Herstellungsprozess rausbringen. Da Intel aber bekanntlich fertigungstechnisch immer etwas voraus ist, reichts ggf. zwar nur zum Gleichstand - aber immer noch besser als ein Nachteil.
Wird spannend, was das für ein Interconnect ist. Der muss es dann rausreißen. Ein verbessertes HT Assist / Directory Cache wär sicherlich auch nicht verkehrt.
Da würde mich noch interessieren, ob das alles gleichzeitig ginge, ich denke eher nicht.Dual socket 2P motherboards support four AMD External Global Memory interconnect xGMI links, or one per die. The standard 2P board comes with maximum of 64 PCIe lanes per socket, 16 SATA laners, four 10GigE and four 1GigE per socket.
Onkel_Dithmeyer
Redaktion
☆☆☆☆☆☆
- Mitglied seit
- 22.04.2008
- Beiträge
- 12.943
- Renomée
- 4.014
- Standort
- Zlavti
- Aktuelle Projekte
- Universe@home
- Lieblingsprojekt
- Universe@home
- Meine Systeme
- cd0726792825f6f563c8fc4afd8a10b9
- BOINC-Statistiken
- Prozessor
- Ryzen 9 3900X @4000 MHz//1,15V
- Mainboard
- MSI X370 XPOWER GAMING TITANIUM
- Kühlung
- Custom Wasserkühlung vom So. G34
- Speicher
- 4x8 GB @ 3000 MHz
- Grafikprozessor
- Radeon R9 Nano
- Display
- HP ZR30W & HP LP3065
- SSD
- 2 TB ADATA
- Optisches Laufwerk
- LG
- Soundkarte
- Im Headset
- Gehäuse
- Xigmatek
- Netzteil
- BeQuiet Dark Pro 9
- Tastatur
- GSkill KM570
- Maus
- GSkill MX780
- Betriebssystem
- Ubuntu 20.04
- Webbrowser
- Firefox Version 94715469
- Internetanbindung
- ▼100 Mbit ▲5 Mbit
140W für 32 Kerne könnte heißen CPUs mit ~35W bei 8 Kernen, oder ~70W für 16 Kerne, oder sogar weniger. Damit könnte eine ~95W 16-Kern-Desktop-APU nicht unwahrscheinlich sein, oder?
Naja, die 63xx-Opterons gibts mit 85 W und 16 Kernen. Trotzdem haben wir keine 8-Kerner mit <45 W. Wären aber mit 1,8 GHz wie Casi030 schreibt auch schlicht uninteressant.
Complicated
Grand Admiral Special
- Mitglied seit
- 08.10.2010
- Beiträge
- 4.949
- Renomée
- 441
- Mein Laptop
- Lenovo T15, Lenovo S540
- Prozessor
- AMD Ryzen 7 3700X
- Mainboard
- MSI X570-A PRO
- Kühlung
- Scythe Kama Angle - passiv
- Speicher
- 32 GB (4x 8 GB) G.Skill TridentZ Neo DDR4-3600 CL16-19-19-39
- Grafikprozessor
- Sapphire Radeon RX 5700 Pulse 8GB PCIe 4.0
- Display
- 27", Lenovo, 2560x1440
- SSD
- 1 TB Gigabyte AORUS M.2 PCIe 4.0 x4 NVMe 1.3
- HDD
- 2 TB WD Caviar Green EADS, NAS QNAP
- Optisches Laufwerk
- Samsung SH-223L
- Gehäuse
- Lian Li PC-B25BF
- Netzteil
- Corsair RM550X ATX Modular (80+Gold) 550 Watt
- Betriebssystem
- Win 10 Pro.
Eine durchschnittlich 50% höhere IPC als Steamroller wäre vielleicht auf dem Niveau von Sandy Bridge. Das ist auch das, was ich von AMD erwarte, schließlich ist Sandy älter als Bulldozer. Dass AMD in dieser Hinsicht komplett zu Intel (Skylake) aufschließen kann, ist gar nicht realistisch, aber Sandy Bridge-IPC und -Taktraten sollten schon drin sein. Mit 8 Kernen/ 16 Threads und max 125W wäre das ein sehr netter Prozessor.
Soso...also bringt die SSE 4.1 Erweiterung oder AVX für Bulldozer keinen IPC-Sprung? z.B. hier:Um an die Single Thread-Geschwindigkeit eines Sandy Bridge Prozessors zu kommen, müsste AMD wohl den µ-Op-Cache sowie die Erkennung von Schleifen einbauen, um kurze Schleifen aus dem µ-Op-Cache allein unter weitgehender Abschaltung der Dekodiereinheiten von x86 auf µ-Code abwickeln zu können. Diese Feature gibt Sandy Bridge laut c't die IPC und erlaubt aufgrund der Energieeinsparungen den recht hohen Takt. Diese Technologie wird vermutlich patentgeschützt sein und für AMD damit nicht zugänglich.
http://www.extremetech.com/computing/100583-analyzing-bulldozers-scaling-single-thread-performance/4
Was tust mit HSA Workloads wo Intel hoffnungslos hinterher ist? Reden wir dort nciht von IPC? Wo dürfen wir denn von IPC reden und was ist dann IPC die nichts zählt? Ich sehe einfach nicht diese Notwendigkeit Hardware auf Cinebench zu designen, während die Software-Biotope, gerade durch AMD angestossen, mit HSA, Mantle, Viulkan, DX12 diese "IPC-Werte" gravierend verändern werden, selbst nachträglich für bestehende Produkte. Wieso sollte jetzt, wo all die mühevolle Arbeit aus der Theorie langsam in die Praxis kommt, AMD anfangen für Cinebench zu optimieren?
Weil der Großteil der x86/AMD64 Software immer noch wie Cinebench (Single-Threaded) arbeitet. So einfach ist das.Wieso sollte jetzt, wo all die mühevolle Arbeit aus der Theorie langsam in die Praxis kommt, AMD anfangen für Cinebench zu optimieren?
Soso...also bringt die SSE 4.1 Erweiterung oder AVX für Bulldozer keinen IPC-Sprung? z.B. hier:
http://www.extremetech.com/computing/100583-analyzing-bulldozers-scaling-single-thread-performance/4
Was tust mit HSA Workloads wo Intel hoffnungslos hinterher ist? Reden wir dort nciht von IPC? Wo dürfen wir denn von IPC reden und was ist dann IPC die nichts zählt? Ich sehe einfach nicht diese Notwendigkeit Hardware auf Cinebench zu designen, während die Software-Biotope, gerade durch AMD angestossen, mit HSA, Mantle, Viulkan, DX12 diese "IPC-Werte" gravierend verändern werden, selbst nachträglich für bestehende Produkte. Wieso sollte jetzt, wo all die mühevolle Arbeit aus der Theorie langsam in die Praxis kommt, AMD anfangen für Cinebench zu optimieren?
Es war ganz einfach die reine IPC der CPU-Kerne bei diversen Integer- und FP-Sachen gemeint. Die steigt durch Mantle und co übrigens nicht direkt an. Und natürlich verbessern neue Instruktionssätze wie AVX die IPC, aber eben nicht bei "Wald und Wiesen"-Code. Und genau dort braucht AMD einfach mehr Leistung/Takt.
Complicated
Grand Admiral Special
- Mitglied seit
- 08.10.2010
- Beiträge
- 4.949
- Renomée
- 441
- Mein Laptop
- Lenovo T15, Lenovo S540
- Prozessor
- AMD Ryzen 7 3700X
- Mainboard
- MSI X570-A PRO
- Kühlung
- Scythe Kama Angle - passiv
- Speicher
- 32 GB (4x 8 GB) G.Skill TridentZ Neo DDR4-3600 CL16-19-19-39
- Grafikprozessor
- Sapphire Radeon RX 5700 Pulse 8GB PCIe 4.0
- Display
- 27", Lenovo, 2560x1440
- SSD
- 1 TB Gigabyte AORUS M.2 PCIe 4.0 x4 NVMe 1.3
- HDD
- 2 TB WD Caviar Green EADS, NAS QNAP
- Optisches Laufwerk
- Samsung SH-223L
- Gehäuse
- Lian Li PC-B25BF
- Netzteil
- Corsair RM550X ATX Modular (80+Gold) 550 Watt
- Betriebssystem
- Win 10 Pro.
Was ist den die "reine" IPC bei "diversen" Integer und FP-Sachen. Sorry doch das ist doch Humbug. Wer verbesert Hardware auf alten und überholten Code? Für Cinbebench wo Intel dann bessere SSE-Pfade nutzen darf als AMD? Was ist der Nutzen wenn plötzlich ander APIs wie Mantle das ganze als anderen Flaschenhals enthüllen?
Schaut man sich SPEC Benchmarks an, sind die Werte der Steamroller nicht so weit hinterher.
Leistung/Takt ist irrelevant. Es zählt nur die Leistung/Watt und in speziellen Fällen die Maximale Leistung. Wer höher takten kann weil er IPC opfert und dabei weniger Strom verbraucht, der hat alle richtig gemacht. Wenn nicht, dann eben nicht. Es ist alle eine Frage der Latenz und Cache-Anbindung, sowie der Anforderungen an Koheränte Speicher und deren Anbindung.
Schaut man sich SPEC Benchmarks an, sind die Werte der Steamroller nicht so weit hinterher.
Leistung/Takt ist irrelevant. Es zählt nur die Leistung/Watt und in speziellen Fällen die Maximale Leistung. Wer höher takten kann weil er IPC opfert und dabei weniger Strom verbraucht, der hat alle richtig gemacht. Wenn nicht, dann eben nicht. Es ist alle eine Frage der Latenz und Cache-Anbindung, sowie der Anforderungen an Koheränte Speicher und deren Anbindung.
Es geht nicht darum, Hardware für "überholten" Code zu designen, sondern darum, dass die Kerne einfach eine höhere Grundperformance liefern. Leider sind reale Anwendungen nicht perfekt optimiert und ziehen auch noch keinen Großen nutzen aus HSA. Zumal man mit Mantle und co Dinge wie Rendering (ich meine keine Spiele) auch nicht wirklich beschleunigen kann. Und natürlich ist Leistung/Takt relevant, weil man seine Kerne nicht endlos hoch takten kann und einfach eine hohe grundsätzliche Performance benötigt. Zwar braucht eine hohe IPC mehr Strom, aber für Takt gilt das sogar noch mehr, weil die Stromaufnahme im Quadrat zu Spannung und Takt steigt. Intel fährt sehr gut mit seinen starken Kernen. Sonst könnte man auch einfach Jaguar/Puma weiterbenutzen und gut is'.
OBrian
Moderation MBDB, ,
- Mitglied seit
- 16.10.2000
- Beiträge
- 17.032
- Renomée
- 267
- Standort
- NRW
- Prozessor
- Phenom II X4 940 BE, C2-Stepping (undervolted)
- Mainboard
- Gigabyte GA-MA69G-S3H (BIOS F7)
- Kühlung
- Noctua NH-U12F
- Speicher
- 4 GB DDR2-800 ADATA/OCZ
- Grafikprozessor
- Radeon HD 5850
- Display
- NEC MultiSync 24WMGX³
- SSD
- Samsung 840 Evo 256 GB
- HDD
- WD Caviar Green 2 TB (WD20EARX)
- Optisches Laufwerk
- Samsung SH-S183L
- Soundkarte
- Creative X-Fi EM mit YouP-PAX-Treibern, Headset: Sennheiser PC350
- Gehäuse
- Coolermaster Stacker, 120mm-Lüfter ersetzt durch Scythe S-Flex, zusätzliche Staubfilter
- Netzteil
- BeQuiet 500W PCGH-Edition
- Betriebssystem
- Windows 7 x64
- Webbrowser
- Firefox
- Verschiedenes
- Tastatur: Zowie Celeritas Caseking-Mod (weiße Tasten)
Liste mal die Spiele auf, die SSE 4.1 oder AVX nutzen. Dürfte relativ kurz sein. Und dann liste mal die Spiele auf, die mit mehr als vier Kernen noch skalieren. Gibt es auch wenig, denn üblicherweise kann der Workload nicht wie bei Videoencoding o.ä. in fast beliebig viele gleichgroße Teile geteilt werden, sondern es gibt letztlich einen Thread, der einen Kern voll auslastet, und das Dutzend andere Threads verteilt sich auf die anderen Kerne, wo dann egal ist, ob 2 oder 3 auf einem Kern sind, weil der Kern eh noch nicht voll ausgelastet ist. D.h. der eine fette Thread limitiert. Da nützen dann keine 12 weiteren SMT-fähigen Kerne was, sondern der Core #0 muß schneller arbeiten, entweder durch mehr Takt oder durch mehr IPC oder beides.
D.h. es muß erstmal ein Kern her, der mit altem Code richtig gut performt. Wenn man das hat, kann man an AVX, SMT und so weiter denken. Klar, man könnte auch darauf warten, daß die Softwarelandschaft die Hardware ausnutzt. Nur passiert das so langsam, daß man bis dahin pleite ist. Wir haben JETZT Spieleengines, die 4-Kerner erfordern und auf Zweikernern zu viel verlieren. Aber Quadcores gibt es jetzt schon über acht Jahre, und einen Q6600 hat heute keiner mehr.
D.h. es muß erstmal ein Kern her, der mit altem Code richtig gut performt. Wenn man das hat, kann man an AVX, SMT und so weiter denken. Klar, man könnte auch darauf warten, daß die Softwarelandschaft die Hardware ausnutzt. Nur passiert das so langsam, daß man bis dahin pleite ist. Wir haben JETZT Spieleengines, die 4-Kerner erfordern und auf Zweikernern zu viel verlieren. Aber Quadcores gibt es jetzt schon über acht Jahre, und einen Q6600 hat heute keiner mehr.
gruffi
Grand Admiral Special
- Mitglied seit
- 08.03.2008
- Beiträge
- 5.393
- Renomée
- 65
- Standort
- vorhanden
- Prozessor
- AMD Ryzen 5 1600
- Mainboard
- MSI B350M PRO-VDH
- Kühlung
- Wraith Spire
- Speicher
- 2x 8 GB DDR4-2400 CL16
- Grafikprozessor
- XFX Radeon R7 260X
- Display
- LG W2361
- SSD
- Crucial CT250BX100SSD1
- HDD
- Toshiba DT01ACA200
- Optisches Laufwerk
- LG Blu-Ray-Brenner BH16NS40
- Soundkarte
- Realtek HD Audio
- Gehäuse
- Sharkoon MA-I1000
- Netzteil
- be quiet! Pure Power 9 350W
- Betriebssystem
- Windows 10 Professional 64-bit
- Webbrowser
- Mozilla Firefox
- Verschiedenes
- https://valid.x86.fr/mb4f0j
Normalerweise nicht. Ganz im Gegenteil, sie können die IPC oft sogar verringern. Neue Befehlssätze verbessern vielmehr IOPS und FLOPS oder verringern den Instruktionsaufwand. Deshalb sollte man auch immer vorsichtig sein, einfach zu behaupten, CPU A hat mehr IPC als CPU B, nur weil in einer bestimmten Anwendungen CPU A entsprechend schneller ist. Diese IPC Rechnung funktioniert eben nur, wenn beide CPUs den exakt gleichen Code verarbeiten.Und natürlich verbessern neue Instruktionssätze wie AVX die IPC
Einen Loop Detector gibt's bei AMD seit Steamroller / Jaguar. Der alleine reicht aber nicht, um 30-40% IPC gutzumachen. Da braucht es schon grundlegende Änderungen an der Pipeline.Um an die Single Thread-Geschwindigkeit eines Sandy Bridge Prozessors zu kommen, müsste AMD wohl den µ-Op-Cache sowie die Erkennung von Schleifen einbauen, um kurze Schleifen aus dem µ-Op-Cache allein unter weitgehender Abschaltung der Dekodiereinheiten von x86 auf µ-Code abwickeln zu können.
Sagt wer? Das halte ich ehrlich gesagt für ein Gerücht. Ich glaube nicht, dass Intel irgendwelche GPU Patente von AMD nutzen kann. Intel hat sicherlich nicht grundlos ein Patentabkommen mit Nvidia.Ich sag nur ATi ... seit AMDs Kauf von ATi darf Intel auch die ganzen GPU-Patente benutzen.
Zuletzt bearbeitet:
Normalerweise nicht. Ganz im Gegenteil, sie können die IPC oft sogar verringern. Neue Befehlssätze verbessern vielmehr IOPS und FLOPS oder verringern den Instruktionsaufwand. Deshalb sollte man auch immer vorsichtig sein, einfach zu behaupten, CPU A hat mehr IPC als CPU B, nur weil in einer bestimmten Anwendungen CPU A entsprechend schneller ist. Diese IPC Rechnung funktioniert eben nur, wenn beide CPUs den exakt gleichen Code verarbeiten.
Ich meinte eher, dass es "die IPC" an sich ja gar nicht gibt und man immer spezielle Fälle berücksichtigen muss. Für Anwendungen, die AVX nutzen, wird die Anzahl der Instruktionen pro Takt eben erhöht, deswegen "höhere IPC".
y33H@
Admiral Special
- Mitglied seit
- 16.05.2011
- Beiträge
- 1.768
- Renomée
- 10
Und da hat sich im letzten Jahrzehnt bis auf wenige Ausnahmen gezeigt, dass eine hohe Leistung/Takt für die Effizienz wichtig ist. Intel hat Netburst vom Markt genommen, AMD ist mit Bulldozer auf die Nase gefallen und IBM hat erkannt, dass der Power7 nicht der Bringer war.Es zählt nur die Leistung/Watt [...]
AVX haste AFAIK nur bei Codemasters' Titeln wie Dirt Showdown und Race Driver Grid 2.Liste mal die Spiele auf, die SSE 4.1 oder AVX nutzen.
Mittlerweile klappt das recht gut - spricht mindestens mal 15 bis 20 Prozent Plus, zB Cryengine (Ryse & Crysis 3), Frostbite (Battlefield 4 und Dragon Age Inquisition) und RAGE (GTA 5).Und dann liste mal die Spiele auf, die mit mehr als vier Kernen noch skalieren.
gruffi
Grand Admiral Special
- Mitglied seit
- 08.03.2008
- Beiträge
- 5.393
- Renomée
- 65
- Standort
- vorhanden
- Prozessor
- AMD Ryzen 5 1600
- Mainboard
- MSI B350M PRO-VDH
- Kühlung
- Wraith Spire
- Speicher
- 2x 8 GB DDR4-2400 CL16
- Grafikprozessor
- XFX Radeon R7 260X
- Display
- LG W2361
- SSD
- Crucial CT250BX100SSD1
- HDD
- Toshiba DT01ACA200
- Optisches Laufwerk
- LG Blu-Ray-Brenner BH16NS40
- Soundkarte
- Realtek HD Audio
- Gehäuse
- Sharkoon MA-I1000
- Netzteil
- be quiet! Pure Power 9 350W
- Betriebssystem
- Windows 10 Professional 64-bit
- Webbrowser
- Mozilla Firefox
- Verschiedenes
- https://valid.x86.fr/mb4f0j
Nochmal, die Anzahl der Instruktionen wird auch mit AVX(2) nicht erhöht. Die Anzahl der Operationen kann sich erhöhen, speziell eben bei SIMD/MIMD Erweiterungen.Für Anwendungen, die AVX nutzen, wird die Anzahl der Instruktionen pro Takt eben erhöht, deswegen "höhere IPC".
Zur Veranschaulichung etwas Assemblercode:
Code:
; legacy
add rax, rbx
; avx2
vpaddq ymm0, ymm1
Es macht keinen Unterschied, ob Legacy oder AVX2 Code. In beiden Fällen muss die Pipeline eine Instruktion dekodieren und ausführen. Während bei der Legacy Instruktion aber nur eine 64-bit Operation ausgeführt wird, sind es bei der AVX2 Instruktion 4 parallele 64-bit Operationen.
Das schaut dann als Pseudocode wie folgt aus:
Code:
; legacy
rax = rax + rbx
; avx2
ymm0[63:0] = ymm0[63:0] + ymm1[63:0]
ymm0[127:64] = ymm0[127:64] + ymm1[127:64]
ymm0[191:128] = ymm0[191:128] + ymm1[191:128]
ymm0[255:192] = ymm0[255:192] + ymm1[255:192]
Haswell hat 4 ALUs für Legacy Instruktionen, kann also bis zu 4 davon in einem Takt ausführen. Für AVX2 Instruktionen sind hingegen nur 2 Einheiten vorhanden. Unterm Strich bedeutet das, die IPC sinkt um 50% (2 statt 4 Instruktionen pro Takt), die IOPS hingegen steigen um 100% (8 statt 4 64-bit Operationen pro Takt).
Es ist schon lustig, dass gerade Cinebench für die CPU-Tests herangezogen wird, weil es eben die Rendersysteme sind, die derzeit massiv auf GPUs setzen und von HSA massiv profitieren könnten. (Momentan ist allerdings Nvidia in dieser Disziplin führend). Man schaue sich nur OTOYs Octane, Vray RT, Luxrender, Cycles an.
Eigentlich gibt es doch kaum noch wichtige Anwendungen im Desktop-Bereich abseits von DX11- und OpenGL-Spielen, die sich nicht parallelisieren lassen und gleichzeitig wirklich fordernd für die CPU sind. (Bitte nennt mir Beispiele aus dem Alltag, ich möchte dazulernen!)
Eigentlich gibt es doch kaum noch wichtige Anwendungen im Desktop-Bereich abseits von DX11- und OpenGL-Spielen, die sich nicht parallelisieren lassen und gleichzeitig wirklich fordernd für die CPU sind. (Bitte nennt mir Beispiele aus dem Alltag, ich möchte dazulernen!)
Zuletzt bearbeitet:
WindHund
Grand Admiral Special
- Mitglied seit
- 30.01.2008
- Beiträge
- 12.225
- Renomée
- 536
- Standort
- Im wilden Süden (0711)
- Mitglied der Planet 3DNow! Kavallerie!
- Aktuelle Projekte
- NumberFields@home
- Lieblingsprojekt
- none, try all
- Meine Systeme
- RYZEN R9 3900XT @ ASRock Taichi X570 & ASUS RX Vega64
- BOINC-Statistiken
- Prozessor
- AMD Ryzen 9 5950X
- Mainboard
- ASRock 570X Taichi P5.05 Certified
- Kühlung
- AlphaCool Eisblock XPX, 366x40mm Radiator 6l Brutto m³
- Speicher
- 2x 16 GiB DDR4-3600 CL26 Kingston (Dual Rank, unbuffered ECC)
- Grafikprozessor
- 1x ASRock Radeon RX 6950XT Formula OC 16GByte GDDR6 VRAM
- Display
- SAMSUNG Neo QLED QN92BA 43" up to 4K@144Hz FreeSync PP HDR10+
- SSD
- WD_Black SN850 PCI-Express 4.0 NVME
- HDD
- 3 Stück
- Optisches Laufwerk
- 1x HL-DT-ST BD-RE BH10LS30 SATA2
- Soundkarte
- HD Audio (onboard)
- Gehäuse
- SF-2000 Big Tower
- Netzteil
- Corsair RM1000X (80+ Gold)
- Tastatur
- Habe ich
- Maus
- Han I
- Betriebssystem
- Windows 10 x64 Professional (up to date!)
- Webbrowser
- @Chrome.Google & Edge Chrome
@isigrim
Packen, entpacken, verschlüsseln, entschlüsseln, Foto+Video Bearbeitung es gibt für jeden, den richtigen Algorithmus.
DX12 spricht von 6 Kernen, auch wenn die Anwendung nur ein Super Thread braucht...
Packen, entpacken, verschlüsseln, entschlüsseln, Foto+Video Bearbeitung es gibt für jeden, den richtigen Algorithmus.
DX12 spricht von 6 Kernen, auch wenn die Anwendung nur ein Super Thread braucht...
Ähnliche Themen
- Antworten
- 95
- Aufrufe
- 9K
- Antworten
- 14
- Aufrufe
- 947
- Antworten
- 102
- Aufrufe
- 11K
- Antworten
- 3
- Aufrufe
- 2K