App installieren
How to install the app on iOS
Follow along with the video below to see how to install our site as a web app on your home screen.
Anmerkung: This feature may not be available in some browsers.
Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden.
Du solltest ein Upgrade durchführen oder ein alternativer Browser verwenden.
Du solltest ein Upgrade durchführen oder ein alternativer Browser verwenden.
AMD RDNA 4 - 144CU, 48GB VRAM, 3nm + 4nm
- Ersteller vinacis_vivids
- Erstellt am
E555user
Admiral Special
- Mitglied seit
- 05.10.2015
- Beiträge
- 1.965
- Renomée
- 804
...meinst Du damit: eine theoretisch mögliche aber eingestampfte N41 Konfiguration oder doch etwas anderes?Ich habs rausgefunden: RDNA4 - 144CU - 128MB IF$ - 512bit SI - 32GB GDDR7 VRAM
vinacis_vivids
Admiral Special
★ Themenstarter ★
- Mitglied seit
- 12.01.2004
- Beiträge
- 1.120
- Renomée
- 148
- Prozessor
- AMD Ryzen 9 7950X 16C/32T
- Mainboard
- ASUS ProArt X670E-CREATOR WIFI
- Kühlung
- Arctic Liquid Freezer II 360 RGB
- Speicher
- HyperX Fury 64GB DDR5 6000Mhz CL30
- Grafikprozessor
- Sapphire Nitro+ RX 7900 XTX 24GB
- Display
- LG 5K HDR 10bit 5120x2160@60hz
- SSD
- Samsung SSD 980Pro 2TB
- Soundkarte
- Creative Soundblaster ZXR
- Gehäuse
- Cougar DarkBlader X5
- Netzteil
- InterTech Sama Forza 1200W
- Tastatur
- Cherry MX-10.0 RGB Mechanisch
- Maus
- Razer Mamba
- Betriebssystem
- Windows 11 Education Pro
- Webbrowser
- Google Chrome
- Internetanbindung
- ▼1000 Mbit
Eine technische Antwort für die kommende Mittelklasse unter Blackwell 5090 170SM. Was vorher unter RTG nicht möglich war, ist anno 2025 / 2026 wohl doch möglich.
Wenn ich den Takt konservativer auf 2,85 Ghz Shader und 3,088 Ghz CP Takt rechne, dann kommen wir auf ~ 113 Tflop/s bzw. 105 TFlop/s fp32 für die OEM Modelle. Die golden samples RX 8900 XTX 32GB machen dann 3,25Ghz Shader und 3,66Ghz CP Takt für 135 Tflop/s bzw. 119 Tflop/s fp32.
N41 in 4nm sieht für mich machbar aus. Einerseits weil 3nm reserviert sind und 4nm sehr günstig. Daher ergibt es Sinn eine größere GCD zu bauen und den IF$ reichlich dranzuklatschen. Der 12pin Stecker für max. ~600W Leistung vom Netzteil will auch genutzt werden.
Von 464W 7900XTX auf 600W 8900XTX ist auch nicht mehr so viel. +29-30% Leistungsaufnahme der Grafikkarte mit PCIe 5.0 und 12pin NT Stecker.
Ich habe das N41 Monster mal theoretisch hergeleitet und komme bei TSMC 4n auf N41 TBP 578W 144CU.
Shader CLK ~ 3167 Mhz
CP CLK ~ 3431 Mhz
1.100 V Core Vid
~ 126,5 Tflop/s CP fp32
~ 116,75 Tflop/s fp32 shader
Das breitere SI (512bit zu 384bit) hebt den Nachteil der kleinen Skalierung des IF$ auf. 144CU / 128MB IF$ sind ja pro CU nur noch 0,88MB IF$ pro CU. Bei N31 sind es ja 1MB IF$ pro CU. Bei N21XL 60CU / 128MB = 2,133 MB IF$ pro CU! (LOL)
Mit einem 3D IF$ sind 256MB IF$ möglich bei 144CU, was wiederum 144CU / 256MB IF$ entspricht = 1,77MB IF$ pro CU bei RX 8900 X3D. Da könnte man mit dem Takt runtergehen und massiv Energie sparen. Oder Takt oben halten und dafür mehr Schlagkraft pro CU mitnehmen.
Insofern ist das MCM Konzept schon geil, auch für RDNA4 4nm GCD. Radeon RX 8900 XTX 144CU / 128MB und Radeon RX 8900 X3D 144CU / 256MB halte ich 2026 für möglich.
Blackwell 3nm 170SM steht vor der Tür. Da muss AMD was in der Schublade haben um den oberen Markt von 999USD bis 1499USD was abzugreifen. Da passt 4nm 390-410mm^2 GCD mit RT und KI Zeugs perfekt ins Beute schema.
N48 4nm 64CU wird natürlich zuerst ausgeliefert 2025. 2025 also das Ende von RDNA2. 2026 dürfte RDNA3 dann komplett vom Markt verschwinden.
Letztes Schmakerl für heute: hypothetische "N41"
als N31XTX Dual Konfiguration 608.70mm² Dual-GCD.
192CU / 192MB IF$ / 768bit SI / 48GB VRAM / 1,92 TB/s
Wenn ich den Takt konservativer auf 2,85 Ghz Shader und 3,088 Ghz CP Takt rechne, dann kommen wir auf ~ 113 Tflop/s bzw. 105 TFlop/s fp32 für die OEM Modelle. Die golden samples RX 8900 XTX 32GB machen dann 3,25Ghz Shader und 3,66Ghz CP Takt für 135 Tflop/s bzw. 119 Tflop/s fp32.
N41 in 4nm sieht für mich machbar aus. Einerseits weil 3nm reserviert sind und 4nm sehr günstig. Daher ergibt es Sinn eine größere GCD zu bauen und den IF$ reichlich dranzuklatschen. Der 12pin Stecker für max. ~600W Leistung vom Netzteil will auch genutzt werden.
Von 464W 7900XTX auf 600W 8900XTX ist auch nicht mehr so viel. +29-30% Leistungsaufnahme der Grafikkarte mit PCIe 5.0 und 12pin NT Stecker.
Ich habe das N41 Monster mal theoretisch hergeleitet und komme bei TSMC 4n auf N41 TBP 578W 144CU.
Shader CLK ~ 3167 Mhz
CP CLK ~ 3431 Mhz
1.100 V Core Vid
~ 126,5 Tflop/s CP fp32
~ 116,75 Tflop/s fp32 shader
Das breitere SI (512bit zu 384bit) hebt den Nachteil der kleinen Skalierung des IF$ auf. 144CU / 128MB IF$ sind ja pro CU nur noch 0,88MB IF$ pro CU. Bei N31 sind es ja 1MB IF$ pro CU. Bei N21XL 60CU / 128MB = 2,133 MB IF$ pro CU! (LOL)
Mit einem 3D IF$ sind 256MB IF$ möglich bei 144CU, was wiederum 144CU / 256MB IF$ entspricht = 1,77MB IF$ pro CU bei RX 8900 X3D. Da könnte man mit dem Takt runtergehen und massiv Energie sparen. Oder Takt oben halten und dafür mehr Schlagkraft pro CU mitnehmen.
Insofern ist das MCM Konzept schon geil, auch für RDNA4 4nm GCD. Radeon RX 8900 XTX 144CU / 128MB und Radeon RX 8900 X3D 144CU / 256MB halte ich 2026 für möglich.
Blackwell 3nm 170SM steht vor der Tür. Da muss AMD was in der Schublade haben um den oberen Markt von 999USD bis 1499USD was abzugreifen. Da passt 4nm 390-410mm^2 GCD mit RT und KI Zeugs perfekt ins Beute schema.
N48 4nm 64CU wird natürlich zuerst ausgeliefert 2025. 2025 also das Ende von RDNA2. 2026 dürfte RDNA3 dann komplett vom Markt verschwinden.
Letztes Schmakerl für heute: hypothetische "N41"
192CU / 192MB IF$ / 768bit SI / 48GB VRAM / 1,92 TB/s
Zuletzt bearbeitet:
Complicated
Grand Admiral Special
- Mitglied seit
- 08.10.2010
- Beiträge
- 4.984
- Renomée
- 461
- Mein Laptop
- Lenovo T15, Lenovo S540
- Prozessor
- AMD Ryzen 7 3700X
- Mainboard
- MSI X570-A PRO
- Kühlung
- Scythe Kama Angle - passiv
- Speicher
- 32 GB (4x 8 GB) G.Skill TridentZ Neo DDR4-3600 CL16-19-19-39
- Grafikprozessor
- Sapphire Radeon RX 5700 Pulse 8GB PCIe 4.0
- Display
- 27", Lenovo, 2560x1440
- SSD
- 1 TB Gigabyte AORUS M.2 PCIe 4.0 x4 NVMe 1.3
- HDD
- 2 TB WD Caviar Green EADS, NAS QNAP
- Optisches Laufwerk
- Samsung SH-223L
- Gehäuse
- Lian Li PC-B25BF
- Netzteil
- Corsair RM550X ATX Modular (80+Gold) 550 Watt
- Betriebssystem
- Win 10 Pro.
Was denn für ein Schmankerl? Ist das hier ein Fantasy-Forum?
E555user
Admiral Special
- Mitglied seit
- 05.10.2015
- Beiträge
- 1.965
- Renomée
- 804
Naja, ich denke schon dass auch AMD sich für N31 und N41 eine Strategie, die auf dem Papier aufgeht, zurecht gelegt hat.
Am Ende hat es aber mit N31 in der Praxis nicht so funktioniert wie erhofft. Wenn danach AMD sehr deutlich andeutet man wolle erst mal nur die Mittelklasse und den Massenmarkt bedienen (und Personal in dem Bereich entlässt), dann wird das halo Produkt sehr wahrscheinlich in der Schublade bleiben. AMD hat bisher nicht öffentlich gemacht wo genau N31 hinter den Erwartungen zurücklag. Als dGPU günstiger und in Teilen besser als eine 4080 zu sein hat nicht genügt. Solange man mit RDNA4 für RT nicht einen "Doppelwumms" liefern kann ist die Marketingschlacht für teure SKUs ohnehin kaum zu gewinnen.
Am Ende hat es aber mit N31 in der Praxis nicht so funktioniert wie erhofft. Wenn danach AMD sehr deutlich andeutet man wolle erst mal nur die Mittelklasse und den Massenmarkt bedienen (und Personal in dem Bereich entlässt), dann wird das halo Produkt sehr wahrscheinlich in der Schublade bleiben. AMD hat bisher nicht öffentlich gemacht wo genau N31 hinter den Erwartungen zurücklag. Als dGPU günstiger und in Teilen besser als eine 4080 zu sein hat nicht genügt. Solange man mit RDNA4 für RT nicht einen "Doppelwumms" liefern kann ist die Marketingschlacht für teure SKUs ohnehin kaum zu gewinnen.
sompe
Grand Admiral Special
- Mitglied seit
- 09.02.2009
- Beiträge
- 15.169
- Renomée
- 2.290
- Mein Laptop
- Dell G5 15 SE 5505 Eclipse Black
- Prozessor
- AMD Ryzen 9 3950X
- Mainboard
- MSI MPG X570 GAMING PRO CARBON WIFI
- Kühlung
- Wasserkühlung
- Speicher
- 4x 16 GB G.Skill Trident Z RGB, DDR4-3200, CL14
- Grafikprozessor
- AMD Radeon RX 6900 XT
- Display
- 1x 32" LG 32UD89-W + 1x 24" Dell Ultrasharp 2405FPW
- SSD
- Samsung SSD 980 PRO 1TB, Crucial MX500 500GB, Intel 600p 512GB, Intel 600p 1TB
- HDD
- Western Digital WD Red 2 & 3TB
- Optisches Laufwerk
- LG GGC-H20L
- Soundkarte
- onboard
- Gehäuse
- Thermaltake Armor
- Netzteil
- be quiet! Dark Power Pro 11 1000W
- Betriebssystem
- Windows 10 Professional, Windows 7 Professional 64 Bit, Ubuntu 20.04 LTS
- Webbrowser
- Firefox
Der Infinity Cache ist kein direkter Cache für die Shader, die haben dafür ihren eigenen Cache.Das breitere SI (512bit zu 384bit) hebt den Nachteil der kleinen Skalierung des IF$ auf. 144CU / 128MB IF$ sind ja pro CU nur noch 0,88MB IF$ pro CU
Der soll lediglich das Speicherinterface entlasten und muss dafür nicht groß sondern vor allem breit angebunden sein wenn sie sich ihre Kopie der Bearbeitungsdaten in ihren lokalen Cache holen bzw. ihren berechneten Teil des Gesammtbildes wieder abliefern. Dadurch wird das Bild nicht größer sondern "nur" schneller fertig und benötigt dafür mehr Bandbreite.
vinacis_vivids
Admiral Special
★ Themenstarter ★
- Mitglied seit
- 12.01.2004
- Beiträge
- 1.120
- Renomée
- 148
- Prozessor
- AMD Ryzen 9 7950X 16C/32T
- Mainboard
- ASUS ProArt X670E-CREATOR WIFI
- Kühlung
- Arctic Liquid Freezer II 360 RGB
- Speicher
- HyperX Fury 64GB DDR5 6000Mhz CL30
- Grafikprozessor
- Sapphire Nitro+ RX 7900 XTX 24GB
- Display
- LG 5K HDR 10bit 5120x2160@60hz
- SSD
- Samsung SSD 980Pro 2TB
- Soundkarte
- Creative Soundblaster ZXR
- Gehäuse
- Cougar DarkBlader X5
- Netzteil
- InterTech Sama Forza 1200W
- Tastatur
- Cherry MX-10.0 RGB Mechanisch
- Maus
- Razer Mamba
- Betriebssystem
- Windows 11 Education Pro
- Webbrowser
- Google Chrome
- Internetanbindung
- ▼1000 Mbit
Deshalb ist die RX6800 16GB auch so effizient, trotz der relativ niedrigen fp32 Leistung von ~16,17 Tflop/s fp32.
Bei Frame Generation ist IF$ absoluter King:
RX 6800 16GB ~ 16,17 Tflops fp32 ~ 56-61fps
RTX4070Ti 16GB ~ 40,09 Tflops fp32 ~ 53-65fps
Oder hier: STALKER 8K Resolution.
Man sieht hier, dass RDNA3 eine klassische Monster Compute-Raster uArch. Ada hat sich in Raster zurückentwickelt und dafür viel in RT / KI zugelegt.
STALKER classic 8K:
RX 7900 XTX: ~62fps (141%)
RX 7900 XT: ~51fps
RTX 3080Ti: ~46fps
RTX 4090 : ~44fps (100%)
RX 7900 GRE: ~43fps
RTX 4090 @ 2,8Ghz: ~ 91,7 Tflop/s fp16
RX 7900 GRE @ 2,45Ghz : ~ 91,9 Tflop/s fp16
RDNA4 64CU wird womöglich nur die Raster Leistung der 7900GRE erreichen.
Die Lage sieht so aus beim klassischem Raster UHD:
RTX4080 45 Tflop/s fp32 = RX 7900 GRE 48 Tflop/s fp32 = 178-179 fps
Bei Frame Generation ist IF$ absoluter King:
RX 6800 16GB ~ 16,17 Tflops fp32 ~ 56-61fps
RTX4070Ti 16GB ~ 40,09 Tflops fp32 ~ 53-65fps
Oder hier: STALKER 8K Resolution.
Man sieht hier, dass RDNA3 eine klassische Monster Compute-Raster uArch. Ada hat sich in Raster zurückentwickelt und dafür viel in RT / KI zugelegt.
STALKER classic 8K:
RX 7900 XTX: ~62fps (141%)
RX 7900 XT: ~51fps
RTX 3080Ti: ~46fps
RTX 4090 : ~44fps (100%)
RX 7900 GRE: ~43fps
RTX 4090 @ 2,8Ghz: ~ 91,7 Tflop/s fp16
RX 7900 GRE @ 2,45Ghz : ~ 91,9 Tflop/s fp16
RDNA4 64CU wird womöglich nur die Raster Leistung der 7900GRE erreichen.
Die Lage sieht so aus beim klassischem Raster UHD:
RTX4080 45 Tflop/s fp32 = RX 7900 GRE 48 Tflop/s fp32 = 178-179 fps
E555user
Admiral Special
- Mitglied seit
- 05.10.2015
- Beiträge
- 1.965
- Renomée
- 804
Ich kann mir nur wiederholen.
Damit der IF Cache AMD wirklich kritiklos weiterhelfen kann müssen die üblichen Rendertargets für die Zwischenberechnumgen in einem Frame reinpassen. Das muss schon bei generischem Shadercode ohne Optimierung möglich sein und natürlich auch für FG parallel zum Aufbau des Folgebildes. Der Bedarf richtet sich somit nicht vornehmlich nach Anzahl der CUs sondern vor allem nach der Auflösung und Komplexität je Pixel bzw Tiles.
Ich denke noch immer 192MB wäre für 4K ideal.
Ist der IF zu klein muss man über optimiertes Scheduling die Last auf SE geschickt verteilen und wichtige Cache Lines sichern und geplant freigeben.
Damit der IF Cache AMD wirklich kritiklos weiterhelfen kann müssen die üblichen Rendertargets für die Zwischenberechnumgen in einem Frame reinpassen. Das muss schon bei generischem Shadercode ohne Optimierung möglich sein und natürlich auch für FG parallel zum Aufbau des Folgebildes. Der Bedarf richtet sich somit nicht vornehmlich nach Anzahl der CUs sondern vor allem nach der Auflösung und Komplexität je Pixel bzw Tiles.
Ich denke noch immer 192MB wäre für 4K ideal.
Ist der IF zu klein muss man über optimiertes Scheduling die Last auf SE geschickt verteilen und wichtige Cache Lines sichern und geplant freigeben.
sompe
Grand Admiral Special
- Mitglied seit
- 09.02.2009
- Beiträge
- 15.169
- Renomée
- 2.290
- Mein Laptop
- Dell G5 15 SE 5505 Eclipse Black
- Prozessor
- AMD Ryzen 9 3950X
- Mainboard
- MSI MPG X570 GAMING PRO CARBON WIFI
- Kühlung
- Wasserkühlung
- Speicher
- 4x 16 GB G.Skill Trident Z RGB, DDR4-3200, CL14
- Grafikprozessor
- AMD Radeon RX 6900 XT
- Display
- 1x 32" LG 32UD89-W + 1x 24" Dell Ultrasharp 2405FPW
- SSD
- Samsung SSD 980 PRO 1TB, Crucial MX500 500GB, Intel 600p 512GB, Intel 600p 1TB
- HDD
- Western Digital WD Red 2 & 3TB
- Optisches Laufwerk
- LG GGC-H20L
- Soundkarte
- onboard
- Gehäuse
- Thermaltake Armor
- Netzteil
- be quiet! Dark Power Pro 11 1000W
- Betriebssystem
- Windows 10 Professional, Windows 7 Professional 64 Bit, Ubuntu 20.04 LTS
- Webbrowser
- Firefox
Anderer Test, andere Werte:
Bei einer so hohen Abweichung und dem sehr unruhigen Frameverlauf im von mir verlinkten Test würde ich eher auf ein Problem des Spiels tippen.
Stalker 2: Heart of Chornobyl im Benchmark-Test: Benchmarks (FHD, WQHD & UHD), Frametimes und VRAM
Stalker 2: Heart of Chornobyl im Test: Benchmarks (FHD, WQHD & UHD), Frametimes und VRAM / Das Testsystem und die Benchmark-Szene
www.computerbase.de
Bei einer so hohen Abweichung und dem sehr unruhigen Frameverlauf im von mir verlinkten Test würde ich eher auf ein Problem des Spiels tippen.
vinacis_vivids
Admiral Special
★ Themenstarter ★
- Mitglied seit
- 12.01.2004
- Beiträge
- 1.120
- Renomée
- 148
- Prozessor
- AMD Ryzen 9 7950X 16C/32T
- Mainboard
- ASUS ProArt X670E-CREATOR WIFI
- Kühlung
- Arctic Liquid Freezer II 360 RGB
- Speicher
- HyperX Fury 64GB DDR5 6000Mhz CL30
- Grafikprozessor
- Sapphire Nitro+ RX 7900 XTX 24GB
- Display
- LG 5K HDR 10bit 5120x2160@60hz
- SSD
- Samsung SSD 980Pro 2TB
- Soundkarte
- Creative Soundblaster ZXR
- Gehäuse
- Cougar DarkBlader X5
- Netzteil
- InterTech Sama Forza 1200W
- Tastatur
- Cherry MX-10.0 RGB Mechanisch
- Maus
- Razer Mamba
- Betriebssystem
- Windows 11 Education Pro
- Webbrowser
- Google Chrome
- Internetanbindung
- ▼1000 Mbit
Wolfgang hat kein Frame Generation getestet bei Stalker 2: Heart of Chornobyl.
Da misst er in UHD FSR-Q: 72,5fps GPU-Scene und 56,6fps CPU-Szene. Also 64,55fps avg CPU/GPU.
Hier mit FSR 3.1 Frame Gen + FSR-Q: ~ 128fps avg
Die 64,55 avg CPU/GPU ohne FG stimmen sogar mit den FG Werten im Video überein, also Verdopplung der Leistung.
Der Typ von GameGPU hat ~130fps gemessen ohne Video. Das stimmt auch ungefähr wie im Video von Giantmonkey.
Da misst er in UHD FSR-Q: 72,5fps GPU-Scene und 56,6fps CPU-Szene. Also 64,55fps avg CPU/GPU.
Hier mit FSR 3.1 Frame Gen + FSR-Q: ~ 128fps avg
Die 64,55 avg CPU/GPU ohne FG stimmen sogar mit den FG Werten im Video überein, also Verdopplung der Leistung.
Der Typ von GameGPU hat ~130fps gemessen ohne Video. Das stimmt auch ungefähr wie im Video von Giantmonkey.
Zuletzt bearbeitet:
sompe
Grand Admiral Special
- Mitglied seit
- 09.02.2009
- Beiträge
- 15.169
- Renomée
- 2.290
- Mein Laptop
- Dell G5 15 SE 5505 Eclipse Black
- Prozessor
- AMD Ryzen 9 3950X
- Mainboard
- MSI MPG X570 GAMING PRO CARBON WIFI
- Kühlung
- Wasserkühlung
- Speicher
- 4x 16 GB G.Skill Trident Z RGB, DDR4-3200, CL14
- Grafikprozessor
- AMD Radeon RX 6900 XT
- Display
- 1x 32" LG 32UD89-W + 1x 24" Dell Ultrasharp 2405FPW
- SSD
- Samsung SSD 980 PRO 1TB, Crucial MX500 500GB, Intel 600p 512GB, Intel 600p 1TB
- HDD
- Western Digital WD Red 2 & 3TB
- Optisches Laufwerk
- LG GGC-H20L
- Soundkarte
- onboard
- Gehäuse
- Thermaltake Armor
- Netzteil
- be quiet! Dark Power Pro 11 1000W
- Betriebssystem
- Windows 10 Professional, Windows 7 Professional 64 Bit, Ubuntu 20.04 LTS
- Webbrowser
- Firefox
Dann ist es dennoch wahrscheinlicher das FG bei dem Spiel schlecht implentiert ist oder sich an dem relativ instabilen Frameverlauf aufhängt. Das hat dann recht wenig mit der Architektur der Hardware sondern vielmehr etwas mit der Qualität der Software zu tuen. Auf Sand kann man eben schlecht bauen.
Solange der Last Level Cache 50% Hit Rate erreicht hat er sein Ziel häufig schon erfüllt. Dafür braucht es selbst bei 4K eher nur 64-96MB.
Mehr als 128 MB werden wir denke ich nicht so schnell sehen. Vor allem nicht bei monolithischen GPUs, da würde so viel SRAM zu viel Fläche im teuren Prozess kosten.
Mehr als 128 MB werden wir denke ich nicht so schnell sehen. Vor allem nicht bei monolithischen GPUs, da würde so viel SRAM zu viel Fläche im teuren Prozess kosten.
E555user
Admiral Special
- Mitglied seit
- 05.10.2015
- Beiträge
- 1.965
- Renomée
- 804
AMD selbst sieht für vernünftige Hit Rates mehr MB als notwendig an.
Man kann viele Gigabytes von Assets, die Frame für Frame gezogen werden nicht Cachen. Die Daten für ein Meshlet oder ein Tile werden schon in L1 und L2 gecached. Die Hit Rate kann entsprechend nicht sehr gross werden. Ausserhalb von Gaming eher noch weniger. Damit Async Compute effizient möglich ist und die CUs nicht zu lange auf RAM warten müssen alle Zwischenberechnungen in voller Auflösung für die nächste Pipelinestufe im Cache liegen. Ein grosser Schritt dazu war mal der Umstieg auf Tiled based Rendering, was AMD erst mit Polaris shared L2 effizient ermöglichte. BVH und Meshlet Transformieren oder PostFX sind aber immer auf der ganzen Szene bzw. Frame. Man muss letztendlich die Auflösung in 32bit mehrfach cachen können, obendrauf noch einige BVH Daten, mindestens das TLAS und wichtige BLAS die je Frame.
Dass für RDNA3 6 Monate lang erst noch Games im Treiber optimiert werden mussten und einige Titel auf Vorgänger–GPUs dennoch in 4k besser liefen lag allein am verkleinerten IF Cache. Da hat AMD mehr verloren als durch kleinere Chilplets gewonnen wurde.
Ich denke die Grafik zeigt auch sehr schön dass eine APU für Laptops eigentlich 64MB IF Cache für die GPU benötigt. Die ist aber noch ohne RT Anforderungen.
Man kann viele Gigabytes von Assets, die Frame für Frame gezogen werden nicht Cachen. Die Daten für ein Meshlet oder ein Tile werden schon in L1 und L2 gecached. Die Hit Rate kann entsprechend nicht sehr gross werden. Ausserhalb von Gaming eher noch weniger. Damit Async Compute effizient möglich ist und die CUs nicht zu lange auf RAM warten müssen alle Zwischenberechnungen in voller Auflösung für die nächste Pipelinestufe im Cache liegen. Ein grosser Schritt dazu war mal der Umstieg auf Tiled based Rendering, was AMD erst mit Polaris shared L2 effizient ermöglichte. BVH und Meshlet Transformieren oder PostFX sind aber immer auf der ganzen Szene bzw. Frame. Man muss letztendlich die Auflösung in 32bit mehrfach cachen können, obendrauf noch einige BVH Daten, mindestens das TLAS und wichtige BLAS die je Frame.
Dass für RDNA3 6 Monate lang erst noch Games im Treiber optimiert werden mussten und einige Titel auf Vorgänger–GPUs dennoch in 4k besser liefen lag allein am verkleinerten IF Cache. Da hat AMD mehr verloren als durch kleinere Chilplets gewonnen wurde.
Ich denke die Grafik zeigt auch sehr schön dass eine APU für Laptops eigentlich 64MB IF Cache für die GPU benötigt. Die ist aber noch ohne RT Anforderungen.
Zuletzt bearbeitet:
sompe
Grand Admiral Special
- Mitglied seit
- 09.02.2009
- Beiträge
- 15.169
- Renomée
- 2.290
- Mein Laptop
- Dell G5 15 SE 5505 Eclipse Black
- Prozessor
- AMD Ryzen 9 3950X
- Mainboard
- MSI MPG X570 GAMING PRO CARBON WIFI
- Kühlung
- Wasserkühlung
- Speicher
- 4x 16 GB G.Skill Trident Z RGB, DDR4-3200, CL14
- Grafikprozessor
- AMD Radeon RX 6900 XT
- Display
- 1x 32" LG 32UD89-W + 1x 24" Dell Ultrasharp 2405FPW
- SSD
- Samsung SSD 980 PRO 1TB, Crucial MX500 500GB, Intel 600p 512GB, Intel 600p 1TB
- HDD
- Western Digital WD Red 2 & 3TB
- Optisches Laufwerk
- LG GGC-H20L
- Soundkarte
- onboard
- Gehäuse
- Thermaltake Armor
- Netzteil
- be quiet! Dark Power Pro 11 1000W
- Betriebssystem
- Windows 10 Professional, Windows 7 Professional 64 Bit, Ubuntu 20.04 LTS
- Webbrowser
- Firefox
Bei steigender Auflösung wird mehr benötigt aber das war ja schon vorher klar.
Deine Grafik bezieht sich aber noch auf die RX 6000 Serie, bei der aktuellen 7000er Serie wurde aber bereits an einer Reduzierung des Bedarfs an Infinity Cache gearbeitet, womit die Grafik ganz einfach veraltet ist. Dennoch sieht man das man sich bereits damals im 50% Bereich bewegte. Vermutlich weil wie oben bereits geschrieben der positive Effekt so stark nachläßt das man für geringere Performancegewinne den Cache zu stark vergrößern und dafür entsprechend viel teurer Waferfläche opfern muss. Es rentiert sich einfach nicht.
Deine Grafik bezieht sich aber noch auf die RX 6000 Serie, bei der aktuellen 7000er Serie wurde aber bereits an einer Reduzierung des Bedarfs an Infinity Cache gearbeitet, womit die Grafik ganz einfach veraltet ist. Dennoch sieht man das man sich bereits damals im 50% Bereich bewegte. Vermutlich weil wie oben bereits geschrieben der positive Effekt so stark nachläßt das man für geringere Performancegewinne den Cache zu stark vergrößern und dafür entsprechend viel teurer Waferfläche opfern muss. Es rentiert sich einfach nicht.
Ja die Folie zu RDNA2 kenne ich. RDNA3 hat laut AMD Angaben die Hit Rates trotz nur 96MB anstatt 128MB erhöhen können. Navi 23 und 33 kommen derzeit auch gut mit 32MB aus, wenn auch nicht mit 4K. Für eine APU sehe ich bei 32MB also auch kein Problem.
Zum Vergleich hat eine 4090 72MB L2 und eine 4080 64MB. Beide Karten sind gut für 4K geeignet und können sogar Ray-Tracing recht schnell.
Am Ende ist auch nicht so wichtig ob die IF-Cache Hit-Rate bei 50% oder 70% liegt, solange der Cache genug Bandbreite liefert.
Das RDNA3 wegen des IF-Cache anfangs langsamer gewesen sein soll halte ich da auch für weit hergeholt. Die Treiber waren am Anfang generell eher schlecht und konnten die neuen wave-2x32/64 CUs nicht bedienen. Der Cache wurde ja mit neuen Treibern auch nicht größer.
Da die AMD GPUs neben dem IF-Cache ja auch noch einen relativ großen L2 haben, sehe ich in der Größe da weniger ein Problem. Die Caches müssen aber natürlich auch sinnvoll genutzt werden.
Zum Vergleich hat eine 4090 72MB L2 und eine 4080 64MB. Beide Karten sind gut für 4K geeignet und können sogar Ray-Tracing recht schnell.
Am Ende ist auch nicht so wichtig ob die IF-Cache Hit-Rate bei 50% oder 70% liegt, solange der Cache genug Bandbreite liefert.
Das RDNA3 wegen des IF-Cache anfangs langsamer gewesen sein soll halte ich da auch für weit hergeholt. Die Treiber waren am Anfang generell eher schlecht und konnten die neuen wave-2x32/64 CUs nicht bedienen. Der Cache wurde ja mit neuen Treibern auch nicht größer.
Da die AMD GPUs neben dem IF-Cache ja auch noch einen relativ großen L2 haben, sehe ich in der Größe da weniger ein Problem. Die Caches müssen aber natürlich auch sinnvoll genutzt werden.
E555user
Admiral Special
- Mitglied seit
- 05.10.2015
- Beiträge
- 1.965
- Renomée
- 804
Eben, wenn der Cache nicht gross genug ist muss man die Treiber-Optimierungen von RDNA2 je einzelnem Game für RDNA3 neu anpassen. Das war ein Schuss ins Knie, denn..
Ich kenne nur die Aussage von AMD sie hätten die Bandbreite steigern können. Die Bandbreite des Cache innerhalb der GPU ist für async compute wichtig aber eher zweitrangig, die Bandbreite gegenüber dem VRAM beim Cache-Miss hat sich ja eben gerade nicht viel geändert. Ob ich nun nicht vorhandene Daten im Cache mit grösserer Bandbreite ziehe oder nicht macht da wenig aus wenn ich früher im Rendering zig Takte mehr auf den VRAM warten muss und dann gleichermassen "schmalbandig" die Daten lade.
Bei RDNA werden zu jedem allozierten Speicherbereich einzeln die Parameter gesetzt ob der temporär neue Hits generiert oder Streaming-Data (non cacheble) ist. Wenn jetzt viel zu viele Assets als potentielle temporär-Hits für RDNA2 gekennzeichnet sind überschreiben weniger wichtige Assets andere zuvor geladene die sonst höhere Hitrate hätten bzw. wichtiger sind um Bubbles in der Pipeline zu verhindern. Mit RDNA können auch Assets in die Caches vorgeladen werden, wenn jetzt die Optimierung zu viel vorlädt weil der Cache kleiner geworden ist werden u.U. wieder wichtigere Cachelines überschrieben.
Hinzu kommt, dass die Allozierung für einzelne Cache-Ebenen unterschiedliche Flags setzen lässt. (ISA-Doku S. 35, LRU=last-read-used). Die LoadOps unterscheiden in welchen Cache L1, L2, L3 die Assets geladen werden sollen. Die Shader Ressource Descriptor kennzeichnen was beim Shading nach der Berechnung für WGP/L2 und was für Device/L3 vorgehalten werden soll unterschiedlich.
Das relativ generische Cache-Handling hilft, dass Anpassungen an RDNA allegemein möglich sind. Aber für optimale Performance muss das in den Treibern je Game bzw. Engine alles je Architektur bzw. je unterschiedlichen Cachegrössen angepasst werden.
Das Clustern von CUs und Erweiterung der ISA ist hingegen ziemlich transparent gegenüber der Optimierung vorheriger RDNAs. Es hätte je CU je Takt nicht schlechter werden dürfen. Die Verteilung der Threads auf die CUs, die flexibler geworden sind, kann nicht negativ beeinflusst werden sondern nur positiv. Die unteren Cache-Ebenen wurden für RDNA3 mächtig aufgebohrt, der L3 leider extrem verkleinert. Wenn jetzt AMD behauptet sie hätten eine bessere Hitrate, dann betrifft das m. E. die unteren zwei Cache-Ebenen wo mehr shared wird als die Architekturen zuvor, und diese Hitrates gibt es nur mit neuer Cache-Optimierung, aka Schuss ins Knie für alle Launch-Reviews und das eigne GPU-Image.
--
Nvidia hat den L2 gegenüber der Vorgängergeneration mächtig aufgebohrt und braucht keinen L3 weil die VRAM-Bandbreite insgesamt viel höher gehalten wurde. Da gab es von allem mehr, nirgends gab es weniger, entsprechend die Ergebnisse über alle Games hinweg. Die teilweise verkleinerten VRAM-Grössen kann man hingegen locker im Marketing kaschieren, schadet nie den Peak-FPS in Reviews, nur der Spielbarkeit.
RDNA3 hat dann darunter gelitten die in den Präsentationsfolien kolportierten 3GHz nicht erreicht zu haben, weder mit dem Chiplet-N31 noch mit dem kleinsten Monolithen N33. Sie haben IMHO mit zwei Karten zum FullHouse zu hoch gepokert, den Launch versaut. Mehr IF-Cache wäre eine sichere Bank gewesen und man wäre nicht von der Taktsteigerung so abhängig gewesen.
Anekdote - man hätte es besser wissen können: Vega10 war auch hinter dem Takt-Ziel von 1.7GHz weit zurückgeblieben, erst mit Vega20 und wechsel zu TSMC Fertigung wurde das korrigiert.
Für RDNA-4 bleiben für mich folgende Hoffnungen:
Ich kenne nur die Aussage von AMD sie hätten die Bandbreite steigern können. Die Bandbreite des Cache innerhalb der GPU ist für async compute wichtig aber eher zweitrangig, die Bandbreite gegenüber dem VRAM beim Cache-Miss hat sich ja eben gerade nicht viel geändert. Ob ich nun nicht vorhandene Daten im Cache mit grösserer Bandbreite ziehe oder nicht macht da wenig aus wenn ich früher im Rendering zig Takte mehr auf den VRAM warten muss und dann gleichermassen "schmalbandig" die Daten lade.
Bei RDNA werden zu jedem allozierten Speicherbereich einzeln die Parameter gesetzt ob der temporär neue Hits generiert oder Streaming-Data (non cacheble) ist. Wenn jetzt viel zu viele Assets als potentielle temporär-Hits für RDNA2 gekennzeichnet sind überschreiben weniger wichtige Assets andere zuvor geladene die sonst höhere Hitrate hätten bzw. wichtiger sind um Bubbles in der Pipeline zu verhindern. Mit RDNA können auch Assets in die Caches vorgeladen werden, wenn jetzt die Optimierung zu viel vorlädt weil der Cache kleiner geworden ist werden u.U. wieder wichtigere Cachelines überschrieben.
Hinzu kommt, dass die Allozierung für einzelne Cache-Ebenen unterschiedliche Flags setzen lässt. (ISA-Doku S. 35, LRU=last-read-used). Die LoadOps unterscheiden in welchen Cache L1, L2, L3 die Assets geladen werden sollen. Die Shader Ressource Descriptor kennzeichnen was beim Shading nach der Berechnung für WGP/L2 und was für Device/L3 vorgehalten werden soll unterschiedlich.
Das relativ generische Cache-Handling hilft, dass Anpassungen an RDNA allegemein möglich sind. Aber für optimale Performance muss das in den Treibern je Game bzw. Engine alles je Architektur bzw. je unterschiedlichen Cachegrössen angepasst werden.
Das Clustern von CUs und Erweiterung der ISA ist hingegen ziemlich transparent gegenüber der Optimierung vorheriger RDNAs. Es hätte je CU je Takt nicht schlechter werden dürfen. Die Verteilung der Threads auf die CUs, die flexibler geworden sind, kann nicht negativ beeinflusst werden sondern nur positiv. Die unteren Cache-Ebenen wurden für RDNA3 mächtig aufgebohrt, der L3 leider extrem verkleinert. Wenn jetzt AMD behauptet sie hätten eine bessere Hitrate, dann betrifft das m. E. die unteren zwei Cache-Ebenen wo mehr shared wird als die Architekturen zuvor, und diese Hitrates gibt es nur mit neuer Cache-Optimierung, aka Schuss ins Knie für alle Launch-Reviews und das eigne GPU-Image.
--
Nvidia hat den L2 gegenüber der Vorgängergeneration mächtig aufgebohrt und braucht keinen L3 weil die VRAM-Bandbreite insgesamt viel höher gehalten wurde. Da gab es von allem mehr, nirgends gab es weniger, entsprechend die Ergebnisse über alle Games hinweg. Die teilweise verkleinerten VRAM-Grössen kann man hingegen locker im Marketing kaschieren, schadet nie den Peak-FPS in Reviews, nur der Spielbarkeit.
RDNA3 hat dann darunter gelitten die in den Präsentationsfolien kolportierten 3GHz nicht erreicht zu haben, weder mit dem Chiplet-N31 noch mit dem kleinsten Monolithen N33. Sie haben IMHO mit zwei Karten zum FullHouse zu hoch gepokert, den Launch versaut. Mehr IF-Cache wäre eine sichere Bank gewesen und man wäre nicht von der Taktsteigerung so abhängig gewesen.
Anekdote - man hätte es besser wissen können: Vega10 war auch hinter dem Takt-Ziel von 1.7GHz weit zurückgeblieben, erst mit Vega20 und wechsel zu TSMC Fertigung wurde das korrigiert.
Für RDNA-4 bleiben für mich folgende Hoffnungen:
- Zuwachs im L3-Cache, gerne bis zur Sättigung, es sei denn die VRAM Bandbreite egalisiert das
- keine risikoreichen Designes, die im Zweifel den geplanten Chiptakt kosten
- viel mehr RT-Leistung, um im Marketing nicht ins Abseits gestellt zu werden
- mehr Matrix-Ops für AI und FSR4
vinacis_vivids
Admiral Special
★ Themenstarter ★
- Mitglied seit
- 12.01.2004
- Beiträge
- 1.120
- Renomée
- 148
- Prozessor
- AMD Ryzen 9 7950X 16C/32T
- Mainboard
- ASUS ProArt X670E-CREATOR WIFI
- Kühlung
- Arctic Liquid Freezer II 360 RGB
- Speicher
- HyperX Fury 64GB DDR5 6000Mhz CL30
- Grafikprozessor
- Sapphire Nitro+ RX 7900 XTX 24GB
- Display
- LG 5K HDR 10bit 5120x2160@60hz
- SSD
- Samsung SSD 980Pro 2TB
- Soundkarte
- Creative Soundblaster ZXR
- Gehäuse
- Cougar DarkBlader X5
- Netzteil
- InterTech Sama Forza 1200W
- Tastatur
- Cherry MX-10.0 RGB Mechanisch
- Maus
- Razer Mamba
- Betriebssystem
- Windows 11 Education Pro
- Webbrowser
- Google Chrome
- Internetanbindung
- ▼1000 Mbit
Der RDNA3 Launch war wirklich in die Hose gehauen. Nur 355W Korsett und 2,3-2,5Ghz Takt hat RDNA3 im Halo Bereich den Hals umgedreht. AMD traute sich nicht die 3,0Ghz anzugehen, außer in der theoretischen Folie. Die 7900XT war zu hoch angesetzt mit 899 USD.
Erst die schnellen Nachtests und heutzutage breitere Informationslage hat sich dann für RDNA3 deutlich verbessert, insbesondere mit Navi32, wo man zumindest auf 2,7Ghz-2,8Ghz dann doch die Überlegenheit in der Mittelklasse gezeigt hat.
Das fehlte alles im High-End. Die RDNA3 uArch an Sich hat prinzipiell wenig Schwächen, außer dass sie bei ~2,9Ghz Shader exponentiell viel säuft.
Die erste Aufgabe wäre natürlich die 2,9 - 3,2Ghz Shader bei RDNA4 dauerhaft zu erreichen, möglichst kleiner Chip, starke Übertaktung und höhere Spannung.
Erst die schnellen Nachtests und heutzutage breitere Informationslage hat sich dann für RDNA3 deutlich verbessert, insbesondere mit Navi32, wo man zumindest auf 2,7Ghz-2,8Ghz dann doch die Überlegenheit in der Mittelklasse gezeigt hat.
Das fehlte alles im High-End. Die RDNA3 uArch an Sich hat prinzipiell wenig Schwächen, außer dass sie bei ~2,9Ghz Shader exponentiell viel säuft.
Die erste Aufgabe wäre natürlich die 2,9 - 3,2Ghz Shader bei RDNA4 dauerhaft zu erreichen, möglichst kleiner Chip, starke Übertaktung und höhere Spannung.
sompe
Grand Admiral Special
- Mitglied seit
- 09.02.2009
- Beiträge
- 15.169
- Renomée
- 2.290
- Mein Laptop
- Dell G5 15 SE 5505 Eclipse Black
- Prozessor
- AMD Ryzen 9 3950X
- Mainboard
- MSI MPG X570 GAMING PRO CARBON WIFI
- Kühlung
- Wasserkühlung
- Speicher
- 4x 16 GB G.Skill Trident Z RGB, DDR4-3200, CL14
- Grafikprozessor
- AMD Radeon RX 6900 XT
- Display
- 1x 32" LG 32UD89-W + 1x 24" Dell Ultrasharp 2405FPW
- SSD
- Samsung SSD 980 PRO 1TB, Crucial MX500 500GB, Intel 600p 512GB, Intel 600p 1TB
- HDD
- Western Digital WD Red 2 & 3TB
- Optisches Laufwerk
- LG GGC-H20L
- Soundkarte
- onboard
- Gehäuse
- Thermaltake Armor
- Netzteil
- be quiet! Dark Power Pro 11 1000W
- Betriebssystem
- Windows 10 Professional, Windows 7 Professional 64 Bit, Ubuntu 20.04 LTS
- Webbrowser
- Firefox
Klar, wer ein 2000 € Monster wie bei nvidia haben will kann das auch bekommen, die Frage ist eher ob sowas genug (von AMD) kaufen würden damit das keine finanzielle Bruchlandung wird.Für RDNA-4 bleiben für mich folgende Hoffnungen:
- Zuwachs im L3-Cache, gerne bis zur Sättigung, es sei denn die VRAM Bandbreite egalisiert das
- keine risikoreichen Designes, die im Zweifel den geplanten Chiptakt kosten
- viel mehr RT-Leistung, um im Marketing nicht ins Abseits gestellt zu werden
- mehr Matrix-Ops für AI und FSR4
Beim Navi 21 machte der Infinity Cache schon schätzungsweise 15-20% der Chipfläche aus und für deine gewünschte Sättigung wäre wohl locker das Vierfache nötig. Hinzu kommt das er durch eine Egalisierung durch die VRAM Bandbreite (welche die Kosten für die Grafikkarte treibt) ohnehin überflüssig wäre. Der wurde ja erst eingeführt um (bei feineren Fertigungsprozessen schlecht schrumpfende) Speicherkanäle sparen zu können.
Das ganze dann noch in einem von dir gewünschten monolithischen Design durch das der Chip wohl locker auf das Doppelte anwachsen und gleichzeitig dessen Ausbeute in den Keller treiben würde. Gleichzeitig würde es natürlich auch den Chipausbau begrenzen weil die Chipgröße bei der Belichtung der Wafer nunmal begrenzt ist. Geht man so weit an die Grenze dürften die Karten wohl auch noch die besagte 2000€ Grenze sprengen.
Ganz ehrlich, die 7900XTX war für mich bereits wegen der 355W uninteressant weil diese deutlich über meinem 300W Limit für eine Spiele Grafikkarte liegen. Selbst die 7900XT mit ihren 315W war für mich uninteressant weil mir der Vorsprung gegenüber meiner wassergekühlten 6900XT zu gering und im Zusammmenspiel auf einen Umbau auf einen Wasserkühler zu teuer war. Preis und Verlußtleistung waren neben dem VRAM Ausbau auch Punkte welche eventuelle Kandidaten von nvidia rausgekegelt hatten.Der RDNA3 Launch war wirklich in die Hose gehauen. Nur 355W Korsett und 2,3-2,5Ghz Takt hat RDNA3 im Halo Bereich den Hals umgedreht. AMD traute sich nicht die 3,0Ghz anzugehen, außer in der theoretischen Folie. Die 7900XT war zu hoch angesetzt mit 899 USD.
Warum mir die 300W Grenze so wichtig ist? bis zu dem Bereich lassen sich die Karten auch mit Luftkühlern vernünftig kühlen ohne diese in riesige Trümmer ausarten zu lassen welche zu Platzprobleme im Gehäuse führen. Es gibt zwar auch WaKü Varianten zu kaufen aber die lassen sich die Hersteller mit einem fürstlichen Aufpreis bezahlen wodurch der Eigenumbau trotz deutlich gestiegener Preise für die Wasserkühler idR. billiger ist. Nebenbei muss man beim Luftkühler auch noch die zusätzlichen Watt aus dem Gehäuse raus bekommen.
Maverick-F1
Grand Admiral Special
Das mit der "300W Grenze" sehe ich auch so - meine 6900XT läuft ausschließlich gedrosselt, weil nur so die Lautstärke erträglich bleibt - und Wasser kommt mir nicht in den Rechner.
Wenn im Highend-Bereich weiter Richtung 400W (und weit darüber hinaus) gehämmert wird - wo soll das denn noch hinführen?
Dann haben künftig irgendwann auch Mid-Range Grakas 300W und (noch viel) mehr - dann geht ohne Wasser gar nix mehr (oder man hängt sich halt ein 4-5 HE Trumm in den Max-Tower, dass man dann trotzdem drosseln muss, wenn man nicht die ganze Zeit mit Noise-Cancellation-Kopfhörern am Rechner sitzen will)...
Wenn im Highend-Bereich weiter Richtung 400W (und weit darüber hinaus) gehämmert wird - wo soll das denn noch hinführen?
Dann haben künftig irgendwann auch Mid-Range Grakas 300W und (noch viel) mehr - dann geht ohne Wasser gar nix mehr (oder man hängt sich halt ein 4-5 HE Trumm in den Max-Tower, dass man dann trotzdem drosseln muss, wenn man nicht die ganze Zeit mit Noise-Cancellation-Kopfhörern am Rechner sitzen will)...
sompe
Grand Admiral Special
- Mitglied seit
- 09.02.2009
- Beiträge
- 15.169
- Renomée
- 2.290
- Mein Laptop
- Dell G5 15 SE 5505 Eclipse Black
- Prozessor
- AMD Ryzen 9 3950X
- Mainboard
- MSI MPG X570 GAMING PRO CARBON WIFI
- Kühlung
- Wasserkühlung
- Speicher
- 4x 16 GB G.Skill Trident Z RGB, DDR4-3200, CL14
- Grafikprozessor
- AMD Radeon RX 6900 XT
- Display
- 1x 32" LG 32UD89-W + 1x 24" Dell Ultrasharp 2405FPW
- SSD
- Samsung SSD 980 PRO 1TB, Crucial MX500 500GB, Intel 600p 512GB, Intel 600p 1TB
- HDD
- Western Digital WD Red 2 & 3TB
- Optisches Laufwerk
- LG GGC-H20L
- Soundkarte
- onboard
- Gehäuse
- Thermaltake Armor
- Netzteil
- be quiet! Dark Power Pro 11 1000W
- Betriebssystem
- Windows 10 Professional, Windows 7 Professional 64 Bit, Ubuntu 20.04 LTS
- Webbrowser
- Firefox
Lt. Gerüchteküche landet nvidias kommendes Top Modell bei 600W und die RTX 5070 Ti bei 300W.
Ich hoffe dringend das sich AMD daran kein Beispiel nimmt.
Ich hoffe dringend das sich AMD daran kein Beispiel nimmt.
GB202 für RTX 5090: Nvidias größte GPU für Gamer wächst um 22 Prozent
Nvidias größte GPU für GeForce RTX 5000 „Blackwell“ soll wachsen: GB202 wird AD102 um 22 Prozent bei der Fläche übertreffen.
www.computerbase.de
vinacis_vivids
Admiral Special
★ Themenstarter ★
- Mitglied seit
- 12.01.2004
- Beiträge
- 1.120
- Renomée
- 148
- Prozessor
- AMD Ryzen 9 7950X 16C/32T
- Mainboard
- ASUS ProArt X670E-CREATOR WIFI
- Kühlung
- Arctic Liquid Freezer II 360 RGB
- Speicher
- HyperX Fury 64GB DDR5 6000Mhz CL30
- Grafikprozessor
- Sapphire Nitro+ RX 7900 XTX 24GB
- Display
- LG 5K HDR 10bit 5120x2160@60hz
- SSD
- Samsung SSD 980Pro 2TB
- Soundkarte
- Creative Soundblaster ZXR
- Gehäuse
- Cougar DarkBlader X5
- Netzteil
- InterTech Sama Forza 1200W
- Tastatur
- Cherry MX-10.0 RGB Mechanisch
- Maus
- Razer Mamba
- Betriebssystem
- Windows 11 Education Pro
- Webbrowser
- Google Chrome
- Internetanbindung
- ▼1000 Mbit
600W für die FE Version und 700-800W für OC Versionen bei Haung.
Mal schauen was AMD macht. 64CU Mittelklasse braucht ja nicht so viel. Vielleicht 225W und 175W für Salvage.
Mal schauen was AMD macht. 64CU Mittelklasse braucht ja nicht so viel. Vielleicht 225W und 175W für Salvage.
Maverick-F1
Grand Admiral Special
Irrsinn ist das - als KI-Beschleuniger in entsprechend designten Racks lass' ich mir das ja noch eingehen, wenn die Effizienz stimmt - aber in einem Privat-PC ist das vollkommen Geisteskrank...Lt. Gerüchteküche landet nvidias kommendes Top Modell bei 600W und die RTX 5070 Ti bei 300W.
Ich hoffe dringend das sich AMD daran kein Beispiel nimmt.
GB202 für RTX 5090: Nvidias größte GPU für Gamer wächst um 22 Prozent
Nvidias größte GPU für GeForce RTX 5000 „Blackwell“ soll wachsen: GB202 wird AD102 um 22 Prozent bei der Fläche übertreffen.www.computerbase.de
Dann lieber noch 1-2 Generationen warten, bis diese Leistung auch bei vernünftigen Verlustleistungen möglich ist.
Wo soll das alles noch hinführen? Das wir alle unsere Häuser künftig nur noch mit GraKas > 10kW Abwärme heizen brauchen??
("Nachhaltig" mit Strom und kaum teurer als eine Wärmepumpe )
sompe
Grand Admiral Special
- Mitglied seit
- 09.02.2009
- Beiträge
- 15.169
- Renomée
- 2.290
- Mein Laptop
- Dell G5 15 SE 5505 Eclipse Black
- Prozessor
- AMD Ryzen 9 3950X
- Mainboard
- MSI MPG X570 GAMING PRO CARBON WIFI
- Kühlung
- Wasserkühlung
- Speicher
- 4x 16 GB G.Skill Trident Z RGB, DDR4-3200, CL14
- Grafikprozessor
- AMD Radeon RX 6900 XT
- Display
- 1x 32" LG 32UD89-W + 1x 24" Dell Ultrasharp 2405FPW
- SSD
- Samsung SSD 980 PRO 1TB, Crucial MX500 500GB, Intel 600p 512GB, Intel 600p 1TB
- HDD
- Western Digital WD Red 2 & 3TB
- Optisches Laufwerk
- LG GGC-H20L
- Soundkarte
- onboard
- Gehäuse
- Thermaltake Armor
- Netzteil
- be quiet! Dark Power Pro 11 1000W
- Betriebssystem
- Windows 10 Professional, Windows 7 Professional 64 Bit, Ubuntu 20.04 LTS
- Webbrowser
- Firefox
Wie gesagt, so bis 300/350W kann ich noch mit einer Luftkühlung leben aber danach werden das nur noch so riesige Trümmer Karten (siehe 4090) mit denen man zu oft Platzprobleme bekommt und die Gehäusebelüftung wird dann auch schneller zum Problem als einem lieb ist.
Dann lieber gleich auf eine WaKü setzen welche die Grafikkarte klein hält und die Abwärme direkt aus dem Gehäuse schaufelt.
Dann lieber gleich auf eine WaKü setzen welche die Grafikkarte klein hält und die Abwärme direkt aus dem Gehäuse schaufelt.
enigmation
Admiral Special
Das wäre genau da, wo ich kaufen würde.Mal schauen was AMD macht. 64CU Mittelklasse braucht ja nicht so viel. Vielleicht 225W und 175W für Salvage.
vinacis_vivids
Admiral Special
★ Themenstarter ★
- Mitglied seit
- 12.01.2004
- Beiträge
- 1.120
- Renomée
- 148
- Prozessor
- AMD Ryzen 9 7950X 16C/32T
- Mainboard
- ASUS ProArt X670E-CREATOR WIFI
- Kühlung
- Arctic Liquid Freezer II 360 RGB
- Speicher
- HyperX Fury 64GB DDR5 6000Mhz CL30
- Grafikprozessor
- Sapphire Nitro+ RX 7900 XTX 24GB
- Display
- LG 5K HDR 10bit 5120x2160@60hz
- SSD
- Samsung SSD 980Pro 2TB
- Soundkarte
- Creative Soundblaster ZXR
- Gehäuse
- Cougar DarkBlader X5
- Netzteil
- InterTech Sama Forza 1200W
- Tastatur
- Cherry MX-10.0 RGB Mechanisch
- Maus
- Razer Mamba
- Betriebssystem
- Windows 11 Education Pro
- Webbrowser
- Google Chrome
- Internetanbindung
- ▼1000 Mbit
RX 7600XT ~ 22,5 Tflops fp32 ~ 329USD
RX 8600 XT ~ 27,8 Tflops fp32 ~ 249USD
RX 8700 XT ~ 45,8 Tflops fp32 ~ 329USD
RX 7900 GRE ~ 46,0 Tflops fp32 ~ 549USD
RX 7900 XT ~ 53,7 Tflops fp32 ~ 899USD
RX 8800 XT ~ 55,8 Tflops fp32 ~ 399USD
RX 7900XTX ~ 61,4 Tflops fp32 ~ 999USD
Sehr gute Preis-Leistung wird vorhergesagt.
Zuletzt bearbeitet:
enigmation
Admiral Special
@vinacis_vivids Danke fürs Teilen!
Warum sind deine fp32 Tflops doppelt so groß zu den in der Tabelle angegebenen, sind das dann fp16?
Wenn der Preis von 399$ für die 8800XT bei der Performancesteigerung stimmen würde, wäre das schon echt ein Hammer.
Das Releasedatum hat AMD aber auch noch nicht angekündigt, oder? Die 7800XT müsste ja deutlich im Preis sinken, um noch attraktiv zu sein.
Warum sind deine fp32 Tflops doppelt so groß zu den in der Tabelle angegebenen, sind das dann fp16?
Wenn der Preis von 399$ für die 8800XT bei der Performancesteigerung stimmen würde, wäre das schon echt ein Hammer.
Das Releasedatum hat AMD aber auch noch nicht angekündigt, oder? Die 7800XT müsste ja deutlich im Preis sinken, um noch attraktiv zu sein.
Ähnliche Themen
- Antworten
- 0
- Aufrufe
- 33
- Gesperrt
- Antworten
- 81
- Aufrufe
- 5K
- Antworten
- 2K
- Aufrufe
- 150K
- Antworten
- 504
- Aufrufe
- 78K