AMD RDNA 3 - Chiplet NAVI - NAVI 3X

Die Vorstellung von RDNA von heute war etwas merkwürdig.

Die RX 7900XTX und 7900XT sind für mich etwas ungewöhnlich positioniert. So ganz simpel auf dem Papier hat die XTX 14% mehr CUs und nochmal 15% mehr Takt für voraussichtlich 25-30% mehr Leistung als die XT, soll aber nur 11% teurer werden.
Mit Advanced Desktops sollen die neuen dGPUs in AMD only Komplettsystemen der grossen OEMs angeboten werden. Das ist ein guter Schritt in der Vermarktung.

Technisch bei den RDNA3 dGPUs überrascht der Takt. Man bleibt bei rohen TFLOP Angaben 36% hinter der Nvidia-Leistung zurück. Ich hätte höheren Takt erwartet. Aber mit Übertakten wird die Rohleistung von Nvidia nicht erreichbar sein. Man sagt hingegen man haben gegenüber den 23 TFLOPs von RDNA2 auf 61 TFLOPs zwischen den Generationen zugelegt, also um Faktor 2.65. Die relative Game-Performance zur Rohleistung könnte AMD vielleicht weiterhin etwas helfen.
Dass man im GCD zwei Frequenzbereiche mit 2.3GHz für Shader und 2.5GHz für Frontend macht könnte ein Schlüssel sein, oft sind die Shader nicht ausgelastet, das Frontend dagegen schon. Nvidia selbst bewirbt 2.52GHz Boost für die 4090. Da taktet man mit mehr Watt gleich schnell aber mit viel grösserem Die.

Enttäuscht bin ich etwas über die nur "bis zu 50%" mehr RT Leistung je CU, ich hätte mir 100% gewünscht. Wir waren bei 80CUs. Mit 20% mehr CUs für die XTX liegen wir dann bei bis zu 80% mehr RT-Leistung. Offensichtlich glaubt AMD nicht an einen rasanten Zuwachs des RT-Bedarfs. Bei den Features mit neuen Instruktionen für Box-Sorting und Traversal wird es Patches brauchen.

Dual Issue Wave32 Units für zwei Instruktion je 32 Lanes SIMD oder parallele Ausführung wie bei RDNA2. Mixing von belibigen Int/Float Operationen.
Doppelte Anzahl Instruktionen per Clock je CU. Von WGP ist keine Rede mehr. Mir ist nicht so ganz klar was das am Ende wirklich bedeutet.

Die zwei neuen AI-Accelerator sind noch völlig ein Rätsel, man spricht von "Enhanced" und Faktor 2.7 more Performance. Bei RDNA2 wusste ich nichteinmal dass sowas Teil der CUs war. Ich denke hier wird nur Marketing gemacht und es sind wie zuvor auch einfach neue Instruktionen in der CU. Ist dann eine Dopplung den gedoppelten CUs zuzurechnen? Dann gibt es je Wave32 Unit neue Instruktionen die 35% mehr Durchsatz ermöglichen...

6x37mm² MCD und 300mm² GCD könnten ja wohl gerundete Werte sein und die bisher bekannten weiterhin stimmen.

Im Grossen und Ganzen ist das aber noch sehr undurchsichtig was da mit der CU respektive dem WGP gemacht wurde, was wirklich bei RT zusätzlich möglich ist und was es mit der verbesserten AI-Beschleunigung aufsich hat.

Wir müssen technische Präsentationen und Unterlagen abwarten. Es ging heute wohl mehr um die Endprodukte als um die Technik.
 
Es ging heute wohl mehr um die Endprodukte als um die Technik.
und um den Preis. Damit werden sie vermute ich einige vom Kauf der Nvidia Karten momentan abhalten können bis erste Benchmarks und Tests veröffentlicht sind.

Ich hoffe nur, dass die viel Wert auf von Anfang gute Treiber legen und nicht die Testperformance mit neueren Treibern ein paar Wochen später einige Prozente höher ausfällt. Dann sind die Reviews geschrieben und in der Welt.
 
Die Vorstellung von RDNA von heute war etwas merkwürdig.

Die RX 7900XTX und 7900XT sind für mich etwas ungewöhnlich positioniert. So ganz simpel auf dem Papier hat die XTX 14% mehr CUs und nochmal 15% mehr Takt für voraussichtlich 25-30% mehr Leistung als die XT, soll aber nur 11% teurer werden.
Mit Advanced Desktops sollen die neuen dGPUs in AMD only Komplettsystemen der grossen OEMs angeboten werden. Das ist ein guter Schritt in der Vermarktung.

Da gehe ich mit, wenn man sich Reaktionen dazu in den Foren durchliest ist die Range auch ungewöhnlich groß von ganz mies bis überragend.

Meine Vermutung ist, dass es mal wieder an der Software etwas hakt. FSR 3 kommt erst in 2023 und auch andere Features klangen, als wenn sie noch nicht ganz fertig sind.

Erfreulich ist aber, dass man sich technische gesehen mit den Schnittstellen und En-/Decodern auf der Höhe der Zeit oder sogar noch vor Nvidia platziert.
PCI-E 5.0 scheint man aber auch nicht zu brauchen. Wäre gut, wenn es dazu eine Erklärung noch gibt.

Die Präsentation gerade durch Sam Naffziger war aber auch irgendwie ein wenig "lahm" und es gab halt wenig konkrete Perfomancewerte, so dass man irgendwie bei der genauen Einschätzung in der Luft hängt.
 
Der Preisunterschied von nur 100$ zwischen 7900XT und 7900XTX macht gar keinen Sinn, als wenn Navi31 100% Yield hätte. Sicherlich kaum, es sei denn, 7900XTX wäre nicht der Vollausbau...

Letztlich hat AMD gestern meines Erachtens vor allem Nvidias Geschäft mit deren kommender 4080 vermasselt: Wer kauft die noch, wenn es einen Monat später eine AMD-Graka geben soll, die die 4080 deutlich überflügeln, 8GB mehr Ram hat und sogar 200$ billiger sein soll? Will AMD sich doch wieder als Freund der Gamer präsentieren?
 
Die Referenz-XTX wird verschwinden und AMD wird mit dem Chip nur noch die 200,- teureren Customs bedienen - die XT wird im Referenz Design bleiben und Customs nehmen den jetzigen Preispunkt der Referenz-XTX ein. So hatte man zum Release den Preis unter 1.000 und verdient als Partner-Karten Hersteller später doch mehr: Partner-Service von AMD, von dem AMD profitiert bei der Vorstellung. Und länger die Preise für die GPU-Packages auf dem Level halten kann.
 
Die Referenz-XTX wird verschwinden und AMD wird mit dem Chip nur noch die 200,- teureren Customs bedienen - die XT wird im Referenz Design bleiben und Customs nehmen den jetzigen Preispunkt der Referenz-XTX ein. So hatte man zum Release den Preis unter 1.000 und verdient als Partner-Karten Hersteller später doch mehr: Partner-Service von AMD, von dem AMD profitiert bei der Vorstellung. Und länger die Preise für die GPU-Packages auf dem Level halten kann.
Genau so sehe ich das auch. Und man hat gestern Nvidia vor deren 4080-Präsentation etwas nervös gemacht.
 
Das Fundstück von eratte bestätigt die 3GHz Zielsetzung für Navi31.
Ich hoffe es wird nicht wie bei der Vega64, die auch ursprünglich mal für 1.7GHz designt war, aber bei der Vorstellung nur 1.5GHz im Boost erreichen konnte. Ich habe aber in TSMC mehr vertrauen als in Glofo von damals.
Die offiziellen Specs sprechen für die Referenz-Designes von 2.4GHz Boost für XT und 2.5GHz Boost für XTX. Was das nun wieder für die "decoupled" Taktraten von CUs und Frontend bedeutet muss man abwarten.
Doppelposting wurde automatisch zusammengeführt:

MLID sieht das ähnlich, er listet noch andere Möglichkeiten zur Skalierung für künftige Modelle basierend auf N31.

Leider auch hier keine Details zur Technik.
 
Zuletzt bearbeitet:
Die Referenz-XTX wird verschwinden und AMD wird mit dem Chip nur noch die 200,- teureren Customs bedienen - die XT wird im Referenz Design bleiben und Customs nehmen den jetzigen Preispunkt der Referenz-XTX ein. So hatte man zum Release den Preis unter 1.000 und verdient als Partner-Karten Hersteller später doch mehr: Partner-Service von AMD, von dem AMD profitiert bei der Vorstellung. Und länger die Preise für die GPU-Packages auf dem Level halten kann.

So wird es wahrscheinlich kommen, weil $100 Unterschied ist wirklich dämlich. Sie hätten sie ja wenigstens auf 879 machen können auch wenn das nur rein optisch weniger aussieht. ;)

Ich hoffe das Chiplet-Design zeigt nicht irgendwo Schwächen, ansonsten ist AMD scheinbar softwareseitig mal wieder spät dran. Zu AI wurde leider auch nicht viel gesagt.

Aber was will man von einer Firma erwarten die mit der Mannstärke von Nvidia auch noch CPUs und FPGAs abdeckt. Im Earnings Call wurde übrigens auch gesagt, dass AMD das Einstellen neuer Leute verlangsamt hat. Naja im Februar wissen wir mehr, wie viele Leute AMD wirklich mittlerweile eingestellt hat und da müssen sich zusammen mit der Xilinx Übernahme ja erst Arbeitsschritte und Teams verwirklichen.
 
Videocardz glaubt ein valides Foto eines Arch-Schaubildes mit Erläuterungen zu haben. In der Regel waren solche Folien von AMD allerdings mit weniger Text belegt und eher mehrere nacheinander, statt alles auf einem Bild.
AMD-RDNA3-NAVI31-BLOCK-DIAGRAM.jpg
 
In der Regel waren solche Folien von AMD allerdings mit weniger Text belegt und eher mehrere nacheinander, statt alles auf einem Bild.

Könnte ne Zusammenfassung sein, mich irritiert eher die rot abgesetzte Schrift, das sieht eigentlich nicht nach AMD aus.
 
Ich glaube ehrlich gesagt auch es ist eher ein Fake, gibt es da schon Details über die Herkunft?
Mich irritiert am auffäligsten die Bezeichnung "Full DX12 Ultimate" - Dieses vorangestellt "Full" ist eher etwas das Unternehmen nicht nutzen, sondern Foristen - DX12 Ultimate ist soweit ich weiss klar definiert.

Zumal RDNA2 schon das Featureset 12_2 vollständig konnte, auch in den Konsolen:

Unterstützung für Turing, Ampere, RDNA 2 und mehr​

Leicht verwirrend an der heutigen Ankündigung von Microsoft ist, dass die wichtigsten Merkmale des DirectX Feature-Level 12_2 schon zuvor unter dem Namen DirectX 12 Ultimate zusammengefasst worden waren. Ob die beiden Bezeichnungen tatsächlich exakt dasselbe meinen, ist vorerst unklar. Fest steht hingegen, dass neben Nvidias aktueller GeForce-Generation auch die kommenden Ampere-Grafikchips sowie AMDs neue RDNA-2-GPUs sämtliche Funktionen unterstützen werden. Zur Erinnerung: Auch die beiden Next-Gen-Konsolen Sony PlayStation 5 und Microsoft Xbox Series X werden einen Grafikprozessor auf Basis der RDNA-2-Architektur integrieren.
Auch folgende Bezeichnungen sind eher Forensprache als offizielle AMD-Sprache:
  • Up to 2xALU rates plus BF16 Support (Wo ist das "Double Issue" - denn es müssen ja die selben Instruktionen vorliegen um gemeinsam verarbeitet zu werden. AMD würde niemals einfach pauschal doppelte Rate da hin schreiben.
  • Industry Defining Chiplet Architecture - das finde ich ein merkwürdiges Wording als Überschrift. AMD nutzt da Formulierungen anders: https://ir.amd.com/news-events/pres...ls-worlds-most-advanced-gaming-graphics-cards - The AMD RDNA 3 architecture’s chiplet design combines 5nm and 6nm process nodes.
  • Random Order Opaque Export - Abgekürzt ROOE? Nun AMD nennt das Feature OREO: Opaque Random Export Order.
Chiplets sind keine Architektur bei AMD, sondern Design. RDNA3 ist die Architektur.
 
Die beiden neuen Karten sehen ganz interessant aus und entsprechen wohl genau den von AMD angekündigten +50% perf/Watt. Und damit bei gleicher TDP eben 50% schneller.

Das neue Dual issue design finde ich nach heutigem Wissensstand aber nicht besonders gelungen. Man verdoppelt die Shader verhungert dann aber am front end das nur ca. 50% schneller geworden ist. Und die RT engines sind auch nur 50% gewachsen. Damit bleibt das Verhältnis von Raster zu RT Leistung bestenfalls auf RDNA2 Niveau. Da bietet sogar Intel mittlerweile ein besseres Verhältnis wobei deren Karten in allen anderen Punkten klar verlieren.

AMD versucht das jetzt zu kompensieren indem das Front mit ein paar MHz mehr läuft, wodurch man dann vlt. gerade noch so 60% Mehrleistung herausholen kann.

Da habe ich im Vorfeld etwas mehr erwartet.
Nichts desto trotz werden es denke ich gute Karten zu einem scheinbar sehr guten Preis-Punkt im Vergleich zu Nvidia.

Ich finde die XT wegen max. 300W TDP eigentlich sogar interessanter als die XTX, aber die von AMD angesetzten Taktraten scheinen viel zu gering zu liegen. Bei 10% weniger TDP propagierte ca. 30% weniger Performance würde zu einer deutlich schlechten Perf/W als XTX führen, wobei bei weniger Takt die Perf/W normalerweise steigen sollte.
Eventuell boostet die XT also doch höher als von AMD propagiert? Oder sind deren Chips einfach so viel schlechter als die der XTX?
Dann wiederum wäre der Preis der XT etwas hoch angesetzt. Ich bleibe gespannt was der Dezember bringt.
 
Jim von AdoredTV spekuliert für nächstes Jahr ein weiteres N30 Modell mit mehr Shader Cores bei niedrigerem Shader Takt.
 
Noch wissen wir zwar wenig über die RDNA3-GPUs, aber wenn ein Navi33 mit 5120 CUs nur etwas über 200mm² haben soll, frage ich mich, ob es für AMD nicht die günstigste Lösung wäre, einen doppelten Navi33 mit 10240CU als monolithische GPU zu bringen, da nun 400mm²-Dice in 6nm sicherlich ungleich günstiger sein dürften, als das geplante Navi32-MCM-Design, oder?
 
Wenn ich mir Navi31 so ansehe, frage ich mich, ob es wirklich einen Navi32 im selben Konzept wie Navi31 geben wird? Warum nicht einfach den 6nm Navi33 "verdoppeln", sodass eine monolithische GPU entsteht, mit gerade mal 400mm² in N6. Das dürfte ungleich billiger sein als das Navi32-Konstrukt mit 200mm² GCD in N5 + 4x MCD in 37,5mm² + MCM-Aufbau.

Hinzu kommt, dass bei Navi32 zwar die CUs in 5nm effizienter sein dürften, dafür aber zusätzlicher Energieverbrauch für die "Bridge" zwischen dem 5nm-GCD und den 6nm-MCDs diesen Vorteil zum Teil wieder eliminiert, zumal die MCDs auch "nur" in N6 sind, sodass Navi31 letztlich gerade mal 54% effizienter als Navi21 ist. RDNA3 in 6nm wird sicherlich auch etwas effizienter als RDNA2 in N7 sein, sodass nicht mehr viel Effizienz-Nachteil für einen solchen Monolithen verbleiben dürfte.

Ebenso verursacht die "Bridge" zwischen GCD und MCD auch ein Speed-Problem (zusätzliche Latency), was Performance-Einbußen gegenüber einem monolithischen Aufbau verursacht (wie bei den Desktop-CPUs). Zuletzt dürfte RDNA3 in N6 auch noch etwas mehr Takt schaffen als RDNA2 in N7 und damit wohl auch in etwa 3Ghz erreichen.

Aktuell sind nur die 5nm-Wafer knapp und von daher vemutlich auch extrem viel teurer als N6-Wafer. Ein Navi32 in N6 dürfte also weit günstigere Möglichkeiten und auch Verfügbarkeiten zulassen als der bisher spekulierte Navi32, sodass AMD damit Nvidia im Mainstream vermultich viel effektiver "angreifen" könnte.
 
Videocardz glaubt ein valides Foto eines Arch-Schaubildes mit Erläuterungen zu haben. In der Regel waren solche Folien von AMD allerdings mit weniger Text belegt und eher mehrere nacheinander, statt alles auf einem Bild.
Die Folie sieht einer der offiziellen EPYC Genoa Folien sehr ähnlich:

Gleich die oberste...
 
Es ist müßig darüber zu spekulieren denn ein entsprechend großer monolytischer N6 Chip hätte so oder so eine schlechtere Effizienz und würde für die gleichen Stückzahlen mehr Wafer benötigen weil der Wafer weniger effizient genutzt werden könnte und größere Chips tendenziell auf die Ausbeute geht. Man hätte also ein schlechteres Produkt das mehr Wafer Kapazität bindet. Wo soll da der Sinn für so eine Entscheidung sein?
Des weiteren waren die heutigen Auslastungsprobleme der Auftragsfertiger zum Zeitpunkt des Starts der Entwicklung wohl kaum absehbar gewesen.
 
...Man hätte also ein schlechteres Produkt das mehr Wafer Kapazität bindet. Wo soll da der Sinn für so eine Entscheidung sein?
Des weiteren waren die heutigen Auslastungsprobleme der Auftragsfertiger zum Zeitpunkt des Starts der Entwicklung wohl kaum absehbar gewesen.
Zum Zeitpunkt des Entwicklungs-Startes wusste man weder, wie heute die Wafer-Situation sein wird, noch, wie gut/mäßig das MCM-N5-N6-Konstrukt im Verglich zu einer monoltihischen N6-GPU verhalten würde. Nachdem man aber anscheinend von Anfang an auch eine Parallel-Entwicklung von RDNA3 auf N6 (Navi33) gestartet zu haben scheint, sollte AMD seit einiger Zeit einordnen können, wo RDNA3 in N6 gegenüber dem N5-N6-Konstrukt zu liegen kommt. Mit diesem Wissen und der aktuellen Wafer-Situation könnte man heute womöglich zu anderen Ergebnissen kommen, als noch zu Projekt-Start, zumal Navi32 sowieso erst mit Verzögerung eingeplant war/ist.

Die N5-Wafer sind jedenfalls ungleich teurer und knapper. N6-Wafer inzwischen reichlich zu haben und womöglich noch günstiger in Verhältnis zu N5, als bei Projekt-Start, da die N6/N7-Linien bei TSMC ja angeblich nicht mehr ausgelastet seinen. Dahin ging meine Überlegung.
 
Natürlich wurde der parallel entwickelt, so wie jede GPU einer Serie für sich selbst entwickelt werden muss um sie anschließend produzieren zu können. Auch das die kleinste der 3 GPUs als singlechip entwickelt wurde dürfte einen recht einfachen Grund haben.
Sie ist nunmal die Kleinste und entsprechend halten sich die Probleme mit der Chip Größe ebenso in Grenzen wie ein möglicher Vorteil durch das Multichip Design. Um den zusätzlichen Strombedarf durch den schlechteren Fertigungsprozess zu zügeln gibt es ein recht einfaches Mittel, man taktet sie geringer um die Effizienz zu verbessern und gewinnt so gleichzeitig Abstand zu den teureren Modellen. Man kann die schlechtere Effizienz aber auch einfach in kauf nehmen.
Es gibt aber noch einen anderen Grund der für eine solche Aufteilung sprechen würde. Man verteilt die Produkte auf mehrere Prozesse, streut so das Risiko und schont die Produktionskapazitäten für den höherwertigeren Prozess was wiederum wichtig wäre wenn man die verkauften Stückzahlen steigern will. FAB Kapazitäten wachsen bei den Auftragsfertigern eben nicht auf Bäumen.
Und warum sind jetzt reichlich N7/6 Kapazitäten verfügbar? Weil der Halbleitermarkt absäuft und viele Kunden gebuchte Produktionskapazitäten gekündigt haben, also genau das was ich oben im letzten Satz andeutete.
 
Natürlich wurde der parallel entwickelt, so wie jede GPU einer Serie für sich selbst entwickelt werden muss
Es geht mir hier um die grundlegende Architektur. Hier ist AMD erstmals den teuren Weg gegangen, RDNA3 parallel auf zwei verschiedenen Prozessen zu entwickeln, auf N6 (7nm) und N5 (5nm), sodass die RDNA3-Technologie auf beiden Prozessen in etwa gleichzeitig verfügbar sein wird. Vermutlich hat man das schon aus Weitsicht gemacht, weil die Preise für Entwicklung eines jeweiligen Produktes in 5nm und die 5nm-Wafer extrem viel höher liegen als die für die letzte Prozess-Generation. Dieser Kosten-Anstieg jeder neuen Prozess-Generation geht immer mehr durch die Decke; gleichzeitig schrumpfen die technologischen Vorteile einer neuen Prozessgeneration gegenüber der letzten.

Insbesondere für customized Produkte werden dadurch die neuesten Prozesse langsam zu teuer, sodass AMD gerade hierfür die Entscheidung getroffen haben dürfte, RDNA3 nun für beide Prozessgenerationen (7nm und 5nm) parallel zu entwickeln. Hat man nun RDNA3 erstmals parallel für beide Prozesse vorliegen, hat man auch erstmals die Möglichkeit, abzuwägen für welchen Fall eine Produkt-Umsetzung in 5nm oder 7nm die bessere Wahl sein dürfte: es ist natürlich immer ein Kompromiss zwischen Kosten- und Performance-Vorteilen. Aber genau diese erstmals mögliche Abwägung kann AMD nur machen, wenn man beides auch im Baukasten hat. Daher bin ich insbesondere auf die Leistungswerte von Navi33 gegenüber Navi31 gespannt.
 
Hier ist AMD erstmals den teuren Weg gegangen, RDNA3 parallel auf zwei verschiedenen Prozessen zu entwickeln, auf N6 (7nm) und N5 (5nm), sodass die RDNA3-Technologie auf beiden Prozessen in etwa gleichzeitig verfügbar sein wird.
Was soll daran teuer sein?
Die Architektur entwickelt man nicht für einen Prozess sondern das daraus resultierende Produkt welches ohnehin für den entsprechenden Fertigungsprozess angepasst werden muss da sie sich nunmal zwangsläufig unterscheiden. Und genau das ist der Knackpunkt, es wird nicht ein Produkt für 2 Prozesse entwickelt sondern unterschiedliche Produkte nutzen verschiedene Fertigungsprozesse was vermutlich eher der Normalzustand ist.
Die einzigen die bisher einen teuren Weg gegangen sind ist nvidia mit ihren großen N4 GPUs.
 
Oder anders formuliert. Jeder Chip wird ganz normal auf seinen Fertigungsprozess designt. RDNA3-Architektur ist nur auf dem GCD zu finden. Auf dem MCD sind Interconnect/Cache-Technologie zu finden, die wohl auch mit RDNA4 weiter funktionieren (zuzüglich Verbesserungen) - oder andersherum, wenn nötig ein neuer MCD für RDNA3 aufgelegt werden kann mit anderen Eigenschaften. Bei Ryzen/Epyc macht sich ja auch keiner Sorgen in welchem Prozess der IO-Chip gefertigt wird.
 
Zuletzt bearbeitet:
Zurück
Oben Unten