Prognose-Board: Wie geht es bei AMD weiter? Entwicklungen / Strategien / Maßnahmen, die AMD betreffen bzw. die AMD treffen könnte

Ein neuer Interconnect ist für mich neu, vielleicht bietet er genau das was aktuell für den GPU-Einsatz noch fehlt. Wobei ich gerade sehe wurde das schon für Rome spekuliert.

xGMI ist ja nur ein GPU-zu-GPU.

Ich meine eher:


CCIX, GEN-Z, CXL und Open-CAPI.

Bei CCIX passiert aber augenscheinlich aktuell nicht mehr viel.

Man kann fast davon ausgehen, dass sich das von Intel geformte CXL durchsetzen wird, auch wenn sie damit später gestartet waren.

“AMD is excited about the expanded memory RAS and pooling capabilities in CXL 2.0. AMD is working as part of the CXL community to continuously improve this important technology which enables a tighter coupling and coherency between processors, accelerators and storage devices. We also look forward to CXL 3.0, which should add new capabilities and enable new use cases.” Nathan Kalyanasundharam, Senior Fellow, AMD


Xilinx, Inc. “CXL continues its momentum with the successful completion of the 2.0 version of its specification. CXL 2.0 has important updates including switching and pooled memory device support as well as enhanced security and reliability. This represents the continued efforts by the members to make CXL more capable in addressing the needs of the data center.” Gaurav Singh, Corporate Vice President, Xilinx, Inc.
 
Intel wird an ähnlicher Stelle möglicherweise 3D-X-Point verwenden. Jedenfalls gehe ich davon aus, dass Intel das im Server Bereich früher oder später machen wird.
MfG
 
Ein neuer Interconnect ist für mich neu, vielleicht bietet er genau das was aktuell für den GPU-Einsatz noch fehlt. Wobei ich gerade sehe wurde das schon für Rome spekuliert.

xGMI ist ja nur ein GPU-zu-GPU.
Also mein Wissensstand war:

xGMI ist ein PHY (SERDES) Port am Die, der dazu dient ein weiteres Device mit Speicher kohärent anzubinden.
Aus dem xGMI werden entweder die GPUs mit der Host-CPU angebunden, oder auch Chiplets untereinander.

Beim Infinity Fabrik handelt es sich um ein Mesh-Protokoll, das auf Teilen von PCIe aufsetzt, bei dem nur der PHY (SERDES) genutzt wird und bis auf Ebene Atomics gearbeitet wird, das Protokoll aber für Die2Die Kommunikation optimiert wird. Das kann via xGMI laufen, oder innerhalb eines Dies von Unit2Unit ohne SERDES. Ohne diese Off-Die SERDES hat man on chip dann eine Datafabric und Controlfabric.

Ein neuer Interconnect wurde durch AMDs Patent für Multi-GPU ins Spiel gebracht, bei dem ausschliesslich für den GPU2GPU ein Interkonnect optimiert wird, wohl weil dort für GPU andere Anforderungen gelten. (Aber warum das so ist und wo die Differenz besteht weiss ich noch nicht, vermutlich mehr Lanes, fixes Routing, weniger Overhead, aber vor allem weniger PicoJule per Bit).
 
Ein neuer Interconnect wurde durch AMDs Patent für Multi-GPU ins Spiel gebracht, bei dem ausschliesslich für den GPU2GPU ein Interkonnect optimiert wird, wohl weil dort für GPU andere Anforderungen gelten. (Aber warum das so ist und wo die Differenz besteht weiss ich noch nicht, vermutlich mehr Lanes, fixes Routing, weniger Overhead, aber vor allem weniger PicoJule per Bit).
Ich denke das ist mit der Zielsetzung reine GPU-Chiplets zu großen GPUs zu verbinden onPackage. Thema Kostenoptimierung und weniger Chip-Designs benötigt.
Doppelposting wurde automatisch zusammengeführt:

Hier scheint für AMD Wachstum in China anzustehen. Hoffentlich wird da nicht etwas politisches dazwischen grätschen bei der derzeitigen Lage. Bei Custom Server hast du da wenig Zweitverwertung....
Tencent's star SaaS is Tencent Meeting, a Zoom-like service that has quickly won over 100 million users and become China's top tool in the category.
Tencent Meeting, and the company's vast array of online games, tested its infrastructure. Execs called out its AMD-EPYC-powered "Star Lake" custom servers and T-Block modular data centers as as having performed so well that they helped to control costs even as demand soared.
 
Zuletzt bearbeitet:
Ein neuer Interconnect wurde durch AMDs Patent für Multi-GPU ins Spiel gebracht, bei dem ausschliesslich für den GPU2GPU ein Interkonnect optimiert wird, wohl weil dort für GPU andere Anforderungen gelten. (Aber warum das so ist und wo die Differenz besteht weiss ich noch nicht, vermutlich mehr Lanes, fixes Routing, weniger Overhead, aber vor allem weniger PicoJule per Bit).
Ich denke das ist mit der Zielsetzung reine GPU-Chiplets zu großen GPUs zu verbinden onPackage. Thema Kostenoptimierung und weniger Chip-Designs benötigt.

Ja genau. Jenes Patent war vollwertige GPUs als Chiplets auf einem Interposer zu verknüpfen, jedes Chiplet mit eigenem Speicherinterface. Also genau wie bei Zen 1. Generation. Bei GPU macht das ja auch Sinn das SI mit der Anzahl "Chiplets" ebenso zu skalieren. Der Interkonnekt dort war für Cache-Kohärenz zwischen den IF-Caches ausgelegt, die den eigentliche Speicher maskieren. Also kein Write Back in diesem LastLevelCache sondern ein Read-Cache.

Ob man aber bei der weiteren GPU Entwicklung dann einen Cache als Chiplet organisieren könne wäre anzuzweifeln, weil nur als DataFabric vom HBM-SI zum Cache zu den CUs wäre das vermutlich performant genug. Verteilt man die Batches geschickt auf CUs mit passendem Speichersegment könnte das auch im Chiplet Verbund mit geringem Off-Die Hopping wieder gehen. Evtl. etwas zu langsam sein mit üblichen xGMI SERDES.

Momentan sehe ich IF off-Die und on-Package nur in Verbindung mit Workloads, die deutliche Latenzen haben dürfen.

Ein HBM Chiplet muss immer ein SI an einer Datafabric in der Nähe der Ausführungseinheiten haben. Das ist dann schon speziell will man das zusätzlich zu einem SI für SystemRAM für das SoC etablieren. Statt des HBM SI plus Datafabric kann man die Fläche ja auch für Cache oder CUs nutzen. Wo da der Tipping Point ist statt internem Cache eine Datafabric und SI zu langsameren aber grösseren HBM Chiplets als Cache zu bauen ist mir zu komplex, zu viele Variablen die ich nicht einschätzen kann.

Jetzt hat Windows im Scheduler die letzten Jahre gerade mal gelernt die unterschiedlichen Cores und deren Lokalität im Speicherzugriff zu berücksichtigen. Aber noch immer war ein einheitlicher Cache wieder die Lösung der Performance-Bremse.
Bald schon soll Windows dann für Big/Litte noch viel "bessere" Scheduler anbieten können. Ich vermute am Ende wird Intel den Scheduler für Microsoft neu schreiben.
Ich kann mir irgendwie nicht vorstellen, dass man mit unterschiedlich schnellen RAM-Segmenten bei HBM auf dem SoC und DDR5 im SlotA und Memristor im SlotB in naher Zukunft irgendwie grosse Umsätze machen könnte.

Am ehesten hätte ich noch vermutet man würde eine Laptop-APU mit 16 oder 32 GB System RAM auf dem SoC herstellen, als Ableger der grossen Compute-APUs. Aber das kommt wohl irgendwie mit den Preisen noch nicht hin. Fixe RAM Grössen hat der Markt zumindest schon akzeptiert wenn sonst die Performance stimmt. Aber mit DDR5 und SSD am PCIe5 braucht es das vielleicht auch nicht wenn der Akku auch so nen Tag lang hält.
 
Ah, OK. Für mich war das noch Phantom-Status.


Trento:
Physikalisch unterschiedlich zu Milan.
Anderer IO-Die.

Kohärentes System, indem CPU und GPU über Infinity Fabric verknüpft sind und sich einen virtuellen Adressbereich und Speicherpool teilen.
Vorteile sind wesentlich einfachere Programmierungen in den Anwendungen und beschleunigte Workloads.
 
Ok - vielen Dank für den Link. Also was ich da jetzt mitgenommen habe war es gibt eine CPU mit angepasstem iO-Die um die GPUs kohärent im Speicher anzubinden. Damit schafft man dann das HSA Modell in Hardware für AMD GPU und CPU abzubilden. Da er nicht besonders euphorisch geworden ist vermute ich die PCIe Links zu den GPUs werden dann durch IF via xGMI erstmalig ersetzt. (Das klingt jetzt eher nach Frontier von diesem Jahr? Der El-Capitan soll 2023 kommen).
Mich wundert das etwas, dass das nicht schon früher ging, aber vllt. waren die vorhanden xGMI bislang nur On-Package nutzbar für die Zen-Chiplets und man hat nun ein xGMI das am PHY hängt, der auch für Off-Package genügt. Das wären aber auch nur Tipple-Schritte im Fortschritt um IF und Interkonnect.

Die Frage bleibt was mit dem 3D Stacking On-Package oder On-Die passieren könnte.

Ich spekuliere mal etwas wild: Bei einem solchen Konstrukt könnte es Sinn ergeben wenn etwas ähnliches wie der IF-Cache von RDNA auf einer zentralen CPU abgebildet würde. D.h. es wären nicht wie im AMD Multi-GPU Patent die Caches direkt am SI mit Datafabric zum neuen GPU-Interkonnect, sondern vielleicht simplere Vega/CDNA Konzepte, auf denen der HBM-"Cache" auf dem GPU-Board via dem PHY statt als PCIe Device per IF angebunden würde, und weil der Hop von GPU zu GPU via CPU zu weit ist würde man einen zentralen Cache in mehreren Gigabyte auf/am iO Die der CPU etablieren.
Bei sehr grossen Datensets, die sich auf mehrere GPU-Boards verteilen müssten könnte das ordentlich was bringen. Bei kleineren Daten-Chunks aus dem System-RAM geladen und zurück geschrieben wohl kaum. Also vielleicht nur eine Speziallösung für Supercomputer?

Ich glaube nicht, deshalb vermute ich eher anders - beim Stacking von RAM wird es hauptsächlich um den Ersatz von Systemspeicher gehen, weniger um Ergänzung. Am Ende eine empflindliche Frage zu Kosten vs. Kapazität. Bei PCIe5/6 könnte man aber statt wie bisher auf grösseren Hauptspeicher in Kombi mit SATA-Penalty auf kleineren und bezahlbaren sehr schnelleren stacked Hauptspeicher setzen kombiniert mit immer performanteren NVME-SSD Speicher.
Bei Windows müssten wir nur wieder die Pagefile und bei Linux die Swap Partition optimieren (nimm exclusiv die schnellste SSD mit genug overprovisioning) , die mitunter schon mal heute deaktiviert wurden. Applikationen müssten dafür nicht angepasst werden, für Anwender gibt es aber ohehin einen Trend zu nur marginal mehr RAM, eigentlich bemerkbar nur zu mehr Festspeicher. Von daher ich würde Stacked System RAM on Die machen ohne DDR-SI, dafür mehr NVME-PCIeLanes
 
Zuletzt bearbeitet:
(Das klingt jetzt eher nach Frontier von diesem Jahr? Der El-Capitan soll 2023 kommen).
Ja, Frontier kommt noch dieses Jahr. Der Aurora mit Intel dürfte sogar erst 2022 fertig werden.

Bei El Capitan ist noch nicht bekannt, ob es auch ein Custom Genoa werden wird.

Bei Genoa kann man sich aber auch schon fragen, was AMD mit Xilinx vielleicht macht. Etwas was ich gesehen habe deutet auf jeden Fall auf AI-Beschleunigung hin.

Man muss sich vielleicht auch etwas mehr bereits damit beschäftigen was Xilinx vorhat.

Die bauen die Softwareseite gerade massiv aus und es geht da ja auch in Richtung selbstprogrammierbare FPGAs.
 
Könnte sein.
Mit Blick auf mein generelles Statement, dass Entwicklungszeit und Timing bedeutend sind, kann ich mir nicht vorstellen Xilinx Tech in einem Core-Design für 2023 zu sehen. Auch würde ich annehmen die Designziele für die Nodes für einen Supercomputer 2023 waren schon mit Produkten der Roadmap mit Stand 2019 so weit fxiert, dass da Xilinx nicht noch nachträglich eingebracht würde.

Mir schien die überraschende Übernahme von Xilinx eher Business Getrieben zu sein, weniger aus der Produktentwicklung heraus. Sollten die Ingenieure erst in 2020 angefangen haben mögliche Synergien zu prüfen wäre meine Erwartung einer kaufbaren Integration im Core ab 2025. Mit kohärentem Interkonnect für sonst separaten FPGA auf einem Interposer vielleicht schon 2022. So kleine FPGA sind aber eher Sache von Edge-Devices, nicht von Server oder Desktop CPUS. Xilinx war auch nicht an HSA beteiligt. Sofern die wie angekündigt eher unabhängig bleiben könnten die auch eher an CXL statt an IF arbeiten. Man müsste wissen ob Intel künftig Altera only forciert und AMD/Xilinx darauf reagieren müsste. CXL scheint zumindest eine offene Strategie zu sein.

Ich sehe für kleine FPGA mit schneller x64-CPU auf einem SoC momentan keinen Softwaretrend. AMD kann da abwarten ob Intel mit Altera mittels One-API ein neues Ökosystem hochziehen will und dann reagieren. Vermutlich bleibt es aber bei grossen FPGA Chips via CXL an Host-CPU und kleine FPGA in Edge-Devices. Ein modernisierter kleiner embedded Zen dann auch mit IF oder CXL Support zu Xilinx Designs auf Platine wäre das erste was ich erwarten würde. Spekulativ circa ab 2023 bei Ankündigung in 2022.
 
Wenn ich das richtig verstehe wird daran gearbeitet das der Speichercontroller einer APU quasi eine Pipeline für die CPU und eine für die CU generieren kann. Je nach dem Befehlssatz seriell oder paralell genutzt wird.

Wenn man das ganze weiterspinnt würde das für Zen bedeuten das man vll vor hat eine CU mit über den L3 anzubinden. Sozusagen ein APU Chiplet entwickelt.
 
AMD und Xilinx haben 2019 schon eine gemeinsame Lösung fertig gehabt. Ich denke daher, dass die Übernahme nachdem schon technische Lösungen gemeinsam entwickelt wurden beschloßen wurde. Daher könnte es schneller gehen als der Übernahmen-Zeitpunkt suggerieren würden:

Besonders für den Software-Stack könnte schon eine komplette Lösung durch Xilinx entwickelt worden sein, die sich AMD eingekauft hat:
Conclusion In this whitepaper, we demonstrated a complete deep learning inference solution which uses eight of Xilinx’s highest capacity Ultrascale+ VU13P inference devices along with dual socket AMD EPYC 7551 32-Core Processor. The overall throughput reaches a performance of 29,444 images/s with Xilinx’s highly optimized xDNNv3 CNN Processing Engine. The high-performance AMD EPYC processors enable completion of converting training models to inference models for deployment without the requirement of additional hardware. The high PCIe bandwidth provided by AMD EPYC processors enables a high-performance solution as well as allows combining deep learning inference with other FPGA accelerated workloads. Finally, the SW flexibility in the CPU and the soft-configuration capability for performance optimization in the FPGA is a flexible combination that can be applied to many deep learning applications.
 
Also ich würde das anders verstehen. Das ist IMHO kein Papier von Xilinx und AMD gemeinsam.

Xilinx hatte die Alveo-Karten in einem Papier Oktober 18 auf Basis von Intel Xeon 8-Kernern mit bis zu 4.127 Images/sec in dem GoogleNetV1 Int8 angepriesen und damit für DNNs besser geeignet dargestellt als der kommende Nvidia Beschleuniger und AMD hat 6 Monate später ein Werbe-Papier nachgeschoben um zu zeigen, dass man auf nem EPYC mit 8 dieser Alveo sogar 29.444 Images/sec in gleichem Testing erreichen könnte wenn man wollte, das sähe dann fast linear skalierend über die Anzahl der Karten aus.

D.h. ich sehe da nur Autoren aus dem technischen Marketing der beiden Firmen die eine unterschiedliche Message rüber bringen wollten um die HW für DeepLearning und AI anzupreisen.
 
Da AMD als einzige eine PCIe 4.0 Plattform mit dem anschließenden EPYC 2 zu Verfügung gestellt hat, konnte Xilinx nur darauf seine 4.0 Produkte validieren, daher denke ich das ist recht plausible, dass man sich da entscheidend angenähert hat. Ich will ja nur sagen, dass da nicht alles erst nach der Übernahme angeleiert wurde und die Roadmap schon weiter fortgeschritten sein kann.

 
Bevor es hier zu ruhig wird:

Shortages im Chip-Bereich werden wohl weit in 2022 hinein ein Problem - oder viel mehr DAS Problem - im Sektor sein. Das dürfte das Denken auch bei AMD stark beeinflussen: es geht darum, die verfügbaren Wafer so einzusetzten, dass man damit maximalen Profit macht. Und diese Shortage ist jetzt längst nicht mehr neu. Die Roadmap dürfte sich verändern: weniger in den Produkten selbst als in den Launch-Zeitpunkten.

DDR5 dürfte sich verschieben:

Als erstes sehe ich keine DDR5-Produkte mehr für 2021 (nicht nur bei AMD, womöglich auch bei Intel, weil sie 10nm für die Tigerlake-H viel besser nutzen können), auch kaum für 2022, weil man erst mal nichts Neues braucht, solange sich alles gut verkauft. Zen4 für Desktop dürfte sich damit weit nach 2022 hinein verschieben und der Vermeer-Refresh ungleich wichtiger werden, weil AM4 länger leben dürfte

APUs für Notebook werden wichtigern, weil sie keine GPU brauchen:

Zweitens dürfte AMD vor allem die Produkte produzieren, die aktuell auch strategisch wichtig sind, und da sehe ich vor allem Cezanne: damit kann AMD nun endlich den Notebook-Markt erobern, zumal Intels Tigerlake-H vermutlich nicht ganz mithalten kann, vermutlich insbesondere in Bezug auf Massenproduktion: das Die ist groß und das 10nm-Yield womöglich immer noch nicht hoch genug, d.h. die ASPs werden hier auf absehbare Zeit hoch bleiben und ebenso eine Knappheit verbleiben, sodass AMD Marktanteile gewinnen kann, ohne über den Preis gehen zu müssen. Aktuell sehe ich die Verfügbarkeit von AMD-Notebook gewaltig zuzunehmen und die Dinger scheinen überall sich gut zu verkaufen.

Zen2/Zen3 für Server:

Drittens sehe ich einen Einbruch im Absatz von Vermeer (siehe Verkäufe bei mindfactory) aber gleichzeitig keine Schwemme der Produkte, sondern sogar eine Knappheit => könnte bedeuten, dass AMD deren Produktion bereits stark reduziert hat, weil es auch keine Grakas gibt - und auch nicht geben wird - sodass der Bedarf im Bereich Desktop-CPU mau bleiben dürfte. All das könnte zudem gleichzeitig bedeuten, dass AMD seine Zen2/Zen3-Chiplets nun vor allem für Server-CPUs reservieren könnte

GPUs verbrauchen aktuell zu viel Diesize:

GPUs dürften rar - und damit extrem teuer - bleiben: die großen Dize von Navi21/22 dürften die GPUs aktuell uninteressant machen, oder AMD müsste sie ungleich teurer in den Markt geben, als aktuell geplant sodass die MSRPs für 6700/6800/6900 eher verdoppelt werden müssten in Richtung 800$/1200$/1500$

Zuletzt:

Der Markt wächst aktuell und gleichzeitig schrumpft Intels Möglichkeit, den Markt zu fluten, weil deren Dice gerade gewaltig wachsen: Tigerlake-H frisst deren 10nm-Kapazität und RocketLake frisst bei 14nm+++ mit seinen 280mm², sodass AMD aktuell Marktanteile steigern kann, wenn sie selbst optimiert produzieren: 4-Corer nur noch auf Basis von Picasso und Zen2/Zen3 nur noch im Performance-Segment.
 
  • DDR5 ist nicht verschiebbar, da Server dies benötigen. -> Keine Änderung der Roadmap wegen Validierung der PCIe 5.0 -Addinprodukte (SSDs, FPGAs, CDNA2-GPUs), die auf der Server-Plattform viel Vorlauf benötigt. Besonders nach der Übernahme von Xilinx. Bleibt somit im Desktop für Zen4 mit AM5 im Plan (5nm) für 2022. DDR5 und PCIe 5.0 werden wohl zeitlich konvergieren, da Intel hier Druck macht.
  • APUs werden alles bis inkl. 8-Kern abdecken. Mobile zuerst, anschließend Desktop. Zen3-Chiplets somit deutlich mehr für Server verfügbar.
  • GPUs werden mit N22 und N23 weniger Wafer benötigen/Stück. Das sind sehr wichtige Produkte für mobile Highend Laptops. Inkl. OEM Verträgen.
  • MSRPs bei GPUs werden sich nicht ändern, und sind auch Teil der bestehenden Kalkulation, da AMD die Serversparte schon gut bedient. Du kannst nicht einfach GPU Preise teurer machen weil du mehr verdienst bei Servern - so herum funktioniert Preisbildung einfach nicht, wenn man denn in verschiedenen Märkten präsent sein will.
 
Zuletzt bearbeitet:
Alles bis 8kern mit einer apu abzudecken dürfte aber nicht zu einer besseren verfügbarkeit führen. da die apu ja ein mehrfaches an le prozess benötigen.
 
Als erstes sehe ich keine DDR5-Produkte mehr für 2021

Nur der größte Optimist hätte DDR5 bei AMD noch fuer 2021 gesehen.


DDR5 ist nicht verschiebbar, da Server dies benötigen. -> Keine Änderung der Roadmap wegen Validierung der PCIe 5.0 -Addinprodukte (SSDs, FPGAs, CDNA2-GPUs), die auf der Server-Plattform viel Vorlauf benötigt. Besonders nach der Übernahme von Xilinx. Bleibt somit im Desktop für Zen4 mit AM5 im Plan (5nm) für 2022. DDR5 und PCIe 5.0 werden wohl zeitlich konvergieren, da Intel hier Druck macht.

Imo hat AMD bei Genoa einen Respin gemacht und noch auf den letzten Drücker was verändert. Ich erwarte Geno nicht vor Anfang Q2 2022.
 
Alles bis 8kern mit einer apu abzudecken dürfte aber nicht zu einer besseren verfügbarkeit führen. da die apu ja ein mehrfaches an le prozess benötigen.
Das ist aber auch schon lange verplant. Es ändert nichts, da hast du recht. Nur wird AMD kein Produkt canceln um ein anderes - besonders nicht im Retail! - verfügbarer zu machen. 2021 ist AMD OEM-Jahr und die Bestellungen werden jetzt gnadenlos abgewickelt: Konsolen, HPC, APUs, etc.

Alles andere würde AMD nicht nach 2022, 2023 und weiter auf der Spur halten. Retail macht 14% des x86 Marktes aus, und bis Intel da wieder 50% Anteil holt ist AMD für OEMs ein etablierter Partner. Die Investitionen in 5nm werden gepushed und APUs werden wohl dann lange auf 7nm (6nm) bleiben können, wo der Waferpreis sinkt ab 2022. 2021 Preise sind für AMDs Kapazitäten schon alle fix.

AMD hat überhaupt keinen Handlungsbedarf, die Execution irgendwie zu ändern. Da fährt der Zen-Zug wie geplant. Umsätze steigen und alles wird ihnen aus den Händen gerissen. Intel muss kämpfen um Umsätze nicht zu verlieren und AMD tut gut daran nicht auf deren Probleme zu reagieren. AMD hat keine ausser einer hohen Nachfage die sie, fokussiert auf mobile angehen.
 
Im Dunstkreis von Semiaccurate hat sich die Tage eine Diskussion entspannt, nach der die Waferlaufzeit sowohl bei Intel als auch AMD (TSMC) wohl mittlerweile eher 5 Monate beträgt. Bislang war man bei TSMC 7nm von etwa 3 Monaten ausgegangen.

Zwar lassen sich diverse Sachen im ersten Monat noch ändern, aber insgesamt ist das für die Flexibilität natürlich nicht so toll, sprich man muss schon eine extrem lange Vorausplanung haben und kann auf Marktschwankungen noch weniger flexibel reagieren.
 
Die Waferlaufzueit ist nur eine Kenngröße, wenn auf jeweiligen Wafern 3 mal so viele funktionierende AMD Chiplets zu finden sind als auf dem anderen funktionierende, monolithische Dies von Intel. Defektraten/Wafer spielen ein große Rolle.
Die TSMC Wafer-Laufzeit ist allerdings alleine durch das weglassen der "pellicles" und dem dry cleaning Verfahren um 80% schneller, wie bei TSMC zu lesen ist, daher hier nochmal als Diskussionsgrundlage aus dem Aktien-Thread. Passt sowieso besser hier rein:
 
Kann es sein, dass Samsung in der Spanulierten Google SoC die von AMD lizensierte GPU verbaut, müssten sie ja fast
 
Da AMD als einzige eine PCIe 4.0 Plattform mit dem anschließenden EPYC 2 zu Verfügung gestellt hat, konnte Xilinx nur darauf seine 4.0 Produkte validieren, daher denke ich das ist recht plausible, dass man sich da entscheidend angenähert hat.
Also in dem Video wird eine Zusammenarbeit der Softwareingenieure erläutert, in der man auf der Softwareebene eine gemeinsame Hardware Abstraktionslayer generiert, damit dann mit dem geteilten virtuellen Speicher die Batches auf die Verfügbaren Beschleuniger verteilt werden können, das muss dann der Programmierer mit ROCm managen.

Das ist auch z.B. mit Vulkan oder OpenCL grundsätzlich möglich, nur hier wohl als ROCm von AMD mit Xilinx FPGA Support in einer API formalisiert.

Ich vermute der Unterschied zu HSA mit HUMA hQ von vor Jahren (mit den ehem. spezifischen APU IOMMUs) ist, dass in der Softwareabstraktion eine Übersetzung in den gemeinsamen virtuellen Speicher erfolgen muss, wo bei HUMA hQ mit echter HW-Unterstützung im gänzlich identischen Adressraum eine Zuweisung von Workloads "hybrid Queues" direkt ohne Übersetzung und Limmite dieses virtuellen Speichers möglich gewesen wäre, also HW-Integriert, nicht SW-Integriert.

Dass man schnell schnell die ROCm Abstraktionslayer für Xilinx Beschleuniger erweitert zeigt mir erst mal, dass da mit HW-Adaption so schnell nicht zu rechnen ist.
 
Da es um den Fortschritt der Software-Integration ging, ist das recht irrelevant wie weit die Hardware-Integration ist.
Fakt ist, dass die Arbeiten an ROCm 4.0 schon einer jahrelangen Roadmap folgen und hier die Entwicklung im Prinzip abgeschlossen ist und nicht erst in den Kinderschuhen steckt. Ich kann dein Narrativ eines kolportierten Rückstandes und langsamen Integration von Xilinx-Komponenten nicht erkennen.
Ich sehe für kleine FPGA mit schneller x64-CPU auf einem SoC momentan keinen Softwaretrend.
Das war das Thema und nicht die Hardware-Integration, die überhaupt kein zwingendes Kriterium für einen gemeinsamen Erfolg ist.
Der Plattformlevel entscheidet hier und nicht der Chip-Level. Software ist jetzt vorhanden und nicht nur ein Trend.

@Verfügbarkeit:
  • In den letzten 8 Wochen 2020 wurden 1 Mio. Ryzen 5000 CPUs ausgeliefert laut Mercury Research
  • AMD steigert in Q2/2021 den Output der Ryzen 5000 CPUs um 20% gegenüber Q1/2021
AMD, on the other hand, is witnessing strong growth in the higher end of the processor market, shipping 1 million units of the Ryzen 5000 processors in just the final eight weeks of 2020 as per Mercury Research.
AMD is now looking to turn up the heat in the higher end of the PC processor market. Supply chain sources indicate that AMD could increase production of Ryzen 5000 parts by 20% in the second quarter of 2021 as compared to the first quarter. This could help AMD corner more market share, as its high-end processors are reportedly better than Intel's competing offerings as per third-party benchmarks.
 
Zuletzt bearbeitet:
Das war das Thema und nicht die Hardware-Integration, die überhaupt kein zwingendes Kriterium für einen gemeinsamen Erfolg ist.
Der Plattformlevel entscheidet hier und nicht der Chip-Level. Software ist jetzt vorhanden und nicht nur ein Trend.
Ja das Thema ist die Integration von Xilinx. In meinen Augen ist das aktuell aber nur gemeinsame Vermarktung=Marketing mit Hilfe von ROCm. Tatsächlich erwarte ich da nicht viel Erfolg. Ich bin mehr von SYCL überzeugt ohne die Limits eines solchen Vendor-Frameworks.
HSA ist/war aber nach wie vor das beste Konzept, das würde ich mir für AMD-Xilinx wünschen.
 
Zurück
Oben Unten