Grafikworkstation mit LifeScience AI-Fokus / Dual-Consumer-GPU für knapp 12 k€ anvisiert - was einsacken?

Michael H.W. Weber

Commander
★ Themenstarter ★
Mitglied seit
22.08.2007
Beiträge
195
Renomée
71
Ich habe Anfang des Jahres Fördergelder für ein Lehrprojekt zum Einsatz eines neuen Augmented Reality Systems bewilligt bekommen, das wir drüben bei Rechenkraft.net auf der Basis der kalifornischen TiltFive AR-Brettspielekonsole zur Visualisierung molekularer Strukturen entwickelt haben - nennt sich HoloDeck.
In dem Antragspaket hatte ich 12.000,- € für eine "Grafikworkstation" zur Erzeugung eigener AI-Protein- & RNA-Modelle vorgesehen, die ich nun abstrichslos beschaffen kann.

Natürlich hatte ich mir schon vor Antragsstellung Gedanken über die Hardware gemacht. Da ich aber Computer primär als Mittel zum Zweck verwende und mein komplettes Wissen diebezügl. autodikatischer Natur ist, denke ich, dass es insbesondere angesichts der für mich enormen Investitionssumme angeraten ist, da nochmal etwas breiter Rat einzuholen.
Vorab gesagt, hatte ich mit einem ASRock Rack Mainboard auf ThreadRipper Basis geliebäugelt. Aber dazu unten später mehr.

Was soll die Maschine leisten?
Im Tagesbetrieb werden vornehmlich Proteinstrukturen und Proteinstrukturkomplexe auf der Grundlage von AlphaFold erzeugt, Molecular Dynamics Studien auf Basis von OpenMM durchgeführt und Peptidinhibitoren mit Hilfe des generativen AI-Ansatzes "BindCraft" entworfen.

Zusammenfassend ist der Umfang des VRAMs und der GPU- & CPU-FLOPS-Durchsatz von entscheidender Bedeutung - und die Tatsache, dass in diesem Bereich nahezu alles auf NVIDIAs CUDA ausgelegt ist. Als Übersicht, wo die Probleme liegen, hatte ich in diesem Forum auch schon mal einen kleinen Betrag gepostet.

Ich denke, um die Anforderungen im Detail zu skizzieren, liefere ich mal die drei Kern-GitHub Repos, die ich bislang in Google Colab einsetze und die künftig lokal auf der neuen Maschine laufen müssen:

AlphaFold2: GitHub1 | GitHub2 | Publikation
OpenMM/MDSim: GitHub | Publikation
BindCraft: GitHub | Publikation

  • AlphaFold2 erfordert lokal abzulegende Libraries im Umfang von knapp 3 TB und erzeugt pro laufendem Job transient bis zu 0,5 TB an Daten (NVMe(s) / SSD(s) / HD(s)-Datengräber müssen entsprechend dimensioniert werden). Proteine der Länge 1200 Aminosäuren (klein wenn man Multiproteinkomplexe berechnen will) erfordern 16 GB VRAM - das ist die absolute Untergrenze für meine Projekte. Ich würde sagen, ab 24 GB VRAM wird es interessant.
  • OpenMM Simulationen können je nach Umfang quasi ewig dauern (FLOPS, FLOPS, FLOPS - single precision ist offenbar bislang ausreichend).
  • BindCraft läuft eigentlich erst ab 32 GB VRAM so richtig an. ;D
Damit wird vermutlich klar, warum die Investitionssumme einigermaßen hoch angesetzt ist.
Natürlich laufen noch kistenweise andere Aufgaben, wie klassiche Wirkstoff-Docking-Projekte auf Basis von Boltz-1 und Autodock VINA und vieles mehr.

Wichtig zu wissen ist, dass die Maschine mein Arbeitsplatzrechner werden soll, d.h. sie steht im Büro und hat auch unter Vollast tagsüber 8 Stunden lang halbwegs Ruhe zu geben. Also anständig groß dimenioniertes Gehäuse mit reichlich Luftkühlung - Wasserkühlung will ich nicht ausschließen, habe aber noch nie wirklich verstanden, warum man sich sowas wartungsunsicheres ans Bein bindet (wer mit offener Seitenklappe rechnet und 'ne Katze besitzt, weiss was ich meine - konnte es mir gerade nicht verkneifen; mein Büro ist allerdings katzenfrei...). *lol*

Erwähnt werden sollte auch, dass die Maschine zur Weiterentwicklung des Rechenkraft.net DC-Projekts RNA World genutzt werden soll: Also um dort neue Apps zu integrieren (primär GPU). Es wird also mit Singularity-, Docker- und ggf. PodMan-Containern gespielt und auch mit VMs.
Da ich AMD-Verfechter bin, möchte ich gern sowohl eine NVIDIA- als auch eine AMD-GPU in einem Windows-/Linux-DualBoot System vorfinden (ich benutze seit vielen Jahren Windows-10/Ubuntu DualBootsysteme, werde aber auf Win11/MintLinux umsteigen - obwohl Windows 11 eine echte Performancekrücke geworden zu sein scheint).

Ich hatte die ThreadRipper Platform ausgewält, da ich die beiden GPUs mit PCIe x16 anbinden möchte. Brauche also ordentlich PCIe Lanes, womit Ryzen-Systeme ausscheiden - und ich möchte mindestens 16 CPU-Cores, die auch ordentlich hochtakten (mehr ist wohl nicht bezahlbar).
Das Gesamt-RAM soll dann so in Einzelmodule aufgespalten werden, das die breitbandigst mögliche Slotbesetzung erzielt wird. Anvisiert sind bis zu 256 GB RAM.
Alternativ kann es auch ein Epyc sein, mir schienen da aber die Preise schneller hoch zu gehen im Vergleich zum ThreadRipper.

Ich persönlich habe bislang weder mit ThreadRipper noch Epyc Erfahrungen gesammelt und würde vermutlich in jeden Fettnapf treten, den man bei der Systemkonfiguration machen kann. Ich gehe davon aus, dass die sich so verhalten wie ein Ryzen 7950X-System. Ich hatte aber auch mal angenommen, HPC-GPUs besäßen eine Kühlung per eigenen Luftquirls. *lol*

Ok, ich glaube jetzt kleistere ich einfach mal das von mir bislang anvisierte System hier rein und würde mich danach dann über Kommentare, Ersatzvorschläge und Co freuen. Und: Ich kann den Anbieter frei wählen, muss aber drei Vergleichsangebote liefern (Unibetrieb - ihr kennt das sicher...) und das Geld muss bis spätestens Oktober ausgegeben sein.
Ich hatte den Eindruck, es sind hier auch Leute aktiv, die selbst professionelle Systeme konfigurieren (und verkaufen?) - insofern habe ich Hoffnungen hier ein paar nützliche Infos zu bekommen.

Bisherige Komponentenübersicht:

-Entwicklungscomputer: 12000,- €
-NVIDIA RTX 4090 Grafikkarte: ca. 2600,- €
https://geizhals.de/msi-geforce-rtx-4090-suprim-x-24g-a2820514.html
-AMD XTX 7900 Grafikkarte: ca. 1200,-
-Sapphire Nitro+ Radeon RX 7900 XTX Vapor-X, 24GB GDDR6:
https://geizhals.de/sapphire-nitro-...-11322-01-20g-a2863993.html?hloc=de#offerlist
-AMD 16-Core CPU (Ryzen 7950X (zu wenig PCIe Lanes), Threadripper PRO oder Epyc): ca. 2100,- bis 2700,-
https://geizhals.de/amd-ryzen-9-9950x-100-100001277wof-a3202478.html (max. DDR5-5600)
https://geizhals.de/amd-ryzen-9-7950x-100-100000514wof-a2801222.html (max. DDR5-5200)
https://geizhals.de/amd-epyc-4564p-100-100001476wof-a3194572.html (DDR5-5200)
-AMD Ryzen Threadripper PRO 7955WX:
https://geizhals.de/amd-ryzen-threadripper-pro-7955wx-100-000000886-a3069010.html?hloc=at&hloc=de
-Multi-GPU-fähiges Mainboard: ca. 1000,- €
https://geizhals.de/msi-mpg-x870e-carbon-wifi-a3295180.html
https://geizhals.de/gigabyte-x870e-aorus-elite-wifi7-x870e-a-elite-wifi7-a3286589.html
ASRock WRX90 WS EVO:
https://geizhals.de/asrock-wrx90-ws-evo-90-mxbmh0-a0uayz-a3167681.html?hloc=de
-128/256 GB DDR5 RAM: ca. 1700,-
https://geizhals.de/?cat=ramddr3&xf=15903_DDR5~253_131072~256_4x
-Kingston FURY Renegade Pro RDIMM Kit 256GB, DDR5-6000, CL32-38-38, reg ECC, on-die ECC:
https://geizhals.de/kingston-fury-r...-256gb-kf560r32rbk8-256-a3069523.html?hloc=de
-Netzteil (min. 1000 W)
-ASUS Loki SFX (unterdimensioniert)
-Seasonic Prime PX-2200 2200W ATX 3.1:ca. 640,-
https://geizhals.de/seasonic-prime-...22s-prime-px-2200-atx30-a3294338.html?hloc=de
-Dual-Monitor: ca. 2x 450,-
https://geizhals.de/?cat=monlcd19wide&xf=11939_27~11940_27~11967_DisplayPort~11967_HDMI~11967_xUSBCmDP~13263_38402160
-zB: https://geizhals.de/benq-pd2706u-9h-lljlb-qbe-a3002769.html
-CPU-Kühler: ca. 100,-
https://geizhals.de/?cat=cpucooler&xf=16454_180~19471_AMD~3175_120~817_fixAM5
-2x PCIe M.2 NVMe SSD (Win/Lin-Bootpartition, Minimalkapazität: 2 TB jeweils): ca. 2x 300,- (4 TB Modelle)
-PCIe 4.0: https://geizhals.de/?cat=hdssd&xf=2028_4000~252_1920~4832_3~7127_40.04~9903_1
-PCIe 5.0: https://geizhals.de/?cat=hdssd&xf=2028_4000~252_1920~4832_3~7127_50.04~9903_1
-2x SATA SSD (Win/Lin-Schnellzugriffsdaten, Minimalkapazität: 2 TB jeweils): ca. 2x 300,- (4 TB Modelle)
https://geizhals.de/?cat=hdssd&xf=2028_4000~252_1920~4832_1
-2x WD Red HD (Win/Lin-Datendauerspeicher, Minimalkapazität: 4 TB jeweils)): ca. 200,- (8 TB Modell)


Hm, nicht ganz so wundervoll formatiert, aber muss jetzt reichen - hocke aktuell in Indien und mir fallen gleich die Augen zu.

Wo ich definitiv Nachhilfe brauche ist der Massenspeicherbereich und das RAM.
Ich hatte heute auch mal eine Randbemerkung der ganz anderen Art zum Thema GPU fallen lassen, die berücksichtigt werden könnte.
Kurz: Ich bin da wirklich nicht festgelegt, was es letztlich sein soll. Nur der Preisrahmen ist klar abgesteckt und ich hatte mir etwas Mühe gegeben, das Projekt und seine Anforderungen sowie die bislang anvisierte Hardware halbwegs vernünftig zusammenzustellen.
Die Hardwareübersicht & Preis-URLs stammten übrigens vom Dezember/Januar - sind also alles andere als taufrisch...

Michael.
 
Zuletzt bearbeitet:
Ich würde die AMD Konfiguration vornehmen :

2024-Radeon-AI-ROCm-6.1-for-Radeon-Slide-1-pcgh.jpg

Allerdings nicht mit der Radeon 7900 Pro 48GB, sondern mit der Asrock 7900XTX 24GB Creator:

https://geizhals.de/asrock-radeon-rx-7900-xtx-creator-a3247352.html

Da passen dann vier Stück oder mehr nebeneinander auf dem Threadripper Mainboard.

Bei einer 6er Konfiguration 7900XTX erreichen wir 368 Tflops fp32. 4er sind es 245 Tflops fp32.

Mit Rocm mittlerweile "alles" machbar:

Man müsste also zwei oder drei 7900XTX gegen eine RTX4090 testen.

Ich habe eine 7900XTX für Benchmark Zwecke hier.

Bei der 4er Konfiguration hättest du Zugriff 96GB VRAM und bei der 6er Konfiguration dann Zugriff auf 144GB VRAM! Und das mit immenser fp32 Rechenleistung!
 
Zuletzt bearbeitet:
@vinacis_vivids,

hast bestimmt überlesen:

Zusammenfassend ist der Umfang des VRAMs und der GPU- & CPU-FLOPS-Durchsatz von entscheidender Bedeutung - und die Tatsache, dass in diesem Bereich nahezu alles auf NVIDIAs CUDA ausgelegt ist
 

"The AlphaFold protein structure solving software is available on all AMD GPU servers"



2.2.3 OpenMM 8.0.0
AMD-GPUs funktionieren auf dem STMV-System sehr gut. Die 7900 XTX erreicht 86 % der Leistung der RTX 4090, die 6900 XT erreicht 90 % der Leistung der RTX 4080, während die Radeon Ⅶ fast mit der RTX 3080Ti / 3090 gleichzieht, was wirklich beeindruckend ist.

Pub1-Sort-Open-MM.png
 
Zuletzt bearbeitet:
@vinacis_vivids,

hast bestimmt überlesen:

Zusammenfassend ist der Umfang des VRAMs und der GPU- & CPU-FLOPS-Durchsatz von entscheidender Bedeutung - und die Tatsache, dass in diesem Bereich nahezu alles auf NVIDIAs CUDA ausgelegt ist
Bestimmt nicht aber er sucht sich immer seine eigene Realität heraus und darum steht er auch auf meiner Ignoreliste denn das ist unerträglich sonst …

Er ist ja auch mal wieder nur auf AlphaFold eingegangen ob der Rest auch auf AMD läuft hat er nicht geprüft aber ist auch egal … AMD ist in seiner Welt unantastbar und in allem besser als NVIDIA *noahnung*

Ist eben etwas das man genau prüfen muss und in wie weit man bereit ist Kompromisse einzugehen.
Fummeln ist eben nicht jedermanns Sache ich mag es auch wenn es Out of the Box zumindest fehlerfrei läuft, optimieren ist natürlich immer möglich 🤷‍♂️
 

"The AlphaFold protein structure solving software is available on all AMD GPU servers"
Ja, die Seite hatte ich schon länger auf dem Schirm, habe Dein Posting aber mal als Weckruf genutzt und die Jungs vom Supercomputing Center nun endlich mal angschrieben, ob sie eine konkrete Setupanleitung speziell für AlphaFold auf AMD GPUs inkl. verwendeter Hardwareinfos rausrücken. Dort sind ja auch allerhand Skripte erwähnt, an die man aber nur als registrierter Nutzer ranzukommen scheint.

Was ich nicht weiss ist, ob AlphaFold überhaupt VRAM mehrerer GPUs adressieren kann. Denke eher nicht. Bedeutet: Es wird max. das an VRAM zur Vefügung stehen (und damit die Maximalgröße des modelierbaren Proteins bestimmen), was EINE GraKa bieten kann - in Deinem Vorschlagsfall dann 24 GB.

Michael.

Edit: Bei LLMs wird wohl der RAM-Bedarf durch das exzessive Laden der Modell-Gewichte bestimmt. Bei AlphaFold primär durch die Länge des zu modellierenden Proteins.
 

Architecture specs​

  • Dual 64-core EPYC 7V13 CPUs (128 cores total)
  • 512 GB RAM
  • 8 AMD Radeon Instinct MI-100 GPUs w/32GB onboard RAM each

Hardware info​

Architecture specs​


MI50 32GB könnten gebraucht etwas günstiger sein. MI100 32GB ebenfalls.

Beim Consumer NEU dann halt die RX 7900 XTX 24GB. Oder die größere Radeon W7900 Pro mit 48GB VRAM.

Wenn man VRAM adressieren kann dann mehrere RX 7900 XTX 24GB. Bei LLMs geht das. Sofern es über die CPU adressiert werden kann, kommen bei SAM noch +32GB "V-RAM" vom RAM dazu, also 24GB VRAM + 32GB "V-RAM" ~ 56GB zuweisbarer VRAM für die RX 7900 XTX "56 GB". Bei der W7900 Pro müssten es dann 48GB + 32GB ~ 80GB sein:

Als singel-dGPU Konfiguration AMD SAM:
Radeon Pro W7900 80GB VRAM
RX 7900 XTX 56GB VRAM

Ich kann maximal 55,8 GB GPU-Speicher im System sehen.

Sollten deine Modelle die 24GB der 7900 XTX sprengen, werden sie vom RAM abgelesen. Hier isses klar besser mit QuadChannel oder OctaChannel DDR5 zu arbeiten.

Bei LLMs sind es Größe, die Anzahl der Parameter (bis 671 Billionen) und Präzision (bf16 full)!

Als Plattform vielleich auch Threadripper interessant! Den gibt es mit 32Core / 64Core. 7970X oder 7980X

7980x CPUz (1).png

Der "kleinere" 7970X hat 32C / 128MB LLC und 48 Lanes sowie QuadChannel DDR5!

32C bis max. 5,3Ghz sollten ausreichen für alle Arbeitszwecke für die nächste Zeit. Dazu noch 512GB DDR5 5200Mhz RAM. 166,4 GB/s Bandbreite für den RAM ist schon sehr ordentlich.

Bei AM5 R9 7950X 16C DDR5 6200 bin ich bei ~88 GB/s Schreibrate. Die VRAM Bandbreite ist mit 2700Mhz OC bei 1036 GB/s !

RX 7900 XTX review.gif

Teste gerade bei mir mit dem größeren LLM Modell von 49,95GB!
 
Zuletzt bearbeitet:

Architecture specs​

  • Dual 64-core EPYC 7V13 CPUs (128 cores total)
  • 512 GB RAM
  • 8 AMD Radeon Instinct MI-100 GPUs w/32GB onboard RAM each

Hardware info​

Architecture specs​


MI50 32GB könnten gebraucht etwas günstiger sein. MI100 32GB ebenfalls.

Beim Consumer NEU dann halt die RX 7900 XTX 24GB. Oder die größere Radeon W7900 Pro mit 48GB VRAM.

Wenn man VRAM adressieren kann dann mehrere RX 7900 XTX 24GB. Bei LLMs geht das. Sofern es über die CPU adressiert werden kann, kommen bei SAM noch +32GB "V-RAM" vom RAM dazu, also 24GB VRAM + 32GB "V-RAM" ~ 56GB zuweisbarer VRAM für die RX 7900 XTX "56 GB". Bei der W7900 Pro müssten es dann 48GB + 32GB ~ 80GB sein:

Als singel-dGPU Konfiguration AMD SAM:
Radeon Pro W7900 80GB VRAM
RX 7900 XTX 56GB VRAM

Ich kann maximal 55,8 GB GPU-Speicher im System sehen.

Sollten deine Modelle die 24GB der 7900 XTX sprengen, werden sie vom RAM abgelesen. Hier isses klar besser mit QuadChannel oder OctaChannel DDR5 zu arbeiten.

Bei LLMs sind es Größe, die Anzahl der Parameter (bis 671 Billionen) und Präzision (bf16 full)!

Als Plattform vielleich auch Threadripper interessant! Den gibt es mit 32Core / 64Core. 7970X oder 7980X

Anhang anzeigen 57602

Der "kleinere" 7970X hat 32C / 128MB LLC und 48 Lanes sowie QuadChannel DDR5!

32C bis max. 5,3Ghz sollten ausreichen für alle Arbeitszwecke für die nächste Zeit. Dazu noch 512GB DDR5 5200Mhz RAM. 166,4 GB/s Bandbreite für den RAM ist schon sehr ordentlich.
Ok, Danke schon mal für die interessanten Anregungen. Ein paar Anmerkungen dazu:
  • die 12 k€ sind eine harte Finanzierungsgrenze, Multi-Instinctkartenkonfigurationen (Einzelkarte kostet neu ca. 4000,- €) fallen somit leider flach und ob darauf auch MD Simulationen & BOINC GPU-Apps laufen könnten, ist mir unklar.
  • Gebrauchtware kann ich wegen Gewährleistungsvorgaben der Uni nicht beschaffen.
  • ein Servermainboard kommt wegen des "Turbinendesigns" nicht in Betracht, ebenso wenig GPUs mit 80 mm "Randalequirls": Die Maschine muss wie oben erwähnt neben den "hardcore"-AI- & 24/7 BOINC-Aufgaben ja alles an Office- & sonstigen Anwendungen an einem Dual-Screenarbeitsplatz ermöglichen (das Ding wird mein neuer Arbeitsplatzrechner; die Instinct-Karten alleine liefern glaub' ich nicht mal ein Bild?)
  • ich hatte in meinem Vorschlag oben einen ThreadRipper PRO 7955WX, 16C/32T, 4.50-5.30GHz (Octa-Channel) auf einem ASRock WRX90 WS EVO (Octa-Channel) anvisiert (auch wenn mir dort die multiplen Mainboard-Miniquirls über den Spannungswandlern böse Angst machen), stelle aber gerade fest, dass zumindest Geizhals für das Mainboard jetzt keinen Anbieter mehr listet. *traurig* Keine Ahnung, was da als Ersatz kommen soll, beim Mainoard stehe ich nun ziemlich im Regen. Allerdings scheint mir Dein Threadripper 7970X, 32C/64T, 4.00-5.30GHz (Quad-Channel) ganz interessant: Der hat zwar "nur" Quad-Channel und ist leicht geringer getaktet, hat dafür aber doppelt soviele Kerne und größeren L2 & L3 Cache. Leider kostet der mit ca. 2300,- € fast das Doppelte. Auf welches Brett soll der denn geschraubt werden? In Frage käme für fast 1000,- Öcken ein Board von Gigabyte. Alternativen?
  • generell würde ich gern auch von NVIDIA eine GPU im System haben - am Ende kriege ich meine Software ggf. mit AMD-only Hardware nicht ans Laufen und dann bin ich echt aufgeschmissen. Außerdem möchte ich immer in der Lage sein, die auf diesem System auch zu bauenden Apps für RNA World sowohl für AMD- als auf NVIDIA GPU-Hardware verfügbar machen zu können. Nach meiner Erfahrung beißen sich NVIDIA und AMD Grafiktreiber auf dem selben System auch nicht, solange die NVIDIA-Karte im primären PCIe Slot steckt.
Ich habe noch ein paar technische Fragen:
  • ich verstehe nicht genau, wie sich die Zahl der RAM-Kanäle auf ein potentielles Datenverschieben vom RAM ins VRAM bzw. umgekehrt auswirkt (wenn also plötzlich der VRAM-Bedarf während einer Berechnung über das hinaus geht, was die GPU physikalisch verbaut hat: sagen wir 24 GB im Fall einer XTX7900). Summiert man den Durchsatz (GB/s) pro Einzelkanal dann einfach auf, sodass also ein Octa-Channelsystem den doppelten Durchsatz liefert, wie ein Quad-Channelsystem? Ich dachte eigentlich, dass die CPU-RAM-Verbindung nicht der Flaschenhals ist, sondern der PCIe-Bus vom Prozessor zur GPU. Habe Deine Durchsatzberechnungen oben also vermutlich nicht richtig verstanden...
  • welche RAM-Module kommen (als 4er Kit im Fall eines Quad-Channelsystems) in Frage?
  • was sollte an NVMe-Laufwerk(en) verbaut werden?
Michael.
 
  • ich verstehe nicht genau, wie sich die Zahl der RAM-Kanäle auf ein potentielles Datenverschieben vom RAM ins VRAM bzw. umgekehrt auswirkt (wenn also plötzlich der VRAM-Bedarf während einer Berechnung über das hinaus geht, was die GPU physikalisch verbaut hat: sagen wir 24 GB im Fall einer XTX7900). Summiert man den Durchsatz (GB/s) pro Einzelkanal dann einfach auf, sodass also ein Octa-Channelsystem den doppelten Durchsatz liefert, wie ein Quad-Channelsystem? Ich dachte eigentlich, dass die CPU-RAM-Verbindung nicht der Flaschenhals ist, sondern der PCIe-Bus vom Prozessor zur GPU. Habe Deine Durchsatzberechnungen oben also vermutlich nicht richtig verstanden...
Das ist richtig - PCIe 5.0 bringt bei 16 Lanes max. 63 GB/s Bandbreite - da ist die Speicherbandbreite beim Threadripper kein Thema (zumindest macht es keinen Unterschied ob 4 oder 8 Kanäle, weil 2 Kanäle schon schnell genug wären).
 
Das mit dem V-RAM probiere ich gerade aus. Beim LLMs isses so, dass man versucht "zwei" Modelle laufen zu lassen.

Das eine (schnelle / kleine) Modell passt komplett in den VRAM und ist max. 22GB groß bei mir.
Die Token/s sind schnell bei "DeepSeek-R1-Distill-Qwen-32B" Q4_K_M und man kann gut und flüssig arbeiten. Alles ist ausgelegt auf gute Qualität und gute Arbeitsgeschwindigkeit.
Allerdings kommst du mit 24GB VRAM niemals über die 32B Parameter raus.

Die mittelgroßen 70b Modelle wie "DeepSeek-R1-Distill-Qwen-70B" brauchen in Q4_K_M schon >50GB V-RAM. Die greifen dann auch häufiger auf den "langsamen" V-RAM (RAM) zurück statt auf den VRAM (1000 GB/s) und geben daher weniger Tokens / s raus. Die ganzen Billionen Rechenoperationen hängen dann an der RAM-Bandbreite, weshalb es sinnvoll ist die schnellste Variante im VRAM zu haben.

Manchmal ist die Qualität von 32b Modellen zu schlecht und man braucht bessere Ergebnisse / Antworten, weshalb der Gang zu 70b oder auch zu 671b nötig ist. Das verlängert halt die Antwortzeit einer Abfrage erheblich (bei mir mit DualChannel und single dGPU).

Soweit eine Nvidia GPU für dich jetzt relevant ist, dann schreib doch die RTX4090 fest neben der 7900XTX. Sehe da keine Problem (nur andere Software und gewöhnungsbedürftig).

Nur sehe ich da wenig Chancen bei einer RTX4090 und RX 7900XTX gemeinsam ihre Rechenleistung zu nutzen trotz 48GB physischen Gesamtspeicher. Du wirst bei Nvidia's GPU-Preisen weiterhin auf kleine Simulationsmodelle limitiert sein, weil dir die Kohle schneller ausgeht bei 12k Budged.


Beispiel : AM5 7950X DDR5 Dual
dGPU : RX 7900 XTX
VRAM : 24GB GDDR6 ~ 1000GB/s
V-RAM : 32GB DDR5 ~ 80GB/s DC
"V-VRAM" : 56GB adressierbar.
Modellgröße: 70b Q4_K_M DeepSeek ~ 54GB Größe

Jetzt machst du einen Prompt und verlangst ausführliche Antworten. Das Modell greift auf die Parameter zurück, die im "V-VRAM" rumliegen (30GB von 54GB sind >50%). In über 50% der Fälle greift das System auf den langsamen RAM zurück, das ganze System (CPU + GPU) dreht dabei Däumchen und bremst ab. Ohne den Zugriff auf den RAM geht es nicht, weil der schnelle 1TB/s VRAM zu klein ist für das 70b Modell.

Das wird mit OctaChannel deutlich verbessert, weil 360GB/s schneller sind als 80GB/s. Der VRAM ist immer noch zu klein mit 24GB, aber statt 80GB/s hat die CPU über die GPU nun Zugriff auf die 360GB/s Bandbreite des V-RAM im OctaChannel Modus. Die 360GB/s bremsen die 7900XTX auch aus, aber wesentlich weniger als die 80GB/s DualChannel. Das System mit OctaChannel ist daher beim Modellzugriff wesentlich schneller trotz gleicher GPU.


Es wird noch komplizierter :
Will man dieses DualChannel 80GB/s am "V-VRAM" eliminieren, müsste man für das 54GB 70b Modell drei physische 7900XTX / RTX4090 verbauen. 72GB VRAM mit ~1TB/s Bandbreite verfügbar. Da kommen die 7900XTX 24GB schon am besten weg bei beschränkten Budged. Drei Stück kosten 3000€ für 72GB VRAM mit ~ 1TB/s.

Bei dir wären es dann größere DNA
-Modelle? Proteinketten?
Mit 72GB Platz und 1 TB/s Bandbreite lässt sich viel besser arbeiten als 24GB Single dGPU (Im Falle einer teuren NVIDIA).

Die AMD MI100 32GB Konfiguration der Kollegen machen ja 1,2TB/s Bandbreite und bei 8er Bestückung dann 256GB VRAM.

Ich würde mich da rantasten an AMD RX 7900XTX 24GB Konfiguration und eine 2er bis 4er Bestückung. 48GB oder 96GB VRAM sind auch für die nächsten Jahre vollkommen geeignet für gute bis sehr gute Modelle.
Eine CUDA RTX4090 24GB für Arbeit behalten, ansonsten all in AMD gehen.
 
Zuletzt bearbeitet:
  • was sollte an NVMe-Laufwerk(en) verbaut werden?
Erst mal würde ich gar keine SATA-SSDs verbauen, du hattest solche in deinem Vorschlag. Der Wettbewerb bei SATA-SSDs ist tot, da ziehen sich die guten Hersteller eher zurück.
Wenn du eine ordentliche Plattform (EPYC oder Threadripper Pro) nimmst, dann hast du auch massiv PCIe-Lanes. Das solltest du nutzen, um SSDs ausschliesslich via NVMe anzubinden (Es gibt Adapterkarten, um M.2-SSDs in einen PCIe-Slot zu stecken [PCIe Bifurcation ist da das Zauberwort], alternativ haben Boards teils Anschlüsse für U.2). Wenn du grosse Datenmengen von der SSD ins RAM oder die GPU laden musst, bist du sehr froh darum. Preislich wird eine anständige M.2-SDD kaum teurer sein als SATA, nimmst halt kein PCIe 5, sondern 4 oder 3, das ist immer noch massiv schneller. Man kann sich auch fragen, ob du da wirklich zwei SSDs brauchst für OS und Schnellzugriffsdaten, oder ob nicht eine einzige grosse (und schnelle) SSD preisgünstiger ist.
Bei ausreichend Budget würde ich persönlich ein Software-RAID für die SSDs machen, auch SSDs können ausfallen. Ich kommer allerdings auch mehr aus dem Serverbereich, dort sind die Anforderungen an die Zuverlässigkeit nochmals höher.
Bestimmte NVMe-Laufwerke kann ich nicht empfehlen, bin nicht mehr so tief im Thema drin, und habe immer nur U.2 verbaut in Servern.

Eine Nebenbemerkung zu den Platten aus deinem Vorschlag. Falls du etwas Budget übrig hast, dann vergiss 8TB, und geh in den Bereich um die 16-20TB, der Preis pro TB ist dort massiv besser. Falls du die nicht eh im RAID betreiben wolltest, dann kannst das mit 2x16TB machen und verlierst nicht mal Platz gegenüber zwei einzelnen Disks, wenn es aufteilst in eine Partition für Windows und eine für Linux (Ich weiss allerdings nicht, ob Windows Software-RAID mit zwei Partitionen machen kann, alternativ haben gewisse Boards noch immer Hardware-RAID für SAS/SATA verbaut).

Und zuletzt: Denk ans Backup, falls du das nicht via Institut erledigen kannst.
 
Ich habe mal paar relevante Daten:

CPU: R9 7950X 16C/32T
RAM: 64GB DDR5 6200 CL30
GPU: RX 7900 XTX 24GB

LLMs (55,8 GB GPU-VRAM adressierbar)
deepseek-r1-distill-qwen-32b Q4_K_M GGUF ~ 18,49GB
deepseek-r1-distill-qwen-70b Q5_K_M GGUF ~ 46,52GB

Thinking time:
32b : 47,28s
70b : 2min 55s

First token:
32b : 3,67s
70b : 15,24s

Tokens/s:
32b : 9,96 tok/sek
70b : 1,9 tok/sek

Tokens:
32b : 718 tokens
70b : 1010 tokens

Das 70b Modell ist deutlich langsamer beim Texte "schreiben" mit nur noch 1,9 tok/sek ggü. 9,96 tok/sek beim 32b Modell welches komplett in den VRAM passt. Wenn das Modell zu groß ist wie hier mit 46,52GB gibs ne -81% Leistungsreduktion! Die Verlagerung von Teilen des 70b Modells auf den physischen RAM führt zu erheblichen Leistungsverlusten in der Verarbeitungsgeschwindigkeit.
Allerdings ist das 70b Modell deutliche präziser und qualitativ besser mit mehr Output von 1010 tokens ggü. 718 tokens, +40,6% Leistung für das 70b!
Die Denkzeit (reasoning) ist auch erheblich länger bei gleichem Prompt.
 
Vielleicht sollten wir das Ganze etwas systematischer angehen, zunächst fragend welche CPU und Boardchipsatz denn am Sinnvollsten wäre und in welches Board das konkret zu schnallen wäre?

Die RAM-Preise der neuen Module scheinen seit meinen Bemühungen etwas runter gegangen zu sein, sodass inzwischen tatsächlich auch 512 GB denkbar wären.

Was die NVMe-Vorschläge betrifft, hatte ich bislang immer etwas Sorge mit PCIe 5.0 wegen Abwärme. Die Dinger glühen förmlich, was ich so las. Auch scheint es bei den Herstellern deutliche Unterschiede zu geben, sodass mir konkrete Empfehlungen helfen würden. 2x 8 TB (Win/Lin getrennt) sollten eigentlich reichen, da sind dann aber auch schon ca. 2 k€ flöten.

GraKa kristallisiert sich ja nun die Kombination auf schon vorgeschlagener XTX 7900 und RTX 4090 heraus - welche Modell taugen am Meisten?

Brauche ich ein besonderes Netzteil oder reicht das 2,2 kW Teil von Seasonic, was ich obern vorschlug (Steckerkompatibilität ist mir je nach Board noch unklar).

Michael.
 
Am besten 2 X 7900XTX und 1 X RTX 4090.

Die Mainboards haben ja genug Lanes und Slots.
Octa Channel mit 512GB wäre der Traum. Dazu 32 Core CPU.
16C für die beiden RX 7900XTX 48GB V-VRAM. 8C für die RTX 4090 24GB und 8C für das Betriebssystem klingt ausgewogen.

Bei LLMs kann man ja CPU / GPU zuweisen, das wird bei AlphaFold ähnlich sein denke ich.
 
Was mich noch umtreibt ist das Verbauen von drei GPUs - also platztechnisch: Zum einen sind die Dinger so breit, dass wenigstens eine davon nur per Riserkabel angebunden werden kann. Gibt es da überhaupt welche, die die volle Busbreite bieten?
Und: In was für ein Case stopft man das Ganze?

Dann: Welche Kühlung verbaut man für die Threadripper-CPU?

Michael.
 
Zum Thema Kühlung:
Wenn eine Wasserkühlung in Frage kommt, dann wäre das durchaus sinnvoll - bei der Abwärme... (v.a. weil die GraKas auch ordentlich Hitze erzeugen - selbst wenn die nicht mit Wasser gekühlt werden).
Ansonsten ein größtmöglicher Luftkühler, damit das Gerät auch unter Last noch mit einer erträglichen Lautstärke arbeitet - z.B. einen Noctua Dual-Tower Kühler (je nach Sockel)...

Das Gehäuse sollte natürlich auch so groß wie irgendmöglich sein, um die Kühlung bestmöglich zu unterstützen - je nachdem, ob eine WaKü zum Einsatz kommen soll auch mit der Möglichkeiten den/die Radiator(en) mit aufzunehmen.
Als Start z.B.:
https://geizhals.de/?cat=gehatx&xf=2634_480~550_5+-+Big-Tower~550_6+-+Server-Tower~9691_AeTX

Je nach Mainboard sollten da auch 3 große GPUs dann (ohne Risekabel - würde ich persönlich möglichst vermeiden) Platz finden können - auch wenn dann dazwischen nicht mehr allzuviel Platz übrig bleiben wird und es "lauter" werden können, wenn die parallel unter Last stehen...

Ein Gehäuse mit einem guten Airflow und vielen Gehäuselüftern für maximalen Luftdurchsatz ist da natürlich essenziell...
 
Zurück
Oben Unten