Allgemeiner Plauderchat über das Thema DC Part III

Status
Für weitere Antworten geschlossen.
War das die 5700er?
Denke daran das die bei OpenCL eine Weile falsch gerechnet hatte bevor es im Treiber gefixt wurde.
 
Jepp
Ab 20.1.1 ist es gefixt. Wenn es schon der 20er sein muss, habe ich gleich 20.4.1 genommen und lasse wieder Einstein proberechnen.

Die Known Issues scheinen aber auf grundsätzliche Problem bei Dauergamingbetrieb/GPU Computing hinzuweisen.

* Running Folding@Home while also running an application using hardware acceleration of video content can cause a system hang or black screen. A potential workaround is disabling hardware acceleration for the application that has it enabled.
*Some users may still experience black screen or system hang issues during extended periods of gameplay. AMD will continue to monitor and investigate reports of these issues closely.

--- Update ---

Jetzt haben sich 2 WUs festgefressen. Habe ich nach ca. 1 Stunde bemerkt, sie abgebrochen und als die neuen WUs starteten: Freeze und etwas später blackscreen.
Der 20.1.1 muss es jetzt richten. Älter geht nicht, weil wegen fehlerhafter OpenCL Nutzung. Und weiter geht die wilde Fahrt *buck*
 
--- Update --- Und weiter geht die wilde Fahrt *buck*

Hoffentlich kriegt AMD das Treiber-Trauerspiel endlich mal wieder in den Griff - eigentlich wollte ich spätestens Anfang nächsten Jahres bei Big-Navi zuschlagen. Wenn das mit den Treibern nicht besser wird, wird's wohl doch wieder was aus dem grünen Lager... :]
 
Jepp
Ab 20.1.1 ist es gefixt. Wenn es schon der 20er sein muss, habe ich gleich 20.4.1 genommen und lasse wieder Einstein proberechnen.

Die Known Issues scheinen aber auf grundsätzliche Problem bei Dauergamingbetrieb/GPU Computing hinzuweisen.



--- Update ---

Jetzt haben sich 2 WUs festgefressen. Habe ich nach ca. 1 Stunde bemerkt, sie abgebrochen und als die neuen WUs starteten: Freeze und etwas später blackscreen.
Der 20.1.1 muss es jetzt richten. Älter geht nicht, weil wegen fehlerhafter OpenCL Nutzung. Und weiter geht die wilde Fahrt *buck*
Wobei der Fehler sich doch meines Wissens nur bei Seti äußerte. Oder haben andere Projekte auch solche Fehler ausgespuckt?
 
Hoffentlich kriegt AMD das Treiber-Trauerspiel endlich mal wieder in den Griff - eigentlich wollte ich spätestens Anfang nächsten Jahres bei Big-Navi zuschlagen. Wenn das mit den Treibern nicht besser wird, wird's wohl doch wieder was aus dem grünen Lager... :]

Sie scheinen sich des Problems bewusst zu sein.

Some users may still experience black screen or system hang issues during extended periods of gameplay. AMD will continue to monitor and investigate reports of these issues closely.

Ob gameplay oder computing, das Problem scheint bei Dauerlast zu liegen. Hab die Abstürze meistens erst nach vielen Stunden. Das macht das Testen ja auch so spannend. :]

Wobei der Fehler sich doch meines Wissens nur bei Seti äußerte. Oder haben andere Projekte auch solche Fehler ausgespuckt?

Im Einstein Forum wird auch davon berichtet. Klingt jedenfalls sehr ähnlich.

In einem 5700 (XT) Review von Anandtech wird das Problem schon im Juli 2019 mit Treiber 19.7.1 angesprochen:
https://www.anandtech.com/show/14618/the-amd-radeon-rx-5700-xt-rx-5700-review/13

Compute
Unfortunately, as I mentioned earlier in my testing observations, the state of AMD's OpenCL driver stack at launch is quite poor. Most of our compute benchmarks either failed to have their OpenCL kernels compile, triggered a Windows Timeout Detection and Recovery (TDR), or would just crash.

--- Update ---

Hab inzwischen AMD mein Leid geklagt.
 
Sich festfressende WUs hatte ich auch bei anderen GPUs, allerdings im Multi WU Einsatz. Da dauerte es mit den Fiji oder Vega 20 GPUs oft nur wenige Minuten bis die WUs hingen und ich deshalb nur den Single WU Betrieb nutzen konnte.
Der zuletzt getestete Radeon Pro Treiber (bin mir nicht sicher aber ich glaube es war der 20.Q1.1) konnte das Problem allerdings lösen, ich bin mir nur nicht sicher ob ich das bei den Pro Duos oder den VIIs getestet hatte.
 
Den könnte ich noch ausprobieren. Hab hier tatsächlich 2 gleichzeitig am laufen. Was die gute alte 7970 mit 3 gleichzeitig bei Mikyway mit gleichem Treiber aber nicht stört.
 
Ich habe gerade nochmal fix nachgesehen. Bei dem Rechner mit den 4 VIIs ist er drauf und Einstein darf dort 2 WUs pro GPU gleichzeitig bearbeiten, Milkyway gar gleich 4 WUs pro GPU. Bei dem Treiber davor konnte ich definitiv nur eine WU pro GPU nutzen, was vor allem bei Milkyway ein echtes Problem war.
 
Lasse noch den aktuellen Test mit 20.1.1 laufen. Wenn das nicht klappt probiere ich den Pro Treiber. Wobei sich festfressende WUs nicht mein Hauptproblem sind.
 
Ich sage es mal so, es fraßen sich nicht immer nur die WUs fest. ;)
Das System war zwar zu dem Zeitpunkt noch bedienbar aber bei Programmstarts kam dann gern das böse Erwachen denn die Programme wollten ganz einfach nicht starten und probiert man dann ein wenig rum ist auch ganz schnell die Bedienbarkeit des Systems am Ende weil sich z.B. das Startmenü nicht mehr öffnet. Auch ein normaler Reboot Versuch endet im Fortschrittsnirvana weil sich das System auf irgendwas tot wartet. Wenn ich das System dann hart restete fährt das System zwar wieder normal hoch aber die angerechneten WUs waren Schrott. An der Stelle hieß es dann immer schnell zu sein und das automatisch startende BOINC zu beenden bevor die Berechnung das System wieder abschießt. ^^
 
Mein Problem ist ja das:
Mich hat die RX 5700 beinahe in den Wahnsinn getrieben. In beiden Systemen unregelmäßige Neustarts. Mal BSOD mit und ohne Stopcode (0xa0000006 - gibts lt. der MS Übersicht nicht *motz* ), mal einfach so Neustarts. Mal nach wenigen Minuten, mal nach 20 Stunden...

Wenn der 20.1.1 nicht will, probiere ich 20.Q1. Wobei die 5700 nicht bei den unterstützen Modellen geführt wird.
 
Das Eine muss das Andere ja nicht ausschließen denn am Ende sind beide Systeme tot.
Auch der Punkt mit der Auslastungsdauer spricht dafür denn der Multi WU Betrieb erhöht die Auslastung der GPU teils erheblich.
Die Frage ist wohl eher was genau da verreckt. Ich habe da irgendwie das Gefühl als wenn das Sheduling beider kollidiert und irgendwann eines von beiden den Kürzeren zieht.
 
Hoffentlich kriegt AMD das Treiber-Trauerspiel endlich mal wieder in den Griff - eigentlich wollte ich spätestens Anfang nächsten Jahres bei Big-Navi zuschlagen. Wenn das mit den Treibern nicht besser wird, wird's wohl doch wieder was aus dem grünen Lager... :]

Muss ja nicht jeder solche Probleme haben. Wobei im Netz schon recht viel darüber berichtet wird.

Mit frischem Win 10 Pro 1903, Treiber 20.1.1 läuft es seit gestern 16:20 Uhr. Die ganze Zeit mit 2 Einstein WUs gleichzeitig. Heute früh um 7:15 noch ne VM mit Linux Mint 19.3 zugeschaltet. Weiterhin keine Probleme. Bin vorsichtig optimistisch und werde bis nach dem Pentadings an dem System nichts anrühren.

--- Update ---

@LordNord: Nu bleibt sie definitiv hier ;)
 
Dann habe ich ja nochmal Glück gehabt. :P
 
Oh, Formula Boinc rennt zur Abwechslung mal wieder?
Dann schwenke ich mal den einen 1700er von Rosetta ein paar Tage zu Asteroids.
Der Andere ist schon aus und der Bulldozer hat noch zu viel Seti im Bauch.
 
Oh, Formula Boinc rennt zur Abwechslung mal wieder?
Dann schwenke ich mal den einen 1700er von Rosetta ein paar Tage zu Asteroids.
So schaut's aus - Danke auch an den alten Fritz für die Info.

Nachdem die den letzten Sprint ohne Angabe von Gründen einfach so gecanceled hatten, waren die bei mir eigentlich unten durch.

Aber gut, eine Chance kriegen die von mir noch *elch*

Gruß
Ritschie
 
Der wurde wohl gecancelt, weil das zugehörige F1-Rennen ebenfalls nicht stattfand. Aber nachdem nun eh die ganze Saison ausfallen wird, kann man das Berechnen ja durchaus stattfinden lassen.

Na mal sehen, ob BAM funktioniert hat. Bisher hat sich der Rechner noch nix an WUs gezogen. :(
 
Der wurde wohl gecancelt, weil das zugehörige F1-Rennen ebenfalls nicht stattfand.
Alles schön und gut, aber derzeit ganz ohne jegliche Kommunikation?! Das hat mich schon ziemlich verärgert!

Gruß
Ritschie
 
Ich hatte schon wieder vergessen, dass Asteroids auch auf Nvidia-läuft, die 1050ti kann natürlich schon mal loslegen, die hat gerade nix mehr zu tun.

--- Update ---

Schade, BAM hat gerade keine Lust. Ich kann zwar Rosetta pausieren, aber Asteroids nicht aktivieren.
 
Gibt auch ne neue CUDA 10.2 App. Auf der GTX 970 ist die "nur" 2,5x so schnell wie ein Zen 2 Kern mit AVX. Wobei ich meine mich von Seti dran zu erinnern, dass die 970 kein 10.2 kann. *noahnung*
 
Hab' auch mal 27C/43T mit dazugeworfen - und eine GT 1030! ;D

Edit: Wo gibt's die CUDA 102 App? Meine 1030 kriegt nur 55er...
 
Hier: http://asteroidsathome.net/boinc/download/period_search_10213_windows_x86_64__cuda102_win10.exe

Mit der app_info.xml habe ich dann AVX und CUDA 10.2 erzwungen:

Code:
<app_info>
<app>
    <name>period_search</name>
    <user_friendly_name>Period Search Application</user_friendly_name>
</app>
	<file_info>
		<name>period_search_10213_windows_x86_64__avx_win10.exe</name>
		<executable/>
	</file_info>
	<app_version>
		<app_name>period_search</app_name>
		<version_num>10213</version_num>
		<avg_ncpus>1.00</avg_ncpus>
		<max_ncpus>1.00</max_ncpus> 
		<flops>450000000000</flops>
		<plan_class>avx</plan_class> 
		<file_ref>
			<file_name>period_search_10213_windows_x86_64__avx_win10.exe</file_name>
			<main_program/>
		</file_ref>
	</app_version>

<!-- CUDA -->
	<file_info>
		<name>period_search_10213_windows_x86_64__cuda102_win10.exe</name>
		<executable/>
	</file_info>
	<file_info>
		<name>cudart64_102.dll</name>
	</file_info>
	<app_version>
		<app_name>period_search</app_name>
		<version_num>10213</version_num>
		<avg_ncpus>0.50</avg_ncpus>
		<max_ncpus>1.00</max_ncpus>
		<flops>1350000000000.000000</flops>
		<plan_class>cuda102</plan_class>
		<file_ref>
			<file_name>period_search_10213_windows_x86_64__cuda102_win10.exe</file_name>
			<main_program/>
		</file_ref>
		<file_ref>
		<file_name>cudart64_102.dll</file_name>
		<copy_file/>
		</file_ref>
		<coproc>
		<type>CUDA</type>
		<count>1.000000</count>
		</coproc>
	</app_version>
</app_info>
 
Unter Linux hatte ich für den 3950X mittels app_info.xml AVX erzwungen (da mir immer wieder SSEs zugeteilt wurden). Leider gab es hier aktuell viele Berechnungsfehler. Daher hab ich das Projekt gelöscht und neu hinzugefügt. Jetzt gibt es SSE3_Linux und AVX_Linux Apps, welche bis jetzt fehlerfrei durchlaufen. Deswegen werd ich unter Linux derzeit erstmal auf Rumgefummel in der xml verzichten und das rechnen, was das Projekt mir vorsetzt.

Gruß
Ritschie
 
Da sind ein paar kleinere Prozzies ohne HT/SMT dabei ;)


Edit: @FritzB:
Die 1030 läuft unter Linux - die 1660 Super hatte sich versehentlich 2 WUs unter Windows gezogen, die beide fehlerhaft waren...
(Der Rechner läuft aber nicht durch)
 
Status
Für weitere Antworten geschlossen.
Zurück
Oben Unten