In Vorbereitung auf Das Boot 3.0

Status
Für weitere Antworten geschlossen.

Nero24

Administrator
Teammitglied
★ Themenstarter ★
Mitglied seit
01.07.2000
Beiträge
22.941
Renomée
8.761
  • BOINC Pentathlon 2019
  • BOINC Pentathlon 2020
  • BOINC Pentathlon 2018

eratte

Redaktion
☆☆☆☆☆☆
Mitglied seit
11.11.2001
Beiträge
15.513
Renomée
1.111
Standort
Rheinberg / NRW
  • BOINC Pentathlon 2012
  • BOINC Pentathlon 2013
  • BOINC Pentathlon 2014
  • BOINC Pentathlon 2015
  • BOINC Pentathlon 2016
  • BOINC Pentathlon 2017
  • BOINC Pentathlon 2020
  • SETI@Home Intel-Race II
Das geht aber noch einiges ordentlicher mit den Kabeln ;)
 

Nero24

Administrator
Teammitglied
★ Themenstarter ★
Mitglied seit
01.07.2000
Beiträge
22.941
Renomée
8.761
  • BOINC Pentathlon 2019
  • BOINC Pentathlon 2020
  • BOINC Pentathlon 2018
Das geht aber noch einiges ordentlicher mit den Kabeln ;)
Logo ;) Aber erst wenn sicher ist, dass nichts mehr ausgesteckt oder umverkabelt werden muss aus irgendeinem Grund, der sich erst beim Linux-Test ergibt.
 

Crashtest

Redaktion
☆☆☆☆☆☆
Mitglied seit
11.11.2008
Beiträge
8.425
Renomée
889
Standort
Leipzig
  • Docking@Home
  • BOINC Pentathlon 2011
  • BOINC Pentathlon 2012
  • BOINC Pentathlon 2013
  • BOINC Pentathlon 2014
  • BOINC Pentathlon 2015
  • BOINC Pentathlon 2016
  • BOINC Pentathlon 2017
  • BOINC Pentathlon 2018
  • BOINC Pentathlon 2019
  • BOINC Pentathlon 2020
  • THOR Challenge 2020
Also die MP3 Datei schön und gut - hatte da nich jemand was von Föhn geschrieben ....

Bzgl. Kabel - ja da könnte noch etwas optimiert werden - immerhin würde so auch der Luftstrom optimiert für bessere Kühlung ähm mehr Boinc


Frage:
Was machen wir eigentlich mit all den PCIe Lanes des Epycs ? Ich seh da so viele freie Slots
 

Onkel_Dithmeyer

Redaktion
☆☆☆☆☆☆
Mitglied seit
22.04.2008
Beiträge
12.734
Renomée
3.375
Standort
Zlavti
  • BOINC Pentathlon 2011
  • BOINC Pentathlon 2012
  • BOINC Pentathlon 2013
  • BOINC Pentathlon 2014
  • BOINC Pentathlon 2015
  • BOINC Pentathlon 2016
  • BOINC Pentathlon 2017
  • BOINC Pentathlon 2018
  • BOINC Pentathlon 2019
  • SETI@Home Intel-Race II
  • BOINC Pentathlon 2020
  • THOR Challenge 2020
@Nero
ich hoffe das sind keine billigen SATA-Kabel ohne Metallclips. Die können sich über längere Laufzeiten losrödeln. Habe ich keine gute Erfahrungen mit gemacht. Ich müsste noch ausreichend Kabel mit Clips haben, sag Bescheid, sollte es Bedarf geben :)
 

BoMbY

Grand Admiral Special
Mitglied seit
22.11.2001
Beiträge
7.437
Renomée
264
Standort
Aachen
Was machen wir eigentlich mit all den PCIe Lanes des Epycs ? Ich seh da so viele freie Slots

Man könnte ja ein paar Vega20 einbauen Ende des Jahres, und DC-Projekte unterstützen.

Hab Ihr eigentlich mal überlegt da eine Bare-Metal-VM drunter zu packen, selbst wenn meist nur eine Instanz läuft könnte das eventuell Sinn machen, wenn man zum Beispiel mal parallel ein neues OS testen will, oder was auch immer? Und von der Leistung macht das heute praktisch kaum einen Unterschied.
 

tomturbo

Technische Administration, Dinosaurier
Mitglied seit
30.11.2005
Beiträge
8.869
Renomée
145
Standort
Österreich
  • SIMAP Race
  • QMC Race
  • Spinhenge ESL
  • BOINC Pentathlon 2013
  • BOINC Pentathlon 2014
  • BOINC Pentathlon 2015
  • BOINC Pentathlon 2016
  • BOINC Pentathlon 2017
  • BOINC Pentathlon 2019
  • SETI@Home Wow!-Event 2019
Daran haben wir gedacht, also an Virtualisierung, geht aber nicht, da zu wenig IP-Adressen da sind.
 

hoschi_tux

Grand Admiral Special
Mitglied seit
08.03.2007
Beiträge
4.332
Renomée
102
Standort
Ilmenau
Die VMs müssen doch keine öffentliche IP haben (zumindest für eine Testumgebung oder BOINC). Das Boot reicht ja als Nabel zur Welt.
 

tomturbo

Technische Administration, Dinosaurier
Mitglied seit
30.11.2005
Beiträge
8.869
Renomée
145
Standort
Österreich
  • SIMAP Race
  • QMC Race
  • Spinhenge ESL
  • BOINC Pentathlon 2013
  • BOINC Pentathlon 2014
  • BOINC Pentathlon 2015
  • BOINC Pentathlon 2016
  • BOINC Pentathlon 2017
  • BOINC Pentathlon 2019
  • SETI@Home Wow!-Event 2019

Supi

Fleet Captain Special
Mitglied seit
11.11.2001
Beiträge
276
Renomée
0
Wird jetzt noch auf die Finale 18.04 LTS zum 26.04. gewartet oder schon mit der Beta 2 angegangen? Sollte doch jetzt Ubuntu als Unterbau werden.
 

Nero24

Administrator
Teammitglied
★ Themenstarter ★
Mitglied seit
01.07.2000
Beiträge
22.941
Renomée
8.761
  • BOINC Pentathlon 2019
  • BOINC Pentathlon 2020
  • BOINC Pentathlon 2018
Wow. Also so sehr es mich wurmt, dass wir das Boot noch nicht zu Wasser lassen können, da unser auserkorenes Betriebssystem noch nicht released ist; manchmal sind solche Sachen doch zu irgendwas gut. Hab den Server heute nochmal in Betrieb genommen, um ein paar Sachen zu testen, da hätte mich beinahe der Schlag getroffen! Das System-Eventlog der Windows-Testinstallation ist voll mit WHEA-Errors :o :o :o

whea.PNG

Cachehierarchiefehler im Prozessorkern, APIC# 48. Na super. Ich sah mich schon den Epyc tauschen müssen :( Nach einigem recherchieren testete ich noch verschiedene Zustände beim Spectre-Schutz, da das hier offenbar Auslöser für die WHEA-Fehler war bei anderen Anwendern; und unser Supermicro-Board hat ja bereits Spectre-Microcode-Update und die Windows-10-Testinstallation ist Build 17133, die auch davon Gebrauch macht. Aber in diesem Fall hat es leider nichts gebracht, ebenso wie CMOS-Clear, Stromsparfunktionen deaktivieren, Last, keine Last. Machte alles keinen Unterschied. Exakt alle 5 Sekunden gab es einen Fehlereintrag im Eventlog.

Da es immer der selbe Prozessorkern war fing ich an, Kerne zu deaktivieren. Aber selbst das machte keinen Unterschied. Zuletzt – es schien mir zwar etwas weit hergeholt, da im Sinne des Wortes ja kein Teil der Cachehierarchie – riss ich alle RAMs bis auf ein Modul aus dem System und testete nochmal. Das schien mir zwar unsinnig, da ich vor dem Testlauf bereits alle Module einzeln mit Memtest gecheckt hatte, aber ok. Und siehe da: mit nur einem Modul bestückt waren die Fehler weg. :o :D

Ich begann also Modul für Modul wieder einzusetzen und zu checken. Beim Modul in Slot 6 ging es wieder los. Zog ich es wieder raus, waren die Fehler wieder weg. Steckte ich das Modul, das vorher in Slot 7 Dienst schob, in Slot 6 – könnte ja auch der Slot oder der zugehörige Memory-Controller defekt sein – auch keine Fehler. Steckte ich das verdächtige Modul in irgendeinen anderen Slot, traten die WHEA-Fehler augenblicklich wieder auf; dann nur an einer anderen Prozessor-APIC-Nummer.

Ist doch tatsächlich eines der 8 Speichermodule kaputt. Vermutlich zu Tode gequält bei den zahlreichen Stabilitätstests. Gut, dafür sind die Tests ja da. Wenn eine Komponente schon einen Patscher hat, dann soll sie doch bitte bei der Quälerei gleich kaputtgehen. Das ist jetzt passiert. Das schuldige Modul ist identifiziert und kann getauscht werden. Alles gut.

Aber: wäre es nach Plan gelaufen, würde das Boot bereits seit Ostern für P3D auf den Weltmeeren kreuzen. Hunderte km vom nächsten Admin entfernt. Da wären WHEA-Errors in der Ferne nicht so lustig :o Insofern: Glück gehabt, dass 18.04 LTS noch nicht fertig ist *lol*

Positiv dabei: trotz des defekten Moduls ist der Server selbst unter Dauervolllast nicht ein Mal abgestürzt. ECC sei dank 8)
 
Zuletzt bearbeitet:
G

Gast29012019_2

Guest
Nero erhöhe bitte mal die DDR-Voltage auf 1,3V ! und nur ein guter Rat, da ich die selben Probleme hatte, zwar im OC aber jedesmal reproduzierbar ! - Auch können Veränderungen im AGESA Update für jene Probleme Verantwortlich sein, mit dem vorletzten B350 Prime Plus Board konnte ich die Riegel mit 3200MHz@1,25V laufen lassen stabil ohne WHEA Errors.

Bevor du den Riegel wegschickst, würde ich die Möglichkeiten des UEFI des Boards nutzen. Ich wette das der Riegel kein Fehler hat aber der Fehler beim Board oder dem UEFI zu suchen ist. Habe mich damit ausreichend beschäftigt.

Etwaige Fehler sind dann unter Memtest 7.4 UEFI Mode sichtbar oder unter Windows mit LinX der haut dir das dann raus was man im Bild sieht.
 
Zuletzt bearbeitet:

Nero24

Administrator
Teammitglied
★ Themenstarter ★
Mitglied seit
01.07.2000
Beiträge
22.941
Renomée
8.761
  • BOINC Pentathlon 2019
  • BOINC Pentathlon 2020
  • BOINC Pentathlon 2018
Man kann bei einem Server-Mainboard nicht an irgendwelchen Spannungen herumspielen ;) Das muss so laufen wie spezifiziert (und tat es in den letzten Wochen ja auch). Wenn es nicht läuft wie spezifiziert, gilt es als defekt, da gibt's keinen Spielraum – und sollte es hier auch nicht )((
 

Nero24

Administrator
Teammitglied
★ Themenstarter ★
Mitglied seit
01.07.2000
Beiträge
22.941
Renomée
8.761
  • BOINC Pentathlon 2019
  • BOINC Pentathlon 2020
  • BOINC Pentathlon 2018
Ähm – also nur ganz höflich gemeint zur Einordnung: Du hast keinen 13 jährigen N00b vor Dir ;)

Ich kenne die Speicher-Problematik bei Ryzen-Systemen von der ersten Stunde an. Hab selber ein Ryzen-System, viele Testläufe dazu gemacht und auch etliche News und Forenbeiträge zu der Problematik verfasst. Aber das alles, die ganzen Trick und Tweaks mit Timings, Spannung, Takt, etc. kannst Du bei einem Epyc-System allesamt vergessen. Bei einem Serverboard gibt es keine Tweaking-Optionen im BIOS!

Selbstverständlich habe ich ein UEFI-Update auf die neueste Version gemacht; am Tag der Inbetriebnahme. Würde ich bei einer 1.0er Version auch jedem dringend empfehlen. Die Inbetriebnahme fand allerdings am 19.03.2018 statt. Die ersten WHEA-Errors dagegen traten am 20.04.2018 auf, also über einen Monat später; ohne dass an der Hardware noch was verändert worden wäre.

Und nein, ich weigere mich, das Mainboard zu tauschen, nur weil eines von 8 Speichermodulen reproduzierbar WHEA-Fehlereinträge produziert. Ich tausche lieber das eine Modul. Macht weniger Arbeit... *buck*

Lehn Dich zurück, wir kriegen das schon hin 8)
 
G

Gast29012019_2

Guest
Lieber Nero ich beschäftige mich schon seit mehr als 20 Jahren in dem Bereich als Hobby ohne es gelernt zu haben, allerdings im Privaten Umfeld. Und ich habe schon Probleme lösen können, wo gelernte IT-Techniker nicht mehr weitergekommen sind, mittlerweile das Hobby eingestellt weil ich keine Lust mehr darauf habe. Pferde machen mehr Freude und man kommt an die frische Luft und kann sich nett mit Stallkollegen Unterhalten.

Mit ECC beschäftige ich mit allerdings erst seit dem Ryzen System, und das Fehlerbild kann aber muss nicht an einem defekten Riegel liegen !

Das neuste Update habe ich bei dem Asus B350 Prime Plus noch nicht installiert, da das System gut läuft als auch der Ram keine Fehler produziert die er korrigieren sollte.

Aber lass uns wissen woran es gelegen hat, und probiere mal die neue Memtest Version. Hatte nur die 7.4 gecheckt.
 
Zuletzt bearbeitet:

Nero24

Administrator
Teammitglied
★ Themenstarter ★
Mitglied seit
01.07.2000
Beiträge
22.941
Renomée
8.761
  • BOINC Pentathlon 2019
  • BOINC Pentathlon 2020
  • BOINC Pentathlon 2018
Lieber Zidane ;), ich schätze Deine Erfahrung und Deinen Input wirklich sehr, ebenso wie sicherlich die vielen User, die im Mainboard- oder Speicher-Forum mit ihren Problemen ankommen und auf Hilfe hoffen. Da kann es wirklich hilfreich sein, wenn einer mit Deiner Tüftel-Erfahrung beisteuert, dass eine VDIMM-Erhöhung auf x.yV womöglich ein Problem löst, oder dass Systeme mit Zeppelin-Die gerade Timings lieber mögen als ungerade, oder dass das BIOS Y des ASUS-Schlagmichtod noch höhere Speichertakte vertragen hat als das BIOS Z. Das ist hammer und jeder Hilfesuchende schätzt Dich dafür :D

Aber hier, in diesem Zusammenhang, sind diese Ratschläge nicht hilfreich. Warum, habe ich zweimal erläutert: weil es nichts zu tweaken gibt auf einer Serverplattform! Ebenso habe ich – dachte ich zumindest – ziemlich schlüssig geschildert, weshalb dieses eine RAM-Modul schuld ist an den Fehlereinträgen. Mehr ist dazu denke ich erstmal nicht zu sagen *noahnung* Modul wird getauscht, Server läuft momentan mit 7 Modulen fehlerfrei und wenn das Austauschmodul da ist, hoffentlich auch wieder mit deren 8 :)
 
G

Gast29012019_2

Guest
Bei einem Serverboard würde ich auch keine Unterschiede machen, und die Möglichkeiten nutzen die es hergeben würde. Wenn man nix machen kann, wäre der logische Schritt mit einem neuen Modul zu testen. Wenn sich die Probleme dann gelöst haben ist es gut, wenn nicht würde das Board in die Tonne wandern. Da bin ich sehr konsequent.

Hatte auch schon das Erlebnis das sich vermeintlich defekte Crucial Module nach langer Lagerung in einem anderen System als fehlerfrei erwiesen haben.

Aber gehe mal von aus, das du in 1-2 Wochen ein neues Modul hast, die Abwicklung dürfte relativ schnell gehen.
 
Zuletzt bearbeitet:

sompe

Grand Admiral Special
Mitglied seit
09.02.2009
Beiträge
9.136
Renomée
199
@Zidane
Ähm, mal eine grundlegene Frage.
Wenn ein System tadellos lief, plötzlich Fehler produziert und eine Komponente ausfindig gemacht wurde mit der der Fehler mit wandert, warum soll diese Komponente dann nicht defekt sein? Du hast 8 gleiche Speichermodule und eines tanzt plötzlich aus der Reihe. Dann wird dieses getauscht und gut ist.

Ein ähnliches Spiel hatte ich schon bei meinem Cruncher, allerdings ohne ECC.
Das System lief bei einem Race tagelang problemlos bei Vollast durch und auf einmal schmierte es ständig ab. Nach einer gewissen Zeit der Fehlersuche konnte ich ein Modul identifizieren das die Fehler verursacht und nachdem es aus dem System verbannt wurde lief der Rechner wieder auf Volldampf weiter.
Das Speicher Kit wurde nach dem Race reklamiert und das neue Kit läuft seither wieder einwandfrei.

Die ganzen Spielereien mit der Spannung und den Timings mögen ja ganz nett sein um im privaten Bereich etwas lauffähig zu machen, haben im Server Umfeld aber nichts verloren.
Die Komponenten die nicht innerhalb der Spec laufen fliegen aus dem System und werden getauscht. Zudem sehe ich keinen Grund eine Komponente mit Garantie nicht zu reklamieren.
Hardware geht auch mal kaputt und je öfter eine Komponente vorliegt desto warscheinlicher ist das eines davon ausfällt.
 
Zuletzt bearbeitet:

MikeHammer

Commodore Special
Mitglied seit
05.02.2003
Beiträge
430
Renomée
10
Standort
Straubing
Zidane hat ja schon selber erwähnt dass der nächste logische Schritt in diesem Fall wäre, den vermutlich bzw. wahrscheinlich defekten Speicherriegel zu tauschen.
Wenns so wäre, dass jedes Modul dass mal in einen bestimmten Slot steckt, genau darin spinnt und in allen anderen Slots funktioniert, wärs natürlich klar das Board, auch klar.

btw ist natürlich noch Garantie drauf, so what...

Klar ist auch, dass bei aller Erfahrung im privaten PC-Gebastel RICHTIGE Serverhardware ein anderes Kapitel ist. Bei ner privaten Kiste kann man schaun ob RAM mit etwas Spannungsanhebung stabil genug läuft. Bei Serverhardware würd ich- auch wenns die Option gäbe- dem RAM das mehr Saft als spezifiziert braucht um zu laufen, sowieso nicht trauen ;)

Oder würdet ihr ein neues Auto NICHT reklamieren, wenns z.b. mit Super95 spezifiziert ist, aber mindestens Super+/Ultimate/whatever Edelstsprit braucht um normal zu laufen ohne zu stottern oder abzusterben?
eben... ;)
 

gruenmuckel

Grand Admiral Special
Mitglied seit
17.05.2001
Beiträge
28.926
Renomée
814
Standort
Gerry-Weber - Stadt
  • SIMAP Race
  • QMC Race
  • RCN Russia
  • Spinhenge ESL
  • BOINC Pentathlon 2012
  • BOINC Pentathlon 2014
  • BOINC Pentathlon 2016
  • BOINC Pentathlon 2018
  • BOINC Pentathlon 2020
Ach.... wenn ECC die Fehler abfängt kann mann es doch so laufen lassen. *chatt* *oink*
 

sompe

Grand Admiral Special
Mitglied seit
09.02.2009
Beiträge
9.136
Renomée
199
@MikeHammer
Er wollte als erstes bei Server Hardware an der Speicher Spannung drehen (was sich schon doppelt selbst ausschließt) und dann das Mainboard gegen etwas "anständiges" tauschen was die Spannungs Spielchen zulassen würde (ich glaube nicht dass es das bei Server Hardware überhaupt gibt) anstatt einen defekten Speicher Riegel einzuräumen.
Also erstmal das komplette, eingerichtete System auseinander reissen anstatt den Riegel zu tauschen der rumzickt.
 

Morkhero

Grand Admiral Special
Mitglied seit
03.02.2002
Beiträge
7.805
Renomée
273
Standort
Bill Gates' Klo
man könnte auch sagen das fängt ja gut an....:P das eine teil macht jetzt schon die grätsche ... ein anderes in einem halben jahr. hoffentlich wars nur zufall und die anderen halten dann wieder so 13 jahre lang durch :) *daumendrück*
ich hab ja nun überhaupt keinen plan mehr ^^ aber rein von dem was ich hier so lese, kommt es mir immer so vor als würden die neueren teile alle schneller die hufe hochmachen ^^.

wird es eigentlich ansonsten noch veränderungen geben ? baut tomturbo noch ein paar coole gimmicks in die forensoftware ein ? ;D
 

eratte

Redaktion
☆☆☆☆☆☆
Mitglied seit
11.11.2001
Beiträge
15.513
Renomée
1.111
Standort
Rheinberg / NRW
  • BOINC Pentathlon 2012
  • BOINC Pentathlon 2013
  • BOINC Pentathlon 2014
  • BOINC Pentathlon 2015
  • BOINC Pentathlon 2016
  • BOINC Pentathlon 2017
  • BOINC Pentathlon 2020
  • SETI@Home Intel-Race II
Status
Für weitere Antworten geschlossen.
Oben Unten