In Vorbereitung auf Das Boot 3.0

Status
Für weitere Antworten geschlossen.
Das geht aber noch einiges ordentlicher mit den Kabeln ;)
 
Das geht aber noch einiges ordentlicher mit den Kabeln ;)
Logo ;) Aber erst wenn sicher ist, dass nichts mehr ausgesteckt oder umverkabelt werden muss aus irgendeinem Grund, der sich erst beim Linux-Test ergibt.
 
Also die MP3 Datei schön und gut - hatte da nich jemand was von Föhn geschrieben ....

Bzgl. Kabel - ja da könnte noch etwas optimiert werden - immerhin würde so auch der Luftstrom optimiert für bessere Kühlung ähm mehr Boinc


Frage:
Was machen wir eigentlich mit all den PCIe Lanes des Epycs ? Ich seh da so viele freie Slots
 
@Nero
ich hoffe das sind keine billigen SATA-Kabel ohne Metallclips. Die können sich über längere Laufzeiten losrödeln. Habe ich keine gute Erfahrungen mit gemacht. Ich müsste noch ausreichend Kabel mit Clips haben, sag Bescheid, sollte es Bedarf geben :)
 
Was machen wir eigentlich mit all den PCIe Lanes des Epycs ? Ich seh da so viele freie Slots

Man könnte ja ein paar Vega20 einbauen Ende des Jahres, und DC-Projekte unterstützen.

Hab Ihr eigentlich mal überlegt da eine Bare-Metal-VM drunter zu packen, selbst wenn meist nur eine Instanz läuft könnte das eventuell Sinn machen, wenn man zum Beispiel mal parallel ein neues OS testen will, oder was auch immer? Und von der Leistung macht das heute praktisch kaum einen Unterschied.
 
Daran haben wir gedacht, also an Virtualisierung, geht aber nicht, da zu wenig IP-Adressen da sind.
 
Die VMs müssen doch keine öffentliche IP haben (zumindest für eine Testumgebung oder BOINC). Das Boot reicht ja als Nabel zur Welt.
 
Wird jetzt noch auf die Finale 18.04 LTS zum 26.04. gewartet oder schon mit der Beta 2 angegangen? Sollte doch jetzt Ubuntu als Unterbau werden.
 
Wow. Also so sehr es mich wurmt, dass wir das Boot noch nicht zu Wasser lassen können, da unser auserkorenes Betriebssystem noch nicht released ist; manchmal sind solche Sachen doch zu irgendwas gut. Hab den Server heute nochmal in Betrieb genommen, um ein paar Sachen zu testen, da hätte mich beinahe der Schlag getroffen! Das System-Eventlog der Windows-Testinstallation ist voll mit WHEA-Errors :o :o :o

whea.PNG

Cachehierarchiefehler im Prozessorkern, APIC# 48. Na super. Ich sah mich schon den Epyc tauschen müssen :( Nach einigem recherchieren testete ich noch verschiedene Zustände beim Spectre-Schutz, da das hier offenbar Auslöser für die WHEA-Fehler war bei anderen Anwendern; und unser Supermicro-Board hat ja bereits Spectre-Microcode-Update und die Windows-10-Testinstallation ist Build 17133, die auch davon Gebrauch macht. Aber in diesem Fall hat es leider nichts gebracht, ebenso wie CMOS-Clear, Stromsparfunktionen deaktivieren, Last, keine Last. Machte alles keinen Unterschied. Exakt alle 5 Sekunden gab es einen Fehlereintrag im Eventlog.

Da es immer der selbe Prozessorkern war fing ich an, Kerne zu deaktivieren. Aber selbst das machte keinen Unterschied. Zuletzt – es schien mir zwar etwas weit hergeholt, da im Sinne des Wortes ja kein Teil der Cachehierarchie – riss ich alle RAMs bis auf ein Modul aus dem System und testete nochmal. Das schien mir zwar unsinnig, da ich vor dem Testlauf bereits alle Module einzeln mit Memtest gecheckt hatte, aber ok. Und siehe da: mit nur einem Modul bestückt waren die Fehler weg. :o :D

Ich begann also Modul für Modul wieder einzusetzen und zu checken. Beim Modul in Slot 6 ging es wieder los. Zog ich es wieder raus, waren die Fehler wieder weg. Steckte ich das Modul, das vorher in Slot 7 Dienst schob, in Slot 6 – könnte ja auch der Slot oder der zugehörige Memory-Controller defekt sein – auch keine Fehler. Steckte ich das verdächtige Modul in irgendeinen anderen Slot, traten die WHEA-Fehler augenblicklich wieder auf; dann nur an einer anderen Prozessor-APIC-Nummer.

Ist doch tatsächlich eines der 8 Speichermodule kaputt. Vermutlich zu Tode gequält bei den zahlreichen Stabilitätstests. Gut, dafür sind die Tests ja da. Wenn eine Komponente schon einen Patscher hat, dann soll sie doch bitte bei der Quälerei gleich kaputtgehen. Das ist jetzt passiert. Das schuldige Modul ist identifiziert und kann getauscht werden. Alles gut.

Aber: wäre es nach Plan gelaufen, würde das Boot bereits seit Ostern für P3D auf den Weltmeeren kreuzen. Hunderte km vom nächsten Admin entfernt. Da wären WHEA-Errors in der Ferne nicht so lustig :o Insofern: Glück gehabt, dass 18.04 LTS noch nicht fertig ist *lol*

Positiv dabei: trotz des defekten Moduls ist der Server selbst unter Dauervolllast nicht ein Mal abgestürzt. ECC sei dank 8)
 
Zuletzt bearbeitet:
Nero erhöhe bitte mal die DDR-Voltage auf 1,3V ! und nur ein guter Rat, da ich die selben Probleme hatte, zwar im OC aber jedesmal reproduzierbar ! - Auch können Veränderungen im AGESA Update für jene Probleme Verantwortlich sein, mit dem vorletzten B350 Prime Plus Board konnte ich die Riegel mit 3200MHz@1,25V laufen lassen stabil ohne WHEA Errors.

Bevor du den Riegel wegschickst, würde ich die Möglichkeiten des UEFI des Boards nutzen. Ich wette das der Riegel kein Fehler hat aber der Fehler beim Board oder dem UEFI zu suchen ist. Habe mich damit ausreichend beschäftigt.

Etwaige Fehler sind dann unter Memtest 7.4 UEFI Mode sichtbar oder unter Windows mit LinX der haut dir das dann raus was man im Bild sieht.
 
Zuletzt bearbeitet:
Man kann bei einem Server-Mainboard nicht an irgendwelchen Spannungen herumspielen ;) Das muss so laufen wie spezifiziert (und tat es in den letzten Wochen ja auch). Wenn es nicht läuft wie spezifiziert, gilt es als defekt, da gibt's keinen Spielraum – und sollte es hier auch nicht )((
 
Ähm – also nur ganz höflich gemeint zur Einordnung: Du hast keinen 13 jährigen N00b vor Dir ;)

Ich kenne die Speicher-Problematik bei Ryzen-Systemen von der ersten Stunde an. Hab selber ein Ryzen-System, viele Testläufe dazu gemacht und auch etliche News und Forenbeiträge zu der Problematik verfasst. Aber das alles, die ganzen Trick und Tweaks mit Timings, Spannung, Takt, etc. kannst Du bei einem Epyc-System allesamt vergessen. Bei einem Serverboard gibt es keine Tweaking-Optionen im BIOS!

Selbstverständlich habe ich ein UEFI-Update auf die neueste Version gemacht; am Tag der Inbetriebnahme. Würde ich bei einer 1.0er Version auch jedem dringend empfehlen. Die Inbetriebnahme fand allerdings am 19.03.2018 statt. Die ersten WHEA-Errors dagegen traten am 20.04.2018 auf, also über einen Monat später; ohne dass an der Hardware noch was verändert worden wäre.

Und nein, ich weigere mich, das Mainboard zu tauschen, nur weil eines von 8 Speichermodulen reproduzierbar WHEA-Fehlereinträge produziert. Ich tausche lieber das eine Modul. Macht weniger Arbeit... *buck*

Lehn Dich zurück, wir kriegen das schon hin 8)
 
Lieber Nero ich beschäftige mich schon seit mehr als 20 Jahren in dem Bereich als Hobby ohne es gelernt zu haben, allerdings im Privaten Umfeld. Und ich habe schon Probleme lösen können, wo gelernte IT-Techniker nicht mehr weitergekommen sind, mittlerweile das Hobby eingestellt weil ich keine Lust mehr darauf habe. Pferde machen mehr Freude und man kommt an die frische Luft und kann sich nett mit Stallkollegen Unterhalten.

Mit ECC beschäftige ich mit allerdings erst seit dem Ryzen System, und das Fehlerbild kann aber muss nicht an einem defekten Riegel liegen !

Das neuste Update habe ich bei dem Asus B350 Prime Plus noch nicht installiert, da das System gut läuft als auch der Ram keine Fehler produziert die er korrigieren sollte.

Aber lass uns wissen woran es gelegen hat, und probiere mal die neue Memtest Version. Hatte nur die 7.4 gecheckt.
 
Zuletzt bearbeitet:
Lieber Zidane ;), ich schätze Deine Erfahrung und Deinen Input wirklich sehr, ebenso wie sicherlich die vielen User, die im Mainboard- oder Speicher-Forum mit ihren Problemen ankommen und auf Hilfe hoffen. Da kann es wirklich hilfreich sein, wenn einer mit Deiner Tüftel-Erfahrung beisteuert, dass eine VDIMM-Erhöhung auf x.yV womöglich ein Problem löst, oder dass Systeme mit Zeppelin-Die gerade Timings lieber mögen als ungerade, oder dass das BIOS Y des ASUS-Schlagmichtod noch höhere Speichertakte vertragen hat als das BIOS Z. Das ist hammer und jeder Hilfesuchende schätzt Dich dafür :D

Aber hier, in diesem Zusammenhang, sind diese Ratschläge nicht hilfreich. Warum, habe ich zweimal erläutert: weil es nichts zu tweaken gibt auf einer Serverplattform! Ebenso habe ich – dachte ich zumindest – ziemlich schlüssig geschildert, weshalb dieses eine RAM-Modul schuld ist an den Fehlereinträgen. Mehr ist dazu denke ich erstmal nicht zu sagen *noahnung* Modul wird getauscht, Server läuft momentan mit 7 Modulen fehlerfrei und wenn das Austauschmodul da ist, hoffentlich auch wieder mit deren 8 :)
 
Bei einem Serverboard würde ich auch keine Unterschiede machen, und die Möglichkeiten nutzen die es hergeben würde. Wenn man nix machen kann, wäre der logische Schritt mit einem neuen Modul zu testen. Wenn sich die Probleme dann gelöst haben ist es gut, wenn nicht würde das Board in die Tonne wandern. Da bin ich sehr konsequent.

Hatte auch schon das Erlebnis das sich vermeintlich defekte Crucial Module nach langer Lagerung in einem anderen System als fehlerfrei erwiesen haben.

Aber gehe mal von aus, das du in 1-2 Wochen ein neues Modul hast, die Abwicklung dürfte relativ schnell gehen.
 
Zuletzt bearbeitet:
@Zidane
Ähm, mal eine grundlegene Frage.
Wenn ein System tadellos lief, plötzlich Fehler produziert und eine Komponente ausfindig gemacht wurde mit der der Fehler mit wandert, warum soll diese Komponente dann nicht defekt sein? Du hast 8 gleiche Speichermodule und eines tanzt plötzlich aus der Reihe. Dann wird dieses getauscht und gut ist.

Ein ähnliches Spiel hatte ich schon bei meinem Cruncher, allerdings ohne ECC.
Das System lief bei einem Race tagelang problemlos bei Vollast durch und auf einmal schmierte es ständig ab. Nach einer gewissen Zeit der Fehlersuche konnte ich ein Modul identifizieren das die Fehler verursacht und nachdem es aus dem System verbannt wurde lief der Rechner wieder auf Volldampf weiter.
Das Speicher Kit wurde nach dem Race reklamiert und das neue Kit läuft seither wieder einwandfrei.

Die ganzen Spielereien mit der Spannung und den Timings mögen ja ganz nett sein um im privaten Bereich etwas lauffähig zu machen, haben im Server Umfeld aber nichts verloren.
Die Komponenten die nicht innerhalb der Spec laufen fliegen aus dem System und werden getauscht. Zudem sehe ich keinen Grund eine Komponente mit Garantie nicht zu reklamieren.
Hardware geht auch mal kaputt und je öfter eine Komponente vorliegt desto warscheinlicher ist das eines davon ausfällt.
 
Zuletzt bearbeitet:
Zidane hat ja schon selber erwähnt dass der nächste logische Schritt in diesem Fall wäre, den vermutlich bzw. wahrscheinlich defekten Speicherriegel zu tauschen.
Wenns so wäre, dass jedes Modul dass mal in einen bestimmten Slot steckt, genau darin spinnt und in allen anderen Slots funktioniert, wärs natürlich klar das Board, auch klar.

btw ist natürlich noch Garantie drauf, so what...

Klar ist auch, dass bei aller Erfahrung im privaten PC-Gebastel RICHTIGE Serverhardware ein anderes Kapitel ist. Bei ner privaten Kiste kann man schaun ob RAM mit etwas Spannungsanhebung stabil genug läuft. Bei Serverhardware würd ich- auch wenns die Option gäbe- dem RAM das mehr Saft als spezifiziert braucht um zu laufen, sowieso nicht trauen ;)

Oder würdet ihr ein neues Auto NICHT reklamieren, wenns z.b. mit Super95 spezifiziert ist, aber mindestens Super+/Ultimate/whatever Edelstsprit braucht um normal zu laufen ohne zu stottern oder abzusterben?
eben... ;)
 
Ach.... wenn ECC die Fehler abfängt kann mann es doch so laufen lassen. *chatt* *oink*
 
@MikeHammer
Er wollte als erstes bei Server Hardware an der Speicher Spannung drehen (was sich schon doppelt selbst ausschließt) und dann das Mainboard gegen etwas "anständiges" tauschen was die Spannungs Spielchen zulassen würde (ich glaube nicht dass es das bei Server Hardware überhaupt gibt) anstatt einen defekten Speicher Riegel einzuräumen.
Also erstmal das komplette, eingerichtete System auseinander reissen anstatt den Riegel zu tauschen der rumzickt.
 
man könnte auch sagen das fängt ja gut an....:P das eine teil macht jetzt schon die grätsche ... ein anderes in einem halben jahr. hoffentlich wars nur zufall und die anderen halten dann wieder so 13 jahre lang durch :) *daumendrück*
ich hab ja nun überhaupt keinen plan mehr ^^ aber rein von dem was ich hier so lese, kommt es mir immer so vor als würden die neueren teile alle schneller die hufe hochmachen ^^.

wird es eigentlich ansonsten noch veränderungen geben ? baut tomturbo noch ein paar coole gimmicks in die forensoftware ein ? ;D
 
Status
Für weitere Antworten geschlossen.
Zurück
Oben Unten