In Vorbereitung auf Das Boot 3.0

Status
Für weitere Antworten geschlossen.
man könnte auch sagen das fängt ja gut an....:P das eine teil macht jetzt schon die grätsche ... ein anderes in einem halben jahr. hoffentlich wars nur zufall und die anderen halten dann wieder so 13 jahre lang durch :) *daumendrück*
Eine typische Badewannenkurvenerscheinung.
Entweder fällt ein Teil am Anfang aus oder zum Schluss. Aber mittendrin ist äußerst selten.
Wenn bei meinem vorherigen Arbeitgeber ein Lieferant ein neues Gerät anpries, das gerade ein super tolles revolutionäres brandneues elektronisches Bauteil/Chip drin hatte, dann bekam der als Standardantwort: komm in einem Jahr noch mal oder mach mit jedem einzelnen Gerät einen umfangreichen burn-in-Test. Oder Beides.

Ich schreib als erstes auch immer jede SSD komplett mit Prüfsummen voll, wo andere Leute nur meinen: damit sind bereits 500GB von den erlaubten TBW hinweg - na und? Dafür weiß ich, dass sie fehlerfrei ist.
 
Nero hat das Problem gut eingekreist. So ein WHEA Event scheint bei Ryzen nicht so selten, kann aber auch unter Intel auftreten. Auch wenn der Crucial RAM nicht auf der OVL des Mainboards steht, hätte der Fehler auch mit den freigegebenen Samsung Ram auftreten können.
Interessant ist ja, es lief fehlerfrei, dann war der Server einige Tage offline und nach neustart traten die Probleme auf.
Schade ist, das es von SuperMicro wohl keine Tools wie bei Dell oder HP gibt. Bei Dell der Open Manager würde schön die RAM ECC Fehler in sein interes Log schreiben und je nach Konfiguration dazu auch eine Mail schicken.


Das IPMI Update wurde dann ja auch gleich mit installiert, oder?


Edit: Gibts ja doch:

https://www.supermicro.com/products/nfo/SMS_SSM.cfm

ganz unten Download... klapp auch mit "Pseudo-Daten".
Super Doctor5 nennt sich wohl das Ganze.
 
Zuletzt bearbeitet:
Das Allgemeine Problem was ich hier sehe ist einfach die Einstellung zur Hardware. Ich mache bei Desktop oder Server keinen Unterschied, bei der Vielzahl aus Kombinationsmöglichkeiten, sind die Probleme einfach zu Vielfältig.

Es reicht ja schon aus was man bei Laptops sehr gut sieht, da wird überall eingespart insbesondere bei Bauteilen oder der Spannungsversorgung bestimmter Komponenten. So laufen nur noch "Spezielle" Module wo man vor 10 Jahren noch alles reinstopfen konnte, wenn der Chipsatz die Beschränkung nicht vorgegeben hat, z.b 2GB x 2 und es mussten 16 Chips sein.

Und da man die Fertigung auch nicht immer 100% bestimmen kann, mag es ja sein das bei diesem einen Modul eben die 1,2V nicht reichen, die Speicherbank selbst ein Schuss hat, der IMC der CPU. Mit Logik das sind meine Erfahrungen kommt man oft aber nicht immer bei Computerproblemen weiter. Da hilft nur um die Ecke Denken weiter, und kommt zum Fazit das Hardware X die keinen Zusammenhang zum Problem hat die Ursache dafür ist. Das sind meine Erfahrungen in den 20 Jahren.

Im Grunde ist es zwar richtig das "Serverhardware" ohne Veränderungen einfach zu laufen hat, sprich Teiletausch entweder läuft es dann oder nicht. Wenn nicht ist auch das Board oder der Prozessor zu ersetzen, da man keine andere Wege im Gegensatz zum Desktop akzeptieren kann und keine Alternativen vorgesehen sind.

Und bei 8 Modulen ist die Wahrscheinlichkeit hoch, das eines darunter defekt ist.
 
Zuletzt bearbeitet:
Und da man die Fertigung auch nicht immer 100% bestimmen kann, mag es ja sein das bei diesem einen Modul eben die 1,2V nicht reichen
Doch, die Fertigung kann man 100% bestimmen.
Es gibt genügend Puffer und Tests. Was die 1,2V nicht schafft, kann als Billigmarke oder Consumer-Zeug noch verkauft werden, aber eben nicht mehr als Server-Hardware.

Bei normalem RAM, der die JEDEC-Standards einhält, ist das normalerweise ebenso. Aber kaum noch ein Modul hält wirklich den zugehörigen JEDEC-Standard ein und darum gibt es die vielen Inkompatibilitäten. Das war vor 20 Jahren auch schon mal so, da hieß es dann: Infineon hält sich dran, der Rest nicht - also Infineon kaufen. Gibts nur leider nicht mehr.
 
Tja dann dürfte nach deiner Meinung nach das Crucial Modul was Nero rausgefunden hat ja nicht defekt sein.

Leider zeigt sich nach 20 Jahren, auch in unserer Firma das heute überall eine Kosteneinsparung schleichend stattfindet, die auf kosten der Qualität geht. Jeder der heute das Gegenteil behauptet lügt, da Firmeninterne Geschichten niemals der Öffentlichkeit präsentiert werden dürfen. Auch wir Deutschen sind da nicht besser, als das Label Made in West Germany noch was wert war, waren die Produkte langlebiger als heute.

Aber Langlebige Produkte, bringen heute kein Geld mehr ein und als Firma verdient man dann auch nichts mehr.

Aber gehen wir mal bei dem betreffenden Speicher von einem Montagsmodul aus, ich denke damit können dann ALLE leben.

Als Gegenprobe könnte ich mal Nero vorschlagen ECC abzuschalten, aber ich weiß schon das es so eine Option bei einem Serverboard niemals geben wird. ECC ist schön und gut, erleichtert aber nicht immer die Fehlersuche. Nur weil die anderen Module nicht ansprechen, ist das eine Modul empfindlicher und reagiert schneller als die anderen.

ECC schlägt in der Regel nur dann an, wenn z.b die Spannung instabil sind und damit die Bits nicht mehr sauber durchlaufen, bei noch weniger V-Core oder ohne ECC friert das System ein, oder bootet nicht mehr.
 
Tja dann dürfte nach deiner Meinung nach das Crucial Modul was Nero rausgefunden hat ja nicht defekt sein.
Wieso? Ich kann Dir nicht folgen in Deinen Gedankensprüngen.
Wenn es vorher lief und jetzt nicht, dann kann es ja nun nur defekt sein.

Crucial ist ja einer der wenigen Modulhersteller, die noch selbst Speicher herstellen. Die werden wissen, welche Reserven sie haben und kein auf Kante genähtes Modul für Server freigeben.
 
kein auf Kante genähtes Modul für Server freigeben.
da er "Serverhardware" in anführungszeichen setzt, scheint ihm genau das verständnis zu fehlen. nämlich worin der unterschied zwischen desktop- und server-hardware eigentlich besteht.
 
T

ECC schlägt in der Regel nur dann an, wenn z.b die Spannung instabil sind und damit die Bits nicht mehr sauber durchlaufen, bei noch weniger V-Core oder ohne ECC friert das System ein, oder bootet nicht mehr.

Da hast du ECC bei DRAM nicht verstanden. Die von dir genannte Punkte haben sicher auch Einfluss auf die Signalverarbeitung der DRAMs, jedoch nicht einzig und allein.
https://en.wikipedia.org/wiki/ECC_memory
https://www.heise.de/newsticker/mel...l-haeufiger-als-bisher-angenommen-828883.html
Nach der Studie hat wohl fast jeder schon am PC einen Merror Error bzw. ein umgekipptes Bit im Arbeitsspeicher erlebt... nur führt dies halt nicht gleich zu einem Bluescreen. Dank ECC wird sowas halt auch festgestellt und korrigiert.

Dazu kommt, durch die höheren Takt und Datenraten sind die Anforderungen an die DIMMS heute viel größer.
Auch ein RAM kann "altern". Schon erlebt das ECC Ram alle 1-2 Monate mal einen ECC Error meldete, der sich nach 2 Jahren auf täglich häufte.
 
Ich mache bei Desktop oder Server keinen Unterschied.....
Und genau hier ist der Fehler.
Bei Desktop Hardware ist idR. jemand in der Nähe der sich um kleinere Probleme kümmert, Server Hardware hat über Jahre einwandfrei zu laufen und entsprechend hoch sind auch die Anforderungen an die Hardware. Daher ja auch der Preis der Komponenten.
 
War es nicht auch so, dass zu viele Fehler sich irgendwann gegenseitig in der Prüfsumme aufheben können und dann denkt das System statt 2 Fehlern ist gar keiner da?
 
War es nicht auch so, dass zu viele Fehler sich irgendwann gegenseitig in der Prüfsumme aufheben können und dann denkt das System statt 2 Fehlern ist gar keiner da?

Nein.

"Normaler" ECC-Speicher kann 1-bit Fehler korrigieren und ab 2-bit Fehlern stürzt das System genauso ab oder hängt sich auf, wie ein System ohne ECC.
2-bit Fehler können aber erkannt werden und lösen einen NMI aus. Je nach Betriebsystem mündet das in einer Meldung oder in einer Kernel-Panic.

Es gibt aber auch Multibit ECC Speichersysteme, da können mehrere Fehler korrigiert werden.
Ob da der Riegel und der Chipsatz das zusammen machen müssen weiß ich im Moment nicht.

Es gibt sogar Systeme wo Speicherriegel in einer Art Raid5 arbeiten, wobei hier ganze Riegel ausfallen können ohne das Gesamtsystem ausfallen zu lassen.
 
Zuletzt bearbeitet:
Da hast du ECC bei DRAM nicht verstanden. Die von dir genannte Punkte haben sicher auch Einfluss auf die Signalverarbeitung der DRAMs, jedoch nicht einzig und allein.
https://en.wikipedia.org/wiki/ECC_memory
https://www.heise.de/newsticker/mel...l-haeufiger-als-bisher-angenommen-828883.html
Nach der Studie hat wohl fast jeder schon am PC einen Merror Error bzw. ein umgekipptes Bit im Arbeitsspeicher erlebt... nur führt dies halt nicht gleich zu einem Bluescreen. Dank ECC wird sowas halt auch festgestellt und korrigiert.

Dazu kommt, durch die höheren Takt und Datenraten sind die Anforderungen an die DIMMS heute viel größer.
Auch ein RAM kann "altern". Schon erlebt das ECC Ram alle 1-2 Monate mal einen ECC Error meldete, der sich nach 2 Jahren auf täglich häufte.

Das Prinzip von ECC kenne ich, sonst würde ich es auch nicht nutzen, mir ging es ehr aber darum zu erklären warum die Fehler entstehen könnte. Allerdings gebe ich mich nicht 100% zufrieden, wenn Fehler korrigiert werden sondern warum sind die Fehler aufgetreten. Und das konnte ich bei meinem System ja rausfinden. Und ich bin zufrieden das sie mit meinen Anforderungen und einer kaum nennenswerten Spannungserhöhung stabil laufen. Das zeigt das die Chips schon gute Toleranzen nach oben hin haben. Die Kingston Teile mit Micron A Chips hatten quasi keine Reserve. OC-Riegel wie Trident und Co wollte ich aber auch nicht nutzen.

@sompe, da liegt bei dir ein Denkfehler vor. Man kann auch Desktop-Boards für den Preis kaufen. Die Qualität muss hier nicht besser sein, das sind zumindest meine Erfahrungen daher gebe ich nicht mehr als 100 Euro für ne Platine aus.

@tomturbo, und welche Fehlerkorrektur kann das Boot 3.0 ?

Da der Ryzen ja Multibitfehler in meinem System defintiv kann, sollte EPYC das automatisch auch können. Was anderes wäre auch heute nicht mehr sinnvoll.
 
Zuletzt bearbeitet:
Ist doch tatsächlich eines der 8 Speichermodule kaputt. Vermutlich zu Tode gequält bei den zahlreichen Stabilitätstests. Gut, dafür sind die Tests ja da. Wenn eine Komponente schon einen Patscher hat, dann soll sie doch bitte bei der Quälerei gleich kaputtgehen. Das ist jetzt passiert. Das schuldige Modul ist identifiziert und kann getauscht werden. Alles gut.

Ist das Modul in Nähe irgendeiner Wärmequelle?
Hatte ich auch mal, dass das Modul gleich neben dem CPU-Kühler gegrillt war, nachdem ein paar Tage Boinc lief, da war der Airflow nicht optimal ... von daher den Server auch nicht mit offenem Gehäuse laufen lassen, sondern Chassis zu und die Turbinen hochlaufen lassen ^^

Viel Erfolg bei der RMA, geht hoffentlich genauso fix wie bei mir damals ;)
 
Und das ist übrigens ein Grund warum man keine Kits kauft, denn dann darf man das gesamte Kit einschicken oder hat einen Hersteller, der Vorabaustausch macht. Bei Server-Hardware gilt, nicht lang gucken oder gar "tweaken" ==> ausbauen & austauschen.
 
@sompe, da liegt bei dir ein Denkfehler vor. Man kann auch Desktop-Boards für den Preis kaufen. Die Qualität muss hier nicht besser sein, das sind zumindest meine Erfahrungen daher gebe ich nicht mehr als 100 Euro für ne Platine aus.

Natürlich kann man auch Desktop-Mainboards für den Preis eines Server-Mainboards kaufen. Aber die haben dann in der Regel ganz andere Features. Hast du schonmal ein Serverboard mit RGB-LEDs, Anschlüssen für Wasserkühlungspumpen, Temperaturfühler, DIMM.2-Slot, SLI/CF, externem Taktgenerator für OC oder LN2-Switch gesehen? Genau das sind heutzutage Features, die normale Desktop-Mainboards teurer machen - und was Serverboards eben nicht haben. Und wenn sie dann dennoch gleich teuer sind, bedeutet das, dass die Serverboards extra für die stärkere Belastung evaluiert werden müssen.

Denn: Ein Serverboard muss im Dauerlauf funktionieren, ein Desktop-Board hingegen kann funktionieren. Das ist ein großer Unterschied, der sich auch im Preis niederschlägt.

Das preiswerteste SP3-Mainboard kostet aktuell rund 329 Euro, das preiswerteste TR4-Board hingegen nur rund 270 Euro. Dafür hat das TR4-Board Multi-GPU-Unterstützung, eine deutlich aufwändigere Kühllösung, RGB-Features, Sound, Overclocking-Features - alles Dinge, die das Serverboard nicht hat. Und dennoch ist es teurer. Klar, das wird zum Teil auch am Achtkanal-Speicherinterface und der Onboard-Grafik liegen, allein damit ist der Preisunterschied aber sicherlich nicht abgegolten.

Deine Erfahrungen in allen Ehren: Die sind hier nur schlichtweg nicht gefragt, da hier ein klarer Defekt vorliegt, welcher nicht von Anfang an da war. Insofern erübrigt sich jedwede Diskussion.
 
Hi,
wie sieht der der Zeitplan derzeit aus wann geht denn das Boot "endlich" zu Wasser ;)
lg
 
Nicht vor dem release von Ubuntu 18.04 plus ein wenig warten der anfänglichen patches sowie ein bisserl Test- und Installationszeit ;D
 
Bezüglich der "gigantischen" Resourcen die das neue BOOT so bietet stellt sich mir weiterhin die Frage bzgl. Hypervisor OS und VMs:

das gab es die Aussage - mir ham net genug IP-Adressen:
Naja IPv6 bietet eigentlich mehr als genug IP-Adressen für die nächsten Jahre?!?
auch interne Übersetzung zwischen Hypervisor OS (externe IPv6 oder notfalls antike IPv4) und VMs (interne IP-Adressen ggf aus dem 192er Blöcken) sollte gehen.

Ich brauch da glaub ich ne fundierte Antwort, sonst geh ich davon aus, dass das neue Boot total vor sich rum idlet

Soweit ich es verstehe anhand der mir bekannten VM-Varianten sollte folgendes durchaus gehen

1 kleines VM-Host-OS (Linux oder Windows) mit der "alten" IP
1-VM-System (gespiegelt 1 als Backup) für P3D
kleine VMs für Boinc oder was auch immer wie zB P3D-Stats Updater

Meine Überlegung dabei:
die VMs haben nur ne interne IP ala 192.168.... und die Anfragen dahin werden nur durchgeschleift.

Ist halt nur die Frage, welches OS dies am besten kann.
 
Wüsste nicht was https://www.proxmox.com/de/proxmox-ve/vergleich daran nicht könnte.
Außérdem, entstehen keine Kosten bzw. 75€ im Jahr wenn man sein Gewissen beruhige möchte und Zugriff aufs Enterprise Repository benötigt.
 
Ja, aber WARUM? Bei unserem Einsatzgebiet haben wir nichts davon, die Maschine zu virtualisieren. Es ist nur eine zusätzliche, unnötige weitere Schicht zwischen Hardware und Software. Unter gewissen Umständen macht das sicherlich Sinn, etwa wenn mehrere Instanzen darauf laufen, verschiedene Kunden, usw. Bei uns dagegen sehe ich den nicht. Stattdessen erzeugt die zusätzliche Komponente nur weiteren Aufwand in Sachen Wartung, eine zusätzliche Fehlerquelle für Bugs und Inkompatibilitäten und einen zusätzlichen Angriffsvektor, der nicht sein müsste. Im Falle von Problemen kannst Du dann immer würfeln, ob der Fehler auf Hardware-, Hypervisor- oder Gast-Ebene ausgelöst wird. Und Leistung kostet es auch noch. Das Boot wird auch so nicht idlen. Für BOINC und Backups brauchen wir keinen virtuellen Maschinen. *noahnung* Wenn tomturbo das aus irgendwelchen trifftigen Gründen möchte, ok. Ich werd's nicht blockieren wenn es Sinn macht. Aber ich persönlich hätte die Maschine gerne "bare metal" 8)
 
Also zB ein Twodee Stats Updater mit auf dem Server?
 
Deine Erfahrungen in allen Ehren: Die sind hier nur schlichtweg nicht gefragt, da hier ein klarer Defekt vorliegt, welcher nicht von Anfang an da war. Insofern erübrigt sich jedwede Diskussion.

Ich glaube, hier wird um eine reine Interpretation diskutiert.
Bei Servern gibt es klare Toleranzen, in denen die Hardware fehlerfrei laufen muss, und es sonst als Defekt gilt.
Das muss halt nicht bedeuten, dass die Hardware mit etwas mehr Strom oder langsameren Timings oder oder oder trotzdem läuft und rein technisch / faktisch defekt ist.

Hier ist innerhalb der klar definierten Spezifikationen ein Fehler aufgetreten, Nero hat sehr ordentlich und nachvollziehbar getestet und das "defekte" Bauteil eindeutig identifiziert!

Solchartige Speicherproblem sind auch immer sehr zeitintensiv, wenn man sicherstellen will, dass es wirklich stabil läuft, daher kann man doch hier nur Lob aussprechen.

Grüße
Christian
 
Nicht vor dem release von Ubuntu 18.04 plus ein wenig warten...

Auf auf, wenig gewartet du hast. Lauf Forrest lauf ;)
 
@Nero24

Da hast du auch wieder recht, ich habe erst letztes Wochenende 1,5 Tage damit verbracht herauszufinden, dass das virtuelle Netzwerk-Interface in meinem speziellen Anwendungsfall (experimentelles Routingprotokoll) die Schuld trug und nicht der eigentliche Prozess (und STP, die CPU oder eine wilde Kombination daraus) den Fehler verursacht. :]
Virtualisierung ja, da wo es Sinn macht.
 
Es würde schon Sinn machen bei uns zu virtualisieren, alleine schon aus Sicherheitsgründen würde ich gerne die Hauptkomponenten des Servers voneinander trennen (web, mail, daten)
Aber da wir zu wenig ipv4 Adressen zur Verfügung haben geht das nicht.
Außerdem erhöht sich natürlich auch die Komplexität durch einen zusätzlichen Layer. Und schneller wirds dadurch auch sicher nicht....
 
Status
Für weitere Antworten geschlossen.
Zurück
Oben Unten