News Intern: Downtime am Samstag wegen Server-Umzug und -Upgrade

Dort sind doch nicht etwa baugleiche Klimaanlagen der ICEs verbaut: Funktionieren nicht bei voller Rackbestückung AND an Sommertagen.
 
Es war ein Stromausfall der dafür verantwortlich war, dass die Router und die Klimaanlagen ausgefallen sind. Die Server wurden anschließend von den USVs oder manuell heruntergefahren. Weitere Informationen bekommen wir demnächst, die genaue Ursache ist uns noch unbekannt. Es könnte evtl. mit dem Unwetter zusammenhängen das gestern angeblich durch Hessen gezogen ist.
 
mj, schaue dir bitte die aktuellen Temperaturen an! Es ist noch nicht vorbei, der Status Quo ist noch nicht wieder hergestellt. Entweder die Rack-Tür ist noch offen oder der Server steht im Hof.
 
Soviel zum Thema "Green Computing" - "de Surfä steht uff de Wies´ " wie der Hesse sagen würde.
 
Niemand im Team ist mir der aktuellen Situation glücklich, das könnt ihr glauben.
Es war leider vorab nicht abzusehen wie sich das entwickelt.
 
Es kann doch nicht so schwer sein: Klimaanlage einschalten, auf Max stellen, Tür schließen. Das sind drei einfache Aufgaben.
a045.gif
 
Es könnte evtl. mit dem Unwetter zusammenhängen das gestern angeblich durch Hessen gezogen ist.
Nichts davon gemerkt; bin aber auch etwas Nördlicher...

Freuen wir uns lieber das die Schutzschaltungen funktioniert haben, es hätte auch schlimmer werden können.

Einen guten, günstigen (kostenlos?) Serverplatz zu bekommen ist etwas schwierig. Nicht das es perfekt ist, wir wissen doch das das Boot die SUNne nicht mag ;D

TAL9000
 
Schrankkühlung stellt derzeit das optimale Konzept für die Kühlung eines Rechenzentrums dar.
Full ack.
Allerdings ist bei uns die Temperatur im Rack bis auf 1-2°C konstant.

Und der Nachteil bei diesem Konzept ist eben, wenn keine Ausfallskühlung vorhanden ist, das die Temperaturen sehr schnell in sehr hohe Bereiche kommen können.
Hängt davon ab, wie die Rackkühlung realisiert ist. Wenn bei uns eine der beiden Kühlwasserpumpen ausfällt, kann die andere alleine weitermachen. Erst zum Tausch der ausgefallenen Pumpe muss dann der gesamte Kühlkreislauf abgeschaltet werden.

(Ich will aber nicht wissen, wie viel die Wasserkühlung gekostet hat...)
 
Entschuldigung was soll das Geheule um die Temperatur?
Sie bewegt sich im erlaubten Rahmen!
Sollte sie es nicht tun werden Maßnahmen ergriffen damit alles wieder in normale Bereiche kommt.

Der Hoster kennt das Problem und benötigt wirklich keine Ratschläge wie er sein RZ führen soll von Leuten die das in Ihrem Leben noch nicht taten.

@Antarctica
Beim Pumpentausch sollten vor und nach der Pumpe Absprerrhähne oder -ventile sein damit diese im laufenden Betrieb getauscht werden kann.
Ich denke das wird auch bei Euch so sein, weil Standard in der Industrie.

lg
__tom
 
Der Hoster kennt das Problem und benötigt wirklich keine Ratschläge wie er sein RZ führen soll von Leuten die das in Ihrem Leben noch nicht taten.
Du meinst mich? Bitte, wir sind mindestens 15°C über dem Niveau von vor 24h:
sensors_temp-week.png

Das Kühlste was sich im Server feststellen läßt hat 50°C vorher kam ein idelnder Core auf 31°C herunter.
Darin sehe ich eine eklatante Änderung zum zuvorigen Normalzustand.
 
Eigentlich müsste tomturbo es ja besser wissen, er kennt sich schließlich aus. Er hat ja sogar recht, die Temps sind im erlaubten Rahmen. Und bisher war der Hoster auch immer gut und zuverlässig. Aber das schönreden der momentan miserablen Situation in diesem Wrack von Rack finde ich unschön.

Es mag noch im erlaubten Rahmen sein, aber vorher war alles besser bis auf den Anfahrtsweg im Schadensfall. Gut, die Wahrscheinlichkeit für anfallende Anfahrtswege hat man jetzt erhöht. Sinn?
 
Er hat ja sogar recht, die Temps sind im erlaubten Rahmen.
Sind sie nicht (eine hinreichende Genauigkeit der Temperaturdioden vorausgesetzt), denn die Opteron 270 sind nur bis 67 °C freigegeben.
 
Naja, da kann man nur den Hoster wechseln, oder Komponenten verbauen die in die Kategorie Stromsparklasse fallen, oder ein 4HE Gehäuse verwenden, die wohl die einzigsten Gehäuse sind, die vernüftige Kühlkonzepte ermöglichen, aber recht teuer sind.

Opteron 41XX 65 Watt (Six-Core) Sockel C32 (Kurioserweise gibt kein Desktop-Pendant, die haben min 95 Watt)

und die SCSI-Festplatten, gegen 2,5er SAS ausstatten.

Dann sollte im Notfall die Hardware nicht gleich abfackeln, wenn es zu heiß wird und die Lebensdauer der Komponenten halten. Ist ja nicht so das eine hohe Umgebungstemparatur die Langzeitstabilität gewisser Bauteile im PC verlängert.

@SPINA, naja T-Case Temp ist nicht jedem ein Begriff *g* die darf bei meinem E6600 dauerhaft auch nicht den Wert von 85 Grad übersteigen, die AMD halten dagegen weniger aus mit Ausnahme der Mobile Versionen die z.t bis 100 Grad T-Case haben, z.b Sockel A Mobile 2600. Trotzdem hatte ich die Temp im OC b65 Grad nicht übersteigen lassen. Ein 4400+ G1 hat glaube eine T-Case von 65 Grad.

Allerdings bin ich ja momentan auf dem Stromspartrip und bald ein Athlon II X4 610e bei mir werkeln wird, den sollte man theoretisch im Winter sogar passiv kühlen können *g*

Und das sollte wohl dicke reichen, für das Boot darauf ein Six-Core und fertig, spätenstens dann wenn es komplett überholt wird.

4.jpg
 
Zuletzt bearbeitet:
Sind sie nicht (eine hinreichende Genauigkeit der Temperaturdioden vorausgesetzt), denn die Opteron 270 sind nur bis 67 °C freigegeben.
Das ist die max. Case-Temperatur. Und wo befinden sich die internen Sensoren? Richtig, im Inneren der CPU und eben nicht auf der Oberfläche des Heatspreaders. Das ist ungefähr so, als will man die Raumtemperatur wissen, aber hat nur ein Außenthermometer zur Verfügung.
 
Nur zur Info: der Hoster ist durchaus darüber informiert dass wir mit der aktuellen Situation nicht zu 100% zufrieden sind. Defakto läuft das Boot jedoch stabil, zuverlässig und ohne Aussetzer, somit sind blinde und schlecht überdachte Sofortmaßnahmen nicht nötig und werden auch nicht ergriffen. Wir stehen in ständigem Dialog mit den Technikern des Rechenzentrums nur veröffentlichen wir logischerweise nicht jede einzelne Nachricht hier im Forum ;)

Fakt ist: die Temperaturen sind zwar höher als zuvor, bewegen sich jedoch noch im spezifizierten Rahmen. Erst wenn die Klimatisierung vollständig ausfällt müssen wir uns ernsthafte Gedanken machen, aber gegen leicht erhöhte Temperaturen ist grundsätzlich ja erstmal nichts einzuwenden. Die seit dem Ausfall am Sonntag gestiegenen Temperaturen sind auf eine Nachlässigkeit meinerseits zurückzuführen - nach dem Neustart lief der cpupowerd nicht der für die Senkung der CPU-Spannung im Leerlauf zuständig ist. Somit haben sich die vier CPUs zwar ordnungsgemäß heruntergetaktet, wurden jedoch konstant von 1,35V befeuert.
 
Das ist die max. Case-Temperatur. Und wo befinden sich die internen Sensoren?
Das ist bei Intel so (aber auch nicht durchgängig). AMD gibt mit Tcase die Maximaltemperatur des Package an, nicht des Environment.

Übrigens scheinen hier die Messwerte der DSP und des in den Heatspreader integrierten analogen Sensors sehr dicht beeinander zu liegen.
Tcase ist aber die Temperatur in der Mitte der Oberfläche des Heatspreaders (sowohl bei AMD als auch bei Intel).
Das hat auch niemand bestritten. Aber dann schau dir mal den Sensor "CPU Temp" sein. Das dürfte einer der beiden Tcase Sensoren sein.

Und die 67 °C sind ja das Maximum der gesamten 200er Serie. Der konkrete Opteron 270 könnte auch eine niedrigere Freigabe haben.
 
Zuletzt bearbeitet:
Das ist bei Intel so. AMD gibt mit Tcase die Maximaltemperatur des Package an, nicht des Environment.
Warum zitierst du nicht den kompletten Beitrag, sondern zerreist den so, dass er keinen Sinn mehr ergibt?

Worauf ich hinaus wollte ist die Tatsache, dass die Dioden im Die in der "aktiven" Schicht integriert sind. Tcase ist aber die Temperatur in der Mitte der Oberfläche des Heatspreaders (sowohl bei AMD als auch bei Intel). Die beiden Punkte kann man deswegen auch überhaupt nicht vergleichen, da die Temperaturen dort nicht gleich sind.
 
Aber ich denke das man sich drauf einigen kann, das eine ständig erhöhte Temparatur über den zulässsigen Wert nicht gut ist.
 
Die thermische Alterung schreitet mehr als linear mit der Temperatur fort. Immerhin scheinen wir über den Berg zu sein, in den wenigen lichten Momenten nähert sich die Ansauglufttemperatur der 30°C Grenze:
sensors_temp-day.png


@ mj: Zeitgleich mit Deinem Post hat sich was geändert, weißt Du was es war?
 
Ich will jetzt zwar die ganze Temperaturdiskussion wieder aufwärmen, aber ich hab heut mal ein paar Datenblätter gewälzt (hätte schon viel früher jemand machen können ;)) und da steht eigentlich alles drinn, wenn auch teilweise wild verteilt. Ich versuchs mal kurz zusammenzufassen.

AMD nutzt für die Temperaturmessung eine virtuelle Scala namens "control temperature" (ich nenn die jetzt einfach mal °AMD). Die hat zwar die gleiche Abstufung wie °C, allerdings einen anderen Ursprung. Wenn die CPU unter Volllast die maximale Gehäusetemperatur erreicht hat, entspricht das einer Kerntemperatur von 70°AMD. Das gilt allerdings nur, wenn die Temperatur spezifikationsgerecht über die extern zugängliche Diode gemessen wurde und mittels eines Offsets korrigiert wurde[1],[2]. Ob die internen Sensoren auf so kalibriert sind steht zwar nirgends, aber es ist davon auszugehen.

Das bedeutet jetzt, dass das Limit bei 70°AMD liegt, fraglich ist jetzt nur, ob die Tools zum Auslesen das wieder in °C umrechnen, meiner Meinung nach geschieht das nicht, denn dazu braucht man den thermischen Widerstand zwischen Kern und Gehäuse, die max. Gehäusetemperatur und die max. TDP. Ersteres ist mit 0,32 K/W [3] konstant, zweiteres ist in CPU internen Registern gespeichert, aber die TDP hab ich zumindest auf die schnelle in keinen Register gefunden. Macht auch keinen Sinn, wenn man das mal durchrechnet: 95W TDP, 67°C Tcase_max, 0,32 K/W Rth_jc, 0,21 K/W Rth_ca würde beduten, dass (unter Volllast) die Kerntemperatur 50°C höher wäre, als die angesaugte Luft am CPU Kühler, da müsste die Luftzufuhr zum Server bei 0-10°C liegen.

Das heißt also solange die Temperaturen 70°AMD (man müsste die Achsbeschriftung korrigieren!) nicht überschreiten ist alles in Butter, darüber beginnt die CPU mitm throtteln. Und für die, die es interessiert, die realen Temperaturen liegt 27,4° höher.

Edit:
PS: Die einzelnen Kerntemperaturen (also Core Temp 0,1) sind offiziell erst seit Rev. F vorhanden, der Opteron 270 müsste allerdings noch Rev E sein, oder? Also sollte man diese Angaben auch etwas vorsichtiger betrachten.

[1] AMD Opteron™ Processor Power and Thermal Data Sheet (Seite 44, Note 3)
[2] BIOS and Kernel Developer's Guide for AMD Athlon™ and AMD Opteron™ Processors (Seite 164, Diode Offset)
[3] AMD Functional Data Sheet, 940 Pin Package (Seite 73)
 
Zuletzt bearbeitet:
0 °AMD sind also 27,4°C, wenn ich das jetzt richtig verstanden habe.

Da müsste man mal die Autoren der Tools abfragen.
 
0 °AMD sind also 27,4°C, wenn ich das jetzt richtig verstanden habe.

Da müsste man mal die Autoren der Tools abfragen.
Das gilt nur für diese CPU, dieser Offset ist von TDP und Tcase_max abhängig und ist deswegen nicht bei allen CPUs gleich.

Offset= TDP*0,32K/W+Tcase_max-70°

Edit:
Das gilt allerdings auch nur für So940 CPUs, da hier AMD einen thermischen Widerstand angegeben hat. Für anderen CPUs fehlt diese Angabe und somit kann man die reale Kerntemperatur gar nicht berechnen.
 
Zuletzt bearbeitet:
Und was macht man wenn der Sensor defekt ist, wie bei Brisbane G1 wobei ich selbst scheinbar nicht betroffen war. Und die Temps zu gering ausgelesen werden und das Boot hier dann von der Kernschmelze nicht weit weg war.
 
Zurück
Oben Unten