News Intern: Downtime am Samstag wegen Server-Umzug und -Upgrade

Allfred

Grand Admiral Special
Mitglied seit
11.11.2001
Beiträge
7.873
Renomée
97
Standort
Tyskland
Dort sind doch nicht etwa baugleiche Klimaanlagen der ICEs verbaut: Funktionieren nicht bei voller Rackbestückung AND an Sommertagen.
 

mj

Technische Administration, Dinosaurier, ,
Mitglied seit
17.10.2000
Beiträge
19.529
Renomée
272
Standort
Austin, TX
Es war ein Stromausfall der dafür verantwortlich war, dass die Router und die Klimaanlagen ausgefallen sind. Die Server wurden anschließend von den USVs oder manuell heruntergefahren. Weitere Informationen bekommen wir demnächst, die genaue Ursache ist uns noch unbekannt. Es könnte evtl. mit dem Unwetter zusammenhängen das gestern angeblich durch Hessen gezogen ist.
 

Allfred

Grand Admiral Special
Mitglied seit
11.11.2001
Beiträge
7.873
Renomée
97
Standort
Tyskland
mj, schaue dir bitte die aktuellen Temperaturen an! Es ist noch nicht vorbei, der Status Quo ist noch nicht wieder hergestellt. Entweder die Rack-Tür ist noch offen oder der Server steht im Hof.
 

JKuehl

Grand Admiral Special
Mitglied seit
22.06.2003
Beiträge
7.904
Renomée
145
Standort
Stockholm, Schweden
  • SIMAP Race
  • QMC Race
  • RCN Russia
  • Spinhenge ESL
  • Docking@Home
  • BOINC Pentathlon 2012
  • BOINC Pentathlon 2011
  • BOINC Pentathlon 2014
  • BOINC Pentathlon 2015
Soviel zum Thema "Green Computing" - "de Surfä steht uff de Wies´ " wie der Hesse sagen würde.
 

Riddler82

Leitung Moderation
Teammitglied
Mitglied seit
11.11.2001
Beiträge
9.557
Renomée
338
Standort
Bayern, am Rande des Wahnsinns
  • SIMAP Race
  • QMC Race
  • Spinhenge ESL
  • BOINC Pentathlon 2012
  • BOINC Pentathlon 2014
Niemand im Team ist mir der aktuellen Situation glücklich, das könnt ihr glauben.
Es war leider vorab nicht abzusehen wie sich das entwickelt.
 

Allfred

Grand Admiral Special
Mitglied seit
11.11.2001
Beiträge
7.873
Renomée
97
Standort
Tyskland
Es kann doch nicht so schwer sein: Klimaanlage einschalten, auf Max stellen, Tür schließen. Das sind drei einfache Aufgaben.
a045.gif
 

TAL9000

Grand Admiral Special
Mitglied seit
20.03.2007
Beiträge
5.907
Renomée
627
Standort
nähe Giessen
Es könnte evtl. mit dem Unwetter zusammenhängen das gestern angeblich durch Hessen gezogen ist.
Nichts davon gemerkt; bin aber auch etwas Nördlicher...

Freuen wir uns lieber das die Schutzschaltungen funktioniert haben, es hätte auch schlimmer werden können.

Einen guten, günstigen (kostenlos?) Serverplatz zu bekommen ist etwas schwierig. Nicht das es perfekt ist, wir wissen doch das das Boot die SUNne nicht mag ;D

TAL9000
 

Antarctica

Grand Admiral Special
Mitglied seit
11.09.2004
Beiträge
2.444
Renomée
34
Standort
Kupferstadt Stolberg
Schrankkühlung stellt derzeit das optimale Konzept für die Kühlung eines Rechenzentrums dar.
Full ack.
Allerdings ist bei uns die Temperatur im Rack bis auf 1-2°C konstant.

Und der Nachteil bei diesem Konzept ist eben, wenn keine Ausfallskühlung vorhanden ist, das die Temperaturen sehr schnell in sehr hohe Bereiche kommen können.
Hängt davon ab, wie die Rackkühlung realisiert ist. Wenn bei uns eine der beiden Kühlwasserpumpen ausfällt, kann die andere alleine weitermachen. Erst zum Tausch der ausgefallenen Pumpe muss dann der gesamte Kühlkreislauf abgeschaltet werden.

(Ich will aber nicht wissen, wie viel die Wasserkühlung gekostet hat...)
 

Allfred

Grand Admiral Special
Mitglied seit
11.11.2001
Beiträge
7.873
Renomée
97
Standort
Tyskland

tomturbo

Technische Administration, Dinosaurier
Mitglied seit
30.11.2005
Beiträge
9.455
Renomée
664
Standort
Österreich
  • SIMAP Race
  • QMC Race
  • Spinhenge ESL
  • BOINC Pentathlon 2013
  • BOINC Pentathlon 2014
  • BOINC Pentathlon 2015
  • BOINC Pentathlon 2016
  • BOINC Pentathlon 2017
  • BOINC Pentathlon 2019
  • SETI@Home Wow!-Event 2019
  • BOINC Pentathlon 2021
Entschuldigung was soll das Geheule um die Temperatur?
Sie bewegt sich im erlaubten Rahmen!
Sollte sie es nicht tun werden Maßnahmen ergriffen damit alles wieder in normale Bereiche kommt.

Der Hoster kennt das Problem und benötigt wirklich keine Ratschläge wie er sein RZ führen soll von Leuten die das in Ihrem Leben noch nicht taten.

@Antarctica
Beim Pumpentausch sollten vor und nach der Pumpe Absprerrhähne oder -ventile sein damit diese im laufenden Betrieb getauscht werden kann.
Ich denke das wird auch bei Euch so sein, weil Standard in der Industrie.

lg
__tom
 

Allfred

Grand Admiral Special
Mitglied seit
11.11.2001
Beiträge
7.873
Renomée
97
Standort
Tyskland
Der Hoster kennt das Problem und benötigt wirklich keine Ratschläge wie er sein RZ führen soll von Leuten die das in Ihrem Leben noch nicht taten.
Du meinst mich? Bitte, wir sind mindestens 15°C über dem Niveau von vor 24h:
sensors_temp-week.png

Das Kühlste was sich im Server feststellen läßt hat 50°C vorher kam ein idelnder Core auf 31°C herunter.
Darin sehe ich eine eklatante Änderung zum zuvorigen Normalzustand.
 

gruenmuckel

Grand Admiral Special
Mitglied seit
17.05.2001
Beiträge
29.560
Renomée
1.625
Standort
Gerry-Weber - Stadt
  • SIMAP Race
  • QMC Race
  • RCN Russia
  • Spinhenge ESL
  • BOINC Pentathlon 2012
  • BOINC Pentathlon 2014
  • BOINC Pentathlon 2016
  • BOINC Pentathlon 2018
  • BOINC Pentathlon 2020
  • BOINC Pentathlon 2021
Eigentlich müsste tomturbo es ja besser wissen, er kennt sich schließlich aus. Er hat ja sogar recht, die Temps sind im erlaubten Rahmen. Und bisher war der Hoster auch immer gut und zuverlässig. Aber das schönreden der momentan miserablen Situation in diesem Wrack von Rack finde ich unschön.

Es mag noch im erlaubten Rahmen sein, aber vorher war alles besser bis auf den Anfahrtsweg im Schadensfall. Gut, die Wahrscheinlichkeit für anfallende Anfahrtswege hat man jetzt erhöht. Sinn?
 

SPINA

Grand Admiral Special
Mitglied seit
07.12.2003
Beiträge
18.108
Renomée
983
Er hat ja sogar recht, die Temps sind im erlaubten Rahmen.
Sind sie nicht (eine hinreichende Genauigkeit der Temperaturdioden vorausgesetzt), denn die Opteron 270 sind nur bis 67 °C freigegeben.
 
G

Gast29012019_2

Guest
Naja, da kann man nur den Hoster wechseln, oder Komponenten verbauen die in die Kategorie Stromsparklasse fallen, oder ein 4HE Gehäuse verwenden, die wohl die einzigsten Gehäuse sind, die vernüftige Kühlkonzepte ermöglichen, aber recht teuer sind.

Opteron 41XX 65 Watt (Six-Core) Sockel C32 (Kurioserweise gibt kein Desktop-Pendant, die haben min 95 Watt)

und die SCSI-Festplatten, gegen 2,5er SAS ausstatten.

Dann sollte im Notfall die Hardware nicht gleich abfackeln, wenn es zu heiß wird und die Lebensdauer der Komponenten halten. Ist ja nicht so das eine hohe Umgebungstemparatur die Langzeitstabilität gewisser Bauteile im PC verlängert.

@SPINA, naja T-Case Temp ist nicht jedem ein Begriff *g* die darf bei meinem E6600 dauerhaft auch nicht den Wert von 85 Grad übersteigen, die AMD halten dagegen weniger aus mit Ausnahme der Mobile Versionen die z.t bis 100 Grad T-Case haben, z.b Sockel A Mobile 2600. Trotzdem hatte ich die Temp im OC b65 Grad nicht übersteigen lassen. Ein 4400+ G1 hat glaube eine T-Case von 65 Grad.

Allerdings bin ich ja momentan auf dem Stromspartrip und bald ein Athlon II X4 610e bei mir werkeln wird, den sollte man theoretisch im Winter sogar passiv kühlen können *g*

Und das sollte wohl dicke reichen, für das Boot darauf ein Six-Core und fertig, spätenstens dann wenn es komplett überholt wird.

4.jpg
 
Zuletzt bearbeitet:

Reisi

Grand Admiral Special
Mitglied seit
29.03.2002
Beiträge
2.851
Renomée
36
Sind sie nicht (eine hinreichende Genauigkeit der Temperaturdioden vorausgesetzt), denn die Opteron 270 sind nur bis 67 °C freigegeben.
Das ist die max. Case-Temperatur. Und wo befinden sich die internen Sensoren? Richtig, im Inneren der CPU und eben nicht auf der Oberfläche des Heatspreaders. Das ist ungefähr so, als will man die Raumtemperatur wissen, aber hat nur ein Außenthermometer zur Verfügung.
 

mj

Technische Administration, Dinosaurier, ,
Mitglied seit
17.10.2000
Beiträge
19.529
Renomée
272
Standort
Austin, TX
Nur zur Info: der Hoster ist durchaus darüber informiert dass wir mit der aktuellen Situation nicht zu 100% zufrieden sind. Defakto läuft das Boot jedoch stabil, zuverlässig und ohne Aussetzer, somit sind blinde und schlecht überdachte Sofortmaßnahmen nicht nötig und werden auch nicht ergriffen. Wir stehen in ständigem Dialog mit den Technikern des Rechenzentrums nur veröffentlichen wir logischerweise nicht jede einzelne Nachricht hier im Forum ;)

Fakt ist: die Temperaturen sind zwar höher als zuvor, bewegen sich jedoch noch im spezifizierten Rahmen. Erst wenn die Klimatisierung vollständig ausfällt müssen wir uns ernsthafte Gedanken machen, aber gegen leicht erhöhte Temperaturen ist grundsätzlich ja erstmal nichts einzuwenden. Die seit dem Ausfall am Sonntag gestiegenen Temperaturen sind auf eine Nachlässigkeit meinerseits zurückzuführen - nach dem Neustart lief der cpupowerd nicht der für die Senkung der CPU-Spannung im Leerlauf zuständig ist. Somit haben sich die vier CPUs zwar ordnungsgemäß heruntergetaktet, wurden jedoch konstant von 1,35V befeuert.
 

SPINA

Grand Admiral Special
Mitglied seit
07.12.2003
Beiträge
18.108
Renomée
983
Das ist die max. Case-Temperatur. Und wo befinden sich die internen Sensoren?
Das ist bei Intel so (aber auch nicht durchgängig). AMD gibt mit Tcase die Maximaltemperatur des Package an, nicht des Environment.

Übrigens scheinen hier die Messwerte der DSP und des in den Heatspreader integrierten analogen Sensors sehr dicht beeinander zu liegen.
Tcase ist aber die Temperatur in der Mitte der Oberfläche des Heatspreaders (sowohl bei AMD als auch bei Intel).
Das hat auch niemand bestritten. Aber dann schau dir mal den Sensor "CPU Temp" sein. Das dürfte einer der beiden Tcase Sensoren sein.

Und die 67 °C sind ja das Maximum der gesamten 200er Serie. Der konkrete Opteron 270 könnte auch eine niedrigere Freigabe haben.
 
Zuletzt bearbeitet:

Reisi

Grand Admiral Special
Mitglied seit
29.03.2002
Beiträge
2.851
Renomée
36
Das ist bei Intel so. AMD gibt mit Tcase die Maximaltemperatur des Package an, nicht des Environment.
Warum zitierst du nicht den kompletten Beitrag, sondern zerreist den so, dass er keinen Sinn mehr ergibt?

Worauf ich hinaus wollte ist die Tatsache, dass die Dioden im Die in der "aktiven" Schicht integriert sind. Tcase ist aber die Temperatur in der Mitte der Oberfläche des Heatspreaders (sowohl bei AMD als auch bei Intel). Die beiden Punkte kann man deswegen auch überhaupt nicht vergleichen, da die Temperaturen dort nicht gleich sind.
 
G

Gast29012019_2

Guest
Aber ich denke das man sich drauf einigen kann, das eine ständig erhöhte Temparatur über den zulässsigen Wert nicht gut ist.
 

Allfred

Grand Admiral Special
Mitglied seit
11.11.2001
Beiträge
7.873
Renomée
97
Standort
Tyskland
Die thermische Alterung schreitet mehr als linear mit der Temperatur fort. Immerhin scheinen wir über den Berg zu sein, in den wenigen lichten Momenten nähert sich die Ansauglufttemperatur der 30°C Grenze:
sensors_temp-day.png


@ mj: Zeitgleich mit Deinem Post hat sich was geändert, weißt Du was es war?
 

Reisi

Grand Admiral Special
Mitglied seit
29.03.2002
Beiträge
2.851
Renomée
36
Ich will jetzt zwar die ganze Temperaturdiskussion wieder aufwärmen, aber ich hab heut mal ein paar Datenblätter gewälzt (hätte schon viel früher jemand machen können ;)) und da steht eigentlich alles drinn, wenn auch teilweise wild verteilt. Ich versuchs mal kurz zusammenzufassen.

AMD nutzt für die Temperaturmessung eine virtuelle Scala namens "control temperature" (ich nenn die jetzt einfach mal °AMD). Die hat zwar die gleiche Abstufung wie °C, allerdings einen anderen Ursprung. Wenn die CPU unter Volllast die maximale Gehäusetemperatur erreicht hat, entspricht das einer Kerntemperatur von 70°AMD. Das gilt allerdings nur, wenn die Temperatur spezifikationsgerecht über die extern zugängliche Diode gemessen wurde und mittels eines Offsets korrigiert wurde[1],[2]. Ob die internen Sensoren auf so kalibriert sind steht zwar nirgends, aber es ist davon auszugehen.

Das bedeutet jetzt, dass das Limit bei 70°AMD liegt, fraglich ist jetzt nur, ob die Tools zum Auslesen das wieder in °C umrechnen, meiner Meinung nach geschieht das nicht, denn dazu braucht man den thermischen Widerstand zwischen Kern und Gehäuse, die max. Gehäusetemperatur und die max. TDP. Ersteres ist mit 0,32 K/W [3] konstant, zweiteres ist in CPU internen Registern gespeichert, aber die TDP hab ich zumindest auf die schnelle in keinen Register gefunden. Macht auch keinen Sinn, wenn man das mal durchrechnet: 95W TDP, 67°C Tcase_max, 0,32 K/W Rth_jc, 0,21 K/W Rth_ca würde beduten, dass (unter Volllast) die Kerntemperatur 50°C höher wäre, als die angesaugte Luft am CPU Kühler, da müsste die Luftzufuhr zum Server bei 0-10°C liegen.

Das heißt also solange die Temperaturen 70°AMD (man müsste die Achsbeschriftung korrigieren!) nicht überschreiten ist alles in Butter, darüber beginnt die CPU mitm throtteln. Und für die, die es interessiert, die realen Temperaturen liegt 27,4° höher.

Edit:
PS: Die einzelnen Kerntemperaturen (also Core Temp 0,1) sind offiziell erst seit Rev. F vorhanden, der Opteron 270 müsste allerdings noch Rev E sein, oder? Also sollte man diese Angaben auch etwas vorsichtiger betrachten.

[1] AMD Opteron™ Processor Power and Thermal Data Sheet (Seite 44, Note 3)
[2] BIOS and Kernel Developer's Guide for AMD Athlon™ and AMD Opteron™ Processors (Seite 164, Diode Offset)
[3] AMD Functional Data Sheet, 940 Pin Package (Seite 73)
 
Zuletzt bearbeitet:

KIDH

Grand Admiral Special
Mitglied seit
09.03.2007
Beiträge
4.837
Renomée
531
Standort
Pogotopia
  • Spinhenge ESL
0 °AMD sind also 27,4°C, wenn ich das jetzt richtig verstanden habe.

Da müsste man mal die Autoren der Tools abfragen.
 

Reisi

Grand Admiral Special
Mitglied seit
29.03.2002
Beiträge
2.851
Renomée
36
0 °AMD sind also 27,4°C, wenn ich das jetzt richtig verstanden habe.

Da müsste man mal die Autoren der Tools abfragen.
Das gilt nur für diese CPU, dieser Offset ist von TDP und Tcase_max abhängig und ist deswegen nicht bei allen CPUs gleich.

Offset= TDP*0,32K/W+Tcase_max-70°

Edit:
Das gilt allerdings auch nur für So940 CPUs, da hier AMD einen thermischen Widerstand angegeben hat. Für anderen CPUs fehlt diese Angabe und somit kann man die reale Kerntemperatur gar nicht berechnen.
 
Zuletzt bearbeitet:
G

Gast29012019_2

Guest
Und was macht man wenn der Sensor defekt ist, wie bei Brisbane G1 wobei ich selbst scheinbar nicht betroffen war. Und die Temps zu gering ausgelesen werden und das Boot hier dann von der Kernschmelze nicht weit weg war.
 
Oben Unten