Intern: Sonnenuntergang auf dem grünen Planeten

Erstmal ein riesen DANKE an unser Adminteam für die Zeit und die Nerven, die sie hier immer wieder aufbringen.

Dann noch ein bissiger Kommentar in Richtung Solaris:
An diesem OS scheint sich seit Jahren, was die Problem angeht, nix geändert zu haben. In den Sommerferien des Jahres 2000 hab ich versucht Solaris 7 (ich glaub 7 war es) auf dem Proxyserver unserer Schule zu installieren. Eine Windows NT 4.0 + Proxy 2.0Kombination sollte ersetzt werden. Die Grundhardware war zwar was exotisch (DEC Prioris HX5133 Dual Pentium 133 mit 1MByte Cache je CPU und 256MByte RAM) der Rest, was so mit Treibern versorgt werden musste, war echt von der Stange. Adaptec ANA-??? Netzwerkkarte, Mylex DAC960PG RAID Controller, AVM B1 Controller und ein Tekram U-SCSI Controller mit einem Symbioslogic Chip für das CD-ROM, eine dicke Backupplatte und einen Streamer.

Der Ärger fing schon beim Setup an, offenbar kam die Daten nicht sauber auf dem RAID an. Ein Installationsversuch auf der Backupplatte zeigte das gleiche Verhalten. Auch ein neuer Satz RAM brachte nix. Erst mein Private Adaptec AHA2940W ermöglichte ein Setup. Als die Kiste dann einmal lief war der Ärger aber noch nicht vorbei, bei den Clients kamen sämtliche Dateien mit über einem Megabyte Größe (.zip; .jpg oder .pdf) defekt an.

An dieser Stelle und nach etwa einer Woche rumbasteln hatte ich die Schnauze voll. Okay, ich hatte von Solaris (bis auf ein paar spielereien nach der CeBit 2000) wenig und von Linux gar keinen Plan, aber dennoch, sowas darf nicht sein. NT 4.0 war dann nach nicht ganz vier Stunden wieder installiert. Bis auf die üblichen Patch-reboots und eine Rekofiguration bei der Umstellung auf DSL lief das Ding bis heute so.
 
Auch von mir ein großes "Dankeschön" in Richtung Planet3DNow-Mannschaft...klasse Arbeit, Jungs!

Merci auch für den gut geschriebenen Artikel von Nero zum "Sonnenuntergang" und die Hintergrundinfos...
 
Danke für die ausführliche News,

mit Linux scheint das Boot nun ja wieder die gewohnte Hand breit Wasser unter dem Kiel zu haben.
 
Und noch ein kleines Schmankerl: Unter Solaris war die load zu den Stoßzeiten (also zw. 18-24 Uhr) nur extrem selten mal über zwei, im Schnitt bei 1,5. Unter Gentoo geht die load schon nachmittags auf zwei und Abends dann drüber - derzeit 2.70, 2.60, 2.91
Immerhin ist da noch die Möglichkeit bei Linux einen geschwindigkeitssteigernden Tipp zu bekommen. An irgendeinem Rädchen wird man schon noch was drehen können, auch ohne Supreme - Enterprise - schlagmichtot Vertrag.

Zu xfs hab ich bisher von meinen Linux Kumpels (dabei seit XFS im Kernel aufgenommen wurde) auch nur Gutes gehört, aber naja ... ich glaube vom Hörensagen habt Ihr erstmal die Nase voll ^^

Interessant finde ich, dass bei Sun OS alles "zertifiziert" war, aber anscheined keiner unter starkem TCP/IP load getestet hat. Ok ja, es gibt ja die geheimnisvollen Patches aber trotzdem ... Erinnert mich irgendwie an die Boot 1.0 Geschichte & Intel Netzwerkchip, die dafür sorgte, dass die broadcom Chips nicht benutzt wurden. Anscheinend ist TCP/IP bzw. Netztraffic um einiges kniffliger, als man so gemeinhin annimmt.

Alles in allem kann muss man sich Fragen, welchen Nutzen die offene SunOS Lizenz hat, wenn man für absolut notwendige patches zahlen muss/soll. Nichts gegen Sun, dass sie Geld verdienen wollen, aber die ganze Packung hat dann was von HappyMeal Spielzeug:

Zum einmaligen Spielen ganz nett, aber das Zeugs ist bald kaputt und man kauft richtigen Spielkram zu Weihnachten.

Insofern auch konsequent, dass man auf die altmodischen, aber stabilen "Bauklötze" ext3 setzt, immerhin ist man sich sicher, dass das läuft & hält ^^

Und natürlich zum Schluss:

DANKE an die unermüdlichen Helfer & Admins.

Man sollte sich vielleicht mal Gedanken um ein Blumen / Pralinen etc. Geschenkkonto für die Lebensabschnittsgefährtinnen machen ^^

ciao

Alex

P.S: Ein extra Tuning Thread, um die Load Werte runterzubekommen wäre vielleicht sinnvoll, falls Ihr den Nerv dazu noch habt ^^
P.P.S: Das Bild vom "Sonnenuntergang" ist recht beschaulich, beim Lesen bekommt man den Eindruck, dass es eher ne Art "Supernova" war ;-)
 
Ich muss zugeben, dass ich mich bei dem Titel der News erst ziemlich erschreckt habe und etwas anderes dachte. *bye*
Nur mein Unterbewusstsein hat mich dann schnell an Solaris erinnert. Bin ein echter Schnell-blicker *buck*
 
Danke für die Mühen und die Zeit die investiert wurde!

Was mich jedoch sehr wundert ist, das es scheinbar keinem unserer Community dieser Blog aufgefallen ist :D
 
Dann geht ja auch bald der Livepuls wieder? Und diese Andeutung mit Boinc lässt mich hoffen? ODer doch nicht? ;) Dooooch, ich denke schon, oder?
 
Aber ich kann mir nicht vorstellen, dass ZFS dermaßen gut gegenüber ext abschneidet. Einerseits aus Erfahrung mit den Test gegenüber JFS und XFS, welche beide für sich besser Performance in Anspruch nehmen, andererseits überhaupt im Design der einzelnen FS. ZFS ist ebenso wie XFS oder JFS deutlich komplexer als ext. Das schlägt sich zwangsläufig in der Performance nieder.
Und schlussendlich erscheinen mir 200 MB/s für zwei Platten einfach nicht realistisch.

ZFS ist nicht komplexer als der Zusammenhang auf Volume Manager und Ext. Guck dir mal den Source an. ZFS hat einen verblueffend kurzen Codepath ... ansonsten gibt es auch noch die moeglichkeit mit zfs set compression=on <datapool>/<filesystem> selektiv kompression anzuschliessen. Aber duerfte da nicht passiert sein, weil dann da aberwitzige Datenuebertragungsraten rauskommen ... mkfile 10g in 3 sekunden ..;)

ZFS bescherrscht durch die zusammenfassung von Volume Manager und Filesystem einige Dinge, die sonst nirgens gehen: automatische Hot Spot Relocation, aus random writes werden immer sequentials gemacht, mit folgen fuer lese performance, uswusf

Gruesse
Joerg
 
Eigentlich schade das dieser Schritt gemacht werden musste, aber was hilft das beste System wenn ich es nicht einsetzen kann. Dann lieber ein (zwei) Gänge zurückschalten und sicher ans Ziel kommen. Formel 1 Auto auf einem Feldweg hat sich ja auch nicht unbedingt bewährt ;)

Hauptsache das Boot hat wieder genügend Wasser unterm Kiel. Ausreichend Power, selbst für Linux *g*, dürfte ja jetzt vorhanden sein.
 
Immerhin ist da noch die Möglichkeit bei Linux einen geschwindigkeitssteigernden Tipp zu bekommen. An irgendeinem Rädchen wird man schon noch was drehen können, auch ohne Supreme - Enterprise - schlagmichtot Vertrag.

1. Das System war underpatched.
2. Die Moeglichkeiten der Tips gibt es auch bei Solaris. Nennt sich OpenSolaris ... die Community nennt sich www dot opensolaris dot org
3. Schon mal Preise für Enterprise Linux Support gesehen ? Gentoo muesste mit Opensolaris verglichen werden. Und da kosten neue Fehlerbereinigte version genausoviel wie bei Gentoo. Nuex ...
4. Vergleich Solaris mit einem SLES oder RHAS/RHES bei denen man nicht fuer die Lizenz zahlen muss ... ausserdem: 240$ pro Jahr ist nun wirklich nicht teuer. ICh verstehe das man sich das als Communityprojekt nicht leisten mag. Aber Abrippen ist das auch nicht ....

Achja: Was hier die dummen Kommentare zum Thema Stabilität von Solaris auch auf x86 angeht, möchte ich an eine Sache erinnern: Verglichen mit der Anzahl der stabilen Systeme ist die Anzahl der instabilen verschwindend gering. Unter Solaris laufen Systeme den gegenueber die Last von Planet3dnow irgendwo untergeht ... ;) Ihr begegnet jeden Tag einer Vielzahl von Sun Systemen. Ohne das Ihr es merkt. Weil sie einfach laufen.
 
Zum Thema Dateisystem kann ich folgendes sagen:

ext3 hat nach wie vor die besten allround Eigenschalften.
Es ist zwar nicht das Schnellste jedoch auch bei weitem nicht das Langsamste.
Bei diversen Tests war es mal schneller und mal langsamer als seine Konkurrenz.
Die Stabilität ist aber unter Linux sehr gut.

xfs hat zwar gute 'Prospektdaten' das es aber in der Praxis, zumindest bei mir, nicht hält.
Vorallem wird es mit der Zeit unerkärlicherweise immer langsamer, ich habe es als root Dateisystem mit einem gentoo-portage-tree im Einsatz und manchmal dauert ein normales 'ls' schon 30 sek bis es da ist :[
Geschweige denn von einem upgrade des portage-trees welcher unter reiser ca 10x schneller ist.
Auch nicht sonderlich bewährt hat sich xfs auf einem Riesendateisystem mit 1,4 TB und relativ wenigen aber großen Dateien. Es fühlt sich einfach langsam an. Bei einem Stromausfall sind mal Dateien verschwunden. Auf einem Parallelsystem mit ext3 ist das nicht passiert (Hatte den selben Stromausfall ;) ) wie ein rsync dann bewies....

lg
__tom
 
Was denn nun:
1. Das System war underpatched.
gegen:
Hilfe bekamen wir weiterhin aus zwei Quellen. Einmal von unserem Community-Mitglied Mogul, zum anderen von Jörg Möllenkamp, der als Beschäftigter bei Sun einen <a href="http://www.c0t0d0s0.org" TARGET="_blank">Blog</a> u.a. zum Thema Solaris betreibt und sich unsere crashdumps genauer angesehen hat. Über diese Quellen mussten wir zum Beispiel auch erfahren, dass es von Sun noch wesentlich mehr Patches gibt, als die ohnehin schon zahlreichen, die wir bereits eingespielt hatten. Allerdings bleiben die normalerweise den zahlenden Kunden vorbehalten. Erste Zweifel am Support-Modell von Sun machten sich breit. Kostenpflichtiger Support für individuelle Beratung oder für die Bereitstellung spezieller Features, ok. Aber zahlen für kritische Updates, damit das OS überhaupt stabil zu betreiben ist? Das war nicht mit unserer Auffassung von Support zu vereinbaren. Wie der Zufall es will gab es in diesem Pool einen weiteren Patch, der das Problem beheben sollte. Über inoffizielle Kanäle haben wir ihn auch zum Testen erhalten. Nach drei Tagen aber wieder das selbe Problem: Kernel Panic.
Also gepached war wohl was, oder meinst du mit "under" nicht ungepached, sondern zuwenig ?

Aber Dein Vorschlag hier gefällt mir:
http://www.c0t0d0s0.org//archives/2935-Solaris-Basic-Service-Plan-Community-Edition.html



ciao

Alex
 
Zuletzt bearbeitet:
1. Das System war underpatched.
Das System zeigte uns keine offenen patches mehr.
Obwohl wir bereits 20-30 davon einspielten....
Einzig durch Geldzahlungen wären uns mehr patches zur Verfügung gestanden.
2. Die Moeglichkeiten der Tips gibt es auch bei Solaris. Nennt sich OpenSolaris ... die Community nennt sich www dot opensolaris dot org
3. Schon mal Preise für Enterprise Linux Support gesehen ? Gentoo muesste mit Opensolaris verglichen werden. Und da kosten neue Fehlerbereinigte version genausoviel wie bei Gentoo. Nuex ...
Wir vergleichen nicht wozu sollten wir das tun?
Es ist keineswegs bewiesen das OpenSolaris nicht den selben bug mitschleppt und eine Fehlerbereinigung Wochen wenn nicht Monate gedauert hätte.
4. Vergleich Solaris mit einem SLES oder RHAS/RHES bei denen man nicht fuer die Lizenz zahlen muss ... ausserdem: 240$ pro Jahr ist nun wirklich nicht teuer. ICh verstehe das man sich das als Communityprojekt nicht leisten mag. Aber Abrippen ist das auch nicht ....
Fakt ist das einem systemkritische Patches ohne Geldleistung unter Solaris vorenthalten werden. Ein upgrade oder eine Neuinstallation mit OpenSolaris wieder tagelang gedauert hätte. - Geld hin oder her.

Achja: Was hier die dummen Kommentare zum Thema Stabilität von Solaris auch auf x86 angeht, möchte ich an eine Sache erinnern: Verglichen mit der Anzahl der stabilen Systeme ist die Anzahl der instabilen verschwindend gering. Unter Solaris laufen Systeme den gegenueber die Last von Planet3dnow irgendwo untergeht ... ;) Ihr begegnet jeden Tag einer Vielzahl von Sun Systemen. Ohne das Ihr es merkt. Weil sie einfach laufen.
Tja offensichlich war die Last bei denen doch nicht so hoch :P
Sonst wäre es nicht abgenippelt...

lg
__tom

EDIT:
Ja, Deinen Vorschlag zur Basis Support Unterstütztung gegen Banner für die Community finde ich gut.
 
Zuletzt bearbeitet:
Zum Thema Dateisystem kann ich folgendes sagen:
Geschweige denn von einem upgrade des portage-trees welcher unter reiser ca 10x schneller ist.

ReiserFS will niemand ohne eine gutes Backup ... den bei Reiser ist normal, das da ab und an mal Dinge einfach so verschwinden ...

Interessantere Frage ist aber: Ist ein Filesystem wirklich stabil, so lange es nicht die Validität der Daten auf dem rotierenden Rost garantieren kann? Herkömmliche Filesysteme checken mithin nur die Metadatenintegrität durch. Das wird eine noch sehr interessante Frage, wenn die Plattengroessen weiter so steigen, das die BERs der Platten quasi bei jedem Auslesen der festplatten ein falsch gelesenes und nicht korrigiertes Bit zwangsweise herbeiführen. Die Auswirkungen sind dann interessant. Insbesondere wenn das Bit in einer DAtenbank steht: Beim Rückschreiben er Daten werden dann schnell aus latenten Fehlern echte Datenfehler ...
 
Das erinnert mich an den Sun-Pool in unserer Uni. Da läuft grad mal so die Hälfte der Systeme. O.K. es sind 10 UltraSparc-IIi-333 MHz und 5 Sun Blade 100, aber um die Blades wird sich in ner Übung fast gestritten, weil das die einzigen sind, die noch halbwegs laufen.
Und wenn ich den Beitrag von c0t0d0s0 lese, muss das zusammen mit dem Boot (2.0 und 2.1) die einzigen Solaris-Rechner sein, die nicht gehen. *lol*
 
Guten Morgen liebes Admin Team,

Erst mal herzlichen Glückwunsch, daß Ihr es geschafft habt den Server wieder lauffähig zu bekommen, ich wünsch euch viel Erfolg und viel Uptime! Aber zum Load hätte ich noch ein paar Fragen: Wäre es möglich die Kernelkonfig zu veröffentlichen, da es da doch viele Stellschrauben gibt, welche sich sehr postiv auf die Performance auswirklen können...

Dann habe ich noch eine Sache am Server nachzufragen, welche mich etwas stuzig macht. Ich habe bereits viele Erfahrungen im Hochverfügbarkeitsbetrieb (und Hochlast) in den letzen vier Jahren meines Job gemacht und mich wundert ein Teil eurer Konfiguration: Warum versucht Ihr mit allen Mitteln die Plattengeschwindigkeit für die SQL Datenbank zu erhöhen, wenn es bei der Datenbankgröße möglich wäre das ganze in eine ramdisk zu werfen? Ich habe gute Erfahrungen mit dieser Lösung gemacht und die Datensicherheit lässt sich auch sehr einfach herstellen: Die Datenbank wird alle 3 Stunden auf die Platte rückgesichert. Im Falle eines Resets wird die DB von der Festplatte ins ramdisk kopiert. Nun gut, es handelt sich um ca. 1GB große Datenbanken, welche aber von der Last her sicherlich mit der eueren vergleichbar sind. Das ganze liegt auf zwei xSeries350, welche allerdings nur als DB-Server agieren. Es handelt sich größtenteils um reine Abfragen, die Latenz ist extrem wichtig. (Authentifizierungsdatenbank) Im Falle das Falles wird das ganze über Heartbeat auf das Fallback System umgeschalten. Von diesen Failover Clustern habe ich 8 Stück zu betreuen.

Die Meister Lösung wäre sicherlich das Ganze in ein Raid-1 System mit einer Platte und einer Ramdisk zu erledigen, damit wäre die Datenintegrität zu jeder Zeit gewährleistet und die Lesegeschwindigkeit wäre überragend gut, aber da müsste man sicherlich etwas rumbasteln um die Prüfung der Datenintegrität beim Lesen (das nicht auf die lahme Platte gewartet werden muss) zu überbrücken. Ich denke das werde ich auf meinen Ersatz x350 heute Abend mal versuchen zu realisieren. Aber es ist halt auch immer eine Frage ob man es produktiv verantworten kann, solche exotischen Lösungen zu nutzen. Ein tiefgehender Test inklusive diverser Fehlermöglichkeiten würde ich mal zum Spaß mal die Woche laufen lassen. (Hab ja ehh schon keine Freizeit(( ))

Falls Ihr noch jemanden mit tiefgreifenden Linux Kenntnissen braucht, der oft in Frankfurt tätig ist und sich gerne mal für die Community engagieren würde, dann würde ich mich über eine kleine PN mal freuen. Sebastian
 
Naja ... dazu sage ich aber nur: Mit Vergleichen waere ja aufgefallen, das die Lizenzbedingungen so sind: Security Patches ja, Driver Patches ja, Availability Patches nein. Ist ja nun nicht so, das Sun das erst im Nachgang gesagt hat ...

Sehr viel mehr last, auf sehr viel groesseren Sytemen ... ausserdem Ihr seid da auf eine ziemlich gemeine Tretmine gelaufen was den einen Patch angeht ... wenn ich mir die interne Doku dazu durchlese, muessen einige Bedingungen erfüllt sein, damit das System paniced ..
 
ReiserFS will niemand ohne eine gutes Backup ... den bei Reiser ist normal, das da ab und an mal Dinge einfach so verschwinden ...
Legenden halten sich lange, unter Reiser ist mir persönlich noch nie was verschwunden, aber egal wir haben so und so auf ext3 gesetzt.

Interessantere Frage ist aber: Ist ein Filesystem wirklich stabil, so lange es nicht die Validität der Daten auf dem rotierenden Rost garantieren kann? Herkömmliche Filesysteme checken mithin nur die Metadatenintegrität durch. Das wird eine noch sehr interessante Frage, wenn die Plattengroessen weiter so steigen, das die BERs der Platten quasi bei jedem Auslesen der festplatten ein falsch gelesenes und nicht korrigiertes Bit zwangsweise herbeiführen. Die Auswirkungen sind dann interessant. Insbesondere wenn das Bit in einer DAtenbank steht: Beim Rückschreiben er Daten werden dann schnell aus latenten Fehlern echte Datenfehler ...
Das war es was und an ZFS so gefallen hat.
Aber das Root Dateisystem war auch unter Solaris als ZFS nicht möglich und ein UFS Dateisystem hat es uns ja 1x komplett bei einem Absturz zerstört.
fsck konnte nichts mehr retten.
 
Also gepached war wohl was, oder meinst du mit "under" nicht ungepached, sondern zuwenig ?

Underpatched ist alles unter Recommended Patch Cluster ... das kann man machen, sollte man aber nur machen, wenn man weiss, was man treibt ... Im Grunde hätten sich die Jungs den kompletten Recommended PatchCluster Solaris 10 nebst Plattform patches aus den inoffiziellen Quellen ziehen sollen.

Ausserdem: Ob eine Hardware intakt ist, zeigt sich nicht nur dadurch das die Hardware unter Linux laeuft. Ich habe schon hardware unter Solaris laufen sehen, die unter Linux nicht lief und umgekehrt, bei der der Hersteller am Ende gesagt hat: "Jo ... ist ja auch im eimer" (Oder das Linux bestimmte BIOS settings nicht moechte, die Windows total genial fand) Neue Karte, neueste Firmware. Und ploetzlich lief es unter beiden. Man kann sowas rausfinden.

Das schöne an Wartungsverträgen mit Systemen mit offiziell supporteten Komponenten ist: Man ruft bei Sun an, macht einen Case auf, und wenn sich das trotz aktuellen Patches nicht beseitigen laesst, wird das bis ins Engineering durcheskaliert .......
 
Als das Boot 1.0 an den Start ging gab es ja Schätzung für wieviele User der Server ungefähr geeignet wäre, gibt es ähnliche Zahlen auch für das Boot 2.2?

Der Loadunterschied zwischen Linux und Solaris wird ja nicht gleich ein paar 1000 User ausmachen :) Also ist der BS wechsel wohl zu verschmerzen, zumindest in Performancehinsicht.

Linux ist Solaris zumindest im Punkto Community, Treiber usw. vorraus, bedingt aber durch die lange Entwicklungszeit. Vielleicht realtiviert sich dieser Umstand in ferner Zukunft etwas, oder ich muss wirklich eine Sun Maschine kaufen wenn ich ein System haben will auf welchen Solaris zu 100% läuft.
 
Underpatched ist alles unter Recommended Patch Cluster ... das kann man machen, sollte man aber nur machen, wenn man weiss, was man treibt ... Im Grunde hätten sich die Jungs den kompletten Recommended PatchCluster Solaris 10 nebst Plattform patches aus den inoffiziellen Quellen ziehen sollen.
Der recommended patch cluster war, klarerweise, eingespielt.
Ein wenig Ahnung von Solaris haben wir schon ;)

lg
__tom
 
Kann da auch nur 'schade' und vor allem 'danke' sagen. Weiter so! Also nicht so, wie in den letzten Wochen... ;-)
 
Zurück
Oben Unten