High Availability Cluster: Fragen, Anregungen, Know-How und Erfahrungsaustausch

  • Ab sofort steht euch hier im Forum die neue Add-on Verwaltung zur Verfügung – eine zentrale Plattform für alles rund um Erweiterungen und Add-ons für den DSM.

    Damit haben wir einen Ort, an dem Lösungen von Nutzern mit der Community geteilt werden können. Über die Team Funktion können Projekte auch gemeinsam gepflegt werden.

    Was die Add-on Verwaltung kann und wie es funktioniert findet Ihr hier

    Hier geht es zu den Add-ons

Status
Für weitere Antworten geschlossen.
Gestern Abend hatte sich der passive Server aus dem Verbund verabschiedet und einen Neustart verlangt. Nach dem Neustart habe ich diverse Protokolle durchgesehen. Eine Ursache war nirgends zu finden. Nur eine fehlerhafte Synchronisation wurde angegeben.

Unbenannt-0.jpg

Der Cluster wurde nach dem Neustart einfach wieder verbunden, ohne dass es Probleme gab. Eine stundenlange Neuinstallation blieb mir erspart. Ich hatte dann mehrfach den Wechsel von aktiv zu passiv und umgekehrt durchgeführt. Dann ist das System die ganze Zeit, bis zum jetzigen Zeitpunkt normal gelaufen. Die Protokolle sind ohne neue Meldungen.

Jetzt habe ich, über das Hauptmenü den Speichermanager gestartet.

Unbenannt-00.jpg

Die Schnelltest brachten kein Ergebnis.

Nun lasse ich, über Nacht, den Cluster die Laufwerke mit dem "Erweiterten Smart-Test" prüfen.

Unbenannt-1.jpg

Unbenannt-2.jpg

Unbenannt-3.jpg

Jetzt bin ich gespannt wie das Ergebnis morgen aussieht.
 
An dieser Stelle auch an Dich ein herzlicher Dank für die detaillierte Berichterstattung!
 
Hallo Reiner,

cool dass du hier noch als Mitstreiter hinzu kommst, Erfahrung mehrt sich ja bekanntlich indem man sie teilt.

Verbunden sind beide über einen Cisco 16 Port Smart-Switch.
Den Heartbeat hast du aber schon mit einem Kabel direkt von DS zu DS verbunden, oder läuft der auch über den Switch? Das soll er nicht.

Gestern Abend hatte sich der passive Server aus dem Verbund verabschiedet und einen Neustart verlangt. Nach dem Neustart habe ich diverse Protokolle durchgesehen. Eine Ursache war nirgends zu finden. Nur eine fehlerhafte Synchronisation wurde angegeben.
Seltsam, sowas hatte ich noch nicht.
 
Hallo Galileo,

Nein, Heartbeat läuft selbstverständlich direkt, DS1 RJ45 Nr. 2 auf DS2 RJ45 Nr. 2. Aber beide RJ45 Ports Nr. 1 der beiden DS laufen ja auf den Switch. Die Verkabelung paßt schon. Woher der Synchronisationsfehler stammte, kann ich bis heute nicht nachvollziehen. Seit dem Neustart, nach dem Fehler, laufen beide DS fehlerfrei.
Ich kann aktiv - passiv wechseln wie ich will, der Verbund tut was er soll. Wenn ich heute Abend heim komme, schaue ich mir die Protokolle der Laufwerksprüfung an, sollte ich es noch schaffen poste ich wieder.
 
So, die Prüfung der Festplatten ist durch. Das Ergebnis hat mich verblüfft. Die erste Anzeige war ganz normal, so wie ich es erhofft hatte. Status "Normal.

Unbenannt-30.jpg

Dann jedoch war ich erstaunt. In beiden DS sind alle 4 Schächte mit den gleichen 2 TB-Platten bestückt. Deshalb erwartete ich auch eine Anzeige von 1 bis 4 in den Steckplätzen.
Aber es kam anders. Über das Hauptmenü habe ich den Speichermanager aufgerufen. Dort dann HDD/SSD gewählt und unter Protokoll erhielt ich die diese, alte Anzeige.

Unbenannt-31.jpg

Rufe ich aber separat die "Aktive DS" per IP auf, oder auch unter High Availability den Laufwerksstatus auf, schaut es so aus.

Unbenannt-00.jpg

Das gilt für beide DS. Wer kann mir das erklären? Ich verwende RAID 5. Ich schalte jetzt den aktiven Server um und schaue mir später das Ergebnis an.
 
Was konkret verwundert dich?

So wie ich das sehe kann man die aktive DS sowohl unter ihrer eigenen IP als auch unter der Cluster IP erreichen, ok, das finde ich etwas seltsam: Eine einzige physikalische Schnittstelle reagiert auf zwei IPs.

Die passive DS kann man garnicht erreichen, das ist verständich.

Den Plattenstatus der aktiven DS kann man eben entweder im Speicher-Manager oder in der Cluster-Anwendung sehen, den der passiven DS nur in der Cluster-Anwendung, quasi indirekt über die aktive DS.
 
Mich wundert, dass die Anzeige nicht (2. Abbildung von unten) Laufwerk 1 bis 4 zeigt, sondern 3, 3, 4, 4. Momentan überlege ich, ob ich beide DS noch einmal komplett platt mache. Das bedeutet, die Laufwerke extern formatieren, einsetzen und die DS neu aufsetzen und zum Cluster verbinde, bevor die Daten wieder eingespielt werden.
 
Jetzt ist es endgültig. Ich habe die fehlerfreie DS auf "Aktiver Server" gesetzt. Danach wurde der Cluster getrennt. Alle 4 Platten wurden ausgebaut und in einem Dock am Windows-Rechner komplett gelöscht. Danach habe ich sie eingebaut.
Anschließend wurden die Platten dem erweiterten SMART-Test unterzogen. Dabei ist es wichtig jede Platte im Speichermanager anzuwählen, auf die Schaltfläche S.M.A.R.T.-Test zu klicken und anschließend den erweiterten Test zu starten. Bei der Erstinstallation hatte ich irrtümlich vermutet, dass alle Platten des Volume geprüft werden.

Unbenannt-40.jpg

Unbenannt-41.jpg

Nun hatte ich zwei funktionierende Server. Im Gegensatz zur ersten Installation habe ich für den Heartbeat feste IP's aus dem Bereich 169.254.1 vergeben. Der Cluster ist jetzt unter seiner IP zu erreichen. Zusätzlich ist die jeweils aktive DS unter ihrer originalen IP ansprechbar. So wird es auch während der Installation angegeben, "Originale erreichbare IP". Also ist das normal.

In der Systemsteuerung habe ich danach Benachrichtigung gewählt.

Unbenannt-42.jpg

Unbenannt-43.jpg

Anschließen bin ich noch einmal zum Hauptmenü zurück und habe den Speichermanager aufgerufen. Im Register HDD/SSD - Allgemein nutze ich nun die Option, dass ich bei Festplattenfehlern per Mail benachrichtigt werde.

Unbenannt-44.jpg
 
Zuletzt bearbeitet:
Hallo Galileo,

vielen Dank für das anschauliche Tutorial, hat mir in meinem speziellen Fall schon mal sehr viel weiter geholfen.
Im Moment hänge ich aber noch an einer Sache - bei dem Punkt "Einstellungen bestätigen", direkt nach dem Fenster "Diese Aktion wird zunächst sämtliche auf dem passiven Server gespeicherten Daten löschen".
Nach einer gewissen Wartezeit meldet mein System, dass der passive Server nicht erreichbar wäre - über das Webinterface kann ich die Kiste jedoch unter der bekannten IP-Adresse erreichen und administrieren.

Muss das HA Clusterpaket sowohl auf dem aktiven als auch auf dem passiven Server laufen?

Viele Grüße
Enso
 
Hi zusammen

Ja das HA Packet muss bei beiden installiert sein.

Als kleine Ergänzung zum LDAP Server "Problem":
Bei mir ist dieser Effekt nicht erkennbar, ich musste das Paket nie neu starten. (DSM5.0-4493 Update 3)

Ich hab dafür ein anderes Phänomen:
Ich habe zwei DS 1513+ , eine wurde letztes Jahr im Herbst gekauft also knapp 1 Jahr und die andere ganz neu.
Die Paarung hat wunderbar geklappt wie in der Beschreibung, besten Dank dafür!

Nun zeigt die "alte" DS bei mir als Systemtemperatur 48° und die neue 36° an. Es spielt keine Rolle welche aktiv oder passiv ist.
Die DS'en stehen im selben Raum. Die HD's zeigen eher das umgekehrte, ca. 1-2° kühler als die neue obwohl die alte im Moment aktiv ist.

Könnte es sein dass es einfach nur ein Messfehler ist oder könnte es eine schlechte Wärmeübertragung zu den Kühlern sein?

Was habt ihr für Werte?

Grüsse Radon
 
"Der passive Server antwortet nicht. Bitte nochmals versuchen"

Hallo Gemeinde,

schön das hier im Forum bereits einiges an Erfahrung bezüglich High Availability - Cluster gesammelt worden ist.

Leider bekomme ich es nicht zum laufen und mir gehen gerade auch die Lösungen aus. Bei der Einrichtung des Clusters liefert mir der Assistent immer die Meldung: "Der passive Server antwortet nicht. Bitte nochmals versuchen".

Vlt. hat ja jemand von Euch eine Idee.

In Verwendung sind 2 x DS1513+ mit der DSM-Version: DSM 5.0-4493 Update 4.

DS1513-A: LAN - Port 1 und 2 sind zu einem Bond-1 zusammen gefasst und haben folgende Konfiguration:
IP: 192.168.100.37
SN: 255.255.255.0

DS1513-B: LAN - Port 1 und 2 sind zu einem Bond-1 zusammen gefasst und haben folgende Konfiguration:
IP: 192.168.100.38
SN: 255.255.255.0

Bei beiden NAS wurde aus den Verbleibenden LAN - Ports 3 und 4 ein Bond - 2 erstellt.
DS1513-A: 192.168.1.37, 255.255.255.0, (egal welche IP u. passendem Subnet verwendet wird, erfolgt immer gleiche Fehlermeldung)
DS1513-B: 192.168.1.38, 255.255.255.0, (egal welche IP u. passendem Subnet verwendet wird, erfolgt immer gleiche Fehlermeldung)

Bei dem Assistent gebe ich folgende Daten ein:
Passiver Server IP: 192.168.100.38
User: admin
PW: ein Passwort eben ;)
Heartbeat-Verbindung: Bond-2
Cluster-Name: COS-HA
NIC: Bond - 1
IP: 192.168.100.39
SN: 255.255.255.0

Es wird dann ewig geladen und schließlich mit der oben genannten Meldung abgeschlossen.
Ich habe bereits verschiedene IP-Adressen versucht, das High Available Paket ist auf beiden NAS installiert, Firewall deaktiviert, Kabel zwischen den Bond 2 getauscht.

Vlt. hat jemand einen Tip für mich.

Gruß
 
So, nun funktioniert es doch.
Habe erneut alle Settings u. Konfigurationen überprüft u. bin darauf gestoßen, daß bei dem eingesetzten Switch die "Jumbo-Frames" nicht aktiviert waren, jedoch in den Settings von den beiden NAS diese aktiviert waren. Nachdem ich auf dem Switch die Jumbo-Frames aktiviert u. den MUT-Wert auf 9000 gesetzt habe funktioniert nun auch endlich der HeartBeat.
Somit hat sich meine Frage oben erledigt.
Gruß
 
Kurze Zwischenfrage bzgl. der Jumbo Frames: Habt ihr nach deren Aktivierung einen merklichen Geschwindigkeitszuwachs bemerken können? Ich habe meine DS414 bisher nur mit normalem Bonding am HP Switch hängen, könnte allerdings Jumbo Frames aktivieren (am Switch, am NAS und natürlich dann an den Clients). Clients ohne aktivierte Jumbo-Frames könnten aber weiterhin im Netz kommunizieren, oder hat das einen negativen Einfluss?
 
Mein Stand ist der, dass Jumbo Frames auf allen Clients - sprich der gesamten Infrastruktur - aktiviert sein müssen und dass man andernfalls Probleme bekommen kann.
 
Hallo Zusammen
ich habe mir zwei Synology RS814+ gekauft mit jeweils 3 Platten, ich möchte eine NAS als aktive und eine als passive, das hat auch funktioniert, aber die Differenz zwischen den beiden, liegt bei 30 sec.
Wie kann ich einstellen das die passive nach 0,1 sec anspringt, wenn die aktive ausfällt
 
ich habe mir zwei Synology RS814+ gekauft mit jeweils 3 Platten, ich möchte eine NAS als aktive und eine als passive, das hat auch funktioniert, aber die Differenz zwischen den beiden, liegt bei 30 sec.
Wie kann ich einstellen das die passive nach 0,1 sec anspringt, wenn die aktive ausfällt

Das ist aber eine recht "normale" Differenz und ich denke nicht, das ein Umschaltung in 0,1 sec machbar wäre. Alleine die zuverlässige Erkennung ob ein Host noch "online" ist oder nicht doch eine kurzzeitige Störung vorliegt (z.B.: Wackler im Netzwerkkabel) dürfte länger als deine Zeitvorgabe dauern :)
 
Laut Synology Whitepaper liegst Du mit den 30s gar nicht schlecht. Dort sind auf Seite 10 Failover- und Switchover-Zeiten für eine RS10613xs+ angegeben. Ich denke nicht, dass Synology diesen Vorgang künstlich in die Länge zieht sondern dass es - wie michaeljk auch schon angesprochen hat - handfeste Gründe dafür gibt.
 
Hi, bin endlich auch mal wieder hier. Das Cluster läuft unauffällig vor sich hin.

Kurze Zwischenfrage bzgl. der Jumbo Frames: Habt ihr nach deren Aktivierung einen merklichen Geschwindigkeitszuwachs bemerken können?
Ich habe Jumboframes probiert und keine Vorteile messen können, ich fahre ohne.

Ansonsten überlege ich gerade mir 2015er Hardware zu holen, wegen der schnelleren Verschlüsselung. Momentan fahre ich mit TC, ist aber einfach etwas unhandlich. Das hat aber mit HA eher nichts zu tun.

Zum Thema:

Was haltet ihr im HA-Cluster eigentlich von RAID 0 und JBOD?

Im Grunde ist es ja eigentlich mindestens so sicher wie ein RAID 1 ohne HA. Ich habe darauf meine "Zeitmaschine", also die Time Backups. Die Daten haben also nur sekundäre Bedeutung.
 
Hallo Zusammen

Ich habe ein ähnliches Problem wie KRAUSERNo1. Nur das er seines Lösen konnte. :)

Verwende zwei komplett identische DS1815+.
LAN1 und LAN2 zu Bond 1 zusammengefasst und LAN3 und LAN4 zu Bond 2.

Aktiv - Bond 1 (Heartbeat Verbindung direkt ohne Switch oder Router)
IP 192.168.10.10
SM 255.255.255.0

Passiv - Bond 1
IP 192.168.10.20
SM 255.255.255.0

Aktiv - Bond 2 (Switch)
IP 192.168.114.154
SM 255.255.255.0

Passiv - Bond 2
IP 192.168.114.155
SM 255.255.255.0

Bei der Einrichtung des HAC‘s, komme ich bis zu der Bestätigung der Einstellungen. Danach bekomme ich jedes mal die selbe Fehlermeldung „Keine Antwort von passiven Server erhalten. …“.
Was ich aber beobachtet habe ist das die IP Adresse von Bond 1 am aktiven Server automatisch in eine 169.254.x.x geändert wird.

Ich wäre Dankbar für jede Hilfe.
mfg
 
Hallo,

Wieso hast du dem Heartbeat IPs zugeordnet?

Ich habe die überhaupt nicht angefaßt, ich denke die standen original sogar noch auf DHCP, die werden komplett vom HA-Manager eingestellt.

Stell die mal zurück auf die originalen 169.254. und vielleicht DHCP, dann wird es vermutlich gehen.

Bond bringt übrigens nichts beim Heartbeat, der wird nicht schneller, das kannst du dir sparen.
 
Status
Für weitere Antworten geschlossen.
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat