Windows Failover Cluster Sorunları ve Çözüm Yolları

Merhaba, bu yazımda sizlere Windows Failover Cluster sorunları ve çözüm yolları konusundan bahsedeceğim. Failover cluster üzerinde bir nodun sürekli down olup tekrar up olması çeşitli nedenlerden kaynaklanabilmektedir. Sorunun temel nedenini belirlemek için adım adım teşhis yapıp çözüm yollarını uygulayabilirsiniz. Aşağıda yapılabilecek adımlar ve kullanılacak komutlar yer almaktadır.

Olay Günlüklerini (Event Logs) Kontrol Et

İlk olarak, nodun neden sürekli down olduğunu anlamak için olay günlüklerini kontrol edin.

Cluster ile ilgili günlükler:
Event Viewer > Applications and Services Logs > Microsoft > Windows > FailoverClustering

Node üzerinde oluşan hatalar için:
Event Viewer > System

Node’un Sağlığını Kontrol Et

Node’un sistem kaynaklarını ve durumunu kontrol edin:

Disk Sağlığı

Get-ClusterSharedVolume -Cluster “ClusterName”

Disk bağlantılarında sorun olup olmadığını kontrol edin.

Network Sağlığı

Test-ClusterNetwork -Cluster “ClusterName”

Ağ bağlantısı problemleri olup olmadığını tespit edin.

Cluster Node Durumu

Get-ClusterNode

Node’u İzole Edip Test Edin

Sorunlu node’u cluster’dan izole ederek durumu inceleyin:

Node’u bakım moduna alın:

Suspend-ClusterNode -Name “NodeName” -Drain

Node üzerindeki kaynakları diğer node’a taşıyın ve bakım modunda inceleme yapın.

Node’u tekrar devreye alın:

Resume-ClusterNode -Name “NodeName”

Cluster Validation Testi Çalıştır

Cluster’ın düzgün çalışıp çalışmadığını anlamak için bir doğrulama testi yapın:

Test-Cluster -Cluster “ClusterName” -Include “Storage”, “Network”, “System Configuration”

Bu komut size detaylı bir rapor verecek. Sorunlar genellikle burada ortaya çıkar.

Cluster Ağ Ayarlarını Kontrol Et

Network ayarlarının doğru yapıldığından emin olun:

Cluster Network Rolleri

Get-ClusterNetwork

Ağ durumu Enabled olmalı.

Cluster iletişimi için gerekli IP adreslerinin doğru olduğundan emin olun.

Ping Testi

Sorunlu node ile diğer node arasında bağlantı kontrolü yapın:

Test-Connection -ComputerName “NodeName” -Count 4

Cluster Servisinin Çalıştığından Emin Olun

Sorunlu node üzerindeki cluster servisini kontrol edin:

Servis durumunu kontrol edin:

Get-Service -Name “ClusSvc”

Eğer servis duruyorsa, yeniden başlatın:

Restart-Service -Name “ClusSvc”

Cluster Quorum Ayarlarını Kontrol Et

Quorum ayarlarının doğru yapıldığından emin olun. Örneğin, quorum kaynağında bir sorun varsa, node’lar arasında tutarsızlık yaşanabilir.

Quorum durumunu kontrol edin:

Get-ClusterQuorum

Quorum türünü değiştirmek için:

Set-ClusterQuorum -NodeAndDiskMajority “DiskName”

Node İşletim Sistemi Güncellemelerini Kontrol Edin

Sorunlu node’un güncel olup olmadığını kontrol edin. Güncellemeler eksikse sistem kararsız çalışabilir.

Güncellemeleri kontrol et:

Get-WindowsUpdateLog

Cluster Loglarını Topla

Daha derin analiz yapmak için Failover Cluster loglarını toplayabilirsiniz:

Get-ClusterLog -Node “NodeName” -TimeSpan 1

Bu log dosyası size ayrıntılı hata bilgisi verir.

Son Çare: Node’u Cluster’dan Çıkart ve Yeniden Ekleyin

Eğer yukarıdaki adımlarla çözüm bulunamazsa:

Node’u cluster’dan çıkart:

Remove-ClusterNode -Name “NodeName”

Node’u tekrar ekle:

Add-ClusterNode -Name “NodeName” -Cluster “ClusterName”

Önemli Notlar:

  • Fiziksel donanım veya sanallaştırma altyapısında (ör. disk, ağ adaptörü) sorun olup olmadığını kontrol edin.
  • Cluster’ı test ortamında simüle ederek yapacağınız değişiklikleri değerlendirin.
  • Bu adımlar ve komutlarla sorunu çözme şansınız yüksek olacaktır.

Node Sürekli Qurantina Moda Düşüyorsa

Eğer bir node quarantine (karantina) moduna düşüyorsa, bu genellikle node’un cluster iletişiminde sorun yaşadığı veya belirli sayıda hata aldığı anlamına gelir. Quarantine modu, cluster’ın kararlılığını korumak için sorunlu node’u geçici olarak cluster dışına almasını sağlamaktadır.

Start Cluster Service

Quarantine Moduna Düşmenin Yaygın Nedenleri

Network Bağlantı Sorunları

Cluster iletişiminde paket kaybı, gecikme veya kesintiler.

Cluster ağının yanlış yapılandırılması.

Depolama (Storage) Sorunları

Node’un paylaşılan disklere erişememesi.

Disk gecikmeleri veya erişim hataları.

Donanım Sorunları

RAM, CPU ya da ağ adaptöründeki fiziksel problemler.

Cluster Threshold Limitlerinin Aşılması

Node, belirli bir zaman diliminde çok fazla hata aldıysa karantinaya alınır.

Node Karantina Modundan Çıkarma

Karantina modundaki node’u tekrar aktif hale getirmek için:

Resume-ClusterNode -Name “NodeName”

Bu komut, node’u tekrar cluster’a dahil eder. Ancak bu geçici bir çözümdür; temel nedeni çözmeden sorun tekrarlayabilir.

Quarantine Modunun Nedenini Anlamak

Cluster loglarını inceleyerek sorunun kaynağını belirleyin:

  • Cluster Loglarını Toplama:

Get-ClusterLog -Node “NodeName” -TimeSpan 1

Log dosyasını analiz ederek hangi hataların karantina moduna neden olduğunu tespit edin.

  • Event Viewer Günlükleri:

Get-EventLog -LogName System -ComputerName “NodeName”

Cluster Threshold Değerlerini Kontrol Et

Node’un karantinaya alınma eşiğini kontrol edin. Gerekirse bu ayarları değiştirebilirsiniz:

Default Quarantine Ayarları:

  • Quarantine threshold: 3
  • Quarantine duration: 2 saat
  • Threshold değerlerini kontrol etmek için:

Get-Cluster | Select-Object Quarantine*

  • Threshold veya süreyi değiştirmek için:

(Get-Cluster).QuarantineThreshold = 5

(Get-Cluster).QuarantineDuration = 1

Bu, daha fazla hata toleransı sağlar ve quarantine süresini azaltır.

Network Problemlerini Kontrol Et

Node’lar arası iletişimi ve ağ sağlığını kontrol edin:

Ağ Durumunu Test Et

Test-ClusterNetwork

Node’dan Diğer Node’lara Ping Testi

Test-Connection -ComputerName “OtherNodeName” -Count 4

DNS ve IP Yapılandırmasını Kontrol Et: Node’ların birbirini doğru çözümleyebildiğinden emin olun.

Depolama ve Disk Sorunlarını Kontrol Et

Cluster paylaşılan disklerinde sorun varsa, node karantinaya düşebilir.

Disk Sağlığı Kontrolü

Get-ClusterSharedVolume

Disk Performansını ve Bağlantısını Test Et

Test-ClusterResource -Name “DiskResourceName”

Cluster Servisini Yeniden Başlat

Node’daki cluster servisini yeniden başlatmak sorunları çözebilir:

Restart-Service -Name “ClusSvc”

Cluster Configuration Validation Testi Çalıştır

Cluster yapılandırmasında sorun olup olmadığını anlamak için:

Test-Cluster -Cluster “ClusterName”

NOT:

  1. Node Güncellemelerini Kontrol Edin: Node üzerinde eksik Windows güncellemelerini yükleyin.
  2. Donanım Sağlığını İzleyin: BIOS ve firmware güncellemelerini kontrol edin.
  3. Cluster Timeout Ayarlarını Güncelleyin: Timeout sürelerini artırarak network gecikmelerine karşı toleransı artırabilirsiniz.

Karantinaya Alınma Sorununu Kalıcı Çözme

Eğer sorunun kaynağı hala bulunamazsa:

Node’u cluster’dan kaldırın.

Remove-ClusterNode -Name “NodeName”

Node’u tekrar ekleyin

Add-ClusterNode -Name “NodeName” -Cluster “ClusterName”

Bu yazımda sizlere Windows Failover Cluster sorunları ve çözüm yolları konusundan detaylıca bahsettim. Faydalı olması dileğiyle.


 

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir