Merhaba, bu yazımda sizlere Windows Failover Cluster sorunları ve çözüm yolları konusundan bahsedeceğim. Failover cluster üzerinde bir nodun sürekli down olup tekrar up olması çeşitli nedenlerden kaynaklanabilmektedir. Sorunun temel nedenini belirlemek için adım adım teşhis yapıp çözüm yollarını uygulayabilirsiniz. Aşağıda yapılabilecek adımlar ve kullanılacak komutlar yer almaktadır.
Olay Günlüklerini (Event Logs) Kontrol Et
İlk olarak, nodun neden sürekli down olduğunu anlamak için olay günlüklerini kontrol edin.
Cluster ile ilgili günlükler:
Event Viewer > Applications and Services Logs > Microsoft > Windows > FailoverClustering
Node üzerinde oluşan hatalar için:
Event Viewer > System
Node’un Sağlığını Kontrol Et
Node’un sistem kaynaklarını ve durumunu kontrol edin:
Disk Sağlığı
Get-ClusterSharedVolume -Cluster “ClusterName”
Disk bağlantılarında sorun olup olmadığını kontrol edin.
Network Sağlığı
Test-ClusterNetwork -Cluster “ClusterName”
Ağ bağlantısı problemleri olup olmadığını tespit edin.
Cluster Node Durumu
Get-ClusterNode
Node’u İzole Edip Test Edin
Sorunlu node’u cluster’dan izole ederek durumu inceleyin:
Node’u bakım moduna alın:
Suspend-ClusterNode -Name “NodeName” -Drain
Node üzerindeki kaynakları diğer node’a taşıyın ve bakım modunda inceleme yapın.
Node’u tekrar devreye alın:
Resume-ClusterNode -Name “NodeName”
Cluster Validation Testi Çalıştır
Cluster’ın düzgün çalışıp çalışmadığını anlamak için bir doğrulama testi yapın:
Test-Cluster -Cluster “ClusterName” -Include “Storage”, “Network”, “System Configuration”
Bu komut size detaylı bir rapor verecek. Sorunlar genellikle burada ortaya çıkar.
Cluster Ağ Ayarlarını Kontrol Et
Network ayarlarının doğru yapıldığından emin olun:
Cluster Network Rolleri
Get-ClusterNetwork
Ağ durumu Enabled olmalı.
Cluster iletişimi için gerekli IP adreslerinin doğru olduğundan emin olun.
Ping Testi
Sorunlu node ile diğer node arasında bağlantı kontrolü yapın:
Test-Connection -ComputerName “NodeName” -Count 4
Cluster Servisinin Çalıştığından Emin Olun
Sorunlu node üzerindeki cluster servisini kontrol edin:
Servis durumunu kontrol edin:
Get-Service -Name “ClusSvc”
Eğer servis duruyorsa, yeniden başlatın:
Restart-Service -Name “ClusSvc”
Cluster Quorum Ayarlarını Kontrol Et
Quorum ayarlarının doğru yapıldığından emin olun. Örneğin, quorum kaynağında bir sorun varsa, node’lar arasında tutarsızlık yaşanabilir.
Quorum durumunu kontrol edin:
Get-ClusterQuorum
Quorum türünü değiştirmek için:
Set-ClusterQuorum -NodeAndDiskMajority “DiskName”
Node İşletim Sistemi Güncellemelerini Kontrol Edin
Sorunlu node’un güncel olup olmadığını kontrol edin. Güncellemeler eksikse sistem kararsız çalışabilir.
Güncellemeleri kontrol et:
Get-WindowsUpdateLog
Cluster Loglarını Topla
Daha derin analiz yapmak için Failover Cluster loglarını toplayabilirsiniz:
Get-ClusterLog -Node “NodeName” -TimeSpan 1
Bu log dosyası size ayrıntılı hata bilgisi verir.
Son Çare: Node’u Cluster’dan Çıkart ve Yeniden Ekleyin
Eğer yukarıdaki adımlarla çözüm bulunamazsa:
Node’u cluster’dan çıkart:
Remove-ClusterNode -Name “NodeName”
Node’u tekrar ekle:
Add-ClusterNode -Name “NodeName” -Cluster “ClusterName”
Önemli Notlar:
- Fiziksel donanım veya sanallaştırma altyapısında (ör. disk, ağ adaptörü) sorun olup olmadığını kontrol edin.
- Cluster’ı test ortamında simüle ederek yapacağınız değişiklikleri değerlendirin.
- Bu adımlar ve komutlarla sorunu çözme şansınız yüksek olacaktır.
Node Sürekli Qurantina Moda Düşüyorsa
Eğer bir node quarantine (karantina) moduna düşüyorsa, bu genellikle node’un cluster iletişiminde sorun yaşadığı veya belirli sayıda hata aldığı anlamına gelir. Quarantine modu, cluster’ın kararlılığını korumak için sorunlu node’u geçici olarak cluster dışına almasını sağlamaktadır.
Quarantine Moduna Düşmenin Yaygın Nedenleri
Network Bağlantı Sorunları
Cluster iletişiminde paket kaybı, gecikme veya kesintiler.
Cluster ağının yanlış yapılandırılması.
Depolama (Storage) Sorunları
Node’un paylaşılan disklere erişememesi.
Disk gecikmeleri veya erişim hataları.
Donanım Sorunları
RAM, CPU ya da ağ adaptöründeki fiziksel problemler.
Cluster Threshold Limitlerinin Aşılması
Node, belirli bir zaman diliminde çok fazla hata aldıysa karantinaya alınır.
Node Karantina Modundan Çıkarma
Karantina modundaki node’u tekrar aktif hale getirmek için:
Resume-ClusterNode -Name “NodeName”
Bu komut, node’u tekrar cluster’a dahil eder. Ancak bu geçici bir çözümdür; temel nedeni çözmeden sorun tekrarlayabilir.
Quarantine Modunun Nedenini Anlamak
Cluster loglarını inceleyerek sorunun kaynağını belirleyin:
- Cluster Loglarını Toplama:
Get-ClusterLog -Node “NodeName” -TimeSpan 1
Log dosyasını analiz ederek hangi hataların karantina moduna neden olduğunu tespit edin.
- Event Viewer Günlükleri:
Get-EventLog -LogName System -ComputerName “NodeName”
Cluster Threshold Değerlerini Kontrol Et
Node’un karantinaya alınma eşiğini kontrol edin. Gerekirse bu ayarları değiştirebilirsiniz:
Default Quarantine Ayarları:
- Quarantine threshold: 3
- Quarantine duration: 2 saat
- Threshold değerlerini kontrol etmek için:
Get-Cluster | Select-Object Quarantine*
- Threshold veya süreyi değiştirmek için:
(Get-Cluster).QuarantineThreshold = 5
(Get-Cluster).QuarantineDuration = 1
Bu, daha fazla hata toleransı sağlar ve quarantine süresini azaltır.
Network Problemlerini Kontrol Et
Node’lar arası iletişimi ve ağ sağlığını kontrol edin:
Ağ Durumunu Test Et
Test-ClusterNetwork
Node’dan Diğer Node’lara Ping Testi
Test-Connection -ComputerName “OtherNodeName” -Count 4
DNS ve IP Yapılandırmasını Kontrol Et: Node’ların birbirini doğru çözümleyebildiğinden emin olun.
Depolama ve Disk Sorunlarını Kontrol Et
Cluster paylaşılan disklerinde sorun varsa, node karantinaya düşebilir.
Disk Sağlığı Kontrolü
Get-ClusterSharedVolume
Disk Performansını ve Bağlantısını Test Et
Test-ClusterResource -Name “DiskResourceName”
Cluster Servisini Yeniden Başlat
Node’daki cluster servisini yeniden başlatmak sorunları çözebilir:
Restart-Service -Name “ClusSvc”
Cluster Configuration Validation Testi Çalıştır
Cluster yapılandırmasında sorun olup olmadığını anlamak için:
Test-Cluster -Cluster “ClusterName”
NOT:
- Node Güncellemelerini Kontrol Edin: Node üzerinde eksik Windows güncellemelerini yükleyin.
- Donanım Sağlığını İzleyin: BIOS ve firmware güncellemelerini kontrol edin.
- Cluster Timeout Ayarlarını Güncelleyin: Timeout sürelerini artırarak network gecikmelerine karşı toleransı artırabilirsiniz.
Karantinaya Alınma Sorununu Kalıcı Çözme
Eğer sorunun kaynağı hala bulunamazsa:
Node’u cluster’dan kaldırın.
Remove-ClusterNode -Name “NodeName”
Node’u tekrar ekleyin
Add-ClusterNode -Name “NodeName” -Cluster “ClusterName”
Bu yazımda sizlere Windows Failover Cluster sorunları ve çözüm yolları konusundan detaylıca bahsettim. Faydalı olması dileğiyle.