到現場后,先了解當前的情況:一個父域是abc.local;兩個子域分別是it.abc.local和hr.abc.local。每個域中有二臺DC。此次出現問題的是it.abc.local域,此域中的兩個DC名分別是dc01.it.abc.local和dc02.it.abc.local。另有兩臺成員服務器server1.it.abc.local和server2.it.abc.local安裝有故障轉移群集,上面配置有客戶應用。
癥狀是:1個小時前,群集應用出現故障,無法切換,處于失敗狀態。管理員登錄到DC上進行排查,發現DC01輸入正確的用戶名密碼無法登錄,懷疑是AD數據庫出現故障。
也就是說這里看到的是兩個故障:群集上的應用故障和域的用戶登錄故障。經過分析,判斷群集上的應用故障應該是由于域故障而起的,所以還是決定先解決域的用戶登錄故障。
DC01你怎么了?
關于DC02上域管理員賬戶無法登錄的問題,開始懷疑是DC01這臺機器上的數據庫有問題,解決就是想重新啟動驗證一下,如果不行就進行AD的恢復還原,實在不行,還有DC02在,可以將DC01降級再升為DC,但這是下下策。
確認思路之后,開始按Power,強制關機。重新啟動后,管理員竟然成功登錄進去了,太詭異了。但隨后打開DC02上的AD用戶和計算機時發現如下圖所示的故障:
在DC01上也無法打開AD用戶和計算機管理界面,此時判斷應該是DNS的問題,兩臺DC重新啟動DNS服務后,故障依舊。 此時采用下面的方法解決:
1.將兩臺機器上的c:\windows\system32\config文件夾中的netlogon.dnb和netlogon.dns分別改名,如下圖所示:
在此,我們將二個文件加上bak后綴,然后重新啟動DNS服務。如下圖所示:
重新啟動后,會再次生成新的netlogon.dnb以及netlogon.dns文件,如下圖所示:
此時,再打開兩臺DC的AD用戶和計算機就可以很順利的查看相關對象了。兩臺DC也可以正常的復制數據。群集上的應用也恢復正常了,似乎一切都平靜了。但故事還沒有結束。