- 相關推薦
試談高可靠分布式錯計算機架構的研究論文
1 確定性通信網絡的選用分析
對于分布式機載強實時高安全控制系統而言,節點間通信的實時性與確定性是系統實現的關鍵。目前實時嵌入式計算機系統中普遍使用基于事件觸發的串行通信協議。大量研究表明:對高可靠性系統而言,基于時間觸發的總線網絡的解決方案更具優勢。時間觸發架構(Time-triggered Architecture,TTA)系統和事件觸發架構(Even-triggered Architecture,ETA)系統的工作原理不同。前者的控制信號來源于時間進程;后者的控制信號來源于事件的發生(如一次中斷)。時間觸發系統中使用的狀態信息來自規定時間內的某個條件,如傳感器的值;而事件信息一般是在事件發生時激活中斷服務程序采取相應的措施。
ETA系統與TTA系統之間的基本不同與控制信號源有關。在TTA系統中控制總是駐留在分布式計算機系統的內部。TTA系統是一個物理上封閉的確定性系統。在ETA系統中,控制信號可能源自計算機內部,也可能源自計算機系統外部的環境(如中斷機制轉發過來的)。不可預測的環境將因而導致計算機系統的不確定性的行為。
從2006年開始,奧地利維也納大學Kopet研究小組成立的了TTTech公司,開發和推廣TTA通信產品,TTEthernet網絡(TTE)是其最先進的技術,TTTech公司對基于時間觸發以太網給出如下定義:
TTE=以太網+時鐘同步+時間觸發通信+速率受約傳輸+保證傳輸TTE通過一個內在的、集中式的調度表控制它自己的活動及外部環境之間的相互作用,而傳統以太網采用的ET(Event-Triggered事件觸發)型網絡則受控于外界環境,并對外部事件的刺激做出響應。
2 分布式計算機架構設計
高可靠分布式容錯計算機系統包括3個節點計算機,分布在3個結構獨立的機箱內,滿足不同的任務、不同的余度配置要求。系統整體結構采用TTE總線基礎上的分布式架構。系統采用3余度高完整計算架構、保證系統在任意兩次故障后,能夠繼續完成關鍵任務。從物理結構上,系統包括3個結構獨立的節點,通過高速串行網絡互連,從邏輯結構上,所有的模塊處于同一個網絡上,其中CPU模塊都是對等的,即每個CPU模塊都對系統的計算、余度管理等功能負責,系統中只要保留2個CPU模塊,1個RDC模塊,即可保證系統的工作。每個節點內RDC自動完成(即RDC發生可自檢的故障,也可通過接收網絡上CPU命令,由RDC完成)。
系統工作時3個容錯計算機節點同時工作,通過TTE數據總線交換信息,節點計算機對信號源的信息進行交叉比較,再將信息進行節點間的交叉表決,最終表決值參加控制率計算。任何一個處理器故障均會由同一節點內的另一處理器隔離,任何一個節點故障(兩次故障),該節點上的任務將有其它節點代替執行。系統節點計算機之間采用松耦合的同步工作,節點計算機間的同步和交叉信息交換通過通信分區來實現。系統容錯通過采用備份功能分區的切換和資源的重新分配完成。系統軟件設計包括3個部分:操作系統、余度管理功能包以及應用軟件。
3 成員一致性保證技術
飛行器管理計算機實現對多個任務的功能綜合,滿足不同安全級別、不同余度配置任務共享平臺的系統要求。為保證各功能在共享硬件上運行的安全性及隔離性要求,系統需要設計管理中間件來實現系統成員一致性保證協議。成員一致性保證是實現由集中式容錯向分布式容錯跨域的關鍵。成員一致性保證技術包括:一致性決策算法、隱含確認算法。
飛行器管理計算機系統的每一節點機上都設置一個任務成員表單。表單中會記錄所有正常運行的分區任務。每一個節點機在獲取到信息時都會依據是否接收成功標志更新本地的任務成員表單。每次在信息傳遞的過程中,接收一方都要檢查隱藏或包含CRC校驗碼的發送方的任務成員表單。因為所有節點機都嚴格按照時間觸發周期的調度方式收發信息,每一節點機都會在一個時間觸發周期內檢查所有成員的表單。當與接收方有交聯的所有任務成員表單都不同時,發送方節點機被認為是有誤的。這種策略就通過節點機間的相互確認保證了系統內所有節點機的一致性。整個成員一致協議設計包含兩部分:第一部分是隱含確認機制與一致性表決機制。以下是兩個算法的實現原理。一致性表決算法:每個節點機維護一張本地的成員任務成員表單。當某一個節點機準備與其它節點機交換信息數據時,將自身任務執行情況添加到本地成員表單中。當接收方收到正確的信息數據時,它將發送方節點機加入到本地成員表單中。
節點機依據以下3個條件判斷信息數據傳輸正確與否:信息傳輸須發生在預定的時間偏差內;傳輸活動成功完成;在將發送端加入接收端的成員表單后,雙方的成員表單內容須一致。接收端檢查校驗發送端傳輸數據,如發現錯誤,發送端節點機將被接收端節點機從其成員表單內刪除。數據若正確,節點機則會將發送端節點機加入成員表單并使確認計數器累加,若接收失敗時,接收端節點機將從成員表單中刪除發送端節點機并使失敗計數器累加。接收端節點機可判斷出成員表單是否匹配、數據是否完整以及是否成功數據傳輸等情況(空幀)。當出現空幀時,接收端節點機不累加任何計數器,但將本應出現在該時段的發送數據的節點機從成員表單中刪除。在某節點機發送數據前,要執行成員表單決策算法。節點機先檢查在上次發送后接收的錯誤幀是否多于正確幀,即比較失敗計數器是否小于確認計數器。若結果為真,節點機將清零兩個計數器并將數據送出;反之,節點機將上報一個錯誤給上級應用層,然后進入故障靜默狀態。隱含確認算法的主要內容是診斷出節點機的故障并將結果通知其它所有非故障節點機。具體可描述為如下過程:在時間段t的廣播者p,發送消息,然后檢測下一時間段的非故障廣播者q的成員表單,如果p 包含在q 的成員表單中,并且表單中的其它成員均相同,則q 可以推出自己信息廣播成功。否則,可能的原因是p 發送故障或q 接收故障,p 須等待另一非故障廣播者r,如果q的成員表單中包含p,但不含q,p 和q表中的其它成員內容相同,說明p 消息發送成功,則q接收故障。若p 不在r 的成員表單中,但q在r 的成員表單中,q和q 表中的其它成員內容相同,則推斷p 發送故障。此時,p 自己將移出成員表單,進入故障靜默狀態。若節點機在其下一個時間觸發周期前還未完成隱含確認算法,則該節點機將會因為決策算法而被動進入故障靜默狀態。
4 同步技術
高精度時間同步技術是實現TTA架構的分布式計算機系統的關鍵。高可靠分布式計算機的多數表決策略需要同步技術消除異步度,節點機內部兩個CPU 模塊之間,以及CPU模塊與RDC之間也需要同步技術協調一致。另外,綜合在CPU模塊上的不同分區應用任務,對實時性、確定性以及部件協調性均有要求,因此分區間的同步技術也是不可回避的重要內容。
節點同步技術。系統中所有節點計算機使用兩步同步方法:
1)“對齊后調度切換”;
2)“周期重新同步”對節點計算機的本地時鐘與通信控制器的時鐘進行校正對齊,從而實現節點時間同步。該方法能夠實現節點計算機與網絡時鐘的直接同步,從而意味著系統中各節點的間接同步。
同步的主要功能是維持本地節點機與其它有效節點機的同步運行。同步是為了消除不同節點之間的運行周期的異步度,在同一時間運行相同的幀任務,保證CCDL的時間一致性。同步是系統分區的最高優先級任務,在同步期間需要停止時間計數,并在同步完成后從零時間開始新一幀的時間周期。消息時間同步技術。除了節點同步技術,還需實現通信網__
絡底層時間同步,建立分布式網絡統一的時間基準對系統至關重要。網絡時間協議是通過軟件的方法提供了一種在系統互連網絡上實現時間同步和協調的一種機制。如在以太網上采用的網絡時間協議、簡單網絡時間協議和精密時間協議等。傳統的網絡時間同步方法主要存在以下問題:
1)采用B/S架構,時間服務器故障會導致全局故障,系統容錯性能差。
2)采用純軟件算法的同步校正方法,由于網絡固有的傳輸時延不確定性,處理器性能差異導致軟件時間同步的精度不高。
為解決上述問題,國外主要采用以下新方法來改進分布式系統中網絡時間同步:
1)采用軟硬件結合的方法,在現有網絡的基礎上適度增加硬件支持,實現軟硬件混合的時間同步,如新頒布的IEE1588協議推薦方法,同步提升同步處理的實時性提高系統時間同步精度。
2)提高網絡時間消息傳輸的優先級、減少傳輸抖動、提升同步的穩定性。
3)優化同步算法,采用先進的表決、選舉算法、降低單時間服務器對系統全局時鐘的影響,提升系統同步的魯棒性。消息時間同步方法是采用上述先進理念開發出的一種新型容錯的高精度時間同步解決方案,屬于軟硬件相結合的方法,全局時鐘同步包括同步流程、集群檢測與處理、多同步域/多優先級網絡時鐘同步等內容。時間同步流程分為兩步。首先,同步控制器向同步集中器傳輸協議控制幀(protocol control frame,PCF)。PCF幀并非在任何時間都可以發送,是在本地時鐘指示到達一定的時間后,才會發送PCF幀。同步控制器的本地時鐘與PCF幀有關系,如發送時間。當PCF幀送達集中控制器,PCF幀會記錄在該傳播過程中的延遲情況,包括傳播延遲、動態發送延遲以及動態接收延遲等。其次,同步集中器接收到與之連接的各鏈路上的不同源PCF幀后,經過時序保持算法與集中算法獲得一個新PCF幀,并將該幀發向同步客戶與同步控制器。集中控制器的作用類似一個仲裁機構,依據同步控制器發送的PCF幀,通過集中算法與時序保持算法,表決計算出一個都認可的時鐘,然后把該信息送回同步控制器及同步客戶代理,經過同步控制器與同步客戶代理處理后就可實現同步了,直至實現全域同步。節點機上網絡同步和分區時間同步的實現是建立在網絡同步的基礎上,利用分區調度表切換的方式實現了分區間時間同步。
5 測試與驗證
為了進一步驗證該構型計算機的容錯能力,建立了一個集開發、系統仿真、測試及綜合為一體的容錯計算機綜合測試、驗證及演示平臺。平臺支持余度容錯計算機的設計與分析、軟件開發、系統綜合和測試、以及演示驗證的功能,實現對容錯計算機系統的研究,包括軟/硬件測試方法、故障檢測方法、故障隔離方法、故障恢復方法等方面的研究。同時,可對容錯計算機系統提出定量的分析,包括在采用不同的處理器系列、不同的余度結構的容錯計算機下,系統的可靠性分析、可用性分析、維護性分析。
在上述測試驗證平臺下,完成了對TTE網絡關鍵技術的測試和驗證,包括測試系統的網絡通訊能力、數據備份傳輸功能和容錯能力消息收發的波形示例。對三節點高可靠分布式容錯計算機的測試,驗證了三節點系統架構滿足飛機的飛行控制與管理基本功能,對接口故障、處理器故障的容錯功能測試,證明系統具備至少2次故障工作的能力,對故障靜默等能力的測試,證明系統可用性等性能指標滿足要求,解決了當系統發生故障時,在系統現有資源狀況下,在保證系統關鍵任務的條件下,系統功能的緩慢降級,達到系統當前資源與系統工作模式的最佳匹配,從提高重構決策速度及提高關鍵數據管理水平兩方面著手提高故障恢復速度及完整。
6 結束語
高度功能綜合、網絡化、分布式的計算機系統將是容錯計算機發展的顯著特征。本文圍繞先進航空飛行器對分布式計算機系統的需求進行了分析,提出了高可靠分布式容錯計算機的構架建議,重點對TTE網絡、成員一致性保證以及余度同步等關鍵技術給出了解決途徑,為后續工程研制提供了有效思路。
【試談高可靠分布式錯計算機架構的研究論文】相關文章:
試談計算機的實操教學研究論文10-10
計算機網絡可靠性研究論文10-09
計算機網絡可靠性提升研究論文10-09
計算機網絡可靠性方法研究論文10-09
試談計算機的數據安全10-26
計算機系統的可靠性運行技術分析研究的論文10-09
談電氣自動化設備的可靠性論文10-10
基于GABP算法的計算機復雜網絡可靠性評估方法研究論文10-08
計算機網絡可靠性研究10-26