王 翔
建設(shè)目的
隨著中國(guó)移動(dòng)通信數(shù)據(jù)業(yè)務(wù)的飛速發(fā)展,上海移動(dòng)所提供的數(shù)據(jù)業(yè)務(wù)也越來(lái)越多。目前上海移動(dòng)的主要數(shù)據(jù)業(yè)務(wù)包括城域網(wǎng)、GPRS、短信、WLAN、VOIP、WAP、LBS、EMAIL等業(yè)務(wù)。這些業(yè)務(wù)系統(tǒng)的網(wǎng)管主要采用設(shè)備提供商提供的網(wǎng)管系統(tǒng),基本停留在網(wǎng)元管理層次,無(wú)法滿足“集中監(jiān)控、集中維護(hù)、集中管理”現(xiàn)代化網(wǎng)絡(luò)管理模式的需要。為了提高網(wǎng)絡(luò)的管理、維護(hù)能力,為業(yè)務(wù)實(shí)現(xiàn)和實(shí)施提供有效的管理維護(hù)手段,全面提升數(shù)據(jù)業(yè)務(wù)的服務(wù)質(zhì)量,上海移動(dòng)公司進(jìn)行了數(shù)據(jù)網(wǎng)綜合網(wǎng)管的建設(shè)。
數(shù)據(jù)網(wǎng)綜合網(wǎng)管的實(shí)現(xiàn)和功能介紹
1.網(wǎng)絡(luò)架構(gòu)簡(jiǎn)介
2臺(tái)SUN680作為核心服務(wù)器,通過(guò)HA軟件進(jìn)行負(fù)荷分擔(dān),并共享1個(gè)磁盤(pán)陣列,SUNV480-1作為流量采集服務(wù)器,SUN V480-2作為業(yè)務(wù)采集服務(wù)器,這些設(shè)備均連接在綜合網(wǎng)管系統(tǒng)的核心交換機(jī)上,核心交換機(jī)通過(guò)防火墻連接到城域網(wǎng)。
考慮到網(wǎng)管系統(tǒng)的安全性,除城域網(wǎng)、VOIP業(yè)務(wù)等系統(tǒng)外,其他的業(yè)務(wù)系統(tǒng)(包括短信網(wǎng)關(guān)、LBS系統(tǒng)等)采用帶外管理,由SUNV480-2、路由器2621、交換機(jī)2948組成一個(gè)私網(wǎng)采集系統(tǒng)負(fù)責(zé)這些業(yè)務(wù)的采集。通過(guò)劃分不同的VLAN和響應(yīng)的訪問(wèn)列表隔離這些系統(tǒng)的互訪,提高網(wǎng)絡(luò)安全性。
核心服務(wù)器安裝了存儲(chǔ)備份軟件和磁帶庫(kù),負(fù)責(zé)對(duì)系統(tǒng)的數(shù)據(jù)進(jìn)行各種備份操作。告警數(shù)據(jù)可聯(lián)機(jī)存貯1個(gè)月,性能(包括設(shè)備性能、鏈路性能)、業(yè)務(wù)數(shù)據(jù)、流量流向數(shù)據(jù)可聯(lián)機(jī)存貯6個(gè)月;資源配置數(shù)據(jù)可聯(lián)機(jī)存貯3個(gè)月的標(biāo)準(zhǔn)計(jì)算存儲(chǔ)空間。所有數(shù)據(jù)均可脫機(jī)存儲(chǔ)1年。
2.采集方式
網(wǎng)管系統(tǒng)必須保證所采集數(shù)據(jù)的完整性、準(zhǔn)確性,同時(shí)應(yīng)保證網(wǎng)管系統(tǒng)在采集數(shù)據(jù)時(shí)不影響被管設(shè)備的正常運(yùn)行。主要采用如下這些方式進(jìn)行采集:
通過(guò)SNMP方式獲取網(wǎng)元設(shè)備MIB信息;
通過(guò)周期或不定時(shí)發(fā)送ping數(shù)據(jù)包,判斷設(shè)備的工作狀態(tài);
通過(guò)監(jiān)聽(tīng)代理的TRAP消息獲取故障信息;
接受網(wǎng)絡(luò)設(shè)備發(fā)送的流量數(shù)據(jù)包,如:Netflow;
通過(guò)讀取SYSLOG獲取數(shù)據(jù),如華為NAS設(shè)備;
為特定應(yīng)用、服務(wù)開(kāi)發(fā)的管理代理,如:在服務(wù)器上安裝 CA AGENT代理,獲取信息;
通過(guò)數(shù)據(jù)庫(kù)、文件等接口采集數(shù)據(jù),如:夢(mèng)網(wǎng)網(wǎng)關(guān)的性能統(tǒng)計(jì)報(bào)表;
通過(guò)模仿用戶行為,獲取網(wǎng)絡(luò)服務(wù)性能數(shù)據(jù);
通過(guò)手工錄入相關(guān)數(shù)據(jù);
其它合理的采集方式。
3.系統(tǒng)實(shí)現(xiàn)功能
上海移動(dòng)數(shù)據(jù)網(wǎng)綜合網(wǎng)管系統(tǒng)利用東信公司的IPNetManager達(dá)到了對(duì)數(shù)據(jù)業(yè)務(wù)的監(jiān)控和管理。完成功能情況如圖2所示。
下面將對(duì)數(shù)據(jù)網(wǎng)綜合網(wǎng)管主要實(shí)現(xiàn)的功能進(jìn)行相關(guān)介紹。
資源管理
對(duì)全網(wǎng)資源配置信息(包括軟硬件信息)組織到一起,使維護(hù)人員和管理人員能在一個(gè)統(tǒng)一的網(wǎng)管平臺(tái)上實(shí)時(shí)查看、監(jiān)控、統(tǒng)計(jì)和分析這些信息,進(jìn)行網(wǎng)絡(luò)資源調(diào)配和優(yōu)化。資源管理模塊的數(shù)據(jù)來(lái)源于SNMP代理采集和用戶手工錄入。
資源管理在功能上主要包括配置管理和資產(chǎn)管理。配置管理幫助采集、監(jiān)控、統(tǒng)計(jì)和管理整個(gè)網(wǎng)絡(luò)的配置信息,供維護(hù)人員查詢網(wǎng)絡(luò)運(yùn)行參數(shù)和配置狀況;可根據(jù)網(wǎng)絡(luò)管理其他功能生成的事件和維護(hù)人員的命令調(diào)整網(wǎng)絡(luò)設(shè)備配置,以保持整個(gè)網(wǎng)絡(luò)的正常操作。配置管理可以自動(dòng)獲取設(shè)備的配置文件,與過(guò)去的配置文件進(jìn)行比較。
資產(chǎn)管理對(duì)網(wǎng)絡(luò)中的各種離線設(shè)備和在線設(shè)備的資產(chǎn)信息進(jìn)行管理。如備品備件、軟件清單、以及資產(chǎn)分類統(tǒng)計(jì)等。
資源管理提供豐富的資源信息統(tǒng)計(jì)報(bào)表,包括路由器版本信息一覽表、設(shè)備基本配置信息一覽表、網(wǎng)關(guān)節(jié)點(diǎn)設(shè)備數(shù)量分類統(tǒng)計(jì)、交換機(jī)節(jié)點(diǎn)設(shè)備數(shù)量分類統(tǒng)計(jì)等報(bào)表。
流量管理
數(shù)據(jù)網(wǎng)綜合網(wǎng)管流量管理主要對(duì)上海移動(dòng)城域網(wǎng)業(yè)務(wù)進(jìn)行網(wǎng)絡(luò)流量狀況的檢測(cè),保證網(wǎng)絡(luò)能夠有效、平穩(wěn)、安全地運(yùn)行。并通過(guò)對(duì)網(wǎng)絡(luò)設(shè)備流量數(shù)據(jù)的采集和分析,向維護(hù)部門(mén)、管理部門(mén)提供相應(yīng)的運(yùn)行數(shù)據(jù),供維護(hù)人員、管理人員根據(jù)網(wǎng)絡(luò)運(yùn)行狀況制定合適的運(yùn)行策略,使網(wǎng)絡(luò)運(yùn)行在最高效的狀態(tài)下。同時(shí)對(duì)用戶專線鏈路的流量進(jìn)行實(shí)時(shí)檢測(cè)。
流量數(shù)據(jù)采集主要由兩部分組成,MRTG部分和NETFLOW部分。MRTG通過(guò)SNMP協(xié)議從設(shè)備處獲得流量信息,分析路由設(shè)備各個(gè)接口的物理流入/流出流量;NETFLOW部分用于采集由協(xié)議號(hào)和服務(wù)號(hào)所反映出的網(wǎng)絡(luò)業(yè)務(wù)流量、由路由器接口號(hào)反映出的鏈路流量、由自治域號(hào)反映出的網(wǎng)際流量,對(duì)上海移動(dòng)城域網(wǎng)上承載的的流量?jī)?nèi)容和流向進(jìn)行分析。流量管理以圖表的方式把流量數(shù)據(jù)提供給維護(hù)人員
提供網(wǎng)絡(luò)SLA管理,SLA管理模塊通過(guò)對(duì)城域網(wǎng)的主要鏈路進(jìn)行實(shí)時(shí)和定時(shí)采集,測(cè)量?jī)?nèi)容包括物理鏈路的最大時(shí)延、最小時(shí)延、平均時(shí)延和丟包率。
把流量管理和告警管理進(jìn)行相應(yīng)的關(guān)聯(lián),當(dāng)流量指標(biāo)超過(guò)預(yù)先設(shè)定的范圍時(shí),系統(tǒng)觸發(fā)流量告警。
故障與告警管理
故障與告警管理實(shí)現(xiàn)對(duì)數(shù)據(jù)網(wǎng)內(nèi)所有設(shè)備的告警監(jiān)測(cè)和故障定位,實(shí)時(shí)采集故障信息和實(shí)時(shí)性故障告警,進(jìn)行告警過(guò)濾和相關(guān)性分析、告警的實(shí)時(shí)顯示和報(bào)表生成、分析來(lái)自網(wǎng)元的告警和故障信息,準(zhǔn)確預(yù)警、定位和解決網(wǎng)絡(luò)中的故障。
故障與告警管理提供了5個(gè)級(jí)別的告警,不同級(jí)別的告警以不同的顏色和相應(yīng)的聲、光在告警窗口中顯示,并通過(guò)郵件和短消息把告警信息發(fā)給制定的維護(hù)人員,在一定時(shí)間內(nèi)未排除的告警,告警級(jí)別會(huì)自動(dòng)上升;提供知識(shí)庫(kù)功能,記錄維護(hù)人員對(duì)不同告警情況的不同處理手段,以供查詢、共享排障經(jīng)驗(yàn)。
性能管理
性能管理主要負(fù)責(zé)數(shù)據(jù)網(wǎng)內(nèi)設(shè)備的性能監(jiān)視、性能控制和性能分析,定期采集網(wǎng)絡(luò)設(shè)備、主機(jī)、數(shù)據(jù)庫(kù)性能信息。性能管理不但能及時(shí)收集設(shè)備的內(nèi)存利用率、CPU利用率,通過(guò)在主機(jī)和數(shù)據(jù)庫(kù)上安裝CAAgent軟件還可以監(jiān)視系統(tǒng)進(jìn)程信息、磁盤(pán)利用率、數(shù)據(jù)庫(kù)進(jìn)程信息等數(shù)據(jù)。性能管理當(dāng)前閾值越過(guò)閾值設(shè)定時(shí),會(huì)產(chǎn)生相應(yīng)級(jí)別的告警。根據(jù)采集性能管理數(shù)據(jù)及各個(gè)方面的性能指標(biāo)、統(tǒng)計(jì)值,提供直觀的性能報(bào)表,供維護(hù)人員及時(shí)了解設(shè)備的性能指標(biāo),達(dá)到改善網(wǎng)絡(luò)總體性能水平的目的。
業(yè)務(wù)管理
數(shù)據(jù)網(wǎng)綜合網(wǎng)管提供豐富的業(yè)務(wù)管理,提供的業(yè)務(wù)管理包括VOIP業(yè)務(wù)、NAS業(yè)務(wù)、WAP業(yè)務(wù)、夢(mèng)網(wǎng)網(wǎng)關(guān)業(yè)務(wù)、WLAN業(yè)務(wù)、MMS業(yè)務(wù)、DSMP業(yè)務(wù)、Email業(yè)務(wù)等,且還在不斷擴(kuò)充中。把各個(gè)專業(yè)網(wǎng)管系統(tǒng)的業(yè)務(wù)管理模塊都集成到數(shù)據(jù)網(wǎng)綜合網(wǎng)管系統(tǒng)里面,這是數(shù)據(jù)網(wǎng)綜合網(wǎng)管的特色,它有自己獨(dú)立的數(shù)據(jù)模型和數(shù)據(jù)庫(kù),實(shí)現(xiàn)各專業(yè)網(wǎng)管的功能。綜合網(wǎng)管的數(shù)據(jù)來(lái)源于網(wǎng)元或設(shè)備廠家自帶的網(wǎng)元層/網(wǎng)絡(luò)層管理系統(tǒng),具體方式根據(jù)各個(gè)專業(yè)廠家的實(shí)際情況來(lái)定。數(shù)據(jù)網(wǎng)綜合網(wǎng)管根據(jù)每個(gè)業(yè)務(wù)的自身特點(diǎn)提供相應(yīng)的管理,并提供完善的報(bào)表統(tǒng)計(jì)功能。
安全管理
安全管理對(duì)全網(wǎng)安全起保證作用,安全管理模塊提供對(duì)用戶進(jìn)行認(rèn)證和授權(quán)的功能,采用CA的eTrustAccessControl產(chǎn)品,基于角色-用戶的安全管理,以映射崗位責(zé)任制的機(jī)構(gòu)組織結(jié)構(gòu)。用戶根據(jù)自己的崗位獲得相應(yīng)的權(quán)限,訪問(wèn)相應(yīng)資源。并提供日志管理,記載網(wǎng)管系統(tǒng)的系統(tǒng)事件,包括用戶登錄訪問(wèn)時(shí)間、用戶IP地址、操作資源、操作成功或失敗等事件。
系統(tǒng)配置了IDS入侵檢測(cè),IDS作為防火墻的功能延伸和補(bǔ)充,能檢測(cè)防火墻內(nèi)部的網(wǎng)絡(luò)和主機(jī)上發(fā)生的非法行為,這些行為多半發(fā)起于內(nèi)部系統(tǒng),防火墻無(wú)法觸及。
IDS入侵檢測(cè)、防火墻和eTrustAccessControl三者的結(jié)合,形成了一個(gè)立體的防護(hù)體系,從網(wǎng)絡(luò)入口、系統(tǒng)內(nèi)部互訪、操作系統(tǒng)資源訪問(wèn)控制等方面加強(qiáng)了IP網(wǎng)絡(luò)管理系統(tǒng)的安全性,從而有效地保障了網(wǎng)管系統(tǒng)持續(xù)、可靠和可控的運(yùn)行,以及網(wǎng)管數(shù)據(jù)的傳輸和存儲(chǔ)安全。
其它功能
數(shù)據(jù)網(wǎng)綜合網(wǎng)管除了上述幾種主要功能外,還提供報(bào)表管理、網(wǎng)絡(luò)拓?fù)洹⑹聞?wù)管理、IP地址管理等功能。
報(bào)表管理是把數(shù)據(jù)網(wǎng)綜合網(wǎng)管各個(gè)管理模塊提供的報(bào)表都在報(bào)表管理模塊中進(jìn)行日匯總,維護(hù)人員可以到查詢到各個(gè)管理模塊提供的報(bào)表。
網(wǎng)絡(luò)拓?fù)涮峁┥虾?a class="channel_keylink" href="/search.asp">移動(dòng)城域網(wǎng)和多個(gè)業(yè)務(wù)系統(tǒng)的網(wǎng)絡(luò)拓?fù)鋱D。在網(wǎng)絡(luò)拓?fù)鋱D上可以呈現(xiàn)網(wǎng)絡(luò)資源配置信息、故障信息、性能信息等各種信息
事務(wù)模塊提供維護(hù)人員維護(hù)流程化管理功能,主要功能包括待處理事務(wù)記錄、值班管理、局?jǐn)?shù)據(jù)記錄管理、維護(hù)日志管理、查詢信息管理等,并提供與電子工單系統(tǒng)的接口。
IP地址管理模塊提供被管網(wǎng)絡(luò)的IP地址規(guī)劃、IP地址信息組織和IP地址信息管理等功能,可以按照網(wǎng)段、子網(wǎng)、主機(jī)IP地址的固有從屬屬性,并結(jié)合地理位置、從屬業(yè)務(wù)類型等呈現(xiàn)不同從屬關(guān)系的各種樹(shù)圖。
實(shí)現(xiàn)后的優(yōu)點(diǎn)
IP綜合網(wǎng)管一期工程建設(shè)完成以后,維護(hù)人員提高了故障的及時(shí)響應(yīng)速度、加強(qiáng)了網(wǎng)絡(luò)和業(yè)務(wù)數(shù)據(jù)的收集和統(tǒng)計(jì)、網(wǎng)絡(luò)狀態(tài)的圖形化呈現(xiàn)等方面的能力。
1) 故障的及時(shí)響應(yīng)
IP綜合網(wǎng)管把采集到各種網(wǎng)絡(luò)告警經(jīng)過(guò)相應(yīng)處理后,以WEB頁(yè)面的方式加以不同的聲光告警級(jí)別直觀地體現(xiàn)在維護(hù)人員的面前,同時(shí)采用郵件、短信的方式,相比以前維護(hù)人員經(jīng)常登錄到相關(guān)系統(tǒng)查看告警的方式,目前網(wǎng)管的采用大大縮短了網(wǎng)絡(luò)和業(yè)務(wù)故障的處理時(shí)間。
網(wǎng)絡(luò)和業(yè)務(wù)數(shù)據(jù)的自動(dòng)收集和統(tǒng)計(jì)
以前大量的網(wǎng)絡(luò)和業(yè)務(wù)的統(tǒng)計(jì)報(bào)表都需要維護(hù)人員手工收集數(shù)據(jù)和制表,費(fèi)時(shí)費(fèi)力,目前這部分工作由網(wǎng)管系統(tǒng)自動(dòng)完成,定時(shí)產(chǎn)生各種統(tǒng)計(jì)報(bào)表,并且可以靈活設(shè)置采集時(shí)間,提高了效率和數(shù)據(jù)的準(zhǔn)確性。
配置數(shù)據(jù)的自動(dòng)保存
對(duì)網(wǎng)絡(luò)設(shè)備配置數(shù)據(jù)的保存采用人工登錄的方式進(jìn)行采集保存,目前由網(wǎng)管系統(tǒng)定時(shí)采集、定時(shí)保存?zhèn)浞,同時(shí)提供對(duì)配置數(shù)據(jù)變化的合法性進(jìn)行判斷。
結(jié)束語(yǔ)
數(shù)據(jù)網(wǎng)網(wǎng)管系統(tǒng)是數(shù)據(jù)網(wǎng)網(wǎng)絡(luò)質(zhì)量控制、資源配置、業(yè)務(wù)調(diào)度的核心,對(duì)于提高網(wǎng)絡(luò)運(yùn)維效率、降低網(wǎng)絡(luò)故障時(shí)延起到重要的作用。上海移動(dòng)數(shù)據(jù)網(wǎng)綜合網(wǎng)管已經(jīng)完成了一期工程建設(shè),基本上滿足了需求。但是,市場(chǎng)的發(fā)展及變化、維護(hù)人員和客戶的需求,對(duì)業(yè)務(wù)的質(zhì)量、管理維護(hù)的效能都提出了更高的要求,我們還需要不斷改進(jìn)和完善數(shù)據(jù)網(wǎng)綜合網(wǎng)管的功能,如提供大客戶管理、SLA業(yè)務(wù)管理、動(dòng)態(tài)資源建模等功能,建立全網(wǎng)資源的信息模型的,提供網(wǎng)絡(luò)層的綜合分析評(píng)估手段。