云杉網絡DeepFlow云網分析平臺,在2020年9月正是成為阿里云首個混合云網絡流量分析合作伙伴,本文主要介紹DeepFlow在阿里混合云全棧流量監控與分析的實現。
多云和云原生趨勢漸成主流。RightScale 2019年云狀態報告顯示,有84%的受訪企業采用了多云戰略;Gartner 預測,2020年全球90%的組織將利用混合云管理基礎設施;Nutanix全球企業云指數調查報告顯示,86%的企業受訪者認為混合云是是理想IT基礎架構的最佳選擇;《IDC FutureScape: 全球云計算2020 年預測——中國啟示》則認為,到2021年中國90%以上的企業將依賴于本地/專屬私有云、多個公有云和遺留平臺的組合,以滿足其基礎設施需求。
中國信通院的混合云調查報告指出,減少基礎設施投資是企業采用混合云的首要原因,災難恢復、數據備份和負載擴容是混合云三個重要的應用場。混合云兼具公有云和私有云之長,在混合云下實施微服務架構,能夠提供更好的軟件伸縮性和企業的敏捷性,滿足企業客戶快速響應市場變化、加速業務創新的需求。
在金融等重點行業領域,隨著企業基礎設施從傳統自建IDC到混合云的演進,網絡流量數據采集和智能分析已經成為支撐業務穩定運行和快速演進的重要能力,云上、云下一致性的網絡流量分析能力成為混合云平臺的強需求。 本文內容適用于以下場景:
在專有云環境中部署DeepFlow之前,用戶需要開通服務隧道資源,并記錄相關服務及其IP地址信息、服務隧道IP地址信息。其部署示意圖如下:
阿里專有云部署示意圖
在阿里混合云的部署示意圖如下所示,用戶完成DeepFlow部署之后,通過登錄管理后臺進行配置管理(為控制器和數據節點綁定隧道IP地址信息),關于部署的詳細信息可參考https://help.aliyun.com/document_detail/201110.html
阿里混合云部署示意圖
云杉網絡DeepFlow自5.6之后的版本開始適配容器,并最終全棧覆蓋網絡+應用的流量監控和分析,具備了細至端到端及服務端口的逐跳流粒度檢索能力。即,覆蓋流量從業務POD經過容器節點、物理宿主機、物理網絡鏈路(包括負載均衡器、網關等),到另外一臺宿主機上某個容器節點內的業務POD,提供全棧混合云環境下的全鏈路監控追蹤能力。
網絡拓撲功能聚焦于從邏輯、虛擬、物理的視角展現網絡的配置信息和狀態指標數據。完整描述各虛擬資源及虛擬網元之間的訪問關系以及流量狀態,幫助用戶全面掌握虛擬網絡整體情況,有效應對虛擬網絡內部組件關系復雜、容器或虛擬機變動頻繁等現象。
當用戶遇到業務問題時,可以借助DeepFlow逐跳的監控能力排查性能問題:
全景圖是DeepFlow重要功能之一,5.6版本后提供了多個維度(包括IP、VPC、子網、區域、可用區、宿主機、虛擬機、容器節點、容器POD、業務、資源組等)的資源流量搜索和知識圖譜展現。全景圖展示的視角包括:
用戶可通過DeepFlow對物理鏈路、虛擬鏈路統一進行鏈路逐跳的排查,快速定位丟包和時延的位置。針對需要鉆取或詳細查看的環節,用戶通過通過點擊拓撲中的資源、路徑,以及分布圖中的分組等選項,可在多個維度的展示界面之間進行隨意切換,從不同的視角對目標段的數據進行細致的展現。
此外,在鉆取環節,頁面還可進一步跳轉到流量曲線二級頁面,以折線圖的視角,展現現拓撲中的節點、路徑或分布圖中分組的統計數據在不同時間的結果,并與虛擬機、容器POD的啟停、創建(同步)、刪除、遷移、IP變更事件進行關聯展示。進一步的,可以跳轉到流日志三級頁面,查看對應的原始流日志詳細信息。
DeepFlow采集器分布式部署在用戶的計算節點,擁有多種形態的版本、以進程形態獨立運行并支持在異構的混合云資源池中一鍵部署。DeepFlow控制器按角色分為主控制器、備控制器、從控制器,用戶可根據實際部署要求進行靈活選擇;控制器集群最大可管理10萬臺規模的采集器,分布式部署的采集器與控制器構建成一個與云網規模一致的分布式流量處理系統。滿足大型企業私有IT、公有云、容器等對云數據中心資源池建設持續演進的網絡流量監控分析要求。