在大模型訓練與推理全面進入“重算力、強分布式、異構硬件”時代,DeepFlow 基于 eBPF 提供零侵擾、全棧、可持續的可觀測性能力,覆蓋從 Python 代碼到 GPU/RDMA 網絡,解決訓練低效、推理體驗不可控與異構智算黑盒三大核心問題。
閱讀全文>>云杉網絡的DeepFlow可觀測性平臺近期連續獲得中國信通院多項認證,其與東吳證券合作的金融全鏈路可觀測方案和與國網四川電力合作的電力智能運維方案均入選優秀案例。該平臺的核心創新在于深度融合“可觀測性”與“AI智能體”技術,通過全域數據采集和智能分析,實現從被動響應到主動預防的運維模式轉變。目前,DeepFlow已在金融、電力等行業成功落地,有效提升了系統穩定性與運維效率,展現了其技術先進性和跨行業普適價值,未來將繼續深化生態合作,助力更多行業數字化轉型。
閱讀全文>>本文詳細闡述了在SIGCOMM 2025下一代網絡可觀測性(NGNO)研討會上展示的一項行業實踐:某中國頭部保險集團與云杉網絡合作,基于DeepFlow智能體構建的“IT健康評估與故障診斷平臺”。該案例針對金融保險業在數字化轉型中面臨的復雜架構運維挑戰,提出并落地了“可視-維穩-智能”三階演進的運維新范式。方案依托eBPF零侵擾采集、一體化數據平臺及大模型驅動的智能體,實現了對超2000微服務、5000+容器節點的全棧觀測,將故障定位時間縮短90%,并成功應用于支付網關(峰值QPS >10萬)、核心保單處理(日超百萬筆)等關鍵場景。本文系統分析了該方案的架構、關鍵技術、實施路徑及量化效益,為金融行業構建具備韌性、智能與合規性的新一代IT可觀測體系提供了可復制的參考模型。
閱讀全文>>本文系統性闡述了在云原生環境下,利用擴展伯克利包過濾器(eBPF)技術實現大語言模型(LLM)推理服務全棧可觀測性的方法與架構。內容涵蓋自建千億參數LLM推理服務在異構硬件(如昇騰910B)與分布式框架(如vLLM, Ray)下面臨的挑戰,分析了傳統可觀測性三大支柱(指標、追蹤、日志)及新興性能剖析支柱的不足。文章重點介紹了DeepFlow平臺如何通過eBPF實現零代碼侵入的全棧指標采集、全鏈路追蹤與混合棧(CPU/GPU)性能剖析,并輔以智能體應用與中國移動的落地案例,驗證了該方案在優化GPU利用率、定位推理延遲及適配流式協議等方面的有效性。
閱讀全文>>隨著金融數字化轉型的深入推進,銀行、證券、保險等金融機構的核心業務系統正面臨前所未有的復雜性挑戰。云原生改造、分布式架構遷移、信創適配等多種技術路線并存,導致傳統運維手段已無法滿足金融級穩定性要求。
DeepFlow 基于“可觀-可控-全自動”一體化運維新范式,通過零侵擾的全棧可觀測性技術和AI智能體,為金融核心業務系統提供從被動響應到主動保障的全方位解決方案。該方案已在人保集團、國泰君安等頭部金融機構成功落地,實現了故障平均恢復時間(MTTR)降低70%、系統可用性提升0.42個百分點的顯著成效。
閱讀全文>>隨著大型語言模型(LLM)日臻成熟,AI 智能體(AI Agent)從概念走向實際應用的時代已然到來。在眾多的智能體使用場景中,可觀測性天然具備智能體成功落地的三大要素:高質量的結構化數據、功能豐富的專業工具,以及明確的業務目標——保障系統穩定性。通過將先進的 AI 技術與可觀測性場景融合,DeepFlow 智能體能夠自主感知環境、推理決策并執行任務,為 IT 團隊提供從日常巡檢到快速診斷的全方位支持。這不僅提升了運維效率,更將 IT 人員從繁瑣的日常任務中解放出來,使他們能夠緊跟技術趨勢,駕馭先進的 AI 工具,為業務連續性提供更堅實的保障。
閱讀全文>>在美國計算機協會(ACM)旗艦會議 SIGCOMM 2025 的首屆 Next-Generation Network Observability (NGNO) Workshop 上,云杉網絡與中國某頭部保險集團展示“基于 DeepFlow 智能體的IT健康評估和故障診斷平臺”,成為全球產學研關注的焦點。作為保險行業首個實現 “可視 — 維穩 — 智能” 全階段落地的標桿項目,其不僅印證了AI時代下智能體和可觀測性技術相結合的應用價值,更為此保險科技公司踐行 “科技資源整合、服務能力支撐、運營共享服務、價值創造” 四大戰略定位提供了核心技術支撐,為金融行業 IT 轉型輸出了可復制的實踐路徑。
閱讀全文>>本文分享借助 DeepFlow 在某頭部劵商業務壓測場景中通過調用鏈追蹤快速定位問題的過程。解決在容器云內等復雜調用場景中解決傳統監控手段覆蓋不全面、排障定位無手段等痛點。分享利用 DeepFlow 如何快速在復雜的業務調用過程中抽絲剝繭,快速排除網絡問題,定位Pod服務自身業務邏輯問題,展現 DeepFlow 產品價值。
閱讀全文>>金山私有化項目在可觀測性建設中,面臨數據孤島和缺乏全局視圖的挑戰,影響了問題排查效率。為此,引入 DeepFlow 和 eBPF 技術,打通了指標、追蹤和日志數據的聯動,提供了全局微服務調用關系。通過分階段建設,已完成第一期目標,實現了從被動排障到主動觀測的轉變,提升了系統穩定性和運維效率。
閱讀全文>>本文將詳細介紹 DeepFlow如何運用創新全鏈路觀測技術,從業務全鏈路視角、系統服務全鏈路視角為電網行業帶來全面的業務洞察和優化體驗。
閱讀全文>>