在大模型訓(xùn)練與推理全面進入“重算力、強分布式、異構(gòu)硬件”時代,DeepFlow 基于 eBPF 提供零侵?jǐn)_、全棧、可持續(xù)的可觀測性能力,覆蓋從 Python 代碼到 GPU/RDMA 網(wǎng)絡(luò),解決訓(xùn)練低效、推理體驗不可控與異構(gòu)智算黑盒三大核心問題。
閱讀全文>>云杉網(wǎng)絡(luò)的DeepFlow可觀測性平臺近期連續(xù)獲得中國信通院多項認(rèn)證,其與東吳證券合作的金融全鏈路可觀測方案和與國網(wǎng)四川電力合作的電力智能運維方案均入選優(yōu)秀案例。該平臺的核心創(chuàng)新在于深度融合“可觀測性”與“AI智能體”技術(shù),通過全域數(shù)據(jù)采集和智能分析,實現(xiàn)從被動響應(yīng)到主動預(yù)防的運維模式轉(zhuǎn)變。目前,DeepFlow已在金融、電力等行業(yè)成功落地,有效提升了系統(tǒng)穩(wěn)定性與運維效率,展現(xiàn)了其技術(shù)先進性和跨行業(yè)普適價值,未來將繼續(xù)深化生態(tài)合作,助力更多行業(yè)數(shù)字化轉(zhuǎn)型。
閱讀全文>>本文詳細(xì)闡述了在SIGCOMM 2025下一代網(wǎng)絡(luò)可觀測性(NGNO)研討會上展示的一項行業(yè)實踐:某中國頭部保險集團與云杉網(wǎng)絡(luò)合作,基于DeepFlow智能體構(gòu)建的“IT健康評估與故障診斷平臺”。該案例針對金融保險業(yè)在數(shù)字化轉(zhuǎn)型中面臨的復(fù)雜架構(gòu)運維挑戰(zhàn),提出并落地了“可視-維穩(wěn)-智能”三階演進的運維新范式。方案依托eBPF零侵?jǐn)_采集、一體化數(shù)據(jù)平臺及大模型驅(qū)動的智能體,實現(xiàn)了對超2000微服務(wù)、5000+容器節(jié)點的全棧觀測,將故障定位時間縮短90%,并成功應(yīng)用于支付網(wǎng)關(guān)(峰值QPS >10萬)、核心保單處理(日超百萬筆)等關(guān)鍵場景。本文系統(tǒng)分析了該方案的架構(gòu)、關(guān)鍵技術(shù)、實施路徑及量化效益,為金融行業(yè)構(gòu)建具備韌性、智能與合規(guī)性的新一代IT可觀測體系提供了可復(fù)制的參考模型。
閱讀全文>>本文系統(tǒng)性闡述了在云原生環(huán)境下,利用擴展伯克利包過濾器(eBPF)技術(shù)實現(xiàn)大語言模型(LLM)推理服務(wù)全棧可觀測性的方法與架構(gòu)。內(nèi)容涵蓋自建千億參數(shù)LLM推理服務(wù)在異構(gòu)硬件(如昇騰910B)與分布式框架(如vLLM, Ray)下面臨的挑戰(zhàn),分析了傳統(tǒng)可觀測性三大支柱(指標(biāo)、追蹤、日志)及新興性能剖析支柱的不足。文章重點介紹了DeepFlow平臺如何通過eBPF實現(xiàn)零代碼侵入的全棧指標(biāo)采集、全鏈路追蹤與混合棧(CPU/GPU)性能剖析,并輔以智能體應(yīng)用與中國移動的落地案例,驗證了該方案在優(yōu)化GPU利用率、定位推理延遲及適配流式協(xié)議等方面的有效性。
閱讀全文>>隨著大型語言模型(LLM)日臻成熟,AI 智能體(AI Agent)從概念走向?qū)嶋H應(yīng)用的時代已然到來。在眾多的智能體使用場景中,可觀測性天然具備智能體成功落地的三大要素:高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)、功能豐富的專業(yè)工具,以及明確的業(yè)務(wù)目標(biāo)——保障系統(tǒng)穩(wěn)定性。通過將先進的 AI 技術(shù)與可觀測性場景融合,DeepFlow 智能體能夠自主感知環(huán)境、推理決策并執(zhí)行任務(wù),為 IT 團隊提供從日常巡檢到快速診斷的全方位支持。這不僅提升了運維效率,更將 IT 人員從繁瑣的日常任務(wù)中解放出來,使他們能夠緊跟技術(shù)趨勢,駕馭先進的 AI 工具,為業(yè)務(wù)連續(xù)性提供更堅實的保障。
閱讀全文>>在美國計算機協(xié)會(ACM)旗艦會議 SIGCOMM 2025 的首屆 Next-Generation Network Observability (NGNO) Workshop 上,云杉網(wǎng)絡(luò)與中國某頭部保險集團展示“基于 DeepFlow 智能體的IT健康評估和故障診斷平臺”,成為全球產(chǎn)學(xué)研關(guān)注的焦點。作為保險行業(yè)首個實現(xiàn) “可視 — 維穩(wěn) — 智能” 全階段落地的標(biāo)桿項目,其不僅印證了AI時代下智能體和可觀測性技術(shù)相結(jié)合的應(yīng)用價值,更為此保險科技公司踐行 “科技資源整合、服務(wù)能力支撐、運營共享服務(wù)、價值創(chuàng)造” 四大戰(zhàn)略定位提供了核心技術(shù)支撐,為金融行業(yè) IT 轉(zhuǎn)型輸出了可復(fù)制的實踐路徑。
閱讀全文>>在某國有銀行的信創(chuàng)云日常運維中,發(fā)現(xiàn)大量未知的垃圾文件,存在嚴(yán)重的系統(tǒng)運行隱患,其承載的分布式核心交易系統(tǒng)的運行穩(wěn)定性隨時可能受到影響,運維人員嘗試尋找產(chǎn)生垃圾文件的源程序,但卻發(fā)現(xiàn)傳統(tǒng)監(jiān)控工具對未知程序在未知時間、未知節(jié)點、未知路徑,寫入未知文件的故障診斷并不是一件容易的事情,而 DeepFlow 使用 eBPF 技術(shù)實現(xiàn)的可觀測性可以為運維人員提供纖毫畢現(xiàn)的文件讀寫觀測能力,讓此類問題的診斷定位變得極其輕松。
閱讀全文>>金融行業(yè)信創(chuàng)遷移過程中,故障定界困難、定位周期長、開發(fā)測試速度緩慢、生產(chǎn)運行風(fēng)險高等因素正在不斷地拖慢相關(guān)工作的效率和速度。如何讓金融科技部門的業(yè)務(wù)信創(chuàng)遷移更快、更高效、更平滑?DeepFlow 通過 eBPF 帶來的零侵?jǐn)_、全棧、全鏈路可觀測性技術(shù),可以大幅度提升信創(chuàng)全系統(tǒng)的可觀測性,從根本上掃除信創(chuàng)道路上故障診斷的技術(shù)阻礙。通過本篇案例您將了解到,某股份制銀行在分布式核心交易業(yè)務(wù)向信創(chuàng)平臺遷移的開發(fā)測試過程中,如何通過 DeepFlow 平臺僅用 3 分鐘時間將某次故障根因鎖定到分布式核心數(shù)據(jù)庫,快速消除不同運維技術(shù)棧之間的定位分歧,快速解決故障,加速開發(fā)測試速度。
閱讀全文>>I/O 線程阻塞是Java 程序經(jīng)常出現(xiàn)的問題之一,此類故障發(fā)生時 Java 程序的請求、響應(yīng)在 I/O 線程向操作系統(tǒng) Socket Buffer 讀/寫過程中發(fā)生阻塞,由于在業(yè)務(wù)代碼插樁無法觀測到 I/O 線程的工作情況和性能表現(xiàn),因而導(dǎo)致故障非常隱蔽和難以診斷定位。通過本篇案例您將了解到,某銀行的開發(fā)工程師如何使用 eBPF 技術(shù)帶來的零侵?jǐn)_追蹤能力,在某次分布式核心交易系統(tǒng)上線信創(chuàng)平臺的非功能測試(性能壓測)故障診斷中,用 3 分鐘時間鎖定 Java 程序 I/O 線程阻塞。
閱讀全文>>本文分享借助 DeepFlow 在某頭部劵商業(yè)務(wù)壓測場景中通過調(diào)用鏈追蹤快速定位問題的過程。解決在容器云內(nèi)等復(fù)雜調(diào)用場景中解決傳統(tǒng)監(jiān)控手段覆蓋不全面、排障定位無手段等痛點。分享利用 DeepFlow 如何快速在復(fù)雜的業(yè)務(wù)調(diào)用過程中抽絲剝繭,快速排除網(wǎng)絡(luò)問題,定位Pod服務(wù)自身業(yè)務(wù)邏輯問題,展現(xiàn) DeepFlow 產(chǎn)品價值。
閱讀全文>>金山私有化項目在可觀測性建設(shè)中,面臨數(shù)據(jù)孤島和缺乏全局視圖的挑戰(zhàn),影響了問題排查效率。為此,引入 DeepFlow 和 eBPF 技術(shù),打通了指標(biāo)、追蹤和日志數(shù)據(jù)的聯(lián)動,提供了全局微服務(wù)調(diào)用關(guān)系。通過分階段建設(shè),已完成第一期目標(biāo),實現(xiàn)了從被動排障到主動觀測的轉(zhuǎn)變,提升了系統(tǒng)穩(wěn)定性和運維效率。
閱讀全文>>本文將詳細(xì)介紹 DeepFlow如何運用創(chuàng)新全鏈路觀測技術(shù),從業(yè)務(wù)全鏈路視角、系統(tǒng)服務(wù)全鏈路視角為電網(wǎng)行業(yè)帶來全面的業(yè)務(wù)洞察和優(yōu)化體驗。
閱讀全文>>