水情數據治理平臺之AI實時質控
隨著水情測報技術的發(fā)展以及人工智的興起,促使數據治理和人工智能技術可以有效的融合在一起,使智能化數據治理成為可能。通過將時序大數據應用結合機器學習技術實現數據挖掘和分析應用,從而能夠更加有效得識別哪些數據可能存在異常?;跀祿卣魈崛」こ炭蓪崿F對海量數據的統(tǒng)計特征、擬合特征以及分類特征的提取,可作為實時質控過程中應用基礎規(guī)則進行數據治理的一個有效補充和判斷依據。
通過AI實時質控技術的應用,不但可以提高異常數據的分析和識別能力,還可以進一步增強數據的安全管理能力和質量控制標準。
AI實時質控
AI實時質控包括一套默認的算法處理流程,主要包括3-sigma(3西格瑪)、ewma(指數加權移動平均)、polynomial(多項式回歸)、iforest(孤立森林)以及xgboost(優(yōu)化的分布式梯度增強庫)5種機器學習算法,其中3-sigma、ewma、polynomial為統(tǒng)計判別算法,iforest為無監(jiān)督學習算法,xgboost為有監(jiān)督學習算法。
進入AI實時質控的數據最先通過3-sigma算法,如果檢測正常則繼續(xù)通過ewma算法,否則直接進入xgboost進行判斷,通過ewma驗證異常則需要繼續(xù)通過多項式或孤立森林進行驗證,如果檢驗正常則直接輸出否則需要進入xgboost進行判斷,xgboost算法庫的過濾需要依賴離線模型文件的支撐,離線模型文件來源于質控打標工具的成果輸出,既可以使用系統(tǒng)默認的離線模型,也可以使用針對不同測站訓練好的模型文件。可根據數據的不同應用場景來對算法的組合進行調整,確保最佳的算法質控效果。
實時AI質控處理流程
實時AI質控一站一策
特征工程指標提取與趨勢分析
水工程水情的實時質控數據量很大,通過人工過濾樣本數據的手段相對低效,所以我們在模型訓練工程中引入了時序數據特征提取工具庫,能夠提取出超過100多種特征指標,還可以依據專家經驗來豐富特征值庫的各種指標項,根據不同的業(yè)務場景對不同的特征指標分類進行排列組合,以達到最佳的質控訓練效果。
在基礎規(guī)則、變幅規(guī)則、部分場景規(guī)則等現有業(yè)務質控指標的基礎上疊加特征工程能進一步提升數據質控的質量。通過特征工程中的統(tǒng)計特征、分類特征和擬合特征可充分實現對長序列歷史時序數據平穩(wěn)性、趨勢性及周期性的分析,依此分析結果可將看似毫無規(guī)律可循的數據集進行分類匯總,實現數據分類的目的,進而選取不同的模型算法組合。
通過特征工程極大得提升了數據檢出的指標依據,同時為站點間相似特征的統(tǒng)計分類提供了必要的能力支撐,便于后續(xù)不同站點相關關系的抽取和聚合。
數據趨勢分析主要對提取特征后的時序數據實現數據平穩(wěn)性、趨勢性和周期性的分析,采用不同的趨勢分析算法實現數據的趨勢性結果分析。
根據數據趨勢分析的成果,將時序數據分成不同的類別,并采用不同的算法對分類后的數據進行異常檢測,通常情況下,一類數據可使用多種算法選擇性得進行檢測,這里采用的最優(yōu)算法,主要對數據的檢出時效性和準確性綜合進行評估。
特征值提取與趨勢分析
離線模型訓練與樣本標記
通過質控打標工具可實現選擇站點與訓練時段、標記可疑數據、檢出數據分析結果以及離線模型訓練功能,結合不同測站的不同數據特征可選擇不同的離線模型,如梯度分布模型、隨機森林模型、神經網絡模型、特征分類模型等,通過手動標記負樣本的方式來實現離線模型訓練的樣本收集工作,負樣本越少模型的訓練時間越短,訓練出來的模型質量越低,負樣本越多訓練出來模型的質控精度就會越高。
訓練完成的模型文件將在線進行更新,當您再次選擇采用離線模型再次進行質控驗證的時候,使用的將是您剛剛訓練好的最新模型文件。通過負樣本數據的不斷積累、模型訓練次數的不斷提升,輸出模型的精準率也會越來越高。
負樣本標記
離線模型訓練