国产SUV精品一区二区_午夜影院啊啊啊_日韩久久精品一区二区三区_一区二区三区日本在线观看,在线播放精品视频,视频一区国产精品,久久久精品456亚洲影院

 
新聞中心
News Center
基于大數據模型的數字孿生建模方法
來源:智造苑 | 作者:陳吉紅 楊建中 周會成 | 發布時間: 2022-04-07 | 1221 次瀏覽 | 分享到:
隨著大數據、云計算等技術的高速發展,促進了人工智能技術的革命性進步,為數字孿生的建模提供了新的手段,指出了新的方向。采用大數據建模的方法,通過黑盒建模的方式,構建輸入和響應之間的關聯關系模型,由于數據的輸入和響應是實際的數據,因此模型可以更準確地逼近物理世界,可以實現更準確的建模。需要指出,大數據模型并不是對物理模型的替代,而是對物理模型的良好補充。


1.大數據建模的關鍵技術

大數據建模主要的關鍵技術包括工業大數據預處理技術、工業大數據可視化分析技術、工業大數據標記技術、特征工程技術和人工智能技術。

1.1 工業大數據預處理技術

本節的工業大數據的預處理技術區別于數據搜集時的數據清洗技術,數據清洗技術面向的是大數據中存在的錯誤數據、冗余數據和異常點,而本文所述的工業大數據技術則是在數據清洗以后進行的數據預處理工作,其目標是從高質量的數據中,提取出與目標問題相關的分量,其主要手段為濾波。

濾波的主要方法有滑動平均濾波、IIR和FIR濾波器濾波、基于小波分析的濾波和基于EMD的濾波方法。

滑動平均的濾波方法的本質是通過平均實現低通濾波,將波形加以平滑,減少信號中的高頻振蕩成分,其優點是對相位保持的較好,而缺點則是沒有針對具體的頻帶進行濾波。

IIR和FIR濾波器則是設計脈沖響應函數的頻響特性,進行特定頻段的濾波,可以實現頻段的精準分離,包括低通濾波器、高通濾波器、帶通濾波器和帶阻濾波器,其缺點是會影響原始信號的相位,這對原始信號相位有要求的分析需要謹慎使用。

基于小波分析的濾波和基于EMD的濾波方法,都是通過對信號的分解,再剔除出信號不相關的成分,剩下的信號成分即為目標數據,這種濾波方式更加具有針對性,但是代價是計算量較大。

上述方法各有利弊,可以結合具體的應用進行合理的選擇。

 

1.2 工業大數據可視化分析技術

據研究表明,人類獲得的關于外在世界的信息80%以上是通過視覺通道獲得的,因此伴隨著大數據時代的來臨,對現在大量、復雜和多維的數據信息進行可視化呈現具有重要的意義。

數據可視化技術誕生于20世紀80年代,其定義可以被概括為:運用計算機圖形學和圖像處理技術。以圖表、地圖、標簽云、動畫或任何使內容更容易理解的圖形方式來呈現數據,使通過數據表達的內容更容易被理解。圖1所示為某車間工業大數據的可視化界面。

圖1 車間工業大數據可視化

所謂數據可視化是對大型數據庫或數據倉庫中的數據的可視化,它是可視化技術在非空間數據領域的應用,使人們不再局限于通過關系數據表來觀察和分析數據信息,還能以更直觀的方式看到數據及其結構關系。數據可視化技術的基本思想是將數據庫中每一個數據項作為單個圖元元素表示,大量的數據集構成數據圖像,同時將數據的各個屬性值以多維數據的形式表示,可以從不同的維度觀察數據,從而對數據進行更深入的觀察和分析。

(1)數據空間:是由n維屬性和m個元素組成的數據集所構成的多維信息空間;

(2)數據開發:是指利用一定的算法和工具對數據進行定量的推演和計算;

(3)數據分析:指對多維數據進行切片、切塊、旋轉等動作剖析數據,從而能多角度多側面觀察數據;

(4)數據可視化:是指將大型數據集中的數據以圖形圖像形式表示,并利用數據分析和開發工具發現其中未知信息的處理過程。

新技術和新平臺的出現,使可視化技術可以實現用戶與可視化數據之間的交互,從采集分析數據到呈現數據可視化也做到一體化實現。目前數據可視化已經提出了許多方法,這些方法根據其可視化的原理不同可以劃分為基于幾何的技術、面向象素技術、基于圖標的技術、基于層次的技術、基于圖像的技術和分布式技術等等。

近年來,人們在數據挖掘的理論和方法上做了大量的研究工作,并以此為基礎開發出不同種類的數據挖掘工具。但是,這些工具在處理大型的多維數據集方面仍然沒有取得令人滿意的挖掘效果。于是,人們開始在數據挖掘中借助可視化技術,使用豐富的可視化方式將多維數據直觀地表示出來,進而利用人類特有的認知能力來指導挖掘過程。

因此,工業大數據可視化分析領域中產生了一個新的方向:可視化數據挖掘。利用可視化技術建立用戶與數據挖掘系統交互的良好溝通通道,使用戶能夠使用自己豐富的行業知識來規整、約束挖掘過程,改善挖掘結果。從而打破傳統挖掘算法的黑盒子模式,使用戶對挖掘系統的信賴程度大大提高。在可視化數據挖掘技術中,可視化的直接交互能力是挖掘過程成敗的關鍵,對可視化技術在數據挖掘中應用形式和使用方法的研究是數據挖掘可視化急需解決的問題。

 

1.3 工業大數標記技術

在人工智能時代,人工智能算法中,相對于無監督學習算法,有監督的學習算法更為常用和有效,究其原因在于,有監督學習的算法的訓練階段是有標記的數據,使得算法融入了知識,進而使算法具有更好的精度和穩定性,因此,從算法的選擇角度來講,使用有標記的數據進行有監督的學習顯然是更好的選擇。此外,隨著深度網絡的不斷發展,模型的參數動輒成千上萬,為了防止模型的過擬合,必須輸入更多的帶有標記的樣本,這就對樣本的標記提出了更大的挑戰,這甚至衍生出人工智能時代的藍領工人——數據標記員,一方面是體力的考驗,另一方面,在某些專業領域,還具有極強的專業性,因此大數據時代的數據標記成為了一項既重要又難以實施的技術。

為了克服人工標記帶來的問題,需要采用自動標記的方式進行數據的標記。指令域大數據是將系統的輸入數據標記在系統的響應之上的數據形式,天然地具有數據標記的屬性,是人工智能親和算法。但是標記的類型往往還涉及到具體的事件,指令域大數據的輸入有時候囊括不了此種事件,因此仍然需要其他的標記方法進行補充。

其他自動標記方法,一般建立在現有的少量已經標記的數據基礎之上,例如SMOTE算法和GAN網絡。SMOTE算法通過對特征向量在特征空間進行插值處理,通過采樣的方式形成新的樣本。而GAN網絡,則是通過生成和對抗網絡進行拉鋸式的博弈,形成新的具有標記的樣本。SMOTE算法適用于一維數據,而GAN網絡則在二維數據的生成中具有較好的效果。

 

1.4 特征工程技術

特征工程技術是用目標問題所在的特定領域知識或者自動化的方法來得到能夠使機器學習算法達到最佳性能的特征的技術。通過將原始數據轉化為特征,可以獲取更好的訓練數據使預測模型更好的處理實際問題,提升預測模型的準確率。它對于傳統的淺層學習器(如支持向量機、邏輯回歸等)而言是不可或缺的技術,因為數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已。對于深層學習器(如卷積神經網絡),由于存在特征自學習的隱藏層,可以自動學習原始數據中的敏感特征,對特征工程依賴較少。但是,隱藏層的特征自學習在深層學習的應用范圍是有限的,特征工程在深度學習依然有著不可替代的作用。特征工程其主要對原始數據進行特征提取、特征選擇和特征降維3個方面的工作。

特征提取主要是從信號處理的層面,對原始數據從時域、頻域和時頻域的角度進行特征提取,其目的是將原始數據轉換為一組具有明顯物理意義(比如 Gabor、幾何特征、紋理特征)或者統計意義的特征。時域上一般可以提取最大值、最小值、峰峰值、平均值、方差、RMS、偏度、斜度、裕度等特征,還可以進行相關性分析得到相關系數。頻域上一般可以提取頻率中值、頻譜能量等特征、核心頻率等特征。時頻域上一般可以得到特定成分的能量值等等。這些特征從更稀疏的角度描述了致密的原始數據,某種程度上已經進行了極大的數據量削減。

特征選擇主要是從提取到的眾多特征中提取出與目標問題敏感的特征,其目的是為了去除無關特征降低學習任務的難度,讓模型變得簡單降低計算復雜度和所需時間。在提取的眾多特征中,有較多的特征與目標問題關聯性小,在實際的應用中這些特征會加重模型訓練負擔有時候甚至會干擾模型準確度。所以進行特征的篩選在特征工程中是具有重要意義。常見的特征選擇方法分為以下三種:

(1)過濾式(filter):特征選擇是一種不考慮后續機器學習算法只設計了一個相關統計量來度量特征的重要性作為選擇指標的方法。

(2)包裹式(wrapper):特征選擇是使用隨機策略將各個特征都分別作為輸入量輸入到所使用的機器學習模型中,并最終以機器學習模型的誤差作為特征的評價標準進行選擇的方法。

(3)嵌入式(embedding):特征選擇類似深度學習的隱藏層的特征自學習是將特征選擇與學習器訓練過程融為一體,兩者在同一個優化過程中完成的。即學習器訓練過程中自動進行了特征選擇。

特征降維主要是將原始高維空間的特征投影到低維度的空間,進行特征的重組,達到減少數據維度的目的。因為通過特征選擇以后,還是存在特征矩陣維度大這一問題,會導致計算量增大、訓練時間過長等對于模型不好的影響。并且由特征矩陣維度大會導致在對于某些變量的函數進行準確估計時所需訓練樣本數量呈幾何級增加。降維常用方法有以下兩種:

(1)主成分分析法(PCA):通過構建原始特征的線性組合,形成組合內部最小關聯的新組合,達到降低特征內部關聯,降低維數的目的。

(2)線性判別分析法(LDA):將帶上標簽的數據(點),通過投影的方法,投影到維度更低的空間中,使得投影后的點,會形成按類別區分,一簇一簇的情況,相同類別的點,將會在投影后的空間中更接近。其目的不僅僅是降維,還可以使得投影后的樣本盡可能按照原始類別分開。相比較PCA主要是從特征的協方差角度,去找到比較好的投影方式。LDA更多的是考慮了標注,即投影后不同類別之間數據點的距離更大,同一類別的數據點更緊湊。

 

1.5 人工智能技術

人工智能技術解決的是知識學習和決策問題,是大數據建模中最關鍵的核心技術。廣義來講,深度學習、遷移學習都屬于機器學習(ML)的大類。但是,目前往往從狹義的角度解釋機器學習,特指淺層學習器,而深度學習(DL)和遷移學習則屬于深層學習器。因此,人工智能技術主要包括淺層學習(即機器學習,含增強學習)、深層學習(包括深度學習)和遷移學習。

(1)機器學習:是賦予計算機學習能力,使之可以歸納知識、總結經驗、推理預測,并最終可以像人一樣從數據中積累“經驗”的技術。將機器學習算法應用于數字孿生建模中便實現了大數據建模。因此大數據建模可以理解為利用工業大數據來實現虛擬空間對物理空間的實時反映與預測,即以傳感器收集的海量數據為基礎,利用機器學習算法積累“經驗”最終達到構建虛擬孿生空間的目的。如圖2所示,機器學習有4種主要類型:監督學習、非監督學習、強化學習,所有這些都有其特定的優點和缺點。

圖2 機器學習方法分類

(2)深度學習:從廣義來講,深度學習是機器學習領域中一個新的研究方向,強調通過增加學習的層數以提高算法的精確性,它被引入機器學習使其更接近于最初的目標——人工智能(AI)。深度學習是學習樣本數據的內在規律和表示層次,這些學習過程中獲得的信息對諸如文字、圖像和聲音等數據的解釋有很大的幫助。深度學習有兩個主要特點:第一,含多隱藏層的神經網絡具有優異的特征學習能力,學習得到的特征對數據有更本質的刻畫,從而有利于分類;第二,深度神經網絡在訓練上的難度,可以通過“逐層初始化”預學習來有效克服。如圖3所示,典型的深度神經網絡有卷積神經網絡(CNN)、深度置信網絡、循環神經網絡。

圖3 深度學習算法的分類

(3)遷移學習:指一種學習或學習的經驗對另一種學習的影響,以深度卷積神經網絡為基礎,通過修改一個已經經過完整訓練的深度卷積神經網絡模型的最后幾層連接層,再使用針對特定問題而建立的小數據集進行訓練,以使其能夠適用于一個新問題。其放寬了傳統機器學習中的兩個基本假設,目的是遷移已有的知識來解決目標領域中僅有少量甚至沒有有標簽樣本數據的學習問題。圖4給出了傳統機器學習和遷移學習過程的差異。

圖4 遷移學習與機器學習的差異

 

2.大數據建模的未來發展趨勢

從技術發展的角度來講,大數據建模一方面將會呈現特征工程與特征學習算法相結合的趨勢,提升大數據建模的準確性;另一方面將會越來越多地探索無監督學習的算法性能提升和應用,解決數據標記的問題同時,賦予機器真正的類人學習行為。

從技術應用的角度來講,由于物理建模在進行復雜系統建模是存在的不準確的問題,將會越來越多地將新一代人工智能的算法與數控機床相結合,以開辟新的技術路線,提升預測的穩定性與準確性,使得機床具有更好知識學習、積累與應用的能力。

因此,大數據建模一方面本身的內涵和外延將會得到極大的擴展和深化,另一方面,其將會在數控機床領域得到全面、廣泛而深入的應用。















 


主站蜘蛛池模板: 无极县| 云南省| 钟山县| 宝鸡市| 本溪| 政和县| 文昌市| 徐水县| 庆城县| 福建省| 轮台县| 武威市| 横山县| 兰州市| 平顺县| 通辽市| 双鸭山市| 分宜县| 乌鲁木齐市| 清苑县| 贺州市| 枣强县| 崇左市| 辽阳市| 巴林左旗| 乐都县| 西城区| 伊春市| 鸡西市| 延庆县| 云南省| 祁东县| 章丘市| 进贤县| 江都市| 广河县| 漠河县| 漠河县| 交口县| 新巴尔虎右旗| 中超|