引言
經過六十多年的發展,中國航天形成了一整套科學系統的質量管理方法,有力地支撐了以兩彈一星、載人航天和探月工程為代表的重大任務的圓滿完成,同時也積累了豐富的質量管理經驗和大量寶貴的質量數據資源。隨著我國航天事業的蓬勃發展,航天質量數據近些年呈現爆發式激增,航天質量數據來源多、數據種類多樣,除傳統結構化數據外,有關產品質量的文檔、圖像、視頻等半結構化和非結構化數據不斷涌現,航天質量數據已符合大數據特征。用大數據創新質量管理,能提升質量管理的精準性和智能性,及早發現異常信息并進行質量隱患的預警提醒,可大大降低質量管理的成本,預測型號產品未來的質量狀況等,拓展質量管理的深度和廣度,為業務部門提供支撐。但是現在航天各單位質量數據的基礎管理與利用率還有待提高,離數據驅動的創新質量管理還有較長一段距離,這主要是因為:歷史質量數據積壓,沒有規范統一的整理要求與方法手段;數據知識產權不明晰、數據內容通常為涉密級別,數據共享不夠;質量大數據應用研究缺乏,影響質量數據應用的積極性。本文在梳理質量數據資源內容的基礎上,給出質量數據資源整理步驟,提出航天產品質量隱患分析和單位質量能力水平評價兩個方向的應用模式,為質量創新管理提供一些思路。
數據整理也叫數據準備,是在挖掘提煉數據價值的過程中進行的前期預處理工作。它看似不足輕重,實則非常重要。數據整理是為了使數據更好地服務于數據分析而對數據進行的審查和轉換的過程,它是整個數據分析流程中最占精力的過程。有調查研究表明,很多大數據分析任務80%以上的工作花費在數據整理上,這給數據分析帶來了巨大的人力成本,很多分析設想因為承擔不起前期的數據整理工作而最終放棄。數據整理與數據抽取、轉換和加載(ETL)過程有相似的地方,但二者之間存在較大差別,數據整理服務于組織內部所有的數據使用者,以對數據處理技術不熟悉的業務用戶為主,但他們對業務非常熟悉,對數據背后的語義更清楚。
中國航天質量管理已歷經六十多年,不是所有的數據都需要進行整理。根據航天質量發展規律及質量數據價值與資源平衡原則,應確定一個合理的數據整理開始年份,既不流失有價值的歷史質量數據,也不至于浪費大量的人力、物力、技術資源去獲取較低價值的數據。
航天質量數據整理的目的與核心是為了數據應用,所以數據在整理前期就應該先梳理明確本單位能夠掌握的主要數據資源,然后對該數據資源的應用模式有個大致的分析,之后圍繞數據的應用模式開展細致的數據整理工作。圖1是數據整理工作中各種工作的前后順序與推進關系示意,如果用于項目或工作計劃,圖1中每個節點之間可安排計劃的工作日,如從①到②需要2個工作日,從②到③需要3個工作日等。
圖1 數據整理推進與應用分析步驟示意
航天質量數據資源分為主數據、業務數據、元數據、字典數據,為利于后續數據資源的共享應用,主數據、元數據和字典數據的名稱、格式與取值范圍需要以集團為單位進行統一規范。
航天產品研制單位可以兩條線對本單位的業務數據進行梳理,一條是以抓總產品和研制產品為主線,從產品的立項、方案設計、初樣階段、試樣階段(正樣階段)、批生產階段、使用維護階段全壽命周期梳理與質量保證有關的數據,如質量保證大綱要求,技術風險識別、分析與量化控制,質量與可靠性指標要求與設計保證,可靠性與壽命試驗驗證與分析評價,物資選用控制要求與選用控制、供應商管理及供應鏈風險控制、工藝設計與選用方案、新工藝、新技術、新材料攻關情況,外包外協產品選用與控制,“三類關鍵特性”識別與控制管理,技術評審情況,強制檢驗點檢查結果,關(重)件與關鍵工序(關鍵過程)及特殊過程的不可檢與不可測控制情況,產品數據包內容,產品驗收與評審情況,質量問題及歸零處理情況等涉及的數據;另一條線以研制單位的質量管理活動為主線,從質量管理體系要求的各個方面進行梳理,包括單位的質量管理體系評估數據、質量管理體系審核數據、生產現場評價數據、科研生產評估數據、質量監督數據等。
在收集數據之時需盡量依據相關數據標準進行數據采集。
應用場景的初步分析有兩個主要目的:一是識別數據的利益相關方,明確利益相關者的需求,可讓用戶對數據資源的梳理與處理需求更加清晰,也可明確數據的狀態是原始數據還是加工處理數據;二是便于用戶決定數據的處理粗細程度及組織存儲方式,為將來的數據挖掘做準備。
航天質量數據資源的應用場景可從兩個方向進行分析,一是保證產品質量,二是提高單位的質量能力水平。圍繞產品質量保證方面,可從產品質量隱患的傳遞與產品發生質量問題的原因分析角度切入,通過大數據的應用來阻斷質量隱患的傳遞,降低產品發生質量問題的概率;圍繞單位質量能力水平方面,可從單位的質量管理體系審核或質量管理體系評估中暴露出的不合格項入手,通過大數據的應用,來挖掘質量管理薄弱環節與產品發生質量問題之間的必然關系或關聯關系,從而找到單位可以提升質量管理的精準措施。
主數據是指組織中需要跨系統、跨部門進行共享的核心業務實體數據。航天質量數據資源的主數據對象包括兩類:一類是產品,包括型號、分系統、單機(設備)、零(部)組件與軟件產品等,其中零(部)組件中含元器件、原材料、標準緊固件等基礎產品;另一類是組織單位,對于航天組織機構來說,即集團公司、院級、廠所級三級。描述航天產品和航天組織機構基本屬性的數據稱為航天質量數據資源的主數據。
主數據對象是后續數據分析的主體對象,需分級分類進行規范處理與存儲。主數據表達方式和格式盡量按照適用的相關標準規范進行預處理,如產品的基本屬性數據可參照航天產品化數據管理要求中關于產品的基本數據項內容與格式。
很多數據模型和算法是構建在結構化數據基礎上的,多源異構數據要更好地與其他數據集融合,結構化處理是必不可少的。各類業務數據中若已經是結構化的內容,可對照相關標準將其規范化。很多業務數據雖然存在于結構化數據表格中,但數據類型為文本型,還有很多業務數據存放于文檔中,屬于半結構化與非結構化數據,如質量管理體系評估數據屬于半結構化數據,技術風險識別報告和試驗報告屬于非結構化數據,這些數據需要進行結構化處理。
如存在于EXCEL格式文件中的質量問題結構化數據表中的質量問題描述,屬于文本類型的非結構化字段,對于該類數據的描述可以再進一步細化和規范化,例如可將質量問題描述按照時間、問題產品、問題發生地點、發生階段、具體問題模式進行拆解,而具體問題模式還可進一步切詞,提取出描述問題的關鍵詞。
如存在于Word文檔中的半結構化的質量管理體系評估信息,其非結構化數據預處理步驟示意見圖2。
圖2 非結構化業務數據結構化處理步驟示例
首先將相關的業務數據進行收集、匯總,如將多個文本文件整合到一個文件中,再將質量管理體系評估文件中的被評估單位、評估時間、評估要素、評估方、主要問題及建議等字段及內容抽取出來,然后將主要問題與建議進行自然語言切詞,去掉虛詞與停詞,識別出文本中的產品和單位實體,按照一定規則或模型抽取出問題關鍵詞或關系,然后將其進行規范化處理。
航天質量數據的主數據和業務數據中,有很多字段的內容取自數據字典,如產品的研制階段、產品的成熟度等級等,質量問題數據中的質量問題原因分類、故障模式等。字典數據必須規范化后,主數據和業務數據才可進一步規范化。
很多數據價值的發現源自于多源異構數據之間的關聯和在關聯數據基礎之上進行的數據分析。將多個數據集(很可能來自于多個數據源)融合到一起,可使數據內容更豐富,更容易獲得新的發現,這也是大數據應用的一種有效模式。可基于構建的主數據樹,建立產品與各種業務數據之間的關聯關系,便于用戶順著產品一次性查找全部相關的質量數據資源。如當某產品發生質量問題時,可沿該產品便利地調出與該產品相關的所有偏離標準或正規管理的行為或狀態。
大數據分析更關注相關關系,而不是因果關系。傳統的質量管理方法尤其注重因果邏輯,而大數據分析的主流研究成果相對更加注重“效果邏輯”,只強調數據之間存在的相關關系,而不管這種關系在實踐中如何產生。大數據分析與數據挖掘關系密切又有所不同,大數據分析主要側重于通過觀察數據來對歷史數據進行統計學上的分析;而數據挖掘則是通過從數據中發現“知識規則”來對未來的某些可能性做出預測。根據之前的應用場景分析,依據業務知識經驗對數據進行深入分析,通過對數據的相關特性和共性進行深度挖掘與分析,自動對產品質量狀況進行評估,及時發現質量預警信息,提出決策性建議,對質量控制能更有效地進行指導,便于研制人員及時了解和迅速采取措施,將質量控制關口前移,為建立更精確化和智能化的質量管理過程服務,提高決策的科學性和有效性。
得到輸出數據之后,還需將計算得出的數據選擇合適的方式展示,或以圖形可視化的方式展示給用戶,如某單位某個管理環節的薄弱系數較高,以紅色表示,某產品的哪些環節存在質量隱患最高,以紅色表示;或者直接給出結論,告知某產品的綜合質量隱患已經超出了閾值,提出報警等應用模式,應用模式的設計可提升數據應用的沖擊力。
做質量大數據分析必須基于已有的數據基礎。以下兩個分析模型是基于作者單位已有的數據基礎而設計的(見圖3),雖然缺少產品設計、生產、試驗等環節的研制過程數據,但是從各個環節反饋的問題可以一定程度地反映出產品的隱患趨勢和規律及單位的質量能力水平,對于促進質量管理的精準化及了解某單位的質量能力水平有一定的積極作用。該模型可以根據數據證據的不斷積累、完善和補充,不斷得到修正、優化和拓展。
圖3 問題產品隱患或原因分析數據基礎示意圖
對于某產品可以從源頭要求、供應鏈保證、過程監控、流程與組織能力保證環節,以及相似產品質量問題等環節的數據中預測產品的風險系數,以使用階段的質量問題與歸零信息來反饋驗證,并不斷修正風險預測模型。
以上數據的分析主要有兩個應用場景:一是在使用階段發生質量問題的輔助歸零分析,可根據問題產品的生產與設計單位在流程與組織能力保證方面的薄弱環節和風險點,在供應鏈保證方面的風險點,由軍代表或監理代表在質量監督與質量監理過程中報出的相關問題,歷史上該產品所發生的問題與相似產品發生過的質量問題原因,以及該產品發生質量問題的產品問題描述等關聯與融合信息,協助問題產品的深層次原因分析,協助快速及深層次歸零;另一個是用于評估某型號中關重件的風險系數,從而得到一個型號的總體風險系數,或通過風險系數計算,發現該型號關重件中應該關注的產品。
對于第1個應用場景,可將異源多構數據經處理關聯融合后,在各環節設置質量問題影響因子,利用風險交叉點與使用階段質量問題歸零信息進行驗證,采用監督型學習算法不斷調整各環節對質量問題的影響比例,直至最優。
對于第2個應用場景,可將所有涉及該型號關重件的問題或風險信息列出,依據第1個應用場景中調校出的比例系數,預測其在使用階段出現問題的概率。
國內對單位質量綜合評價采用的指標有些不同。我國國家層面提出了一個面向全國制造業的質量競爭力指數,由兩部分組成:一是質量水平,另一個是發展能力,其中質量水平由三方面考核決定,分別是標準與技術水平、質量管理水平、質量監督與檢驗水平。原國防科工委對軍工集團公司出臺了質量績效的評價標準和評價要點,采用直接對指標評分并賦權重的辦法量化軍工集團公司的質量績效,包括3個一級指標,即產品質量狀況、質量工作狀況和質量獎懲狀況,其中產品質量狀況主要由該單位的質量事故和重大事故實際發生情況決定;質量工作狀況由質量政策制度落實與質量策劃情況、質量管理體系建設與審核、質量成本管理、質量保障條件與隊伍建設、質量信息建設與運行情況決定。
基于以上調研,提出了利用質量大數據對單位的質量能力水平進行評價的方法,即利用質量管理體系審核、質量管理體系評估、星級現場評價、科研生產評估的問題及建議數據,以及供應鏈保證、質量監理與質量監督發現的問題及提出的建議數據對單位進行評價。評價的基礎也是治理后的數據,先將這些數據進行規范化與結構化處理,然后將問題及建議提取關鍵詞,并且按照質量管理過程進行文本分類,如項目管理過程、技術開發過程、與顧客有關的過程、產品研制過程、外部獲取產品的過程、生產與交付過程、維修過程、支持過程等,然后為每類問題設置貢獻系數,也是通過監督型學習算法不斷調整各類問題對質量能力水平影響的比例系數,通過參數設定,計算出該單位的質量能力水平分數。
面對具有數據來源復雜、數據類型與格式多樣化、數據量大、時間跨度大等特點的航天質量大數據,需要明確數據內容,在保證數據的知識產權保護和滿足保密性要求的前提下,有應用目的的數據整理可提升各單位歷史數據整理的效率,而數據分析及數據挖掘的研究與應用可促進各單位收集、整理和應用共享數據的積極性。另外,我們還應該清醒地認識到,在數據整理過程中,還將面臨數據的缺失與修復、數據清洗、數據質量評估等工作,每一項工作都需要深入研究適用的技術與手段,只有在實踐中不斷地總結經驗,并以開放的態度加入到相關領域的研究中,才可找到適用的較為可行的技術路線。而且,解決數據有效利用的問題涉及利益相關方的多種需求及多樣化的實現途徑,需要從多學科視角建立一套科學的大數據治理體系。