從最早公元前2000年文字誕生起人類就開始采集數據,到1998年正式提出大數據這一概念,實際上數據的發展已經橫跨了上下4000多年的時間。在這一漫長的歷史演變中,人類共經歷了四次工業革命,從最早以蒸汽技術為代表的工業1.0,到如今以智能和互聯網為代表的工業4.0,制造業也迎來了其全面蛻變的時刻——智能工廠時代的強勢來襲。
畢業于美國卡內基梅隆大學、專注于制造業大數據研究的昆山杜克大學教授李昕認為,在人工智能和大數據愈發滲透的今天,如何更好地收集數據、分析數據、利用數據才是企業根本。尤其是制造業,作為立國之本,量級更是驚人,如何用數據助力智能制造,點“數”成金?
在李昕看來,數據分析在制造業應用有兩大技術難點:第一個是數據變異性,第二個是工藝的變化。對于未來大數據的發展,李昕也表示,最大痛點在于“懂數據又懂行業”的雙料人才的匱乏。在這點上,不管是學校,還是企業,都任重道遠。
以下是李昕教授在2017IT 價值峰會暨中國企業級技術峰會上的演講,經ITValue編輯整理:
我本人主要從事制造業大數據的研究,是臺灣富士康集團總裁郭臺銘先生的大數據顧問,同時也是香港兩家公司的董事。
互聯網時代,數據暴增。目前每兩天創造的信息幾乎相當于人類有史以來到2003年所創造的信息總和。這是什么概念?在美國,每分鐘就會產生2.04億封郵件,Facebook上會有180萬次的點贊、20萬張照片的上傳。而且這個量級還會隨著時間不斷上升,大概每1.2年就會翻一番。
如此龐大的數據量怎么才能很好利用?我們先來看一下大數據應用的現狀。過去5-10年,大數據的發展主要集中在三個方向:圖像、視頻、語音。國內外很多IT公司在這三個方向上都取得了非常成功的發展。今年3月,李克強總理在政府工作報告上強調,要把人工智能、大數據推廣到各行各業中,包括商業、醫療、制造、教育、城市等。這意味著,未來大數據將會滲透到我們生活的每個環節中,發揮越來越重要的作用。
要利用數據就要先分析數據。大數據分析需要兩類人:數據分析專家和行業專家,二者缺一不可。谷歌過去十年一直在推自動駕駛技術,但是兩年前意識到,自動駕駛并不是一個IT公司的數據專家就能單獨完成的事,還必須和各個整車廠包括本田、福特等的行業專家合作,共同研發產品。
智能工廠時代全面來臨
就制造業來說,數據量的龐大難以想象。中國具有強盛的制造業,如果利用大數據把制造業的效率提高10%,那么創造的利潤非同小可。在美國,奧巴馬時期就提出了智能制造的戰略,歐洲老牌制造強國德國一直在提倡工業4.0,新加坡也有明確的規定國家GDP必須有15%-20%的貢獻是來自于制造業。
沒有制造業,一個國家就喪失了生存之本。
回顧起來,制造業的發展大概經歷了四次工業革命。第一次工業革命發生于18世紀60年代,主要以蒸汽技術為代表的工業1.0時代;第二次工業革命是在19世紀50年代,以電力為主要能源的工業2.0時代;第三次是20世紀50年代,以計算機技術為代表,把計算機技術應用到工業控制中的工業3.0時代;最后一次就是當今以智能和互聯網為代表的第四次工業革命即工業4.0時代。
這次工業革命對制造業來說非比尋常,它意味著智能工廠時代的全面來臨。什么是智能工廠?在每個工廠的每個車間的每個機臺上都安裝有很多傳感器,不斷地采集數據,并對數據進行分析,從而優化生產線,降低成本。這個數據量有多大?制造業有一項技術叫自動光學檢測(AOI),每個零部件生產出來后都會被拍照檢驗質量的好壞。倘若按每分鐘收集一張1M像素的圖片來估算,一臺機器一天產生的數據就是1.5G。每個工廠有N多個機臺,N多個傳感器,總的數據量可想而知。
大數據提升制造流程的4大應用
這么多數據能拿來做什么?第一個應用就是調度優化。
在智能車間里,機臺與機臺之間的產品傳遞主要靠機械手臂來完成,而車間與車間之間的產品傳遞則是通過傳動帶來完成。所謂調度優化就是通過數據分析,了解每個產品在每個機臺上需要處理的時間,然后決定出把某個產品送到哪個機臺去處理的最優解決方案。這個事情看起來容易,操作起來卻很難,正如車輛在路上突然拋錨造成交通擁堵一樣,如果一個機臺出了問題,就會擾亂整個調度的優化方案,更糟的是如果發現某個產品不合格,就需要被重新發配到某個機臺重新處理,那么就會導致整個調度非常復雜,處理不好就會造成“擁堵”,甚至停工。
大數據的另外一個重要應用就是設備監控。產品制造分許多步驟,如果第一道工序出了故障沒有立刻發現,等生產出來之后經檢測時才發現,那就意味著這段時間里生產的全部產品都要報廢。這是個很嚴重的問題。設備監控就是在每個機臺上都安置多個傳感器來監測設備是否有故障。美國有個大型制造企業,曾經成品率總是提不上去,經多方查找后才發現,原來是一個機臺在清理時出了問題,早班清潔工是從上往下清理,晚班清潔工是從下往上清理,就是這樣一個個小小的瑕疵就會對整個生產線造成幾百萬甚至幾千萬美金的損失。
第三個應用就是虛擬測試。在制造業中,測試占整個制造成本的25%-50%,怎么用大數據降低測試成本?最根本的一點就是利用數據的相關性,也就是用數據去分析不同的數據量之間是否相關,如果存在相關就可以用一個數據量去估計另一個數據量。
這里有兩個例子,一個是空間的相關性。在集成電路制造中,一塊硅片包含很多芯片,傳統的方法是每個芯片都要去測試,如果我們把整塊硅片看作是一幅圖像,那么不同的像素對應不同的芯片,像素點之間是有相關性的,我們可以通過測試少數幾個像素點的值,利用統計方法來估值另外的像素點,從而大大減少測試量。
另一個例子是給金屬塊鉆孔。鉆孔是否平整?是不是圓形?在制造業上是一個非常昂貴的測試過程。我們通過在鉆孔機上安裝各種非常廉價的傳感器,包括震動傳感器、聲音傳感器、壓力傳感器等,用這些傳感器的測試值去創建一個模型,然后預估鉆孔的平整度和質量狀況,從而節省很大一筆成本。
第四個應用是故障追蹤。監控生產線中產品的制造過程,發現故障的根源。故障可能是某一個機臺,可能是某一種原材料,也可能是某一位操作員。
大數據分析在制造業應用有兩大技術難點:第一個就是數據變異性,不同機臺,在不同時間、不同環境下的數據具有不同的統計特性,也就是說,在這個機臺上采集的數據不可能直接拿來去用于另一個機臺的建模。當你把采集到的數據分配到每個機臺、每個時間點、每個不同的環境條件下去做分析的時候,你會發現數據量其實并不大,甚至很小。另外一個難點是工藝的變化。制造工藝隨時間在不斷演變,同樣一個產品,今年制造出來的測試結果和明年制造出來的測試結果完全不同,因為產線在不斷變化,這是大數據分析的一個軟肋。我們分析的數據都是歷史數據,所以大數據分析實際上就是兩步,第一步記錄歷史數據,第二步根據這些歷史數據去預測未來。如果由于工藝變化導致未來和歷史是不一致的,那么大數據分析的最根本假設就已經不成立了。這也是大數據分析的一個痛點所在。
怎么去解決這一問題?從我來看,大數據未來發展的一個最大難點就是缺乏復合型的人才。要找到一個既懂數據又懂專業領域的雙料人才非常困難,所以培養跨學科的人才是我們昆山杜克學校的一個重要任務。
昆山杜克大學剛剛成立了一個大數據中心,里面有很多昆山杜克大學的教授,以及美國杜克大學的教授,我們一起合作致力于中國大數據人才的培養,也希望與中國的企業合作共同貢獻一份力量。(本文首發鈦媒體,整理/胡江路)