膠我選、自動分類與機器學習

06-02

膠我選、自動分類與機器學習

來自專欄膠我選Bondme

Brand: Love is the one thing that transcends time and space.
——《Interstellar》

膠我選上線後，很多人問我，你們的商業模式是什麼？是撮合嗎？是聯合經銷商賣貨嗎？有門路能拿到3M特價嗎？等等問題不一而足，這些問題搞得我哭笑不得，身在傳統行業時間太長了，有的時候真的需要跳開這個圈子，看看外面的世界究竟在發生什麼變化。Alphago打敗了排名第一的柯潔，據說已經開始進行我曾經非常喜歡的《星際爭霸》的AI訓練了，而我們很多人還仍然拿著傳統的那套觀念來看待互聯網和大數據。我相信在不遠的未來，機器學習和人工智慧如何和我們的粘接材料行業結合，有什麼事是機器能協助我們的，又有什麼事是機器不能完成的，這將是我們每個業內人士必然面臨的機遇與挑戰，而我們也正是基於這個初心才開發《膠我選》這個平台的，我們的目的絕不僅僅充當一個下載站，而是希望真正的將智能這個詞體現在行業中，做一個機器學習的先行者，當然前期需要很長時間的數據積累，畢竟一切都是一個從零到一的突破。接下來我們就和大家介紹下膠我選是如何進行這項實踐的。

單單一個datasheet是無法構成信息的連接，當前的圖像識別與人工智慧技術也還無法做到解析datasheet中的有效信息。孤立的數據沒有任何意義，只有當信息連接起來，才有智能的可能性，連接的節點越多，系統才能越智能，才能真正的協助人們進行選型。

專業人士是如何進行膠黏劑選型的？

這個問題自從我五年之前初步接觸了搜索和機器學習的原理後就一直伴隨著我，現在想來無非遵循著這樣的步驟：

通過監督學習來掌握膠黏劑的分類和產品特性；
通過監督學習膠黏劑的應用案例，將膠黏劑牌號、類別和典型應用建立起關係；
針對成熟應用，掌握場景中核心的參數，建立參數推理邏輯；
針對具體案例和場景，推薦自己經驗中的解決方案，或者進行假設和預判，再通過實驗室、客戶現場的實驗來驗證自己的假設；
成功的解決方案存儲在經驗中，失敗的解決方案也存儲在經驗中成為失效案例，這些經驗的輸出可能是文獻、是研究報告、是專利，也可能只是記憶；
探索新的產品應用、探索新的產品開發；

一個初級的工程師所做的無非就是這些步驟的不斷重複，逐漸積累經驗、將經驗轉化為套路進而能更快的進行複雜場景的判斷，然後成為高級工程師、直至專家。

所謂專家，其本質就是在細分領域中懂得套路最多並積累最多關聯知識的人。

這個套路就是演算法，這個關聯知識就是結構化數據。

但是人類的精力和時間總是有限，還要生活、還要娛樂，而機器的精力和時間是無限的，總是無時無刻不在工作。人工智慧的快速發展讓我堅信，終究有一天人類的工作將主要集中在探索未知領域，當然前提是，機器學習能幫我們大幅的提高完成1-5步驟的執行效率，從而將人從例行工作中解脫出來。

所以一切的開始來自於讓機器對現有的產品檔案進行自動分類。

人為什麼要分類，因為分類的本質也是套路，是一種節省時間的演算法。人們記不住那麼多紛繁複雜的細節，於是通過分類，將模式提取出來，以便進行快速的計算。從數學意義上講，分類就是在一個封閉的數據空間內，按照某種維度和邏輯尋找產品數據層面上的分布結構。

那麼人類又如何進行分類？

當然是根據特徵，不同的類具有不同的特徵。

比如，看到一個漢高公司的datasheet，產品是液態、丙烯酸體系、雙組份、混合比例10:1，我們當然可以預判出來，這是一款MMA結構膠水。再結合粘度、pot life，氣味、粘接強度這些特徵，我們可以再進行細分至這是一款LSE粘接膠水、還是普通的丙烯酸酯結構膠、亦或具有導熱導電、耐溫濕特性的膠水。

這些可以決定產品分類的，我們稱之為特徵屬性與特徵屬性值，與可量化的特徵屬性值相關聯的還有屬性值的度量衡系統，用於屬性值之間的相互匹配關聯。

這個分類的過程即是一個典型的決策樹：

只要將特徵與分類標籤建立起關聯，便可以進行初級的自動分類。所以屬性設計是學習系統的重中之重，比如以雙面膠帶為例，我們有40個典型屬性：

每個屬性又建立了有鬆散耦合的維度機制，如：膠帶的180度剝離力

所以每個產品的數據粒度基本都在100以上，同時後台又支持添加非典型屬性以保證系統的可擴展性。所以如果由人工建立起模型再進行分類，這種自動化實現起來不算複雜，可以通過規則引擎也可以通過決策樹以及貝葉斯分類來實現。

但從另外一個角度來講，每個類別又都是人創造出來的，有其局限性。正如，這個世界上本沒有路，走的人多了也變成了路，然而有了路之後大部分人都走這條路，卻忘記了其實可以走一條新路。

新產品很難在舊的分類體系中找到確切的分類標籤。如果希望新產品的特徵能夠凸顯，那就必須有一套自動的分類系統能夠從茫茫的數據海洋中識別哪些璀璨的珍珠，但只要屬性設計的維度合理，只要數據的粒度足夠細和完整，我也相信終究有一天非監督式學習下的自動分類也將在《膠我選》的後台中得以應用。

當然，自動分類的原理是想起來簡單，實施起來會遇到各種各樣的問題，單單一個無紡布，在系統中就有這麼多的表達方式：

可想而知，想要把所有的屬性和維度關聯起來有多少的數據量需要處理，而且目前自動翻譯的API也不能處理這麼多專業術語的垂直應用。不過積極的角度看，全世界的粘結材料的種類和屬性每年都會出新，每年都會有變化，但是變化的部分永遠是少數，整個行業大部分技術的變化是相對較慢的，所以以這些不變的或者變化較慢的數據作為封閉空間，在理論和實踐上都是可行的，那麼這個封閉空間下進行數據處理便成為一個確定性可量化的目標，依靠時間和技術總是可以解決這個問題的。

《膠我選》即將上線的自動分類系統正是基於這些原理建立起來的。如之前所說，我們收集了全球粘結材料前幾大頂級品牌的產品檔案資料庫，這樣做的目的便是建立起一個全面的數據中心用於訓練我們的這套自動分類系統。可以說全世界的90%粘結材料都跑不出這十大品牌的產品線，我相信這也是結材料行業的特徵，最先實現大規模市場應用的新技術一定來自於這些頂級品牌，所以他們是學習的標杆，只要系統能夠將這些知名品牌的產品檔案能夠進行識別分類，並建立標準的屬性關聯體系，也便建立了一個行業的導航地圖。