了解机器学习的发展趋势以及商业应用
當前位置:博猫 > 技術分享 > 了解機器學習的發展趨勢以及商業應用

博猫

小施 2020-11-25 9155


機器學習是整個人工智慧領域中為商業産出最大價值的技術,其中監督式學習尤其重要。雖然機器學習的概念早在半個世紀前就存在了,然而隻有在海量數據每分每秒産生、以及飛快的運算速度的現代,機器學習才有辦法在各個産業中被廣泛的應用。

什麼是機器學習

機器學習,一種人工智慧的技術,不同于傳統程序,是通過處理并學習龐大的數據後,利用歸納推理的方式來解決問題,所以當新的數據出現,機器學習模型即能更新自己對于這個世界的理解,并改變他對于原本問題的認知。 假設現在有一個人對于美醜沒有概念,那麼你把他帶到一群人面前,并指着其中一個說是美、一個是醜、另一個是美等等…随着這位本無審美觀的人看到更多資訊後,他也會開始對審美這個觀念有一定的想法。 而關鍵在于,數據的量一定要足夠大且數據的質一定要好,才能讓機器學習模型更好的判斷問題的答案。  


然而,在真實世界中,我們往往無法取得如此完整且幹淨的數據,而這就是其它技術能夠派上用場的地方了。相反于監督式學習,非監督式學習所使用的數據是沒有被标記的,例如一群貓咪的照片但卻沒有被标記種類或是健康程度等,或是一堆交易紀錄,但卻沒有标記正常或是異常。半監督式則是兩者的重疊,利用小組的已标記數據參進未标記數據中以提升準确性以及效能。強化學習則是利用獎勵機制來讓演算法達到最好的表現。

監督式學習與非監督式學習的差異為何?

監督式與非監督式學習根本的差異在于數據本身是否有标簽 (Labeled),也就是說資料本身是否有被定義。


監督式學習(Supervised Learning)

監督式學習利用已被标記的數據來訓練模型,想像成老師在一旁指導着學生,告訴他每一個問題的答案,随着學生問題越做越多,他對于這類型問題的理解也會越來越深,正确性也會變高。完整标記的數據組代表着機器學習模型所收到的數據是有輸入(input)與輸出(output)的。所以,假設要建立一個圖像識别模型來分辨0~9這十個數字,那麼模型就會收到一堆數字的圖片(input)以及這些圖片分别為什麼數字(output),在模型處理完(學習完)這些數據後,當模型看到新的圖片,它就能利用原本所受的訓練,來推斷新的圖片代表著哪一個數字。


在真實世界中,監督式學習是最頻繁被産業使用的,不僅是因為現在世界所具備的龐大數據量,更是因為其演算法的簡單性。 例如團隊可以從顧客的消費曆史紀錄,來訓練模型,并建立推薦系統或是行銷個人化與自動化等。又或是制造商能通過導入AIoT來取得産線數據,并以此訓練模型讓演算法能夠提前判斷機器失能的可能,以提高整體設備效率(OEE)。


無監督式學習(Unsupervised Learning)

在解決許多實務上的問題時,幹淨又标記完整的數據并非如此容易取得,而研究團隊時常問出自己也不知答案方向的問題,也就是說,當不知如何分類數據,或是需要演算法去尋找同樣模式時,無監督式學習将可以提供很大的幫助。無監督式學習接收未被标記的數據,并通過演算法根據常見的模式、特色、或是其他因素将數據分類。例如,可能團隊手上有一大組的小狗圖片,然而這些圖片都沒有标記出各個小狗是什麼種類,這時,團隊即可帶入無監督式學習的演算法來做分類,輸出則是演算法根據不同特色的小狗所做的分類。 


其他常見的實務案例包括,顧客旅程分析(利用消費者在網頁上的顧客旅程做行為分析,并以此歸納出不同購買模式的消費者)、或是尋找異常值(銀行透過信用卡使用紀錄來判斷是否某筆交易為詐欺)。


常見的演算法及其商業應用

集群分析K-means Clustering

将數據分成不同的群組當中(k個群組),而演算法會自動将具備像似特性的數據歸類為一組。在數據的維度相似、且是連續性的數值時,k-means會是非常合适的選擇。分類消費者以優化行銷活動或是避免客戶流失判斷信用交易、保險金融等活動是否異常幫助歸類IT技術建設内不同的警訊


混合模型Gaussian Mixture Model

混合模型是一個可用來表示總體分佈中含有k個子分布的概率模型。也就是說,混合模型表示了數據在總體中的概率分布,是個由k個子分佈所組成的混合分佈。 可以把它想成是k-menas的一般化,但在cluster的形狀以及大小中有更多的自由度。從語音數據中做特征提取在影片檔案中,做多種物件的追蹤利用更不明顯的數據特征,以區别客群,優化營銷活動


階層式分群Hierarchical Clustering

将資料在一個階層式的樹狀上,反覆的利用拆分以及聚合的方式建立出一個分類系統。階層式分群的優勢在于它使用上的簡單性以及能夠在小數據上操作,然而卻非常難處理大型的資料。更細微的區分客群或用戶通過社群媒體分析來判斷産品使用程度


深度學習(Deep Learning)

這個機器學習的分支利用多層次的人工神經透過數據學習,其中兩種最為主要的類别為卷積神經(CNN)以及遞歸神經(RNN)。CNN較适合如圖片、影片等的空間數據類型,透過不同階級的特色來識别圖像,例如從一個鼻子的特征、眼睛的特征、嘴巴的特征、三者彼此的關係為何、再到最後變成一張人臉。CNN的發展對于需要快速識别周圍環境的自動駕駛至關重要,同時圖像識别的技術,也是工業4.0的核心技術之一。 RNN則較适合如語音、文字等的序列型數據,不同于其他的神經網路,對于RNN,所有的input都是相連的,所有處理過的資訊都會在訓練的過程中被記住,而也是這特色,讓它非常适合處理自然語言。


雖然神經網路的技術早在數十年前就被研發出來了,但當時的環境不僅數據匮乏,運算速度以及成本都導緻深度學習無法成功帶進商業環境。然而随着運算速度大幅的提升、運算成本大幅的降低、以及演算法變得更加成熟,如深度學習一般的技術也開始被頻繁的應用在商業環境中。 


集成學習(Ensemble Learning)

集成學習是為了降低模型偏見、變數、以及提高準确度而根據不同種類的數據,在各個階段應用不同的機器學習演算法來訓練模型的演算法。 集成學習在數據非常複雜,或是有多種潛在的假設時非常實用,因為它能夠根據不同的假設建立模型,以定義出更明确的方向。


标簽:機器學習

立即定制視覺方案