好色先生TV

技术主題

什麼是机器学习?

以問號為重點的 IT 項目圖示

概述

机器学习是人工智慧的一个子集,专注於构建可以从歷史数据中学习、识别模式并做出逻辑决策的系统,几乎不需要人工干预。它是一种数据分析方法,通过使用包含各种形式的数字资讯(包括数位、文字、点击和图像)的数据来自动构建分析模型。

机器学习应用程式从输入数据中学习,并使用自动优化方法不断提高输出的準确性。机器学习模型的质量取决於两个主要方面:

  1. 输入数据的品质。关於开发机器学习演算法的一个常用短语是「垃圾输入,垃圾输出」。这句话的意思是,如果你输入低品质或混乱的数据,那麼你的模型的输出将在很大程度上是不準确的。
  2. 模型选择本身。在机器学习中,数据科学家可以选择大量的演算法,这些演算法都有自己的特定用途。為每个用例选择正确的演算法至关重要。神经网路是一种演算法类型,由於它可以提供高精度和多功能性,因此围绕它进行了大量炒作。但是,对於少量数据,选择更简单的模型通常会表现更好。

机器学习模型越好,它就越能準确地找到数据中的特徵和模式。反过来,这意味着它的决策和预测将更加精确。

好色先生TV ArcSight CrowdStrike 的智慧

将机器学习和端点安全与世界一流的威胁搜寻即服务相结合的前所未有的保护。

机器学习

為什麼机器学习很重要?

為什麼要使用机器学习?由於數據量和種類的增加、計算能力的可及性和可負擔性以及高速互聯網的可用性,机器学习的重要性與日俱增。這些数字化转型因素使人们能够快速、自动地开发模型,这些模型可以快速準确地分析非常大和复杂的数据集。

机器学习可以應用於多種用例,以降低成本、降低風險和提高整體生活品質,包括推薦产物/服務、检测网路安全漏洞和啟用自動駕駛汽車。隨著對數據和計算能力的訪問越來越多,机器学习每天都變得越來越普遍,並將很快融入人類生活的許多方面。


机器学习是如何工作的?

創建机器学习模型時,需要遵循四個關鍵步驟。

  1. 选择并準备训练数据集

    訓練數據是代表机器学习應用程式將引入以優化模型參數的數據的資訊。訓練數據有時會被標記,這意味著它已被標記以調用机器学习模式需要預測的分類或期望值。其他訓練數據可能未標記,因此模型必須自動提取特徵並分配聚類。

    对於标记,数据应分為训练子集和测试子集。前者用於训练模型,后者用於评估模型的有效性并找到改进方法。

  2. 选择要应用於训练数据集的演算法

    您選擇的机器学习演算法類型主要取決於以下幾個方面:

    • 无论用例是使用标记训练数据的值或分类的预测,还是使用未标记的训练数据进行聚类或降维的用例
    • 训练集中有多少数据
    • 模型试图解决的问题的性质

    對於預測或分類用例,您通常會使用回歸演算法,例如普通最小二乘回歸或邏輯回歸。對於未標記的數據,您可能會依賴聚類演算法,例如 k 均值或最近鄰。一些演算法(如神經網路)可以配置為同時處理聚類和預測用例。

  3. 训练演算法以构建模型

    訓練演算法是調整模型變數和參數以更準確地預測適當結果的过程。机器学习演算法的訓練通常是反覆運算的,並根據所選模型使用各種優化方法。這些優化方法不需要人工干預,這是机器学习功能的一部分。機器從你提供的數據中學習,幾乎沒有使用者的具體指導。

  4. 使用和改进模型

    最後一步是向模型提供新數據,作為隨著時間的推移提高其有效性和準確性的一種手段。新資訊的來源取決於要解決的問題的性質。例如,自動駕駛汽車的机器学习模型將攝取有關道路狀況、物體和交通法規的真實資訊。


机器学习方法

什麼是監督式机器学习

監督式机器学习演算法使用標記數據作為訓練數據,其中输入数据的適當輸出是已知的。机器学习演算法引入一組輸入和相應的正確輸出。該演算法將自己的預測輸出與正確的輸出進行比較,以計算模型精度,然後優化模型參數以提高精度。

監督式机器学习依賴於模式來預測未標記數據的值。它最常用於自动化、大量數據記錄或數據輸入過多而人類無法有效處理的情況。例如,該演算法可以識別可能具有欺詐性的信用卡交易,或者識別最有可能提出索賠的保险客戶。

什麼是無監督机器学习

無監督机器学习最好应用於没有结构化或客观答案的数据。对於给定的输入,没有预先确定正确的输出。相反,演算法必须理解输入并形成适当的决策。目的是检查资讯并识别其中的结构。

無監督机器学习在事務資訊上效果很好。例如,該演算法可以識別具有相似屬性的客戶群。然後,這些細分市場中的客戶可以通過類似的行銷活動成為目標。無监督学习中使用的流行技术包括最近鄰映射、自組織映射、奇異值分解和 k 均值聚類。這些演算法隨後用於細分主題、識別異常值和推薦專案。


監督机器学习和無監督机器学习有什麼區別?

方面

监督学习

無监督学习

过程

提供输入和输出变数来训练模型。

仅向训练模型提供输入数据。不使用输出数据。

输入数据

使用标记的数据。

使用未标记的数据。

支援的演算法

支援回归演算法、基於实例的演算法、分类演算法、神经网路和决策树。

支援聚类演算法、关联演算法和神经网路。

复杂性

简单。

更复杂。

主观性

目的。

主观。

班级数

类数是已知的。

类数未知。

主要缺点

使用监督学习對海量數據進行分類是很困難的。

选择集群数量可能是主观的。

主要目标

训练模型以在出现新输入时预测输出。

查找有用的见解和隐藏的模式。


机器学习能做什麼:現實世界中的机器学习

雖然机器学习功能已經存在了幾十年,但最近應用和自動計算涉及大數據的複雜數學計算的能力賦予了它前所未有的复杂性。當今机器学习應用的領域非常廣泛,從企業 AIOps 到在線零售。當今机器学习功能的一些真實範例包括:

  • 网路安全 使用行為分析来确定可能表明内部威胁、 或零日攻击的可疑或异常事件。
  • 自动驾驶汽车专案,如(Alphabet Inc.的子公司)和特斯拉的,它比实际的自动驾驶汽车低了一步。
  • Siri、Alexa 和 Google Assistant 等數位助理,它們會根據我們的語音命令在網路上搜索資訊。
  • 使用者定製的推薦,由 Netflix、Amazon 和 YouTube 等網站和應用程式上的机器学习演算法驅動。
  • 欺诈检测和網路彈性解决方案,可聚合來自多個系統的數據,發現表現出高風險行為的客戶並識別可疑活動模式。這些解决方案可以使用有監督和無監督的机器学习將金融機構的交易分類為欺詐或合法交易。這就是為什麼消費者可以從他們的信用卡公司獲得簡訊,以驗證使用消費者的財務憑證進行的異常購買是否合法。机器学习在欺詐領域已經變得如此先進,以至於如果金融機構的演算法沒有發現欺詐易,許多信用卡公司就會向消費者宣傳無過錯。
  • 图像识别已经取得了重大进展,可以可靠地用於面部识别、读取存入支票上的笔跡、交通监控和计算房间内的人数。
  • 垃圾邮件过滤器,用於检测和阻止收件匣中不需要的邮件。
  • 分析感测器数据以找到提高效率和降低成本的方法的公用事业公司。
  • 可穿戴医疗設備,可即時捕獲有價值的數據,用於持續評估患者的健康情況。
  • 计程车应用程式即时评估交通状况并推荐最有效的路线。
  • 情緒分析確定一行文本的語氣。情感分析的良好應用是 Twitter、客戶評論和調查受訪者:
    • Twitter:評估品牌的一種方法是檢測針對個人或公司的推文的語氣。Crimson Hexagon 和 Nuvi 等公司提供這種實時服務。
    • 客户评论:您可以检测客户评论的语气,以评估您的公司的表现。如果没有与免费文本客户评论配对的评级系统,这将特别有用。
    • 調查:對自由文本調查回復使用情緒分析可以讓您一目了然地評估調查受訪者的感受。Qualtrics 在他們的調查中實現了這一點。
  • 市場細分分析使用無監督机器学习根據購買習慣對客戶進行聚類,以確定不同類型的客戶或角色。這使您可以更好地瞭解最有價值或服務不足的客戶。
  • 按 ctrl+F 在文件中搜索確切的單詞和短語很容易,但如果您不知道要查找的確切措辭,則搜索文件可能很困難。机器学习可以使用模糊方法等技术,主題建模可以讓你在不知道你正在寻找的确切措辞的情况下搜索文档,從而使這個过程變得更加容易。

机器学习的作用只會繼續增長

隨著數據量的增長、計算能力的提高、互聯網頻寬的擴展以及數據科學家專業知識的增強,机器学习只會繼續推動工作和家庭的更高、更深入的效率。

隨著當今企業面臨的網路威脅不斷增加,需要机器学习來保護有價值的數據並將駭客拒之門外。我們首屈一指的 UEBA SecOps 軟體, ArcSight 智慧,使用机器学习來檢測可能表明惡意行為的異常。它在檢測内部威胁、零日攻擊甚至激進的紅隊攻擊方面有著良好的記錄。

我们能提供什麼协助?

脚注