技术原理

如何在机器学习中实现分类?

在机器学习和统计中

分类是一种有监督的学习方法,计算机程序从给它的数据中学习并进行新的观察或分类。在本文中,我们将详细学习机器学习中的分类。本博客涵盖以下主题:

机器学习中的分类是什么?机器学习中的分类术语分类算法Logistic回归朴素Bayes随机梯度下降K近邻决策树随机森林人工神经网络支持向量机分类器评价算法选择用例MNIST数字分类什么是机器分类学习

分类是将给定的一组数据分类到类中的过程,它可以对结构化或非结构化数据执行。这个过程从预测给定数据点的类别开始。类通常被称为目标、标签或类别。

分类预测建模的任务是逼近从输入变量到离散输出变量的映射函数。主要目标是确定新数据将属于哪一类/类别。

让我们试着用一个简单的例子来理解这一点。

心脏病检测可以被识别为一个分类问题,这是一个二元分类,因为只有两个类别,即有心脏病或没有心脏病。在这种情况下,分类器需要训练数据来理解给定的输入变量与类的关系。一旦分类器被准确训练,它就可以用来检测特定病人是否患有心脏病。

因为分类是一种监督学习,即使是目标也被提供输入数据。让我们熟悉机器学习术语中的分类。机器学习术语中的

分类术语

分类器-它是一种用于将输入数据映射到特定类别的算法。

分类模型-该模型预测或总结为训练,它将预测数据的类别或类别。

特征-特征是观察到的现象的一个单独可测量的属性。

二元分类-它是一种具有两种结果的分类类型,对于eg–是真是假。

多类分类–具有两个以上类的分类,在多类别分类中,每个样本被分配给一个且仅分配给一个标签或目标。

多标签分类-这是一种将每个样本分配给一组标签或目标的分类类型。

初始化-它将分配用于

训练分类器的分类器-sci kit learn中的每个分类器使用fit(X,y)方法来拟合训练序列X和序列标签y的模型。

预测目标-对于未标记的观测X,Predict(X)方法返回预测标签y。

评估-这基本上意味着模型的评估,即分类报告,准确度评分等。

类型的学习者分类为

懒惰的学习者-懒惰的学习者只需存储训练数据并等待测试数据出现。分类是使用存储的训练数据中最相关的数据来完成的。与渴望学习的人相比,他们有更多的预测时间。例如-k近邻,基于案例的推理。

渴望学习者-渴望学习者在获取数据进行预测之前,基于给定的训练数据构建分类模型。它必须能够致力于一个单一的假设,这将适用于整个空间。正因为如此,他们花了大量的时间在训练上,花更少的时间进行预测。决策树,朴素贝叶斯,人工神经网络

分类算法

在机器学习中,分类是一个有监督的学习概念,它基本上将一组数据分类成类。最常见的分类问题是语音识别、人脸检测、手写识别、文档分类等,它可以是二值分类问题,也可以是多类问题。在机器学习中有很多分类的机器学习算法。让我们来看看机器学习中的分类算法。

Logistic回归

是机器学习中使用一个或多个自变量来确定结果的分类算法。结果是用一个二分变量来衡量的,这意味着它只有两个可能的结果。

logistic回归的目标是在因变量和一组自变量之间找到一个最佳的拟合关系。它比其他二进制分类算法(如最近邻)更好,因为它定量地解释了导致分类的因素。

的优缺点

逻辑回归是专门用于分类的,它有助于理解一组独立的变量影响因变量的结果。

logistic回归算法的主要缺点是它只在预测变量为二进制时有效,它假设数据没有丢失的值,并且假设预测值彼此独立。

用例

识别疾病风险因素

单词分类

天气预测

投票应用程序

了解有关逻辑回归的更多信息这里是python。

朴素Bayes分类器

这是一种基于Bayes定理的分类算法,它给出了预测因子之间独立的假设。简单地说,朴素贝叶斯分类器假设类中某个特定特征的存在与任何其他特征的存在无关。

即使这些特征相互依赖,所有这些属性都独立地贡献概率。Naive-Bayes模型制作简单,特别适用于较大的数据集。即使使用一种简单的方法,朴素贝叶斯在机器学习中也比大多数分类方法有更好的表现。下面是Bayes定理来实现朴素Bayes定理。

的优缺点

朴素Bayes分类器需要少量的训练数据来估计得到结果所需的参数。与其他分类器相比,它们在性质上是非常快的。

唯一的缺点是它们被认为是一个错误的估计器。

用例

疾病预测

文档分类

垃圾邮件过滤器

情感分析

知道更多关于朴素贝叶斯的信息这里的分类器。

随机梯度下降

这是一种非常有效和简单的线性模型拟合方法。当样本数据较多时,随机梯度下降特别有用。它支持不同的损失函数和分类惩罚。

stochastic-classification inn machine learning - edureka

随机梯度下降是指计算每个训练数据实例的导数并立即计算更新。

的优缺点

的唯一优点是实现和效率而随机梯度下降的一个主要挫折是它需要大量的超参数并且对特征缩放敏感。

用例

物联网

更新诸如神经网络中的权重或线性回归

中的系数等参数K近邻“

“这是一种懒学习算法,它将所有与训练数据对应的实例存储在n维空间中。它是一种懒惰的学习算法,因为它不专注于构建一般的内部模型,而是致力于存储训练数据的实例。

knn - classification in machine learning - edureka

分类是从每个点的k个最近邻点的简单多数投票中计算出来的。它接受监督,获取一堆标记点,并使用它们来标记其他点。若要标记新点,它将查看与该新点最近的标记点(也称为最近邻点)。它有那些邻居投票,所以大多数邻居的标签是新点的标签。“k”是它检查的邻居数目,

的优缺点

该算法实现简单,对噪声训练数据具有很强的鲁棒性。即使训练数据很大,也相当有效。与其他算法相比,KNN算法的唯一缺点是不需要确定K的值并且计算成本相当高。

用例

工业应用程序与其他

手写检测应用程序

图像相比寻找类似的任务识别

视频识别

股票分析

了解更多关于K近邻算法这里的

决策树

决策树算法以树结构的形式建立分类模型。它利用了if-then规则,这些规则在分类上同样详尽且相互排斥。该过程继续将数据分解为更小的结构,并最终将其与增量决策树相关联。最后的结构看起来像一棵有节点和叶子的树。使用训练数据一次一个地按顺序学习规则。每次学习规则时,覆盖规则的元组都会被删除。该过程在训练集上继续,直到满足终止点。

decision tree - classification in machine learning - edureka

树是以自顶向下的递归分治方法构建的。一个决策节点将有两个或多个分支,一个叶表示一个分类或决策。决策树中与最佳预测器相对应的最上面的节点称为根节点,而决策树最棒的地方在于它可以处理分类数据和数值数据。

的优缺点

决策树具有易于理解和可视化的优点,它要求数据准备也很少。决策树的缺点是它可以创建复杂的树,从而可以有效地进行分类。它们可能相当不稳定,因为即使数据的简单更改也会阻碍决策树的整个结构。

用例

数据探索

模式识别

财务中的期权定价

识别疾病和风险威胁

了解更多关于决策树的信息这里的算法

随机林

随机决策树或随机林是一种用于分类、回归等的集成学习方法。它在训练时通过构造多个决策树来操作,并输出类的模式或类的分类或平均预测(回归)单个树。

random forest - classification in machine learning - edureka

随机林是一个元估计器,它在数据集的不同子样本上拟合多个树,然后使用平均值来提高模型预测性质的准确性。子样本大小始终与原始输入大小相同,但通常使用替换来绘制样本。

优缺点

随机林的优点是,由于减少了过度拟合,它比决策树更精确。随机森林分类的唯一缺点IER在实现上相当复杂,并且在实时预测方面相当慢。

用例

工业应用程序,例如查找贷款申请人是高风险还是低风险的

,用于预测汽车发动机机械零件的故障

预测社交媒体份额得分

性能得分

了解更多关于随机森林算法的信息。得分

人工神经网络

神经网络由排列成层的神经元组成,它们获取一些输入向量并将其转换为输出。这个过程包括每个神经元接收输入并应用一个通常是非线性函数的函数,然后将输出传递到下一层。

neural networks - classification in machine learning - edureka

一般来说,网络应该是前馈的,这意味着该单元或神经元将输出馈送到下一层,但不涉及对前一层的任何反馈。

权重应用于从一层传递到另一层的信号,这些权重是在训练阶段调整的,以适应任何问题陈述的神经网络。

的优缺点

它对噪声数据有很高的容忍度,并且能够对未经训练的模式进行分类,它在连续值输入和输出下表现得更好。人工神经网络的缺点是与其他模型相比,它的解释能力较差。

用例

笔迹分析

黑白图像的彩色化

计算机视觉处理

基于面部特征的字幕照片

知道得更多关于人工神经网络这里的

支持向量机

支持向量机是一个分类器,它将训练数据表示为空间中的点,通过尽可能宽的间隔将其分为类别。然后,通过预测它们属于哪个类别和属于哪个空间,将新的点添加到空间中。

svm - classification in machine learning - edureka

的优缺点

它在决策函数中使用训练点的子集,这使得它具有内存效率,并且在高维空间中非常有效。支持向量机的唯一缺点是,该算法没有直接提供概率估计。

用例

业务应用程序,用于比较一段时间内股票的性能

投资建议

对需要准确性的应用程序的分类而效率

在python中学习更多关于支持向量机的知识这里有

分类器的评价

任何一个分类器完成后最重要的部分就是评价其准确性和效率。我们有很多方法可以评估分类器。让我们看看下面列出的这些方法。

保持方法

这是评估分类器最常用的方法。在这种方法中,将给定的数据集分为两部分作为测试集和训练集,分别占20%和80%,其中

训练数据集和“看不见的测试集”测试其预测能力,

交叉验证

过拟合是大多数机器学习模型中最常见的问题。为了验证模型是否完全过拟合,可以进行K重交叉验证。

,该方法将数据集随机分为K个互不相容的子集,每个子集的大小相同。其中一个用于测试,另一个用于训练模型。同样的过程发生在所有k个折叠。

分类报告

分类报告将给出以下结果,它是一个使用癌症数据集的支持向量机分类器的样本分类报告。

“kds”从sklearn.datasets import fetch获取打印(mnist)

输出:

探索数据集

导入matplotlib进口matplotlib.pyplot文件作为plt十、 y=mnist['data'],mnist['target']random_digit_image=随机数字。重塑(28,28)plt.imshow(随机数字图像,cmap=matplotlib.cm.binary,interpolation=“最近的”)x_列,x_测试=x[:6000],x[6000:7000]y_列,y_测试=y[:6000],y[6000:7000]将numpy导入为np洗牌索引=np.随机排列(6000)x_列,y_列=x_列[洗牌索引],y_列[洗牌索引]yôtrain=yôtrain.astype(np.int8)y_测试=y U测试.A类型(np.int8号)y_检验2=(y_检验=2)输出:clf=逻辑回归(tol=0.1)clf.fit(x U列,y U列2)预测(随机数)

输出:

交叉验证

从sklearn.model_选择导入交叉值分数a、 平均值()

输出:“8”

使用支持向量机

创建预测器cls=svm.SVC()cls.fit(x U列,y U列2)

输出:“9”

交叉验证

a=交叉价值(cls,x_train,y_train_2,cv=3,scoring=”准确性“)a、 平均值()

输出:

在上面的示例中,我们能够生成一个数字预测器。因为我们在预测数据中的数字是否为2,所以我们在两个分类器中都得到了错误的结果,但是用logistic回归分类器而不是支持向量机分类器进行交叉验证显示了更好的准确性。

这将我们带到本文的结尾,在这里我们学习了分类在机器学习中。我希望您对本教程中与您分享的所有内容都很清楚。

如果您发现有关“机器学习中的分类”的文章,请查看Edureka机器学习认证培训(使用Python),这是一家值得信赖的在线学习公司,拥有超过250000名满意的学习者在全球范围内,

我们在这里帮助您完成旅程中的每一步,并为希望成为Python开发人员的学生和专业人士设计课程。本课程的目的是让您在Python编程方面有一个初步的了解,并为您提供核心和高级Python概念以及各种Python框架(如Django)

的培训,如果您遇到任何问题,请在“机器学习中的分类”的评论部分提出您的所有问题,我们的团队将乐于回答

你也可能喜欢

发表评论

您的电子邮件地址不会被公开。 必填项已用 * 标注

提示:点击验证后方可评论!

插入图片
上海 人工智能 投稿者
我还没有学会写个人说明!
最近文章
  • * 没有更多文章了
  • 热门搜索

    分类目录