kNN算法简介:
kNN(k Nearest Neighbors)算法又叫k最临近方法, 总体来说kNN算法是相对比较容易理解的算法之一,假设每一个类包含多个样本数据,而且每个数据都有一个唯一的类标记表示这些样本是属于哪一个分类, kNN就是计算每个样本数据到待分类数据的距离,取和待分类数据最近的k各样本数据,那么这个k个样本数据中哪个类别的样本数据占多数,则待分类数据就属于该类别。
KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。因此,采用这种方法可以较好地避免样本的不平衡问题。另外,由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说, KNN方法较其他方法更为适合。
该方法的不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。另外还有一种Reverse KNN法,能降低KNN算法的计算复杂度,提高分类的效率。
该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。
k近邻分类器具有良好的文本分类效果,对仿真实验结果的统计分析表明:作为文本分类器,k近邻仅次于支持向量机,明显优于线性最小二乘拟合、朴素贝叶斯和神经网络
分享到:
相关推荐
利用knn算法,实现文本分类,使用开发语言为c++,代码没有问题,可以实现。
对KNN文本分类算法进行改进,提高文本分类正确率和分类效率.
分别使用了正向最大匹配算法和KNN算法。分词速度平均153295词/秒,189100字符/秒。文本分类使用tf-idf计算单词权重进行特征选择,我测试时选择前100个特征词,根据k的不同取值,分类的准确度平均为75%。
KNN算法是比较适合于文本分类的一种分类算法,但由于其计算复杂度会随着训练集规模的增加而线性增加,从而限制了它的实际应用效果.通过改变对近邻点的搜索策略,提出了一种改进型的KNN算法.该算法在对最近邻的选择...
基于贝叶斯及KNN算法的newsgroup文本分类器,eclipse工程 程序运行方法:用eclipse打开工程,并将newsgroup文档集解压到 F:\DataMiningSample\orginSample目录下,同时在F:\DataMiningSample\ 下建好如附件“F盘...
介绍了中心向量算法和KNN算法两种分类方法。针对KNN分类方法在计算文本...实验结果表明,改进的KNN算法较中心向量法和传统的KNN算法在处理中文文本分类问题上有较好的分类效果,验证了对KNN算法改进的有效性和可行性。
本资源使用KNN算法对水果特征数据(包括大小、颜色、甜度等等)进行分析,最终实现对水果进行分类的能力。资源包括KNN算法分析源码及水果特征数据(.txt格式),对初学者学习KNN算法具有很强参考和借鉴作用。 KNN(K...
是用c来编写的KNN文本分类器,通过此程序可以 实现KNN方法 的文本分类
KNN和SVM算法在中文文本自动分类技术上的比较研究
一个很好的KNN算法 利用了投射的方法 有效的降维
java实现的KNN算法,对学习KNN算法有帮助
用KNN算法实现的文本分类系统,很详细,作者很强大,尤其是对于MAP的使用,炉火纯青,值得学习,受益匪浅!
将书本上关于文本分类的相关内容,如分类器、特征词选择算法等,用程序实现,让入门者对文本分类有个感性的、具体的了解,毕竟数学公式还是蛮抽象的; 2.“尽信书不如无书”,“纸上得来终觉浅,绝知此事要躬行”,...
主要为大家详细介绍了基于python实现KNN分类算法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
本文为基于贝叶斯算法和KNN算法的文本分类器Java实现,很详细,在网上找的,给大家共享看看
基于贝叶斯及KNN算法的newsgroup文本分类器,eclipse工程,免积分下载版 程序运行方法:用eclipse打开工程,并将newsgroup文档集解压到 F:\DataMiningSample\orginSample目录下,同时在F:\DataMiningSample\ 下建...
分别使用了正向最大匹配算法和KNN算法。分词速度平均153295词/秒,189100字符/秒。文本分类使用tf-idf计算单词权重进行特征选择,我测试时选择前100个特征词,根据k的不同取值,分类的准确度平均为75%。
knn算法的简单实现,需要测试两个文件,一个测试文档,一个是待分类文本
训练算法: 此步骤不适用于 k-近邻算法 测试算法: 使用海伦提供的部分数据作为测试样本。 使用算法: 产生简单的命令行程序,然后海伦可以输入一些特征数据以判断对方是否为自己喜欢的类型。 【注】本实例对于每步都...
KNN算法教学ppt全面 邻近算法,或者说K最邻近(KNN,K-NearestNeighbor)分类算法是数据挖掘分类技术中最...KNN算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分