sklearn常用聚类算法模型【KMeans、DBSCAN】实践

sklearn常用聚类算法模型【KMeans、DBSCAN】实践聚类算法是很重要的一类算法模型,在实际的应用实践中是会经常使用到的,最近的工作类型中大多偏向于有监督学习类型模型的使用,而对于无监督算法模型的使用则使用得相对少了很多,今天就简单的回归一下聚类算法模型,主要是KMeans模型和DBSACN模型的使用。这两种模型可以说是聚类算法领域里面很具有代表性的算法了,前者是基于样本之间距离的聚类,后者是基于样本集密度的聚类。殊途同…

大家好,又见面了,我是你们的朋友全栈君。

       聚类算法是很重要的一类算法模型,在实际的应用实践中是会经常使用到的,最近的工作类型中大多偏向于有监督学习类型模型的使用,而对于无监督算法模型的使用则使用得相对少了很多,今天就简单的回归一下聚类算法模型,主要是KMeans模型和DBSACN模型的使用。

      这两种模型可以说是聚类算法领域里面很具有代表性的算法了,前者是基于样本之间距离的聚类,后者是基于样本集密度的聚类。殊途同归,本二者的本质都是为了最终实现:簇间距离最大,簇内距离最小的目的。

       本来想好好介绍一番原理,可是忽然觉得想着想着就越想越多了,这里索性就不再讲解原理了,网上也有很多系列的原理讲解的文章,可以去看看的,这里主要是实践使用分析为主。

        使用聚类算法,首先我们要有数据集才可以,这里为了简单,直接使用的是sklearn提供的数据集生成模块,来直接生成我们所需要的数据集,具体实现如下:

def getClusterData(flag=True,ns=1000,nf=2,centers=[[-1,-1],[1,1],[2,2]],cluster_std=[0.4,0.5,0.2]):
    '''
    得到回归数据
    centers(簇中心的个数或者自定义的簇中心)
    cluster_std(簇数据方差代表簇的聚合程度)
    '''
    if flag:
        cluster_X,cluster_y=datasets.make_circles(n_samples=ns,factor=.6,noise=.05)
    else:
        cluster_X,cluster_y=datasets.make_blobs(n_samples=ns,n_features=nf,centers=centers,
                                                cluster_std=cluster_std,random_state=9)
    return cluster_X,cluster_y

       数据集生成的代码块中已经加入了我的注释,相信是比较容易看明白的。

       接下来,我们要对原始生成的数据集进行划分,生成训练集和测试集,具体实现方法如下:

def dataSplit(dataset,label,ratio=0.3):
    '''
    数据集分割-----训练集、测试集合
    '''
    try:
        X_train,X_test,y_train,y_test=train_test_split(dataset,label,test_size=ratio)
    except:
        dataset,label=np.array(dataset),np.array(label)
        X_train,X_test,y_train,y_test=train_test_split(dataset,label,test_size=ratio)
    print '--------------------------------split_data shape-----------------------------------'
    print len(X_train), len(y_train)
    print len(X_test), len(y_test)
    return X_train,X_test,y_train,y_test

       上述代码块实现了原始数据集的分割。

        之后,我们需要做一点模型持久化存储于加载使用的工作,这也是机器学习或者是深度学习里面很重要的组成部分了,因为当数据集体量增大的时候,每次使用模型都重复去训练模型的时间代价或者是计算代价都是很大的,所以这里要做好已训练完成模型的持久化工作,具体实现方式如下:

def saveModel(model,save_path="model.pkl"):
    '''
    模型持久化存储
    '''
    joblib.dump(model,save_path)
    print u"持久化存储完成!"


def loadModel(model_path="model.pkl"):
    '''
    加载保存本地的模型
    '''
    model=joblib.load(model_path)
    return model

          上述的代码块实现了训练完成模型的本地化存储于加载使用。

           完成上述全部工作后,就要开始模型的搭建使用了,具体如下:

def clusterModel(flag=True):
    '''
    Kmeans算法关键参数:
    n_clusters:数据集中类别数目

    DBSCAN算法关键参数:
    eps: DBSCAN算法参数,即我们的ϵ-邻域的距离阈值,和样本距离超过ϵ的样本点不在ϵ-邻域内
    min_samples: DBSCAN算法参数,即样本点要成为核心对象所需要的ϵ-邻域的样本数阈值
    '''
    X,y=getClusterData(flag=flag,ns=3000,nf=5,centers=[[-1,-1],[1,1],[2,2]],
                       cluster_std=[0.4,0.5,0.2])
    X_train,X_test,y_train,y_test=dataSplit(X,y,ratio=0.3)
    #绘图
    plt.figure(figsize=(16,8))
    #Kmeans模型
    model=KMeans(n_clusters=3,random_state=9)
    model.fit(X_train)
    y_pred=model.predict(X_test)
    plt.subplot(121)
    plt.scatter(X_test[:, 0], X_test[:, 1],c=y_pred)
    plt.title('KMeans Cluster Result')
    #DESCAN模型
    # 下面的程序报错:AttributeError: 'DBSCAN' object has no attribute 'predict'
    # model=DBSCAN(eps=0.1,min_samples=10)
    # model.fit(X_train)
    # y_pred=model.predict(X_test)
    # 改为这样形式的可以了
    y_pred=DBSCAN(eps=0.05,min_samples=10).fit_predict(X_test)
    plt.subplot(122)
    plt.scatter(X_test[:, 0], X_test[:, 1],c=y_pred)
    plt.title('DBSCAN Cluster Result')
    if flag:
        plt.savefig('circleData.png')
    else:
        plt.savefig('blobData.png')

       上述代码块实现了KMeans模型和DBSACN模型的构建、训练和使用,我们对测试集的预测结果进行了可视化分析具体如下所示:

Circle数据集模型结果:

sklearn常用聚类算法模型【KMeans、DBSCAN】实践

非Circle数据集模型结果:

sklearn常用聚类算法模型【KMeans、DBSCAN】实践

      整体来看,上述两个数据集KMeans的综合表现优于DBSACN模型,不过这个只是一个简单的实验说明,就是为了熟练一下这两种常用聚类模型的使用,记录学习一下。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/152335.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • c语言入门教程–16字符串常见操作

    c语言入门教程–16字符串常见操作

    2021年3月12日
    151
  • 可拔插视图

    可拔插视图基于类的试图fromflask.viewsimportViewfromflaskimportrender_templateclassUserLogin(View):methods=[‘POST’,’GET’]defdispatch_request(self):returnrender_template(‘login.html’)基于方法的试图from

    2022年5月30日
    90
  • seo绩效考核指标_kpi考核三大指标内容

    seo绩效考核指标_kpi考核三大指标内容想要知道SEO优化有没有效果,都是需要以网站数据为前提的,包括网站收录情况、关键词排名情况、网站流量的多少及网站访客转化情况等,来算出最终的投入产出比是多少。一、内容页面关键词排名考核指标利用原创内容矩阵可以实现对某一类长尾关键词的覆盖,也是达成目标的一个基础手段,为此你可以在数据监测软件中对这部分关键词进行定期跟踪,确保达到预期效果。二、外链的数量与质量高质量的原创内容是获取高质量外链的…

    2026年1月17日
    6
  • oracle linux 设置ip[通俗易懂]

    oracle linux 设置ip[通俗易懂]1.ifconfig查看网卡是否启动(两个一个127.0.0.1)2.若只是一个查看所有网卡 ifconfig-a 获取未启动的网卡名3.启动网卡 ifconfigeht0up 注: eht0;未启动的网卡名4.修改网卡配置文件eth0 1.修改/etc/sysconfig/network-scripts/etho文件 参数详解 …

    2022年5月4日
    180
  • 登陆网站时验证码有什么作用

    登陆网站时验证码有什么作用没有验证码登陆,黑客会更加容易激活成功教程你的账号,通过组合码刷机等黑客技术来破取你的密码,有了验证码相当于加了一层很厚的屏障,安全系数很高。  验证码是一种区分用户是计算机和人的公共全自动程序。  验证码作用:可以防止恶意激活成功教程密码、刷票、论坛灌水,有效防止某个黑客对某一个特定注册用户用特定程序暴力激活成功教程方式进行不断的登陆尝试,实际上是用验证码是现在很多网站通行的方式(比如招商银行的网上个人银行,百度社…

    2022年7月14日
    16
  • Hive 时间日期处理总结

    Hive 时间日期处理总结

    2021年11月26日
    47

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号