网络知识 娱乐 快速上手数据挖掘

快速上手数据挖掘

一、数据挖掘的应用

数据挖掘是一项应用十分广泛的技术,它能够从历史数据中发掘出有用的规律,然后运用规律去做预测。比如在金融机构中通过挖掘历史用户信息和违约之间的规律进行风险预测,防止坏帐;在营销场景中可以通过挖掘客户消费行为规律寻找潜在客户,进行精准营销;在企业生产中,可以根据历史生产数据来预测良品情况,从而改进工艺降低不良率;在医疗行业可以使用历史医疗记录基于数据挖掘技术找出关联规律,帮助医生更好地诊断疾病……

二、时代刚需

在科技飞速发展的今天,各行各业都离不开数据,也越来越重视数据的价值,数据挖掘自然而然也成为一项很实用的技能,也是很多人希望掌握的技能。

那么,学会数据挖掘做预测是不是很难呢?学会做数据挖掘,一般是指能够灵活运用各种常用算法,然后用算法解决工程问题。但是,对于普通人来说,要实现这个目标其实并不容易。因为数据挖掘是一个涵盖统计学,机器学习和计算机科学的交叉学科,要学的东西比较多,也不简单。具体来讲就是首先必须具备一定的统计学基础,能够从数学层面理解各种算法的原理和逻辑,还要会用编程的手段实现它。这其中最难的就是数学了。

三、相关课程

和数据挖掘相关的数学课程随便一列就有大串:概率论,数理统计,线性代数,随机过程,最优化理论这些基础理论是要懂的,然后还有常见的机器学习模型,比如线性回归,逻辑回归, SVM ,感知机,决策树,随机森林, GBDT , XGBoost,贝叶斯, KNN , K-means , EM 等,以及常见的机器学习理论过拟合问题,交叉验证问题,模型选择问题,模型融合问题等都需要掌握。

如果你数学功底一般,这些东西学起来还是会挺难的,短时间内掌握基本上不可能。博主也一直在这个领域上一直学习中,深有感受。
在这里插入图片描述
如果想要动手写代码实现,和调参等,可以参考我的数学建模专栏:数模

四、能速成吗?

有人会问了,不是有很多封装好的算法可以直接调用吗?比如满大街的python培训班,貌似就可以速成。看起来是这样,但其实并不够。只会调用现成算法而不懂原理,充其量也就是能建出模型,其好坏完全不可控,一旦有问题或是模型效果不好也不知如何调整。这一点博主也深有感受,面试的时候往往会问你什么原理,而不会问具体怎么做的。

五、举个例子

举个最简单的例子,比如原始数据中缺失值,要不要处理?在调用算法包时会发现有些算法要求数据中不能有缺失,而有些算法即使有缺失值也能跑的通(暂且不论效果如何),如果不理解算法原理就会很疑惑或者想当然的以为是算法的要求不同,其实如果理解了原理就会知道所有算法本身都是不能处理缺失值的,只不过有些算法包在封装的时候作者为了方便将缺失值的处理也封装了进去。

再进一步,对于缺失值该如何处理呢,删除还是填充,如果是填充又该如何填充?以简单填充为例,是该用平均值填充还是中位数填充呢,有统计学基础的就很清楚要先去分析数据中是否有极值才能决定用哪种方法。缺失值的填充方法还有很多,也比较复杂了,没有这些数学和算法基础时也不知道使用哪一种最合适。

再比如,对于不平衡样本如何处理,数据噪音如何处理,高基数变量如何处理……

在这里插入图片描述

即便是封装好的算法也还要设置很多参数,如损失函数,学习率,树的深度,叶子节点等等,不理解数学原理,很难知道怎么用。简单调用这些现成的算法函数,确实也能够跑出来模型做预测。但模型效果又如何保证呢?比如精确度不好,或者不稳定。如果没有这些算法知识就不知道如何改进,只能无方向的随机尝试,如同大海捞针。要知道,有专业知识的选手其实也会用这些现成的函数包,但建一个好模型通常仍然要几天甚至数周时间,其中大部分时间都是在不断地调整优化。并不是把数据往算法里一丢就完事的。

虽然有了封装好的算法,要学会数据挖掘,也还是要学数学,学算法。这事在培训班中速成是没有戏的。

在这里插入图片描述

六、有什么巧妙地工具上手快吗?

那么,是不是我们就一定得读上N年寒窗才能用数据挖掘技术了吗?也不是,对于普通人来讲也有个捷径,那就利用工具,自动数据挖掘工具。数据挖掘工具将建模所需要知识和流程整合起来,这样就可以利用前人的知识自动建模和预测了。

实际上市面上也已经有不少这样的工具了,比如这个易明建模,嵌入了数据挖掘所需的数学知识和顶级统计学家的经验,使用起来连编程都不需要,效果都还不错。易明建模采用的是全自动化的建模流程,只需一键式的操作就能够自动进行预处理和模型搭建。什么缺失值,异常值,高基数变量,时间特征……统统不用担心,还有算法选择,参数寻优等,易明建模都会自动帮你搞定。

在算法种类方面易明建模涵盖了常用的机器学习算法,比如线性回归,逻辑回归,树类算法,集成算法,pca等,能够解决分类问题,回归问题和时间序列问题,大部分的商业场景问题都能用。

在模型质量方面,易明建模拥有顶级科学家的经验和理论,并且经过了大量的实践验证。远远超过培训班选手,能够达到中上等数据挖掘师的水平。当然作为一个通用的数据挖掘软件,和苦读N年的专业选手精心调出来的模型可能还会稍差一些,但对于大多数的场合已经足够用了。

易明建模还有一大亮点,就是耗费资源少,建模速度快。百万级的样本量,PC机也能跑,万级的样本量,更是几分钟就搞定。当然巧妇难为无米之炊,如果小伙伴手上只有几十甚至十几条数据,也是难以建模的。

借助易明自动建模,普通人也能做数据挖掘,重要的是,这么好用的软件竟然还是免费的,免费的羊毛不薅白不薅。

在这里插入图片描述

七、依然需要掌握最基础的内容

不过,需要注意的是,虽然借助自动建模可以省去学习算法原理的过程,但是一些基本的知识还是要了解的,起码要学会评估模型,知道我们建出的模型到底好不好。

比如模型质量,因为是用于预测,我们很容易简单地想像可以用准确率来评估,然而并不是。数据挖掘模型的质量通常会用一个叫做AUC的指标来评估,比单纯一个准确率复杂得多。不同的场景侧重的指标也不相同,比如还有查全率,提升度等。如果是回归问题则需要用mse, rmse, ……来评估。如果这些都不懂,那样就算能建出模型也是一头雾水。

在这里插入图片描述

好在,这些东西虽然听起来有点复杂,但其实学起来并不难,只要有高中数学基础,花一两周时间就能理解学会了,这属于可速成的知识。和学数学,学算法相比,相当于打了一个粉碎性折扣。

八、零基础上手的课程

教程可以看http://www.raqsoft.com.cn/wx/course-data-mining.html,从零开始,深入浅出讲解数据挖掘的基础概念和实用知识,特别偏重从应用的角度教大家如何做数据挖掘,课程中的一些案例也来源于真实业务场景,很适合没什么基础的人看。免费的!免费的!免费的!

在这里插入图片描述
不得不说教程真的多,简直是一个科技的社区:
在这里插入图片描述
进入正题,看看我们的建模教程:目录,看看目录有哪些:
在这里插入图片描述

好家伙还真是入门开始教哈!例如其中的数据处理部分:
在这里插入图片描述
卧槽,简直白嫖了,这些基础理论一定要学啊,不然怎么搞建模,很详细,我就不在这里说了。xdm去白嫖这么优质的课程!自己去学吧,还是小姐姐讲课,哈哈哈,声音也好听,安逸了。下面一节来安装软件,具体理论请看目录的视频,优质视频,值得推荐!

九、软件下载安装

点击:建模产品下载
以windows版本为例:
在这里插入图片描述
下载好后,双击,无脑下一步,选择好安装路径,点击安装:
在这里插入图片描述
点击完成:
在这里插入图片描述
跳出了目录,先放在这里,应该后续能用到,记不住了查一下:

  1. ymodelbin------ 启动目录 软件各启动文件所存放的地方
  2. ymodelclasses------ 类文件存放目录
  3. ymodelconfig------ 软件安装配置文件,不建议用户修改
  4. ymodeldata------ 缺省主目录
  5. ymodeldocuments------ 各类文档 documentszh目录存储中文版的各类文档,包括标准的帮助文档等。
  6. ymodellib------ 程序加载的包文件
  7. ymodellog------ 日志文件存放目录
  8. ymodellogo------ Logo图片
  9. ymodelpython------ python代码
  10. ymodelPython39------ python环境
  11. ymodeltmp------ 存放临时文件
  12. common 这是润乾系列产品的共享目录,如果不卸载所有产品,请不要将其删除。
  13. commonjdbc------ 数据库驱动包
  14. commonjre------ 本软件自带的jre目录

打开软件就是这样:
在这里插入图片描述

十、实战案例一:时间序列可视化

新建一个:时间序列
在这里插入图片描述
选择导入我的一支股票数据:
在这里插入图片描述
导入后,时间轴肯定是日期了,日期格式要选择为一样,然后点击完成即可:
在这里插入图片描述
导入成功后:
在这里插入图片描述
双击其中的:open,直接右侧就可视化了
在这里插入图片描述
这里还有模型选项,我选择mse作为评价准则(均方误差)
在这里插入图片描述
预测并行数设置为10,选择好后确定:
在这里插入图片描述

添加一个预测,预测这段日期后两天的值:
在这里插入图片描述
经过几秒钟的运算计预测出出这一天的价格:

在这里插入图片描述
双击进去,可以查看预测值和真实值的变化图:
在这里插入图片描述
最顶部:35.557,预测值:214.699。

十一、实战案例二:单目标变量分析

新建一个模型来看看,还是用这个数据:
在这里插入图片描述
选择:单目标变量。这里我们选Close试试:
在这里插入图片描述
双击以下这个Close可以看到Close这一列数据的描述:
在这里插入图片描述
还能看到频率分布图:
在这里插入图片描述
查看Open
数据描述:

在这里插入图片描述
查看频率分布:
在这里插入图片描述
皮尔逊和皮尔斯曼自相关系数:
在这里插入图片描述
单因素散点图:
在这里插入图片描述
点击:建模
在这里插入图片描述

十二、个人体验总结

总体来说,用起来还是上手快,博主第一次体验,顺便讲了两个案例。从博主个人来说,用过数据分析,数据挖掘的软件很多了。这种软件对小白来说,上手很快,但是呢,还是一定要掌握基础知识,在上面,博主分享了这个官方间接的基础,感兴趣可以去学习。
基础是任何事物的开始,不管怎么变,基础不能丢,所以基础要好好学。个人体验感觉还行,模型似乎少了点,不过这软件似乎没出多久,希望多更新一点模型和功能,我给官方那边发一个反馈去。大家可以先把现在已有的内容学习好,特别是基础部分,我看官方给的视频其实还是比较全,也详细,当然实战也是用的他们自己软件,但是思想是通用的,所以可以学, 基础理论很重要!