沧州三亚菏泽经济预测自然
投稿投诉
自然科学
知识物理
化学生物
地理解释
预测理解
本质社会
人类现象
行为研究
经济政治
心理结构
关系指导
人文遗产
菏泽德阳
山西湖州
宝鸡上海
茂名内江
三亚信阳
长春北海
西安安徽
黄石烟台
沧州湛江
肇庆鹤壁
六安韶关
成都钦州

如何实践一个完整的数据挖掘项目

5月9日 寒霜坞投稿
  如何去实践一个完整的数据挖掘项目
  机器学习项目
  1抽象成数学问题(明确问题)数据挖掘项目
  2获取数据
  3特征预处理与特征选择
  4训练模型与调优
  5模型诊断
  6模型融合(非必须)
  7上线运行
  大部分机器学习项目死在第1步和第2步,平时我们说的机器学习,指的是3、4、5这3步,实践中,其实最难的是业务理解这一步,业务理解OK了,后面的一切都有章可循。
  NLP项目
  1获取语料
  已有语料:业务部门、公司积累大量的文本数据
  网上下载、抓取语料:可以通过爬虫自己去抓取一些数据,然后进行加工。
  2语料预处理
  语料预处理大概会占到整个5070的工作量,通过数据洗清、分词、词性标注、去停用词四个大的方面来完成语料的预处理工作。
  四大方面
  a
  语料清洗:就是在语料中找到我们感兴趣的东西,把不感兴趣的视为噪音的内容清洗删除,如:对于爬取的网页内容,需要去除广告、标签、HTML、JS等代码和注解等。数据挖掘项目
  b
  分词:中文语料数据为一批短文本或长文本,如:句子、文章摘要、段落或整篇文章组成的一个集合。一般句子、段落之间的字、词语是连续的,有一定含义。
  c
  词性标注:就是给每个词或者词语打词类标签,如形容词、动词、名词等。这样做可以让文本在后面的处理中融入更多有用的语言信息。如,常见的文本分类就不用关心词性问题,但是类似情感分析、知识推理却是需要的。
  d
  去停用词:停用词一般指对文本特征没有任何贡献作用的字词,比如标点符号、语气、人称等一些词。所以在一般性的文本处理中,分词之后,接下来一步就是去停用词。但是比如在情感分析中,语气词、感叹号是应该保留的,因为他们对表示语气程度、感情色彩有一定的贡献和意义。
  特征工程
  做完语料预处理之后,接下来需要考虑如何把分词之后的字和词语表示成计算机能够计算的类型。把中文分词的字符串转换成数字,有两种常用的表示模型分别是词袋模型和词向量。
  词袋模型(BagofWord,BOW),即不考虑词语原本在句子中的顺序,统计词频这只是最基本的方式,TFIDF是词袋模型的一个经典用法。
  词向量是将字、词语转换成向量矩阵的计算模型。目前为止最常用的词表示方法是Onehot,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为0,只有一个维度的值为1,这个维度就代表了当前的词。还有Google团队的Word2Vec,其主要包含两个模型:跳字模型(SkipGram)和连续词袋模型(ContinuousBagofWords,简称CBOW),Word2Vec词向量可以较好地表达不同词之间的相似和类比关系。除此之外,还有一些词向量的表示方式,如Doc2Vec、WordRank和FastText等。
  特征选择
  构造好的特征向量,是要选择合适的、表达能力强的特征。文本特征一般都是词语,具有语义信息,使用特征选择能够找出一个特征子集,其仍然可以保留语义信息;但通过特征提取找到的特征子空间,将会丢失部分语义信息。所以特征选择是一个很有挑战的过程,更多的依赖于经验和专业知识,并且有很多现成的算法来进行特征的选择
  模型训练
  在特征向量选择好之后,接下来就是训练模型,对于不同的应用需求,我们使用不同的模型,传统的有监督和无监督等机器学习模型,如KNN、SVM、NaiveBayes、决策树、GBDT、Kmeans等模型;深度学习模型比如CNN、RNN、LSTM、Seq2Seq、FastText、TextCNN等。这些模型在后续的分类、聚类、神经序列、情感分析等示例中都会用到。数据挖掘项目
  在模型训练时需要注意的几个点:
  注意过拟合、欠拟合问题,不断提高模型的泛化能力
  对于神经网络,注意梯度消失和梯度爆炸问题。
  评价指标
  训练好的模型,上线之前要对模型进行必要的评估,目的让模型对语料具备较好的泛化能力。具体有以下这些指标可以参考。(错误率、精度、准确率、精确度、召回率、F1衡量。)
  错误率:是分类错误的样本数占样本总数的比例。
  精度:是分类正确的样本数占样本总数的比例。
  准确率:是针对我们预测结果而言的,它表示的是预测为正的样例中有多少是真正的正样例。
  精确度:是分类正确的样本数占样本总数的比例。
  召回率:是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确。
  F1衡量:表达出对查准率查全率的不同偏好。
  模型上线应用
  模型线上应用,线下训练模型,然后将模型做线上部署,发布成接口服务以供业务系统使用数据挖掘项目
投诉 评论

如何实践一个完整的数据挖掘项目如何去实践一个完整的数据挖掘项目机器学习项目1抽象成数学问题(明确问题)数据挖掘项目2获取数据3特征预处理与特征选择4训练模型与调优5模型诊……盛唐老友记说好三人行有人却偷偷掉队1hr天宝三年(744年),诗仙李白与诗圣杜甫在东都洛阳初次相遇,留给后世无限遐想。闻一多将其比喻为日月相会,在中国数千年的历史中,唯有孔子见老子可与之媲美:譬如说……张居正死后万历皇帝为何要疯狂的报复他万历十年,明朝重臣张居正病故,子厚被追赠上柱国,谥号文忠。然而就在这仅仅9个月之后就被万历皇帝定罪为诬蔑亲藩、钳制言官、蔽塞朕聪、专权乱政、罔上负恩、谋国不忠的罪名。而且还抄了……秦朝秦始皇的遗诏到底写的什么赵高篡改遗诏是真的吗秦始皇作为中国古代上的一位皇帝在当时还是有很高的地位的,为什么这么说,因为当时的秦始皇非常的厉害,统一六国,使中国成为一个真正的整体,与此同时,统一货币,统一度量衡,为了能够抵……性别教育是儿童性教育的关键点对于儿童性教育,你了解多少呢?家长在面对儿童性教育是不可无视,要积极进行,同时也要注意方法。一、儿童性教育的要点1、有问必答三到七岁是孩子性疑问最多的时候,他……真正的爱是一场体面的退出01:hr前几天看了一部电影《钢琴教师》。电影中的母亲想要将女儿培养成杰出的钢琴家,于是从小就向她灌输高人一等的优越感。为了达到这个目的,母亲从灵魂到肉体,各个方面……齐刘海新娘发型齐刘海新娘发型图片、齐刘海新娘发型步骤可以给大家很好的展示这类发型的魅力的齐刘海新娘发型相信可以让你变成最时尚的新娘。1、甜美的平刘海发型加上气质的编发发型打造出别致的小……胎教常识关于胎教的三个疑问解析众所周知,合适的胎教对胎儿的发育有着积极的作用,但你知道胎教的重点是什么吗?你了解胎教的具体作用是什么吗?你清楚胎教从什么时候开始最好呢?疑问1:胎教的重点究竟是什么?……冬季喝水少也可致宝宝患支气管炎一般认为,小儿支气管炎多由病毒与细菌混合感染。根据流行病学的调查,主要为鼻病毒、合胞病毒、流感病毒及风疹病毒等。较常见的细菌为肺炎球菌、溶血性链球菌、葡萄球菌、流感杆菌、沙门氏……养育不挑食乖宝宝三点建议养育不挑食乖宝宝三点建议(养育不挑食乖宝宝三点建议)宝宝挑食是宝宝成长发育过程中正常的阶段性现象之一。现象虽广泛,但这种不良习惯假如不得以及时矫正,会对宝宝成长发育造成一……情人节招调出炽热婚后情对于已婚男女来说,在日常生活中早已经停止了与伴侣调情,更多的将调情做为一种工具用在了性爱当中。其实只有伴侣是真心相爱,调请就是天经地义的。两人凝眸对视,交流自然开朗,爱抚温柔体……为何唐朝公主都愁嫁其实原因很简单中华几千年文明,王朝不断更替,而在古代皇权下,要想快速的富贵,攀龙附凤的方法除了进宫服侍皇帝,他日生下龙子龙孙外。还有一个捷径那就是,娶公主,做驸马,不仅可以得到高官厚禄,而且……
北师大版九年级数学教案食品包装安全制胜和景泰蓝共同走过一甲子从选址到服务应注重内外兼修邹平县四个注重确保双随机一公开工作取得实效上海建工以四专精神引领年品牌建设之路正确理解巴菲特价值投资精髓等有关失落的心情短语微笑掩盖悲伤沉默诠释一切美国要我免除伊拉克亿美元债务的真相在珠宝贷投资投资的费用有哪些血溅成宋得意洋洋的小猪2013年新款NikeAirForce1曝光金鱼的记忆只有七秒吗?关于动物的十大科学常识一句名言的启示600字作文三篇赤脚:谈谈“飞蛾症”的调理思路和方法女生扎发怎么弄好看双扎马尾辫发型显清纯活力网盘有哪些缺点不打折,不促销,年入133亿美元,这家超市是怎么做到的?马内即将转会拜仁?克洛普他们老是在决赛前搞鬼明医演义第七回辨病厅巧医顽疾藏书女汉子变身清淡妆容好吸睛高一演讲稿有时不要太相信自己的眼睛

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找