如何通过用数据挖掘技术来分析网站日志
11月19日 虎狼旗投稿 收集web日志的目的
Web日志挖掘是指采用数据挖掘技术,对站点用户访问Web服务器过程中产生的日志数据进行分析处理,从而发现Web用户的访问模式和兴趣爱好等,这些信息对站点建设潜在有用的可理解的未知信息和知识,用于分析站点的被访问情况,辅助站点管理和决策支持等。
1、以改进web站点设计为目标,通过挖掘用户聚类和用户的频繁访问路径,修改站点的页面之间的链接关系,以适应用户的访问习惯,并且同时为用户提供有针对性的电子商务活动和个性化的信息服务,应用信息推拉技术构建智能化Web站点。
2、以分析Web站点性能为目标,主要从统计学的角度,对日志数据项进行粗略的统计分析,得到用户频繁访问页、单位时间的访问数、访问数量随时间分布图等。现有的绝大多数的Web日志分析工具都属于此类。
3、以理解用户意图为目标,主要是通过与用户交互的过程收集用户的信息,Web服务器根据这些信息对用户请求的页面进行裁剪,为用户返回定制的页面,其目的就是提高用户的满意度和提供个性化的服务。
收集方式
网站分析数据主要有三种收集方式:Web日志、Javascript标记和包嗅探器。
Web日志
web日志处理流程:
从上图可以看出网站分析数据的收集从网站访问者输入URL向网站服务器发出http请求就开始了。网站服务器接收到请求后会在自己的Log文件中追加一条记录,记录内容包括:远程主机名(或者是IP地址)、登录名、登录全名、发请求的日期、发请求的时间、请求的详细(包括请求的方法、地址、协议)、请求返回的状态、请求文档的大小。随后网站服务器将页面返回到访问者的浏览器内得以展现。
Javascript标记
Javascript标记处理流程:
上图所示Javascript标记同Web日志收集数据一样,从网站访问者发出http请求开始。不同的是,Javascript标记返回给访问者的网页代码中会包含一段特殊的Javascript代码,当页面展示的同时这段代码也得以执行。这段代码会从访问者的Cookie中取得详细信息(访问时间、浏览器信息、工具厂商赋予当前访问者的userID等)并发送到工具商的数据收集服务器。数据收集服务器对收集到的数据处理后存入数据库中。网站经营人员通过访问分析报表系统查看这些数据。
包嗅探器
通过包嗅探器收集分析的流程:
上图可以看出网站访问者发出的请求到达网站服务器之前,会先经过包嗅探器,然后包嗅探器才会将请求发送到网站服务器。包嗅探器收集到的数据经过工具厂商的处理服务器后存入数据库。随后网站经营人员就可以通过分析报表系统看到这些数据。
web日志挖掘过程
整体流程参考下图:
1、数据预处理阶段根据挖掘的目的,对原始Web日志文件中的数据进行提取、分解、合并、最后转换为用户会话文件。该阶段是Web访问信息挖掘最关键的阶段,数据预处理包括:关于用户访问信息的预处理、关于内容和结构的预处理。
2、会话识别阶段该阶段本是属于数据预处理阶段中的一部分,这里将其划分成单独的一个阶段,是因为把用户会话文件划分成的一组组用户会话序列将直接用于挖掘算法,它的精准度直接决定了挖掘结果的好坏,是挖掘过程中最重要的阶段。
3、模式发现阶段模式发现是运用各种方法和技术从Web日志数据中挖掘和发现用户使用Web的各种潜在的规律和模式。模式发现使用的算法和方法不仅仅来自数据挖掘领域,还包括机器学习、统计学和模式识别等其他专业领域。
模式发现的主要技术有:统计分析(statisticalanalysis)、关联规则(associationrules)、聚类(clustering)、归类(classification)、序列模式(sequentialpatterns)、依赖关系(dependency)。
(1)统计分析(statisticalanalysis):常用的统计技术有:贝叶斯定理、预测回归、对数回归、对数线性回归等。可用来分析网页的访问频率,网页的访问时间、访问路径。可用于系统性能分析、发现安全漏洞、为网站修改、市场决策提供支持。
(2)关联规则(associationrules):关联规则是最基本的挖掘技术,同时也是WUM最常用的方法。在WUM中常常用在被访问的网页中,这有利于优化网站组织、网站设计者、网站内容管理者和市场分析,通过市场分析可以知道哪些商品被频繁购买,哪些顾客是潜在顾客。
(3)聚类(clustering):聚类技术是在海量数据中寻找彼此相似对象组,这些数据基于距离函数求出对象组之间的相似度。在WUM中可以把具有相似模式的用户分成组,可以用于电子商务中市场分片和为用户提供个性化服务。
(4)归类(classification):归类技术主要用途是将用户资料归入某一特定类中,它与机器学习关系很紧密。可以用的技术有:决策树(decisiontree)、K最近邻居、NaveBayesianclassifiers、支持向量机(supportvectormachines)。
(5)序列模式(sequentialpatterns):给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即子序列在序列集中的出现频率不低于用户指定的最小支持度阈值。
(6)依赖关系(dependency):一个依赖关系存在于两个元素之间,如果一个元素A的值可以推出另一个元素B的值,则B依赖于A。
4、模式分析阶段模式分析是Web使用挖掘最后一步,主要目的是过滤模式发现阶段产生的规则和模式,去除那些无用的模式,并把发现的模式通过一定的方法直观的表现出来。由于Web使用挖掘在大多数情况下属于无偏向学习,有可能挖掘出所有的模式和规则,所以不能排除其中有些模式是常识性的,普通的或最终用户不感兴趣的,故必须采用模式分析的方法使得挖掘出来的规则和知识具有可读性和最终可理解性。常见的模式分析方法有图形和可视化技术、数据库查询机制、数理统计和可用性分析等。
收集数据
收集的数据主要包括:
全局UUID、访问日期、访问时间、生成日志项的服务器的IP地址、客户端试图执行的操作、客户端访问的服务器资源、客户端尝试执行的查询、客户端连接到的端口号、访问服务器的已验证用户名称、发送服务器资源请求的客户端IP地址、客户端使用的操作系统、浏览器等信息、操作的状态码(200等)、子状态、用Windows使用的术语表示的操作的状态、点击次数。
用户识别
对于网站的运营者来说,如何能够高效精确的识别用户非常关键,这会对网站运营带来极大的帮助,如定向推荐等。
用户识别方法如下:
使用HDFS存储
数据收集到服务器之后,根据数据量可以考虑将数据存储在hadoop的HDFS中。
在现在的企业中,一般情况下都是多台服务器生成日志,日志包括nginx生成的,也包括在程序中使用log4j生成的自定义格式的。
通常的架构如下图:
使用mapreduce分析nginx日志
nginx默认的日志格式如下:
222。68。172。190〔18Sep2013:06:49:570000〕GETimagesmy。jpgHTTP1。120019939http:www。angularjs。cnA00nMozilla5。0(WindowsNT6。1)AppleWebKit537。36(KHTML,likeGecko)Chrome29。0。1547。66Safari537。36
remoteaddr:记录客户端的ip地址,222。68。172。190
remoteuser:记录客户端用户名称,
timelocal:记录访问时间与时区,〔18Sep2013:06:49:570000〕
request:记录请求的url与http协议,GETimagesmy。jpgHTTP1。1
status:记录请求状态,成功是200,200
bodybytessent:记录发送给客户端文件主体内容大小,19939
httpreferer:用来记录从那个页面链接访问过来的,http:www。angularjs。cnA00n
httpuseragent:记录客户浏览器的相关信息,Mozilla5。0(WindowsNT6。1)AppleWebKit537。36(KHTML,likeGecko)Chrome29。0。1547。66Safari537。36可以直接使用mapreduce来进行日志分析:
在hadoop中计算后定时导入到关系型数据库中进行展现。
也可以使用hive来代替mapreduce进行分析。
总结
web日志收集是每个互联网企业必须要处理的过程,当收集上来数据,并且通过适当的数据挖掘之后,会对整体网站的运营能力及网站的优化带来质的提升,真正的做到数据化分析和数据化运营。
投诉 评论 经典音乐闭上眼静静聆听这首曲子一切点击上方音乐,聆听最美经典音乐我不优秀,也不完美,缺点一大堆,毛病数不清。站在人群中,没有光环,走在大街上,毫不起眼。我不富足,也不出众,……
宝宝补锌食物最全的补锌食物推荐宝宝补锌的食物对于宝宝来说,最好最安全的补锌方法是通过饮食补充锌,最符合机体代谢的需要,以下是含锌丰富的食物,如下:虾类:海虾、虾皮贝壳类:牡蛎、生蚝、鲜赤贝……
生二胎之前要做好哪些准备工作操作方法01:hr做个全面的检查,想要生二胎男女双方都应该到医院里面做一个全面的检查,这样才能够确保是否适合要二胎,如果身体不好,那就应该尽快的调理,而不能盲目的怀孕生子……
如何才能从一段感情中走出来操作方法01:hr自我疗伤一段感情不管是结束了,还是只能面对现实、无奈低头,那么心里的那些伤痕是少不了的,所以说你要学会自我疗伤,这是走出一段感情最该有的姿态。……
包皮过长主要是由哪些病因引起的包皮过长是指男子成年后,阴茎皮肤包裹龟头,使龟头不能完全外露。包皮过长可导致性功能障碍,甚至影响射精,有的继发,继而导致不育。包皮过长的男子应当及早到医院手术治疗。作包皮环切术……
家长给初三女儿的一封信妈妈给初三孩子的一封信中考是人生中一个小的转折点,初三的孩子面对中考的压力,需要父母的激励和支持。接下来分享初三父母激励孩子的一封信,供参考。家长给初三女儿的一封信亲爱的女儿,时间过的飞……
如何通过用数据挖掘技术来分析网站日志收集web日志的目的Web日志挖掘是指采用数据挖掘技术,对站点用户访问Web服务器过程中产生的日志数据进行分析处理,从而发现Web用户的访问模式和兴趣爱好等,这些信息对站……
房子怎么过户给子女最划算以后会用的上说到房产过户,也许很多人到晚年才会遇到这个问题,目前最常见的方式有继承、赠与和买卖。这三种方式不同,中间的流程、法律问题以及费用也各不相同,看完下图你就会明白了。为了方便……
实用干货线下门店的种引流方法线下店有很多种,服装店、餐厅、游乐场,还有建材店、家居馆,等等,涉及各行各业。门店的引流方法也有很多种,接下来我就跟大家分享15种比较常用而且有效的引流方法。免费免……
成年人的崩溃都是静悄悄你能挺过多少坎就能成多大事来源丨插坐学院(ID:chazuomba)作者丨崔永旺有人说,成年人的崩溃,都是静悄悄的。看起来很正常,会说笑、会打闹、会社交,实际上糟心事已经积累到一定程度……
英国安哥拉兔的产地英国安哥拉兔的来源英国安哥拉兔的产地英国安哥拉兔的来源英国安哥拉兔的产地源于土耳其的安哥拉省,18世纪中先后传入法国、美国、德国、日本等地被各国引进后,培育出若干品种。有关安哥……
平派八字剖象法干支《平策命理秘踪》云:八字成列,象在其中。平派八字剖象法,分先天垂象和后天垂象。先天垂象,看原局干支结构;后天垂象,看岁运干支组合。不论先天、后天,总要干支加并,方成其象。……
快乐的人和痛苦的人最大的区别是什么我们总是在痛苦中挣扎可是却少有人清楚痛苦从何而来我们每日与苦痛作伴却未曾想过如何真正化解内心的痛苦01hr与不能改变的一切和平相处如果你感到……
美背背心能长期穿吗不能。运动背心在日常中只能遮挡,并不能起到支知撑的作用。但是运动内衣可以平时穿,但前提是不要在发育期穿,也不要长期穿。因为运动内衣对胸部是有压缩,固定,穿着可能对发育期的胸部造……
新手怎么做微商什么是微商微商到底怎么做,怎么做好微商,有很多技能需要掌握,前期的定位、布局、中期的集中发力,后期的维护管理,任何一项都是非常重要的。微商都知道,由于前期的野蛮生长,部分不正规的微商影响……
优秀文案必备的种结构无论你是一个新媒体运营人,还是一个自媒体人,写文案是必备的技能之一。大多数人做自媒体都是以文字为主要表现形式的,虽然也有漫画、图片、音频、视频等多种形式的,但最基础的还是文案,……
献给爱米丽的一朵玫瑰花的读后感大全《献给爱米丽的一朵玫瑰花》是一本由(美)威廉福克纳著作,译林出版社出版的精装图书,本书定价:38。00元,页数:354,特精心从网络上整理的一些读者的读后感,希望对大家能有帮助……
成语分类大全人体各部位成语大全宝贝梦博客头的成语头头是道头角峥嵘头破血流头晕目眩头重脚轻头昏脑涨头头是道白头偕老抱头痛哭抱头鼠窜千头万绪垂头丧气回头是岸交头接耳迎头赶上肥……
中国历史上最长命的帝王雄踞岭南九十年01hr秦始皇统一中国后,面对着一南一北两股势力,北方是匈奴的侵扰,而南方则是百越族的地盘。嬴政为了扩大秦帝国的疆域,派蒙恬和屠睢南征北讨。而征伐岭南的主将屠睢有一位部下,却在……
如果华佗没有被曹操杀死他就真的可以治好曹操的病吗三国时期的华佗,一直以来都被人们认为是古代医家中不可替代的重要人物,他的医术也被传得神乎其技,只是可惜他的医书基本上都没有流传下来,因此他究竟能有多厉害,那时候的医学发展到了什……
好肤色对症下菜吃出来白皙细嫩的皮肤,谁不想要?适当改变一下饮食结构,就可能使皮肤得到很大的改善。你的皮肤哪里不好,应该是对症下菜才行。红脸膛:这是由于摄取动物性脂肪和蛋白质过多所致。对……
结婚对联横批结婚对联是我国特有的文学艺术形式,婚联起源于五代,兴盛于明清,至今不衰。结婚时不同房间要贴不同的喜庆的结婚对联,贴喜庆结婚对联有讲究,特别是结婚对联的横批,结婚对联大全带横批可……
最牛的证婚词婚礼上证婚人说证婚词那是必要的一个环节,那么最牛的证婚词你见过吗?下面我们就一些去看看这些简短经典的最牛证婚词。一、最牛的证婚词1。梁启超对徐志摩的证婚词:我……
准妈妈开车容易伤害胎儿前不久,卫生部门对广西、上海、四川等地妇幼保健院抽样调查显示:各地医院因为驾车不当而伤害胎儿的准妈妈患者大幅上升。为此,有关专家紧急呼吁:女性怀孕三个月时不宜开车,怀孕超过六个……