如何提高IT运维效率基于运维日志异常检测AIOps落地实践

自然科学
知识物理
化学生物
地理解释
预测理解
本质社会
人类现象
行为研究
经济政治
心理结构
关系指导
人文遗产

如何提高IT运维效率基于运维日志异常检测AIOps落地实践

12月8日尘世客投稿

　　作者：京东科技张宪波、张静、李东江
　　基于NLP技术对运维日志聚类，从日志角度快速发现线上业务问题
　　日志在IT行业中被广泛使用，日志的异常检测对于识别系统的运行状态至关重要。解决这一问题的传统方法需要复杂的基于规则的有监督方法和大量的人工时间成本。我们提出了一种基于自然语言处理技术运维日志异常检测模型。为了提高日志模板向量的质量，我们改进特征提取，模型中使用了词性（PoS）和命名实体识别（NER）技术，减少了规则的参与，利用NER的权重向量对模板矢量进行了修改，分析日志模板中每个词的PoS属性，从而减少了人工标注成本，有助于更好地进行权重分配。为了修改模板向量，引入了对日志模板标记权重的方法，并利用深度神经网络（DNN）实现了基于模板修正向量的最终检测。我们的模型在三个数据集上进行了有效性测试，并与两个最先进的模型进行了比较，评估结果表明，我们的模型具有更高的准确度。
　　日志是记录操作系统等IT领域中的操作状态的主要方法之一，是识别系统是否处于健康状态的重要资源。因此，对日志做出准确的异常检测非常重要。日志异常一般有三种类型，即异常个体日志、异常日志序列和异常日志定量关系。我们主要是识别异常个体日志，即包含异常信息的日志。
　　一般来说，日志的异常检测包括三个步骤：日志解析、特征提取和异常检测。
　　1）解析工具提取的模板是文本数据，应将其转换为数字数据，以便于输入到模型中。为此，特征提取对于获得模板的数字表示是必要的。
　　2）在模板特征提取方面，业界提出了多种方法来完成这一任务。独热编码是最早和最简单的方法之一，可以轻松地将文本模板转换为便于处理的数字表示，但是独热编码是一种效率较低的编码方法，它占用了太多的储存空间来形成一个零矢量，而且在使用独热编码时，忽略了日志模板的语义信息。除了这种方便的编码方法外，越来越多的研究人员应用自然语言处理（NLP）技术来实现文本的数字转换，其中包括词袋，word2vec等方法。虽然上述方法可以实现从文本数据到数字数据的转换，但在日志异常检测方面仍然存在一些缺陷。词袋和word2vec考虑到模板的语义信息，可以有效地获得单词向量，但是它们缺乏考虑模板中出现的每个模版词的重要性调节能力。此外，深度神经网络（DNN）也被用于模板的特征提取。
　　我们的模型主要改进特征提取，同时考虑每个标记的模版词语义信息和权重分配，因为标记结果对最终检测的重要性不同。我们利用两种自然语言处理技术即PoS和命名实体识别（NER），通过以下步骤实现了模板特征的提取。
　　具体来说，首先通过FTTree将原始日志消息解析为日志模板，然后通过PoS工具对模板进行处理，获得模板中每个词的PoS属性，用于权重向量计算。同时，通过word2vec将模板中的标记向量化为初始模板向量，并利用权值向量对初始模板向量进行进一步修改，那些重要的模版词的PoS属性将有助于模型更好地理解日志含义。对于标记完PoS属性的模版词，词对异常信息识别的重要性是不同的，我们使用NER在模版的PoS属性中找出重要性高的模版词，并且被NER识别为重要的模版词将获得更大的权重。然后，将初始模板向量乘以这个权重向量，生成一个复合模板向量，输入到DNN模型中，得到最终的异常检测结果。为了减少对日志解析的人力投入，并为权重计算做准备，我们采用了PoS分析方法，在不引入模板提取规则的情况下，对每个模板词都标记一个PoS属性。
　　解析模板的特征提取过程是异常检测的一个重要步骤，特征提取的主要目的是将文本格式的模板转换为数字向量，业界提出了各种模板特征提取方法：
　　Onehot编码：在DeepLog中，来自一组k模板ti，i〔0，k）的每个输入日志模板都被编码为一个Onehot编码。在这种情况下，对于日志的重要信息ti构造了一个稀疏的k维向量V〔v0，v1，。。。，vk1〕，并且满足j不等于i，j〔0，k），使得对于所有vi1和vj0。
　　自然语言处理（NLP）：为了提取日志模板的语义信息并将其转换为高维向量，LogRobust利用现成的FastText算法从英语词汇中提取语义信息，能够有效地捕捉自然语言中词之间的内在关系（即语义相似性），并将每个词映射到一个k维向量。使用NLP技术的各种模型也被业界大部分人使用，如word2vec和bagofwords。
　　深度神经网络（DNN）：与使用word2vec或FastText等细粒度单元的自然语言处理（NLP）不同，LogCNN生成基于29x128codebook的日志嵌入，该codebook是一个可训练的层，在整个训练过程中使用梯度下降进行优化。
　　Template2Vec：是一种新方法，基于同义词和反义词来有效地表示模板中的词。在LogClass中，将经典的加权方法TFIDF改进为TFILF，用逆定位频率代替逆文档频率，实现了模板的特征构造。
　　3）一段原始日志消息是一个半结构化的文本，比如一个从在线支付应用程序收集的错误日志读取为：HttpUtilrequest连接失败，Readtimeoutatjave。net。它通常由两部分组成，变量和常量（也称为模板）。对于识别个体日志的异常检测，目的是从原始日志解析的模板中识别是否存在异常信息。我们的模型使用PoS分析以及NER技术来进行更精确和省力的日志异常检测。PoS有助于过滤标记有不必要的PoS属性的模版词，NER的目标是将重要性分配给所有标记为重要的PoS属性的模版词。然后通过模板向量和权向量的乘积得到复合模板向量。
　　我们的日志异常检测模型包括六个步骤，即模板解析、PoS分析、初始向量构造、基于NER的权重计算、复合向量和最终检测。检测的整个过程如图1所示：
　　第一步：模板解析
　　初始日志是半结构化的文本，它们包含一些不必要的信息，可能会造成混乱或阻碍日志检测。因此，需要预处理来省略变量，比如一些数字或符号，并提取常量，即模板。以前面提到的日志消息为例，原始日志HttpUtilrequest连接〔wxv1payprepay〕的模板失败，Readtimeoutatjave。net。可以提取为：HttpUtil请求连接失败读取时间为。我们使用简单而有效的方法FTTree来实现日志解析，我们没有引入复杂的基于规则的规则来去除那些不太重要的标记，比如停止词。
　　第二步：PoS分析
　　上一步的模版解析结果只有英语单词、短语和一些非母语单词保留在解析好的模板中，这些模版词具有各种PoS属性，例如VB和NN。根据我们对大量日志模板的观察，一些PoS属性对于模型理解模板所传达的意义很重要，而其他属性可以忽略。如图3所示，解析模板中的单词at在理论上是不必要的，相应的PoS属性IN也是不必要的，即使去掉IN的标记，我们仍然可以判断模板是否正常。因此，在我们得到了PoS向量之后，我们可以通过去掉那些具有特定PoS属性的模版词来简化模板。剩余的模版词对于模型更好地理解模板内容非常重要。
　　第三步：初始模板向量构造
　　在获得PoS矢量的同时，模板也被编码成数字向量。为了考虑模板的语义信息，在模型中使用word2vec来构造模板的初始向量。该初始向量将与下一步得到的权重向量相乘，得到模板的复合优化表示。
　　第四步：权重分析
　　首先对模板中的模版词进行PoS分析处理，剔除无意义的模版词。至于其余的模版词，有些是关键的，用于传达基本信息，如服务器操作、健康状态等。其他的可能是不太重要的信息，比如动作的对象、警告级别等等。为了加大模型对这些重要模版词的学习力度，我们构造了一个权重向量来突出这些重要的模版词。为此，我们采用了NER技术，通过输入已定义的重要实体，学习挑选标记为重要实体的所有模版词。该过程如图所示：
　　CRF是NER通常使用的工具，它也被用于我们的模型识别模版词的重要性。也就是说，通过向模型提供标记为重要的模版词，模型可以学习识别那些未标注的日志的重要的模版词。一旦模板中的模版词被CRF识别出来，相应的位置就会赋予一个权重值（2。0）。因此，我们得到一个权向量W。
　　第五步：复合向量
　　在获得权重向量W之后，通过将初始向量V’乘以权重向量W，可以得到一个表示模板的复合优化向量V。重要的模版词分配更大权重，而其他的模版词分配更小的。
　　第六步：异常检测
　　将第五步得到的复合矢量v输入到最终全连接层中，以便进行异常检测。完全连通层的输出分别为0或1，表示正常或异常。
　　模型评估
　　我们通过实验验证了该模型对日志异常检测的改进效果。采用了两个公共数据集，以及一套我们内部数据集，来验证我们模型的实用性。我们将自己的结果与业界针对日志异常检测提出的两个Deeplog和LogClass模型进行了比较。
　　CANet的框架是用PyTorch构建的，我们在35个训练周期中选择新加坡随机梯度下降（SGD）作为优化器。学习速度设定为2e4。所有的超参数都是从头开始训练的。
　　（1）数据集：我们选取了两套公共集和一套公司内部数据集进行模型评估，BGL和HDFS都是用于日志分析的两个常用公共数据集：HDFS：是从运行基于Hadoop的作业的200多个AmazonEC2节点收集的。它由11，175，629条原始日志消息组成，16，838条被标记为异常。BGL：收集自BlueGeneL超级计算机系统，包含4，747，963条原始日志消息，其中348，469条是异常日志。每条日志消息都被手动标记为异常或者正常。数据集A：是从我们公司内部收集来进行实际验证的数据集。它包含915，577条原始日志消息和210，172条手动标记的异常日志。
　　（2）base模型：我们将自己的模型在三个数据集上，与两个业界最先进的模型（DeepLog和LogClass）进行比较：DeepLog：是一个基于深度神经网络的模型，利用长短期记忆（LSTM）来实现检测。DeepLog采用一次性编码作为模板向量化方法。LogClass：LogClass提出了一种新的方法逆定位频率（ILF），在特征构造中对日志文字进行加权。这种新的加权方法不同于现有的反文档频率（IDF）加权方法。
　　（3）模型评估结果：我们从Precision、Recall和F1score三个方面评估两个base模型和我们的模型的异常检测效果，在HDFS数据集上，我们的模型获得了最高的F1得分0。981，此外，我们的模型在召回方面也表现最好。LogClass在Precision上取得了最好的成绩，比我们的稍微高一点。在第二套数据集BGL上，我们的模型在召回率Recall（0。991）和F1score（0。986）方面表现最好，但在Precision上略低于LogClass。在第三套数据集A上三个模型的性能，我们的模型实现了最佳性能，其次是LogClass。
　　在所有的数据集中，我们的模型具有最好的F1得分和最高的召回率，这意味着我们的模型造成的不确定性更小。
　　NaturalLanguageProcessingbasedModelforLogAnomalyDetection。SEAI。
　　ieeexplore检索：https：ieeexplore。ieee。orgabstractdocument9680175
　　Themis智能运维平台智能文本分析功能视图：（http：jdtops。jd。com）

投诉评论转载

搜狐网平台体育大V生活里的爱无耻抄袭我的文章这是我在2023年2月27日在今日头条原创的作品《中国男足国家队拒绝征召者，以后就不要再给他们机会了》。结果，2023年2月28日10：15，被搜狐网平台的生活里的爱直接……我省第三届业余羽毛球单项锦标赛落幕三湘都市报新湖南客户端12月12日讯（全媒体记者张洋银叶竹）12月11日下午，2022年湖南省创达杯业余羽毛球单项锦标赛在羽星公园羽毛球馆顺利结束，比赛共决出22个项目的冠军。……追求下一代探索！太阳能双体露营船瑞典初创公司PolBoat正在寻求一种更纯净、更简单的水上冒险形式，其最新的POLLUX太阳能双体船就像水上跨界车或多功能迷你露营车一样，这款时尚、安静的双体船鼓励人们远离城市……世锦赛主力不保？龚翔宇虽被球迷盛赞但仍有缺点，或被陈佩妍顶替众所周知，中国女排主力接应龚翔宇因为在2022年世界女排联赛上的出色表现被广大球迷称赞，而且她性格开朗、在赛场下也待人和善因此受到了大家的欢迎。而今天，笔者在网上冲浪时就……蔡徐坤同期的林彦俊被爆恋情，又及时否认Ninepercent成员、香蕉娱乐艺人林彦俊发文回应恋情。9月4日，曝光林彦俊与一女子同住酒店的同框照，疑似恋情曝光。随后，林彦俊工作室回应称是不实信息。但有网友扒出了同回酒……明日之后运动打卡活动开启！燃烧酷热激情挡也挡不住的烈日，擦也擦不干的汗水，丝毫不能阻挡幸存者们探索未知的热情。抓住夏天的尾巴，来一场酣畅淋漓的运动吧！【运动打卡，焕发夏末活力】8月25日9月7日期间，完……走好农体融合发展新路！宝山这个村获评第二批全国农民体育健身活月狮村位于上海西北部，村域面积只有1。034平方公里，体育产业核心区不到100亩，核心区隔壁就是城市社区，是比较典型的小而美的近郊乡村。自从乡村振兴战略实施以来，月狮村按照沪北……如何提高IT运维效率基于运维日志异常检测AIOps落地实践作者：京东科技张宪波、张静、李东江基于NLP技术对运维日志聚类，从日志角度快速发现线上业务问题日志在IT行业中被广泛使用，日志的异常检测对于识别系统的运行状态至关重……CJ麦科勒姆续约鹈鹕，威少加盟热火戈登联手字母哥的交易建议头条创作挑战赛北京时间9月25日，随着休赛期的即将结束，离训练营开始的日子也越来越近了，联盟各支对自己阵容不是太满意的球队继续进行调整，就在刚刚过去的一个天，联盟总共有6……数链空间品牌联盟安泰信用评级海外经济要闻速递第二十九期本文作者：数链空间品牌联盟成员单位安泰信用评级分析师李沐勋赵迪【1】欧洲央行管委：12月应加息50个基点以抗击通胀获悉，欧洲央行管委会成员、法国央行行长Franco……职业生涯常规赛突破9000分，恩比德新赛季将有望突破万分不知不觉新赛季NBA常规赛也进行了4分之1的赛程，作为新赛季得分王和MVP的有力竞争者，76人队当家核心恩比德虽然因伤缺席了部分比赛，但在参与的比赛中场均再次达到30分以上，个……大尺度恐怖片被删减3次才成功上映，18惊悚电影无边泳池最近在网上疯传的大尺度恐怖片《无边泳池》（InfinityPool），引起了网友们的热烈讨论。据说电影融入了血腥、暴力、色情的元素，让观众很是期待！科幻惊悚电影《无边泳池……

<<<<<<－>>>>>>

不同人群，需要补充的维生素不同，该怎么补？核桃是如何变成核桃油的？2分钟让你全了解湖人正式报价追梦！筹码曝光犹如打劫在一年里的最后几日时光！尊龙真是优雅了一辈子，70岁白发不染仍儒雅贵气，到老都没油腻 PlugChain为什么被誉为2023年最有价值的预言机公链太难了！两支CBA球队公布年度报告，分别亏损1605万及24 湖人和老詹球迷的绝好消息，浓眉终于申请交易天天一机今日一机红米Note11R 狂飙取景地拍视频要收费，刀哥回应！强大自己漫评透过冬奥，看日新月异的发展中国

什么样的男人最讨女人欢心那个冬天去陕西旅游需注意哪些饮酒文化如果想离婚怎么办理手续？致母亲的一封信首进TOP90！袁悦4进决赛，王曦雨出局，比杯中国5人阵容4 学会掌控情绪掌控健康念亲恩母亲关于“房地一体化”政策，你知道多少？经天纬地社会实践队中秋月絮语原来凡客CEO陈年骂周杰伦垃圾竟是为了。。。热传聚热点网移动硬盘的使用注意事项

友情链接：中准网聚热点快百科快传网快生活快软网快好知文好找菏泽德阳山西湖州宝鸡上海茂名内江三亚信阳长春北海西安安徽黄石烟台沧州湛江肇庆鹤壁六安韶关成都钦州