基于机器学习的大规模并行计算机系统硬件故障检测分析
作者 刘照霞
发表于 2023年8月

摘 要:作为多个领域重要的生产工具,计算机若出现硬件故障,则会直接影响其工作状态,因此需要对这方面开展详细研究。文章首先将大规模并行计算机系统硬件故障检测作为研究对象,枸建硬件故障检测模型,再探究硬件故障分析原理与特征选择过程,提出几种常见的基于机器学习的故障检测算法,最后对不同故障检测算法的实验结果进行详细分析,旨在提升大规模并行计算机系统硬件故障检测效率,助力相关领域的发展。

关键词:机器学习;并行计算机系统:硬件故障:故障检测

中图法分类号:TP181文献标识码:A

1 引言

大规模并行计算机系统( Massively ParallelComputer,MPC)是一种以数百、万个处理单位构成的并行处理系统,可以有效提高计算机运行速度,处理大规模数据信息,以及缩短数据处理的响应时间,对于提高各个领域生产效率与质量有较大帮助。但是,大规模并行计算机长时间保持高速运转状态,容易发生硬件故障,造成系统瘫痪,因此有必要对大规模并行计算机系统的硬件故障检测进行深入研究。

2 大规模并行计算机系统硬件故障检测模型

大规模并行计算机系统硬件故障检测是提升其主动容错水平的重要方法,可以使其更稳定地运行,提升其功能的扩展性。现阶段采用的大规模并行计算机系统硬件故障检测方式基于机器学习以及学习采集后的运行状态数据,再对未来可能出现的硬件故障进行检测,可以理解为学习预处理结点状态数据,再利用学习成果反向检测。但大规模并行计算机系统在运行过程中会不断生成结点运行状态数据,可能会产生新的故障信息,导致采用机器学习的方式可能无法有效检测新硬件故障,因此需要对这方面进行深入研究。在整理大量相关文献后,设计大规模并行计算机系统硬件故障检测模型,首先将原始狀态数据输入功能模型中,再对数据进行预处理,即有效去除数据中的噪声以及没有实际意义的无效值,然后使用状态向量对不同时刻的状态信息进行可靠描述,通过特征选择技术完成精简化处理,获得精简化的数据集,并将其作为机器学习模块并对其进行输入。此外,通过机器学习方法对数据集做故障挖掘处理,将分类器整理为分类器库,并将其作为实时检测的工具,对当前大规模并行计算机系统是否发生硬件故障进行有效检测。若状态数据未被选择,则不会在故障检测阶段进行二次采集[1] 。结合实际故障信息反馈,对分类器库相关内容进行评估,不断对相关数据进行优化,以提升机器学习效率,提高故障检测质量。需要注意的是,在对大规模并行计算机系统硬件故障进行检测时,各个结点获得的原始状态数据即为精简处理后的数据集,通过检测模块调取分类器库中的分类器,完成故障检测任务。若检测到大规模并行计算机系统硬件故障,则会立即启动报警程序,大规模并行计算机系统会同步启用主动容错方式,以避免发生更大规模的硬件故障。

3 大规模并行计算机系统硬件故障分析原理

机器学习的重要内容即为分类与检测,其可以对大规模并行计算机系统硬件故障检测模型的后续数据进行详细描述。分类即根据数据类别设计相应的分类模型,代表分类器设计过程,需要对已经具有类别标签的样本进行机器学习获得;检测即利用分类学习生成的分类器对不清楚的类别数据进行判定的过程。分类与检测可以细分为2 个环节,分别为学习、检测。学习是利用已拥有类别标签的数据集建立与之匹配分类器的一个过程,其将携带类别标签的样本集划分为训练集、测试集2 个部分,利用合适的分类算法,通过训练集完成机器学习,获得相应的分类器,再利用测试集对分类器的性能进行合理评估[2] 。若分类器错分样本数量低于预设值,则证明分类器可以进一步使用。检测则是利用学习阶段获得的可用分类器对没有设置标签的数据集做分类处理,进而检测数据集真实类别。常用的分类算法如下。

(1)决策树。其利用树形结构完成对象的决策处理,非叶结点代表样本属性特征,叶结点代表样本类别,分支代表特征取值,根结点到叶结点路径代表分类应用的决策。决策树算法的核心是选择根属性,需要利用特征属性完成决策树分裂处理。

(2)支持向量机。在统计理论基础上设计的分类器结构是将线性无法有效区分的两种类别数据从平面映射到多维空间,以构建分类超平面,并完成数据的分类任务。支持向量机的操作重点就是找到2 种类别数据最易被区分的最优超平面。

4 特征选择过程

特征选择是从原始特征属性集合中选择拥有最佳分类效果的属性子集。虽然可以通过穷举法完成特征子集的验证工作,但若增加特征维数,则穷举法所需的时间复杂度会快速上升,从而无法开展实际应用。

本文刊登于《计算机应用文摘》2023年15期
龙源期刊网正版版权
更多文章来自
订阅