论文网

体能测试的数据挖掘与大数据分析技术研究

更新时间:2020-03-03 16:47:32点击:

体能测试的数据挖掘与大数据分析技术研究


第一章  绪  论


1.1研究背景与意义

随着我国人民物质生活不断富足的状况下,我国青少年的身体素质却不断下降,针对这种现状,我国政府在2016年向社会各界提出关注我国青少年身体素质的健康发展的倡议,得到社会各界的积极响应[1~5]。经过有关部门的深入调查,我国青少年身体素质下降的因素具有多样性,而最直接的因素是青少年在成长过程中缺乏应用的体育锻炼,并且在日常生活中也缺乏充分的运行[6~11]。

在现阶段的运动人员体质测试环节中,由于被测试人员的测试信息反馈存在一定的时差,使得运动人员不能够及时对自身的体质情况进行综合了解,而针对运动人员的体质测试数据仅仅是作为一般资料进行留存,并且能够获得测试结构的运动人员也因为没有专业的指导,而对测试结果的意义不太明确,也无法针对现有的锻炼内容进行相应的改进措施,从而使得体质测试较为形式化[12~14]。

目前我国普通高校都已经建立较为完善的计算机信息网络,能够对体育成绩数据进行较为合理的管理,能够借助计算机技术来完成繁杂的数据分析统计工作,从而可以构建与此相关的数据库。在此基础上通过决策树来对影响体育成绩的因素进行分析[15~19]。其功能需要具备较高的数据处理能力,能够实现对体育成绩的统计与整理,还需要实现对于运动人员体质信息以及实时身体状况来进行对应的运动内容制定,并且根据具体的运动人员的身体信息特征来制定对应的运动模式。运动人员能够通过该系统将自身在运动过程中的实际情况进行统计分析,并根据分析结构来调整自身的体育运动项目内容,使体育锻炼更加具备科学合理性。在现实中存在的各种各样的体育运动的过程中,都会产生大量的体育运动数据,这些数据都清晰的记录了体育活动或体育比赛中的实际体育信息。这些信息能够指导人们更好的进行体育训练与发展体育事业[20~22],但是需要对其进行有效的分析与运用才能实现其自身所具备的价值。在这样的情况下,就需要结合现代化的科学技术,实现体育信息数据挖掘,从而对体育数据进行有效的分析处理后进行相关运用。

本文的研究方式是以数据挖掘技术为主要手段,结合目前体育运动的实际情况,通过定量分析的方法来对体育数据进行综合分析,协助体育运动人员进行合理的体育锻炼,并且为体育发展职能部门提供理论参考,促进体育教学方面的发展。


1.2研究现状

1.2.1大数据相关研究现状

唐魁玉(2014)在研究中指出大数据的应用已经开始,虽然我们已经进入大数据时代,但仍然是一个全球性的大数据应用。虽然大数据创新加快经济发展中的应用产生了巨大的影响,我国学生和我国居民的体能、体质管理在宏观或微观的角度来看,体能测试分析是不可避免的受影响。我们在对基础发生变化的管理思想被影响。我们被迫采用经验公式对传统人事管理人性化管理,是“大数据”的一个新的阶段过渡[23]。呼延罕汭(2014)认为我们在大数据时代,要相信数据,理解数据,充分利用数据,使其在未来的发展势头良好,未来将成为迫切需要这种能力的掌握者,即使其运动比赛的管理是不可能的。利用人类资源管理领域的大数据技术,并结合其价值系统提升效率,形成体能测试分析的大数据时代新特点[24]。 

周光华(2013)将数据记录在工作的所有轨道上,根据一定的规则和方法对数据进行规律性的计算,并对员工的行为进行解释后进行虚拟化[25]。 王佳仁(2013)研究战略体能测试分析,认为企业必须与时俱进。利用原有的价值,在科学预测员工的行为结果数据。他认为是云计算和大数据技术,传统的企业体能测试分析应该从根本上改变,必须适应新的就业观念在管理环境的变化,实现现代企业的核心价值和目标,建立以市场为导向的员工的管理教学新模式。参与管理的范围越来越大,这将更有利于收集和使用大数据,为企业的体能测试分析模式的完善奠定了坚实的基础[26]。 

同时,应更注重当前的社会变革,以适应新的市场环境,运动比赛相关的外部环境的变化相应地迅速。其次,在实际的运动比赛工作,不断创新工作模式,利用大数据的应用来解决这个问题。所以,大数据处理技术本身也将成为体能测试分析的目标,我们必须努力跟随大数据时代的步伐,不断创新工作与改变现状。

1.2.2数据挖掘应用研究现状

新中国成立至今我国体育事业已经取得了飞速发展,先后成功举办了 1990 年北京亚运会、2008 北京奥林匹克运动会、2010 年广州亚运会等多项世界顶级赛事,并且即将举办 2022 年冬季奥林匹克运动会。我国体育健儿在世界级别比赛中也是披荆斩棘,频频摘金夺银,我国已经是毫无争议的体育大国。但是我国目前还不是体育强国也是一个不争的事实,尤其是职业体育俱乐部我国学生和我国居民的运动能力,与欧美发达国家相比还存在巨大的差距。如何加快提升职业体育俱乐部我国学生和我国居民运动能力成为中国体育人必须认真研究的一个课题。 

伴随着互联网技术、信息技术的进步与发展,我国对数据挖掘技术的研究与应用取得了很多的成果。但是在职业体育俱乐部指导我国学生和我国居民训练、比赛过程中,数据挖掘技术的应用还处在探索阶段。谢向阳就认为数据挖掘技术在体育领域中的应用很少,尤其在国内更是处于探索阶段,随着我国体育事业全面信息化发展,在全名健身、职业体育、体育产业以及体育科研教学方面积累了大量数据。如何有效利用这些数据,发掘常被人们所忽视但有重要价值的信息,已经成为当代体育工作者的一项重要使命。杨双燕认为我国体育领域积累并不断扩充着大量数据,借助 DM 方法分析海量数据并挖掘数据价值,是体育工作者非常关键的工作[27]。祝玮东对体育运动中数据挖掘技术的运用现状、数据挖掘技术与统计学的关系展开研究,并举出体育运动中运用数据挖掘技术的具体案例,得出结论:当前体育领域积累了海量数据,数据挖掘技术在体育领域的应用有着非常远大的前景[28] ,将发挥出越来越大的作用。赵新辉利用体育统计的研究方法,通过整理体育科学领域数据挖掘的研究成果和相关文献,按照分析管理、训练应用、体育科研等不同的类型对文献进行分类和归纳后进行文献研究法,总结发现当前体育领域数据挖掘研究资料对于体育相关领域数据库的建立和应用则相对较少,更偏重于简单的理论分析。虽然目前的研究还不够深入,但是值得欣慰的是,据挖掘技术已经被国内一些专家和学者引入到体育数据分析项目中,这一现象为我们日后运用数据挖掘技术分析体育数据,推进数据挖掘技术在体育领域的发展,把分析成果应用到体育发展决策和单项体育科学有序发展,具有重要历史意义。乔克满也认为数据挖掘进步的进步与发展,使其在不同领域得到了成功的应用,对我国体育领域各项科研实践工作利用数据挖掘技术具有示范意义,需要广大体育科研工作者和数据挖掘专业技术引起重视[30]。徐赟等认为只有成功解决体育数据平台建立;挖掘工具的通用化、大众化;与相关应用技术相互融合三方面问题,数据挖掘技术才能够为体育事业科学有序发展发挥更大作用,才能够在体育领域生根发芽,充分得到利用[31]。李慧玲以研究数据仓库和数据挖掘基本技术原理为切入点,对高校体育数据分析技术的应用现状展开研究,为高校体育科研工作提供了全新的思考路径和方法,推动了我国院校体育教学的深层次发展。


1.3研究思路

基于大数据的竞技体育体能测试分析的研究,通过分析传统竞技体育体能测试分析特点,引入大数据竞技体育体能测试分析的方法,在大数据理论的背景下,基于大数据技术分析竞技体育的体能测试分析方法和模式;结合数据挖掘技术与竞技体育体能测试分析的相关理论,制定科学合理的体育锻炼计划制定。本文采用发现问题分析问题解决问题的思路来开展研究。其具体的技术路线如下:

 

图1.1 研究技术路线

如上图所示,本文的研究分为三个部分。首先对于相关文献进行研究,了解大数据的相关技术和方法,并且对于数据挖掘在体育领域中的应用研究现状和不足进行分析,选定本文的研究课题,即针对目前体能测试的分析为题开展研究,发现体能测试数据之间的关联,从而指导被测试对象的体育锻炼计划制定。第二阶段为方案设计与系统建模,分别在被测试对象的特征表达以及数据关联规则发现两个步骤中引入人物画像和决策树分析的方法对数据进行处理,从而实现预期的数据分析功能。最后则对系统的功能进行软件系统实现,并对系统的功能模块进行测试,检验本文所提方案的有效性。

1.4研究内容

本文的研究一共包含六个部分的内容。其分别研究内容如下:

第一章为本文的绪论,对于本文的研究背景和意义进行了介绍,指出我国对于国民身体素质的关注越来越多,但是目前体能测验的数据分析缺少科学的分析方法,为此本文提出采用数据挖掘的方法来对其进行处理。并且从数据挖掘以及体育领域中的应用两个方面对比了国内外研究现状。

第二章为大数据与体能测试的相关技术介绍。对于大数据的概念以及在体育领域中的应用价值进行了介绍。

第三章为体能测试分析系统的需求分析与设计。结合体能测试分析的目标确立了大数据在体能测试分析中的应用模式。并且对于系统进行了详细设计,包括功能设计以及数据库设计。

第四章为系统的实现。本文引入了人物画像以及计入信息熵的决策树算法分别实现对于被测试对象的特征表示以及数据之间关联规则的发现。并结合具体的案例进行了实验测试,说明了挖掘结果的有效性。

第五章为系统功能的测试部分,对于系统的功能模块进行了测试,并且对于系统的功能测试结果和性能测试结果进行了分析,检验了本文所提方案的正确性。



 


第二章 大数据与体能测试分析相关理论


2.1 大数据相关概念

2.1.1 大数据的定义

大数据是指以多元形式,从许多来源搜集而来形成的庞大数据组。其特点为大量、高速、多样、价值。 最早的大数据是1980年由著名的未来学家阿尔文•托夫勒提出。在他的作品中,大数据被描述为一个集合。他开始意识到大数据的重要性[32]。

大数据是指不仅包括人们在互联网上以及在工业设备,包括汽车、数字传感器的位置,相关的运动,振动,温度,空气湿度,甚至化学变化在数据信息等。大数据是越来越频繁相互加强的行为,与传统的结构和意义的不同数据,通过这些数据,我们可以发现真实意图数据生产者。否则将很难或难以利用收集到的数据,在这个过程中,众多行业如果齐心协力,不断创新,大数据可能会给人类带来更多的价值[33]。

2.1.2 大数据的价值

目前大数据在很多方面都具有不同程度的应用,例如沃尔玛超市在进行商品促销和打折时,将商品实时定价机制按照需求和库存的情况相结合,对多达 7300 万种货品进行实时调价;欧洲建立的赌博和赌博预测平台。该公司提供的软件分析客户和交易数十亿美元,然后预测模型由一个特定的用户进行动态营销活动。该公司提供的软件分析客户和交易数十亿美元,然后通过一个特定的用户进行动态营销活动的预测模型[34];另外,在金融行业中一些对冲基金,在网站上的最新搜索引擎的基础上进行设计,采用语义分析的文本数据,机器学习与同义词挖掘等[35]。

通过以上经典案例,我们可以知道大数据特性,但如何将大数据发挥价值,这需要足够的处理能力和合理的网络结构,对目前的技术水平是一个巨大的挑战。从出现大数据开始,就一些人对大数据产生怀疑和指责。尽管猜测和质疑,但最终大数据还是被广泛重视,价值也逐渐体现出来。具体可以概况为: 

  (1)大数据可以帮助企业发现新的市场机会,大数据可以帮助企业分析得到的数据,其次是新的市场机会和市场的发现。然后,针对不同的群体采取不同的措施。通过大数据的分析可以新的客户群体,最好的供应商等等[36]。

  (2)大数据可以帮助管理人员提高决策能力。虽然目前许多管理者并没有在数据做决策的费用,但在经验的基础上,但在大数据时代,那么所谓的个人经验和直觉是非常有限。在为了避免这样的错误,它必须依靠决策制定的数据[37]。  

  (3)大数据可以使我国学生和我国居民的体能、体质管理模式的创新和管理,发掘人才。如果你想做一个好的我国学生和我国居民的体能、体质管理,最重要的是内部收集和传输信息作为核心。从分析内部大数据信息,或在一个更深入层面的挖掘信息,有可能发现新的知识。利用这些新的信息,就有可能创造出新的价值。从这个角度说,大数据可以说是一个我国学生和我国居民的体能、体质管理模式。进入大数据时代,数据出现在各行各业,这些数据已经成为战略资产[38]。  

  (4)大数据可以使组织现有的产品和服务,改善或创造更好的产品和服务,甚至建立一个品牌新的商业模式。在大数据时代,企业可以利用大数据技术对企业的巨大的数据收集,在此数据挖掘分析整理基础上,使企业能够抓住市场机遇,不断调整自己的商业模式,并改变他们的旧的商业模式,获得更多的利润[39]。

  (5)大数据可以使每个人获得的东西。在这个例子来说明这一点,去医院。例如在过去医生只能根据我们的时间为症状,而有了大数据,大数据应用于医疗手术,外科医生可以使用病人的累积历史数据与病人的情况,实现个性化医疗。此外,根据相应的数据,这些病情可以实现早发现、早治疗[40].

在不久的将来,大数据可能是我们的思维方式,我们的生活方式,甚至我们的商业法律也发生了变化。此外,大数据成为社会变革的原因,因此,大数据将成为未来最重要的国家战略之一。

2.2  体能测试分析

 2.2.1 体能测试分析的内涵

体能测试分析在我国学生和我国居民的体能、体质管理中起着非常重要的作用。体能测试分析是我国学生和我国居民综合体育能力的具体反应。为进一步研究,体能测试分析分为以下几部分[41]:

(1)综合指数测评。在这一部分中主要对人们身体指标的三个综合指标进行测量,即肺活量体重指数、握力体重指数、身高标准体重指数。

○1肺活量体重指数是指通过测量被测试对象的体重以及肺活量进行比较,可以表征有氧代谢的能力,该指标可以表征被测试对象的体质综合评价。其对应的计算公式为:肺活量体重指数=肺活量(ml)/体重(kg)

○2握力体重指数主要反映人前臂和手部肌肉的力量,同时也与其他肌群的力量有关,而且还是反映肌肉总体力量的一个很好的指标。其计算公式为:握力体重指数=握力(公斤)/体重(公斤)×100

○3身高标准体重指数(英文为Body Mass Index,简称BMI)是反映和衡量一个人健康状况的重要标志之一。过胖和过瘦都不利于健康,也不会给人以健美感。不同体型的大量统计材料表明,反映正常体重较理想和简单的指标,可用身高体重的关系来表示。其计算公式为:身高标准体重指数= 体重/(身高)^2

(2)单项运动考核

目前我国在进行体能测试方面,除了相关的综合体能测试指标以外还会通过单项运动来评价我国居民的身体状况。主要包括的单项运动测试为[42]:

○1台阶试验:被测试对象攀爬台阶进行时间的测试,在规定的时间内完成对应的台阶攀爬,一般为10分钟为单位进行攀爬。与被测试对象的心肺功能有关。

○250米短跑:被测试对象奔跑50秒,并以跑步耗费的时间来进行成绩的表征,一般情况下50秒短跑的成绩在6~8秒之间。与被测试对象的心肺功能和肌肉力量有关。

○3投掷实心球:被测试对象投掷5公斤重的实心球作为测试项目,测试投掷的最远距离。被测试对象的肌肉力量有关。

○4坐位体前屈:被测试对象在坐下的姿势前屈,查看手臂的最前端超过脚底的距离,并测量长度,单位为厘米。这一测试结果与被测试对象的柔韧性有关。

○5引体向上:被测试对象双手握单杠,完成向上拉伸的动作。被测试在规定时间内完成引体向上的个数作为测试结果。这一测试结果与被测试对象的力量、体重相关。

○6跳绳:在规定时间内完成跳绳的次数,一般为50~200次之间。这一测试结果与被测试对象的协调性以及心肺功能相关。

 2.2.2 体能测试分析的作用

 (1)反应被测试对象的体质情况

采用体能测试的方法所得到的这些数据可以反映出被测试对象的身体体质状况,从而了解被测试对象可能会患有的疾病等等。被测试对象如果不重视这些体能测试分析信息,长期下来则可能患有肥胖、心肺或是肌肉、神经系统方面的疾病。因此,体能测试可以帮助被测试对象了解自身的身体状况,为改善被测试对象的体质提供有效的渠道[43]。

(2)能够帮助被测试对象开展后续的锻炼

成功实施身体锻炼计划,必须保持科学的身体锻炼观念。这需要了解被测试对象本身在体质方面的不足,从而制定对应的锻炼计划。目前我国采用的体能测试办法分为综合指标的测试以及单项项目的测试。根据综合和单项项目测试的结果则可以发现自身的不足,而针对单项项目中的不足进行针对性的锻炼则可以逐步提高自身的身体素质[44]。

但是目前不足之处在于,我国的体能测试指标中缺少对应的关联,即通过加强哪些单项运动可以改善整体的身体素质指标。而本文的研究则是要通过大数据分析的方法,引入决策树对数据进行分析,了解整体指标以及单项测试指标之间的关系,从而为被测试对象加强体育锻炼改善自身体质提供一定的参考。

2.4本章小结

本章对于本文研究所涉及的理论和方法进行了研究。首先对于大数据以及体能测试分析的相关理论进行了研读,指出了大数据的主要方法和体能测试分析的内涵。而后对于体能测试分析中的大数据应用方法进行了对比,指出了现有分析方法在体能测试分析中存在的局限性。最后根据竞技体育的特点,计入体能测试分析的可持续发展,提出了以竞技体育被测试对象画像和建立决策树为主要方法的运动比赛分析方法,该方法主要优点在于可以将竞技体育被测试对象的任意特征作为根节点建立决策树,了解特定人群的行为特征。后续本文将围绕该功能的实现进行详细的需求分析和功能设计。



 


第三章 体能测试分析需求分析与系统设计


3.1基于大数据的体能测试分析应用模式

3.1.1体能测试分析所涉及的数据分类

基于大数据进行体能测试分析方面的分析首先则是要确定体能测试分析中可以采集到的数据以及体能测试分析中对于数据的分类。目前对于我国的体能测试分析而言,可以将数据分为三个维度:1)基础信息维度,即年龄、性别、身高、体重;2)综合体能测试维度,即,肺活量体重指数、握力体重指数以及身高标准体重指数。3)单项测试维度,即短跑、投掷实心球以及跳绳等运动项目的测试成绩。

第一个维度是被测试对象的基础数据,所谓的基本数据被定义为那些可以如实地反映被测试对象的“个人信息”的数据,这些数据主要是通过记录基本信息。这些信息可以反应为下表3.1所示:

表3.1 竞技体育被测试对象基础信息数据

序号 基础信息分类 信息描述

1 年龄 竞技体育被测试对象的年龄信息

2 性别 竞技体育被测试对象的性别信息

3 身高 竞技体育被测试对象的身高,单位为厘米

4 体重 竞技体育被测试对象的体重,单位为千克


第二维是表征综合体能的数据,这个维度是能够反映在被测试对象运动能力和综合体能素质的原始信息。客观地说,这些数据只反映了被测试对象的运动能力水平。综合体能素质测量数据可以帮助体能测试分析者了解被测试对象在体能方面优点是什么以及存在哪些不足。有助于体能测试分析人员分析被测试对象的整体身体素质。这部分信息主要包含如下表3.2所示的内容:



表3.2 被测试对象综合体能测试信息数据

序号 综合体能素质测量 信息描述

1 肺活量体重指数 肺活量体重指数=肺活量(ml)/体重(kg)

2 握力体重指数 握力体重指数=握力(公斤)/体重(公斤)×100

3 身高标准体重指数 身高标准体重指数= 体重/(身高)^2


第三个维度是被测试对象的体育项目单项测试结果。这个维度的数据是对于被测试对象在不同的体育项目中具体表现的描述。而单项体育项目与综合体能测试指标之间存在一定的关联。一般而言被测试对象在单项体育项目中的测试信息数据包括以下内容:

表3.3 被测试对象单项体能测试信息数据

序号 基础信息分类 信息描述

1 台阶试验测试 被测试对象攀爬台阶进行时间的测试,测试结果单位:台阶/10分钟

2 50米短跑测试 被测试对象奔跑50秒,并以跑步耗费的时间来进行成绩的表征。测试结果单位:秒

3 投掷实心球测试 被测试对象投掷5公斤重的实心球作为测试项目。测试结果单位:米

4 坐位体前屈测试 被测试对象在坐下的姿势前屈距离。测试结果单位:厘米

5 引体向上测试 被测试对象双手握单杠,完成向上拉伸的动作。测试结果单位:次/分钟

6 跳绳测试 在规定时间内完成跳绳的次数。测试结果单位:次/分钟


通过以上信息,体能测试人员可以使体能测试结果变得更加具体,了解单项体育项目以及综合体能素质之间的关系则可以做到有的放矢,从而有针对性的对于被测试对象提出锻炼的建议和策略。这些数据也是本文进行大数据分析的主要素材。

3.1.2大数据在体能测试分析中的应用

如上文所述,大数据主要是在大量数据的基础上进行相关性分析,从而获得隐藏在数据里的关联关系。对于体能测试分析而言,主要是针对被测试对象的基础信息、综合体质测试数据以及单项项目测试数据进行评估,从而为提供科学的体质分析指导被测试对象科学的开展体育锻炼奠定基础。因此大数据应用于体能测试分析中也是从这三个方面来进行应用和分析,从而最终为提供科学的体质分析,指导被测试对象科学的开展体育锻炼提供依据。即如下图3.1所示:

 

图3. 1 大数据在体能测试分析中的应用模式

如上图3.1所示,大数据在体能测试分析中的应用主要是针对被测试对象的基础信息、综合体质测试数据以及单项项目测试等各个方面进行分析,从而获得对应的数据分析结果,最终为体能测试分析提供辅助决策。

3.1.3基于大数据的体能测试分析应用模式确立

根据上文的分析可知,目前的大数据在体能测试分析中缺少对应的科学依据。特别是在体育项目的单项测试以及综合测试结果之间缺少对应的关联性分析。因此被测试对象虽然可以通过单项测试或者是综合体能测试了解到自身存在的不足,但是却不知道如何安排和计划自身的锻炼,从而保障自身的综合体能素质提升。因此考虑到体能测试分析系统的可维护以及延展性,本文提出采用体能测试被测试对象画像+决策树方法提取蕴含于数据信息中的规律,从而直接为体能测试分析提供辅助决策。其主要流程如下图3.2所示:

 


图3.2 本文的大数据分析应用模式

如上图3.5所示本文采用体能测试被测试对象画像来对体能测试被测试对象的特征进行描述,而后基于决策树来挖掘蕴含于体能测试被测试对象信息中的规律。其中体能测试被测试对象的画像是指通过信息的特征量提取,组合成一个完整的被试对象关于身体素质形象,从而为大数据应用提供了基础。从另一个角度来看,被测试对象的用户画像进行用户数据的描述,也是在现实世界的用户进行数学建模,实现具体的业务需求与用户相关的形式化描述,同时通过数据采集、分析、挖掘,可以现实相关的数据结合。

采用此种模式的优点在于,体能测试被测试对象画像计可以较快的分析出体能测试的身体素质现状,对于体能测试被测试对象在基础信息、综合体质测试数据以及单项项目测试数据方面的特征进行定量描述;采用决策树的算法可以分析出体能测试所有体能测试被测试对象的身体素质特征。并且本文在体能测试被测试对象画像的过程中对于测试结果计入了时间衰减系数,更加贴近于现实情况。采用信息熵的叶节点分裂可以将具有差别的行为特征信息进行逐个分离,较为全面的获取体能测试被测试对象的行为特征。

3.2体能测试分析系统开发目标

3.2.1系统整体功能用例

该系统的使用者有四种类型:测试管理员、综合体能测试员、单项体育项目测试员以及体能测试分析员其具体用例如下图3.3所示: 

 

图3.3 体能测试分析系统总用例图

如上图3.3所示。在系统中四个角色分别对应与系统的四项核心功能,分别对被测试对象的基础信息、综合体能测试、单项体能测试以及体能分析等四个方面进行管理,从而实现信息的管理以及数据的分析。

3.2.2基础信息管理

测试管理员主要负责对于参与测试的人员进行基础信息的管理。对于基础信息进行管理,包括对于被测试对象的人员姓名、性别、身高、体重等信息进行记录和修改。其对应的用例图如下图3.4所示:

 

图3.4 基础信息管理功能用例

如上图3.4所示。在基础信息管理功能模块中,测试管理员通过系统完成对于被测试人员的信息录入、修改以及删除等功能。

测试管理员通过测试管理模块实现在线填写人员信息,填写登记或输入姓名,实现基本信息的查询,也可以通过其他设置的条件进行精确查询和模糊查询。体能测试被测试对象管理模块主要记录管理和体能测试被测试对象记录和信息在一个时间序列,根据时间序列,名称或服务器执行模糊查询、编辑、打印相关的查询结果。被管理的体能测试被测试对象通过个人首页进行个人信息的核对,包括姓名、性别、年龄、身份、被测试对象健康档案和更多信息。

3.2.3综合体能测试

综合体能测试是综合体能测试人员对被测试对象进行综合体能测试并进行记录的功能模块,其对应的用例图如下图3.5所示:

 

图3.5 综合体能测试管理功能用例

如上图3.5所示。在进行综合体能测试时,对应的测试过程在线下进行,对于被测试对象的握力体重指数、身高标准体重指数以及肺活量体重指数进行测试,并对于对应的信息进行记录、修改和删除等操作。

3.2.4单项项目测试

单项项目测试是单项项目测试人员对被测试对象进行单项项目测试并进行记录的功能模块,其对应的用例图如下图3.6所示:

 

图3.6 单项体育项目测试管理功能用例

如上图3.6所示。在进行单项项目测试时,对应的测试过程在线下进行,对于被测试对象的台阶试验、50米短跑、投掷实心球等项目进行测试,并对于对应的信息进行记录、修改和删除等操作。

3.2.5体能测试分析

体能测试分析员全面负责体能测试的管理以及身体素质的分析决策管理,使用该系统进行人员信息的综合分析,可以进行各项数据的汇总;系统业务管理员,对系统相关业务内的人员信息进行管理,进行体能测试结果的分析,查看体能测试身体素质状况的各类分析汇总报表,以便帮助被测试对象制定正确的运动锻炼计划。

 

图3.7 体能测试结果分析功能用例

如上图3.7所示。体能测试分析员利用体能测试分析功能中的两个功能。分别是测试对象画像以及特征分析。其功能分别如下:

(1)计入时间衰减的体能测试被测试对象画像。体能测试被测试对象画像的目的在对对于体能测试被测试对象的特征进行描述。在本文所提的大数据分析模式中,计入时间衰减的影响,从体能测试被测试对象的基础信息、综合体质测试数据以及单项项目测试数据三个维度进行画像。在该功能中主要完成特征量的设置,并且完成被测试对象的画像。在本文所研发的系统中,特征量则是被测试对象的基础信息、单项测试信息以及综合体能测试结果。而画像构建则是引入测试数据的时间衰减进行被测试对象的画像构建。其具体的步骤则在后续的实现章节进行详细介绍。

 

图3.8 体能测试被测试对象画像目的

从而为决策树的建立和身体素质的分析提供基础。后续章节中对于体能测试被测试对象画像的详细步骤和方法将有进一步描述,此处不再复述。

(2)基于信息熵的决策树建立。根据特征量统计结果进行分析,输出基于决策树的关联规则分析结果。从而建立被测试对象基础信息、综合体能测试结果以及单项项目测试结果之间的关联,并以关联规则的形式展示。在开展决策树分析时,首先设定对应的根节点后根据信息熵的增益不断分裂形成决策树。对于选定的任意条件的根节点都可以形成对应的决策树,并以此来表征此类人的行为特点或特征。下图3.9为决策树分析的结果样例:

如图3.9所示,采用决策树的分析,可以较为形象化的展示不同人群的特点。其意义可以表示为具有A特性的人群一般具有B、C两种分支属性,并且同时兼具A、C两种属性特征的人群往往具有E、F属性。通过决策树的分析则可以较为清晰的了解不同人群的身体素质特征,发现身体素质以及单项项目测试结果之间的关系,从而为提升身体素质的建议提出提供参考依据。

 


图3.9 决策树分析结果样例

3.3系统功能模块设计

3.3.1系统架构

系统设计是在系统分析的基础上实现从抽象到具体。主要目的是把分析阶段所反映的系统逻辑的需求信息用通信与计算机系统的技术方案(物理)实现,为系统提供必要的技术信息,计划应符合以系统性、灵活性、可靠性、经济性。

根据本系统的现实思路与原则,本文设计了本系统的总体设计,具体如图3.10所示。该系统自上而下分为三层,分别是用户层、功能层以及后台数据层。

 

图3.10 系统层次结构

(1)用户层

用户层是辅导员和学生与系统进行交互的界面。在其界面上主要运用浏览器进行网络活动。本系统根据辅导员和学生的使用权限差异显示为不同的界面。本层的重点注重界面的美观与功能设计。

(2)功能模块层

该层是本系统的重要部分,其作用在于对于分组学习进行科学合理的信息记录,并且完成体能测试信息的分析。

(3)数据层

该系统的数据库按照预先设计的功能,主要包括基础信息、综合体质测试数据以及单项项目测试数据。

○1被测试对象个人基础信息库

包含所有被测试对象的个人资料,各种基本情况与个人资料信息。

○2被测试对象综合体能测试库

对于被测试对象的综合体能测试结果进行记录、修改和删除,包括肺活量体重指数、握力体重指数以及身高标准体重指数。

○3被测试对象单项目测试库

对于被测试对象的单项目测试结果进行记录、修改和删除,包括台阶试验、50米短跑、投掷实心球、坐位体前屈、引体向上以及跳绳几个方面的数据。

3.3.2系统拓扑结构设计

以互联网为基础平台是系统总体架构建立的必要条件,高校辅导员与系统管理人员也需要通过网络来进行彼此之间的通信,并且系统程序会设置防火墙进行安全防护,高校辅导员与学生需要经过防火墙才能对系统进行访问,防火墙会对用户的权限以及安全系数进行检测,完成检测后将用户信息传输到Web服务器中,Web服务器能够对大部分数据服务进行提供,最后完成数据处理后传输到数据库服务器中。数据库服务器会对数据进行保存以供测试人员和被测试对象在需要的时候进行数据调用。图3.11是系统的拓扑结构图。

 

图3.11 系统拓扑结构

由于Web服务器是一个开放式的构成,不仅是系统管理人员能够从互联网终端进入系统,外部人员也能够通过互联网终端对系统进行访问。

3.3.3基础信息管理功能模块

被测试对象信息的管理功能模块中包含两个方面的功能,第一是关于被测试对象基础信息的管理,即不会经常变动的数据管理,包括被测试对象姓名、性别、等信息。第二部分则是随时间会发生变化的信息,例如身高、体重以及年龄等。

被测试对象的基础信息主要是针对被测试对象的被测试对象姓名、性别、身高、体重以及年龄等信息进行查询、修改和删除等功能。其对应的流程图以及时序图如图3.12所示:

 

图3.12 被测试对象基础信息管理流程图

如图3.12所示,测试管理员登陆系统后对需要修改的被测试对象基础信息记录进行查找,选取对应的记录后对被测试对象的基础信息进行修改。对应的程序时序图如图3.13所示:

被测试对象的基础信息管理是通过两个核心类来进行管理的。第一个是被测试对象的信息查询类QueryrData,主要完成对信息的查询,QueryrData(String Name,ID int)输入为被测试对象的姓名、学号信息,当查询成功时返回查询结果,如果查询结果为空则返回对应的查询失败的信息。第二个功能则是对于基础信息的修改和更新,通过InfoUpdata类来进行实现。在用户提交对应的数据更新请求时首先通过InfoUpdata.CheckLogic()方法对信息的合法性进行校验,如果信息校验正确则对数据库中的数据进行更新,如果信息合法性存在问题则跳转回被测试对象信息查询界面。


 

图3.13 被测试对象基础信息时序图

3.3.4测试信息管理功能模块

测试信息管理模块用于设计和实施对被测试对象的综合体能测试信息的管理。并以《体质健康标准》为依据计算和校对被测试对象的综合体能信息,该模块是测试管理员管理系统的核心业务模块之一。包括综合测试指标项目设置、权重设置,综合测试指标计算、综合测试指标排序和报表生成等功能。而单项项目测试信息管理与综合测试信息管理的基本一致,但是没有计算公式设置的功能。

(1)综合测试指标设置

综合测试指标设置是指通过系统对于综合体能指标的相关科目进行设置,并且对于不同科目的权重进行设置。在进行综合测试指标设置时则需要对指标的计算公式和项目进行设置。其对应的流程图如图3.14所示:

 

图3.14 综合测试指标设置流程图

如图3.14所示,测试管理员登陆系统后设置需要参与计算的单项指标,而后设置对应的计算公式,从而生成综合测试指标计算公式。其对应的时序图如图3.15所示:

 

图3.15 综合测试指标设置时序图

如图3.14所示,在被测试对象综合指标计算设置时主要通过三个核心类进行控制。首先,PointManagement类控制综合测试指标设置,通过QueryRequest()查询基础信息表,,通过PointManagement类中的SetNum(List A)方法对综合测试指标的公式进行设置,其中List A包含单一指标的名称以及对应的权重大小的列表。最后,通过BasicData类完成对于综合测试指标计算公式的更新。

(2)单项项目测试信息管理

单项测试项目信息管理是通过线下的测试以及线上的信息记录完成对信息的管理。其对应的流程图如图3.16所示:

 

图3.16 综合测试指标设置流程图

3.3.5体能测试结果分析

系统的主要目的是使测试管理员能够以简单快捷的方式,以计算机技术为依托,以数据挖掘理论为理论依据,将被测试对象的测试数据进行分析,建立基础数据、单项测试数据和综合评测之间的关系。数据挖掘的方法,本系统主要采用的是人物画像以及决策树分析相结合的方式进行。该分析模型设计如图3.17所示。

 

图3.17 被测试对象分班模型设计示意图

本系统的分组方式根据被测试对象的基础数据、测试数据进行分析,从而获取对应的关联规则,从而实现不同数据的关联规则发现。其一般形式为:

 

图3.18 测试结果分析模式

如上图3.18所示。在进行测试信息的分析时建立三个不同维度数据之间的关联。其最终结果则是表征,不同年龄阶段的人在单项测试结果出现不足时对于哪些综合体制特征产生影响。得到这种关联性的结论则可以为知道被测试对象开展科学的体育锻炼提供依据。决策树和人物画像的算法实现以及实验将在后续章节中进行详细描述,此处不再复述。

3.4数据库设计

   依据项目的处理需求,对应数据表的设计及功能如下: 

• 基础信息表: 主要用于保存基础信息

• 综合评测表: 主要用于保存评测信息

单项项目测试表: 主要用于保存单项测试信息

对应的数据库表单的物理结构设计如下表所示:

表3.4 基础信息表

字段名 数据类型 长度 是否主键 描述

Obj_id int 4 数据库流水号

name varchar 50 姓名

sex bit 1 性别

age int 4 年龄

Height varchar 50 身高

Weight varchar 50 体重

tel varchar 50 电话

email varchar 50 电子邮件

createtime datetime 8 创建时间

content ntext 16 详细经历


                                

 

表3.5 综合测试信息表

字段名 数据类型 长度 是否主键 描述

id int 4 数据库流水号

Obj_id Int 4 外键 被试对象的编号

name varchar 50 体能测试被测试对象姓名

Vital_ index float 8 肺活量体重指数

Grip_ index float 8 握力体重指数

BIM_ index float 8 身高标准体重指数

Vital_capacity float 8 肺活量测试结果

Grip float 8 握力测试结果

Height float 8 身高测试结果

weight float 8 体重测试结果


表3.6 单项项目测试信息表

字段名 数据类型 长度 是否主键 描述

id int 4 数据库流水号

Obj_id Int 4 外键 被试对象的编号

name varchar 50 体能测试被测试对象姓名

Step_test float 8 台阶试验

sprint float 8 50米短跑

Throw_solid float 8 投掷实心球

Forward_flexion float 8 坐位体前屈

Pull_ups float 8 引体向上

skipping float 8 跳绳



3.5本章小结

本章根据在上文研究的基础上对于体能测试分析的需求进行了分析,分别从功能需求以及性能需求两个方面进行了论述。特别对于大数据在身体素质辅助决策中的需求进行了详细的描述,即企业体能测试被测试对象的画像以及身体素质分析决策树的功能需求分析。而后在需求分析的基础上给出了系统的功能模块设计方案以及数据库设计方案。后续则将针对基于大数据的身体素质辅助决策功能的实现办法进行具体研究。 


第四章 基于决策树的身体素质辅助决策实现


4.1身体素质信息的预处理

4.1.1数据核对

数据的收集过程完成后,建立模型数据集,并进行数据检查的数据清洗过程。数据核对就是推广分配给变量的名字,在统一的编码属性值不同的数据源的明确含义的属性值,删除重复的属性字段,并除去可以被忽略的字段。数据核对按照图3.6所示。 

 

图4.1 数据核对内容

数据核对从下述各个方面分别展开:

1)唯一性核对

唯一性检查主要涉及两个方面:首先,需要评估数据是否符合业务逻辑的唯一性的要求。例如,用户在不同的网站和移动网站,以及在身份证号码登记信息的手机应用程序必须是唯一的。其次,需要评估在不同的系统环境中相同的用户可以唯一确定。当这一要求无法实现,多个对象数据分析可能存在错误。

2)完整性核对

完整性核对主要关注两个方面:首先,我们需要对数据是否涵盖了相关的信息类型的完整建模。符合需要保证其范围、数据完整性要求的深度,可靠性评级足够支持。例如在互联网用户信用数据、信用数据记录在整个生命周期的情况,包括借款人的特点,评级和还款的历史信息。其次,数据分析的存在,即存在性与连续性的分析数据,为了保证模型能够沟通有效,进行信用风险评估的分析,需要较长的时间收集数据,比如一个周期等。在这段时间内,由于各种因素的影响,有些可能会有一些无法收集的数据。

3)有效性核对

在数据完整性技术检查是在检查数据有效性的基础上进行,以确保所有设置准确的数据。数据的有效性分析和检查的主要问题有缺失值和异常值。具体到每一个数据字段,缺失值的数据集对模型的发展,会产生严重的影响。异常值分析往往需要对数据服务的意义相结合进行,例如:对于一些只做正的或零、负数出现,在该项目的收入,日期型数据以外需要规定范围。

4)关联性核对

相关的验证主要是对不同的指标数据之间的关系检验,例如,对检查指标的核算指标风险因素进行分析,识别和量化风险数据,包括通过匹配程序设立检查机制。

5)及时性检查

为了确保模型的发展来满足当前的业务需要,需要建立适用于样本数据为研究对象,以反映当前的信用风险状况相适应的模型,并在需要时可快速获得,即数据及时的要求。例如,一个评估信用风险的用户,使用五年前建立的增长模型,很难客观地反映信贷的现状。

6)一致性核对

一致性核对数据的关注以下三个方面:第一,需要评估期间的数据,对是否存在改变进行数据处理。采用不同的方法处理数据,不得通过有用的信息之间进行比较,例如,由于数据在系统中的变化,使某些类型的数据格式和标准的变化;源网页的格式发生变化,导致减少或增加的数据字段,格式转换等。其次,要评估数据段与数据业务的意义有改变。最后,还需要检查在传输数据系统的过程中是否发生了错误。在数据采集、数据驱动的过程中,总是需要一致性核对数据。

4.1.2数据的筛选与时间窗口确定

数据清洗主要针对数据和分析处理的数据中发现,其目的是解决数据不完整和不一致的数据和噪声数据的问题。在数据清理中,有一个数据的问题的过程中,数据是适当的处理和调整,所以以满足建模的要求可以使用,因为模型是非常依赖于建模数据量。因此在选择的数据中则需要保证两个方面的要求:

1)确保完整性

在完整性检查,当数据没有准备好相关的信息类型下完整建模,第一次接触的业务情况和信息不足,为此对信用风险评估分析对象的类型是非常重要的。如果丢失的信息类型是不重要的,不需要对这些类型的补充数据。当数据连贯性不好时候,应该补充一个预定的时间,避免数据的缺乏,以及提高数据的情况。如果无法补充丢失的数据,将产生严重的影响评价存在的问题分析,可能想要删除此数据。

2)确保有效性

在有效性检查中,在处理异常值时,当异常值不能反映实际业务情况一般需要删除缺失值。为确保有效性,常用的处理方法如下:方法1:当出现一个丢失的数据,存储到相应的删除数据集。方法2:缺失数据值超过指定的比例,那么这个数据需要被删除。

根据以上两个方面的信息,本文以某单位入职两年以上的体能测试信息采集的对象,对其相关基础信息、综合体质测试数据以及单项项目测试数据等进行汇总。并且对于信息不完整的对象予以剔除,筛选得到对应的体能测试被测试对象信息共计432条。其结果如下表4.1所示:

表4.1 体能测试被测试对象样本信息——基础信息

序号 姓名 年龄 性别 重大疾病 身高 体重

1 王* 43 170 82.5

2 苏*珊 46 165 63.5

3 吴*国 33 177 80

4 李* 36 174 80.5

431 李*春 26 171 57.5

432 王* 25 183 88


表4.2 体能测试被测试对象样本信息——综合评测信息

序号 姓名 性别 身高 体重 肺活量指数 握力指数 体重指数

1 王* 170 82.5 79 61 28.55 

2 苏*珊 165 63.5 71 81 23.32 

3 吴*国 177 80 73 78 25.54 

4 李* 174 80.5 82 73 26.59 

431 李*春 171 57.5 83 84 19.66 

432 王* 183 88 56 70 26.28 


表4.3 体能测试被测试对象样本信息——单项项目测试

序号 姓名 性别 台阶试验 50米短跑 投掷实心球 坐位体前屈 引体向上 跳绳

1 王* 61 9.7 6 3.4 0 74

2 苏*珊 80 6.9 8.5 2.3 0 44

3 吴*国 44 11 12.8 11.2 1 78

4 李* 51 6.1 12 0.7 2 78

431 李*春 82 6.8 9.3 14.8 0 75

432 王* 88 9.3 14.7 6.6 4 97


4.2基于用户画像的特征量描述

4.2.1体能测试被测试对象画像的目的

大数据应用于体能测试的体能测试分析,首先,对于大数据的海量信息的组织、存储和预处理,以便通过从数据挖掘信息的大质量获得风险评估的能力,建立一个大数据金融基础的体能测试分析,也是第一阶段的学习模式。作为一种辅助工具,将大数据被测试对象的用户画像的概念引入体能测试分析方面,在对被测试对象的用户画像构建方法和结构进行讨论的基础上,对体能测试被测试对象画像模型研究体能测试分析大数据的预处理方法。

从大数据平台导入到大数据平台,可能有一定的问题,无法直接满足建模的要求,因此必须对原始大数据进行一定的预处理,其第一步则是完成对于样本特征的描述。简而言之则是将具体的体能测试被测试对象信息转化为计算机便于理解的向量表示形式。在这以过程中本文采用体能测试被测试对象画像的办法来构建,即完成体能测试被测试对象信息的向量描述。

4.2.2体能测试被测试对象画像的信息分类

大数据可以将所有与用户有关的数据包括在内,将用户数据的图像数据划分为静态信息与动态信息数据。

(1)静态信息数据

静态信息资料包括性别、年龄、等等。它主要是相对稳定的信息数据,实现一个用户描述。自我标签的静态数据信息,无需进行建模操作,主要进行数据清洗等。

(2)动态信息数据

动态信息数据是操作行为的主要用户,分析不断变化的信息。对于体能测试分析的信息而言,则是除了体能测试被测试对象的基础信息以外的信息。包含体能测试被测试对象的基础信息、综合体质测试数据以及单项项目测试数据三个方面。而本文在进行体能测试被测试对象画像时仅针对动态信息进行画像。

 

图4.2 体能测试分析信息的动态/静态分类

如上图4.2所示。其中,图中的虚线部分为静态信息、实线部分表征动态信息。动态信息中:综合体质测试信息被测试对象的体质情况,表征被测试对象的身体素质测量结果。而运动项目考核的单项测试结果则表征某一项运动的能力强弱。这两项数据都会根据被测试对象的运动活动锻炼情况而随时间发生变化。而体能测试被测试对象的基础信息中例如性别、姓名都不会经常发生变动,而年龄的变化相对能力、效率和薪酬方面的信息变化缓慢,因此也可以认定为静态信息,而静态信息不参与体能测试被测试对象的画像建模。

4.2.4计入动态衰减的被测试对象画像

在动态数据流的应用领域中,人们往往对最近一段时间的数据变化更感兴趣,而仅对历史阶段的整体数据变化有兴趣。结合动态数据流应用的这特点,算法采用倾斜时间窗口技术以不同时间粒度压缩存储历史数据,这样既保留了历史细节,又节省了空间,用有限的存储空间表示数据的长期变化,满足人们对不同历史阶段的数据粗略程度的查询要求。具体方法是采用不同的时间粒度记录不同时间到来的数据流数据,越晚到来的数据时间粒度越小,越早到来的数据时间粒度越人,具体的时间粒度大小由应用的盖求决定。按照时间粒度的表示方法的不同,常用的倾斜时问窗口有自然倾斜时间窗口和对数倾斜时间窗口。自然倾斜时间窗口如图4.3所示。

 

图4.3 自然倾斜时间窗口

自然倾斜时间窗口是现实应用中使用最广泛的,时间窗口的更新也是很直观的。图为自然倾斜时问窗口示意图,距前时刻最近的窗口时问粒度最小,时间粒度为刻钟;距当前时刻最远的窗口时间粒度最大,时间粒度为一天。当时间粒度为刻钟的窗口累计满刻钟,设置阈值。缩存储取位为“小时”,当时间粒度为小时的窗口累计满“小时”之后,则更新为天,依次类推,即时间变化粒度逐渐增大。人们可以查询最近一个小时里每刻钟内有哪些频繁模式,以及模式的频繁计数,要是查询最近一天里的频繁模式,则应答的单位以小时计,以此类推。

对于体能测试被测试对象的基础信息、综合体质测试数据以及单项项目测试数据会根据时间的变动而发生改变,例如被测试对象的年龄、体重以及单项体育项目随着年龄的增加而逐渐衰退等。但是体能测试的周期一般以年为单位,考虑到时间方面的影响因素,因此在对被测试对象进行画像时则考虑计入时间衰减,一般认为衰减函数呈指数衰减,表现可以通过半寿命和衰减幅度参数调整。任意体能测试被测试对象的画像构建可以表示为下式4.1所示:

                          (4.1)

其中P为体能测试被测试对象画像的具体构建结果。 为描述体能测试被测试对象各个维度动态特征的权重大小,对于本文而言,表征体能测试被测试对象动态画像的特征可以表示为综合体质测试结果以及单项项目测试结果,因此对应的体能测试被测试对象动态画像构建结果则是:

 

其中 分别表示体能测试被测试对象的基础信息、综合体质测试数据以及单项项目测试数据的权重,其具体维度的权重计算公式如下式4.2所示:


                                  (4.2)

如上式4.2所示,其中w为体能测试被测试对象在维度中的向量权重大小,ρ为衰减因子,其中基础信息不会随时间的变化产生较大的变化,因此对应的时间衰减系数默认取1,μ为权重取值。根据被测试对象的用户画像的构建方法,其中体能测试被测试对象画像的特征量提取流程可以表示为如图 4.4所示:

 

图4.4 基于大数据的体能测试信息画像步骤

如上图4.4所示。其具体步骤可以描述为:

(1)体能测试被测试对象画像的维度设置。对于本文而言,采用能力、效率和薪酬三个维度来描述体能测试被测试对象,对应的表示为:

 

其中 分别表示体能测试被测试对象的能力、效率和薪酬的权重。

(2)维度权重计算。计算维度的权重μ,则需要对各个权重进行计算。在计算对应的维度权重值时采用公式如下式4.3所示:

                         (4.3)

其中ρ为衰减因子、μ为行为计算得到的权重取值。其计算公式为:

                            (4.4)

 为该维度i内对应属性j或指标j的重要度对比系数,在本文的研究中认为所有单项的测试结果都一样重要,因此 的取值默认为1。 表示体能测试被测试对象的测试结果取值, 为所有体能测试被测试对象在该属性中的最大值。对应的不同维度中的指标权重取值如下表4.4至4.5所示:

表4.4 被测试对象单项项目测试结果画像设置

序号 姓名 台阶试验

( )

50米短跑

( )

投掷实心球

( )

坐位体前屈

( )

引体向上

( )

跳绳

( )


1 王* 0.488 0.639 0.333 0.131 0.000 0.451 

2 苏*珊 0.640 0.899 0.472 0.088 0.000 0.268 

3 吴*国 0.352 0.564 0.711 0.431 0.071 0.476 

4 李* 0.408 1.016 0.667 0.027 0.143 0.476 

431 李*春 0.656 0.912 0.517 0.569 0.000 0.457 

432 王* 0.704 0.667 0.817 0.254 0.286 0.591 


表4.5 被测试对象综合体质测试结果画像设置

序号 行为指标 指标取值( )


王* 苏*珊 吴*国 李* 李*春 王*

1 身高标准体重 0.819 0.666 0.730 0.760 0.572 0.751

2 肺活量体重指数

0.82 0.747 0.768 0.863 0.874 0.589

3 握力体重指数

0.663 0.880 0.848 0.793 0.913 0.761


(3)体能测试被测试对象画像构建。根据上一步的办法则可以将任意体能测试被测试对象的综合体质测试结果以及单项项目测试结果以及基础信息表征为一个三维的特征向量。此时计入各个维度指标的动态衰减系数,对应的能力、效率、薪酬的衰减系数设置如下所述:

1)综合体质测试结果的时间衰减系数:

                      (4.5)

衰减系数取值为 。其中m为离开岗位的时间,以月为单位。

2)单项项目测试结果的时间衰减系数:

                      (4.5)

——如果体能测试被测试对象一直在参与对应项目的体育锻炼,衰减系数取值为1;

——如果体能测试被测试对象没有经常进行对应项目的体育锻炼,衰减系数取值为 。其中m为中断体育锻炼习惯的时间,以月为单位。

3)基础信息的时间衰减系数:

由于基础信息,例如身高、体重等信息每个月的时间变化较小,可以认为其对应的变化在一个衰减较少的范围内,本文的研究中取基础信息的时间衰减系数 为1。即基础信息对于不考虑时间的衰减。

对于体能测试被测试对象的动态画像是对于体能测试被测试对象的基础信息、综合体质测试数据以及单项项目测试数据三个维度的指标计算。其计算结果可以表示为一个三维的向量, 。其中 分别表示体能测试被测试对象的能力、效率和薪酬的权重。

通过上述方法,计入衰减系数运算后得到的最终结果如下表4.6所示:


表4.6 体能测试被测试对象动态信息数据画像结果

序号 行为指标 指标取值( )


王* 苏*珊 吴*国 李* 李*春 王*

1 身高标准体重 0.819 0.666 0.730 0.760 0.572 0.751

2 肺活量体重指数

0.82 0.747 0.768 0.863 0.874 0.589

3 握力体重指数

0.663 0.880 0.848 0.793 0.913 0.761

4 台阶试验 0.488 0.640 0.352 0.408 0.656 0.704

5 50米短跑 0.639 0.899 0.564 0.816 0.912 0.667

6 投掷实心球 0.333 0.472 0.711 0.667 0.517 0.817

7 坐位体前屈 0.131 0.088 0.431 0.027 0.569 0.254

8 引体向上 0.000 0.000 0.071 0.143 0.000 0.286

9 跳绳 0.451 0.268 0.476 0.476 0.457 0.591


4.3基信息熵的决策树生成

4.3.1体能测试被测试对象画像结果的预处理

通过上文的处理可以将体能测试被测试对象的基础信息、综合体质测试数据以及单项项目测试数据信息进行体能测试被测试对象画像得到对应的向量。然而决策树并不能对于连续性变量进行数据挖掘,因此则需要将体能测试被测试对象画像得到的特征向量进行数据出力变为离散的变量。即将原本的具体数值变为[较好]、[一般]、[较差]这样的离散描述。由于描述体能测试被测试对象信息的画像向量 。并且 。因此可以将根据具体数值大小制定离散化的标准,本文制定的划分标准如下表4.7所示:

表4.7 体能测试被测试对象画像离散化处理的标准

序号 维度 测试项目 划分标准

较好 一般 较差

1 综合

测试 身高标准体重 >0.80

0.80> >0.60

0.60> 


2 肺活量体重指数

  >0.80

0.80> >0.60

0.60> 


3 握力体重指数

 >0.80

0.80> >0.60

0.60> 


4


单项

测试 台阶试验   >0.80

0.80> >0.60

0.60> 


5 50米短跑 >0.80

0.80> >0.60

0.60> 


6 投掷实心球   >0.80

0.80> >0.60

0.60> 


7 坐位体前屈 >0.80

0.80> >0.60

0.60> 


8 引体向上   >0.80

0.80> >0.60

0.60> 


9 跳绳 >0.80

0.80> >0.60

0.60> 


对应的则可以将体能测试被测试对象的画像表示为如下形式:


表4.8 体能测试被测试对象画像离散化处理结果

序号 被测对象姓名 处理前 处理后

1 王* [0.819, 0.82, 0.663] [体重指标较好,肺活量较好,握力一般]

2 苏*珊 [0.666, 0.747, 0.88] [体重指标一般,肺活量一般,握力较高]

3 吴*国 [0.730, 0.768, 0.848] [体重指标一般,肺活量一般,握力较好]

4 李* [0.760, 0.863, 0.793] [体重指标一般,肺活量较好,握力一般]

19 李*春 [0.572, 0.874, 0.913] [体重指标较差,肺活量较好,握力较好]

20 王* [0.751, 0.589, 0.761] [体重指标一般,肺活量较差,握力一般]


4.3.2策树生成的一般流程

一般来说,决策树是一个类似于流程图的树结构,其中每个节点表示在一个属性上的测试,每个分支代表一个测试输出,每个树叶节点代表类或类分布。决策树的最顶层节点是根节点。更明确地说,决策树通过根节点到叶节点的顺序对实例进行分类。其中,每个节点代表一个属性,每个分支代表它所连接的上节点在其属性上的可能取值。举例来说,一个实例的分类是从树的根节点开始,测试该节点所代表的属性,然后沿属性取值的某个分支向下移动。不断重复这个过程,直至到达叶节点,即得到该实例所属的类。其对应的流程图如下图4.15所示:

决策树方法并不适用于现实世界中的所有问题,它需要满足条件时才能产生较优的结果:首先,实例要用“属性-值”的形式描述。具体讲,实例是由一系列固定的属性(例如:性别)和值(例如:男)构成;属性的可能取值范围比较小(例如:男、女)时,决策树的效果最好;对基本算法扩展后可以处理属性的现实值属性(例如:年龄)。其次,目标类变量的可能取值是离散的。决策树算法要求每个实例属于某个类,最简单的情况是只存在两个可能的目标类取值,当然也可以扩充到两个以上的可能取值。最后,训练样本可以有错误。即决策树算法应是健壮的,不仅训练样本的目标类可以有错误,而且属性值也可以有错误。训练样本数据的某个属性可以包含缺失值。其对应的核心代码如下所示:


import java.util.HashMap;

import java.util.LinkedList;

import java.util.List;

import java.util.Map;

import java.util.Map.Entry;

import java.util.Set;

public class DicisionTree {

  public static void main(String[] args) throws Exception {

    System.out.print("脚本之家测试结果:");

    String[] attrNames = new String[] { "AGE", "INCOME", "STUDENT",

        "CREDIT_RATING" };

    // 读取样本集

    Map<Object, List<Sample>> samples = readSamples(attrNames);

    // 生成决策树

    Object decisionTree = generateDecisionTree(samples, attrNames);

    // 输出决策树

    outputDecisionTree(decisionTree, 0, null);

  }

  /**

   * 读取已分类的样本集,返回Map:分类 -> 属于该分类的样本的列表

   */

  static Map<Object, List<Sample>> readSamples(String[] attrNames) {

    // 样本属性及其所属分类(数组中的最后一个元素为样本所属分类)

    Object[][] rawData = new Object[][] {

        { "<30 ", "High ", " High ", " High ", " 1 " },

        { "<30 ", "High ", "Low ", " Low ", "0" },

        { "30-40", "High ", " Medium ", " High ", "1" },

        { ">40 ", "Medium", " Low ", " High", "1" },

        { ">40 ", "Low", " Low ", " High ", "1" },

        { ">40 ", "Low", " Low ", " High", "0" },

        { "30-40", "Low", " High ", " High ", "1" },

        { "<30 ", "Medium", " High ", " Low ", "0" },

        { "<30 ", "Low", " Medium ", " Low", "1" },

        { ">40 ", "Medium", " Medium ", " Low", "1" },

        { "<30 ", "Medium", " Medium ", " Medium ", "1" },

        { "30-40", "Medium", " Low ", " Low ", "1" },

        { "30-40", "High ", " Low ", " Medium ", "1" },

        { ">40 ", "Medium", "No ", "Excellent", "0" } };

    // 读取样本属性及其所属分类,构造表示样本的Sample对象,并按分类划分样本集

    Map<Object, List<Sample>> ret = new HashMap<Object, List<Sample>>();

    for (Object[] row : rawData) {

      Sample sample = new Sample();

      int i = 0;

      for (int n = row.length - 1; i < n; i++)

        sample.setAttribute(attrNames[i], row[i]);

      sample.setCategory(row[i]);

      List<Sample> samples = ret.get(row[i]);

      if (samples == null) {

        samples = new LinkedList<Sample>();

        ret.put(row[i], samples);

      }

      samples.add(sample);

    }

    return ret;

  }

  /**

   * 构造决策树

   */

  static Object generateDecisionTree(

      Map<Object, List<Sample>> categoryToSamples, String[] attrNames) {

    // 如果只有一个样本,将该样本所属分类作为新样本的分类

    if (categoryToSamples.size() == 1)

      return categoryToSamples.keySet().iterator().next();

    // 如果没有供决策的属性,则将样本集中具有最多样本的分类作为新样本的分类,即投票选举出分类

    if (attrNames.length == 0) {

      int max = 0;

      Object maxCategory = null;

      for (Entry<Object, List<Sample>> entry : categoryToSamples

          .entrySet()) {

        int cur = entry.getValue().size();

        if (cur > max) {

          max = cur;

          maxCategory = entry.getKey();

        }

      }

      return maxCategory;

    }

    // 选取测试属性

    Object[] rst = chooseBestTestAttribute(categoryToSamples, attrNames);

    // 决策树根结点,分支属性为选取的测试属性

    Tree tree = new Tree(attrNames[(Integer) rst[0]]);

    // 已用过的测试属性不应再次被选为测试属性

    String[] subA = new String[attrNames.length - 1];

    for (int i = 0, j = 0; i < attrNames.length; i++)

      if (i != (Integer) rst[0])

        subA[j++] = attrNames[i];

    // 根据分支属性生成分支


4.3.3 基于信息熵的决策树生成

决策树的生成过程则是对于信息特征的不断分化,即在叶节点的不断分裂,因此对于分裂的标准则是决策树生成的关键。本文基于信息熵作为依据来进行决策树的生成。其步骤如下所述:

(1)基于信息熵的信息增益计算

设 T 是t 个数据样本的集合。假设目标类属性具有m 个不同的取值,即 。设  是类  中的样本数。对一个给定的样本分类所需的信息熵(entropy)为:

                                                 (4.6)

其中P i 是任意样本属于Ci 的概率,即S i /T 估计。通常情况下,对数函数以2 为底,于是熵用bits 作单位。

设属性 X 具有n 个不同的值{ n x , x ,..., x 1 2 }。可以用属性X 将T 划分为n 个子集{ n T ,T ,...,T 1 2 },其中, T i 包含T 中这样一些样本,它们在X 上具有值i x 。如果选择X作为测试属性,则这些子集对应于由包含集合T 的节点生长出来的分枝。根据由X划分成子集的信息熵为:

                                              (4.7)

项|T | / |T | i 充当第i 个子集的权值,并且等于子集(即X 值为i x )中的样本个数除以T 中的样本总数。熵值越小,子集划分的纯度越高。那么在X 分枝上的信息增益是:

                 gain(X)=info(T)-info ( )                  (4.8)

    算法计算出每个属性的信息增益,具有最高信息增益的属性作为给定集合 T 的测试属性。创建一个节点,并以该属性的每个值创建分枝,并据此划分样本。

(2)叶节点的分裂

根据信息熵的增益计算结果进行排序,如果信息熵较大,则对节点进行分裂。以“肺活量体重指标较好”这一要素作为根节点进行分裂,首先计算每个属性的熵。首先将“肺活量体重指标较好”满足这一条件的体能测试被测试对象信息筛选出,而后根据式计算其年龄、性别、综合体质测试结果以及单项项目测试结果的熵大小。而后找出信息熵增益最大的叶节点进行分裂,循环往复直至达到分裂的终止条件。

本文以“肺活量体重指标较好”为条件筛选出27条对应的人事信息记录,可以表示为下图所示:

 

图4.5 第一次分裂四种可能

根据上图4.5所示的统计数据为根据,对叶节点进行分裂。叶节点中的数字表示属于“是”和“否”这两个类的实例个数。以此来计算该属性的信息熵。以属性年龄为例,其叶节点的不同分类的实例个数可以表示成(4,23)、(17,10)、(6.21),根据公式2.3,这三个叶节点的信息熵分别是:

        info(4,23)= 4/27 log (4/ 27)+ 23/27 log (23/ 27) =0.371 bits

        info(17,10)= 17 /27 log (17 /27) +10 /27 log (10 /27)  =0.771 bits

        info(6.21)= 6/27 log (6 /27) +21/27 log (21 /27)  =0.421 bits

而后根据式4.8来进行该属性的信息熵的增益,其计算结果为:

             gain(年龄)=0.502--0.232=0.27 bits

重复以上操作分别对其他属性进行信息熵的增益结果计算,可以得到: 

              gain(性别)= 0.640-0.232 =0.408 bits

           gain(体重状况)= 0.433.0.232 = 0.201 bits

gain(家庭状况)= 0.193.0.232 = -0.039 bits

根据熵增益的结果排序后,根据增益最大的原则选择“年龄”作为分裂的属性。其结果如下图4.7所示:


 

图4.6 第一次分裂结果

而后重复上述叶节点分裂步骤,可以得到第二次的分裂结果,如下图4.8所示:

 

图4.7 第二次分裂结果

直至满足分裂终止条件位置,其他分枝的生成过程与其相似,这里就不再详述。用这种方法最终将产生一个完整的动态决策树。

(3)决策树的完成

建立决策树的算法可以被描述成一个递归的过程:首先,选择训练样本的一个属性作为节点,对该属性的每种可能的取值创建一个分枝,并据此将训练样本划分为几个子集。然后,对每个分枝采取相同的方法,训练样本是其父节点划分的若干子集中的对应于该分枝取值的那个样本子集。当以下情况出现时停止该节点分枝的分裂,并使其成为叶节点:

1)该节点的所有训练样本属于同一分类;

2)没有剩余属性可以用来进一步划分样本;

3)该分枝没有样本。

此时,一棵完整的决策树便形成了。本次实验的最终结果如下图4.9所示:

 

图4.8 决策树分析结果样例

该分析结果的意义可以表示为三点:

1)肺活量体重指标较好的人群中,如果性别为女性,那么此类女性在工作中表现出的台阶测试的结果较好;

2)肺活量体重指标较好的人群中,如果性别为男性,那么其年龄大部分在30岁以上。

3)肺活量体重指标较好的人群中,如果性别为男性,且年龄超过50岁则一般体重指标控制较好。

如上所述,通过决策树的挖掘则可以得到对应的决策树,对于不同特征的人群则可以产生对应的体育锻炼计划制定的建议。例如年龄超过50岁的男性则需要控制自身体重,对于提高自身的肺活量具有益处。而对于女性而言,如果要增加肺活量,最为有效的手段则是通过台阶测试的方法进行锻炼。


4.4本章小结

本章主要是研究基于决策树的身体素质辅助决策功能实现。首先,基于体能测试被测试对象画像方法建立了体能测试被测试对象特征向量,将原本抽象的信息数据形成了计算机便于理解的量化描述结果。其次,本文基于决策树进行了关联规则的发现,以信息熵的增益为依据逐步对决策树的叶节点进行分裂。给出了分裂的方法、步骤、分裂停止条件和实验结果。其结果显示,决策树所表示的关联规则具有较好的可读性,对于体能测试分析的辅助决策具有一定的指导意义。 



第五章 系统功能测试


5.1 测试方法

在进行系统测试的过程中,需要对控制环境进行测试,这样可以充分满足程序的可靠性,最大限度满足用户的客观需求,最后还可以根据测试来对各个功能模块进行测试。

在具体测试方法当中,通过黑盒测试模块来保证功能模块得到应用,这种测试效果主要是黑盒子测试模块,需要对每个部分的模块进行测试,还能够根据检查程序功能来保证各项功能都正常,最终确保数据能够正确输出有效信息。

在黑盒测试的外部以及内部结构当中,主要还会针对软件部分的功能来进行测试,这样能够对存在的缺陷进行跟踪,并且通过测试工具来对各个部分的功能模块进行分析和测试,最终使得体能测试分析系统满足相应设计需求。

5.2 测试环境及工具

监测系统的硬件清单如下: 

Windows 版本的操作系统;

数据库:My SQL  

WEB  服务器:Apache

系统性能测试的工具如下:

HP Mercury LoadRunner9.0

性能测试主要关注三方面的指标:页面相应时间、每秒完成交易以及工作负载。页面相应时间是指每个应用请求的响应时间,包括最小的服务器响应时间、平均服务器的响应时间、最大的服务器响应时间以及事务处理服务器响应的偏差;工作负载主要由并发用户数和用户行为特征决定,测试中需要记录应用每秒完成的点击数。

根据用户需求和系统运行期间的数据分析,对体能测试分析系统提取典型业务场景,利用自动化测试工具,模拟用户并发执行典型业务场景,记录事务响应时间、用户并发数、TPS等数据。对服务器和数据库服务器操作系统的系统资源利用情况进行监控。

5.3典型功能及性能测试

5.3.1 功能用例测试

以组织结构信息管理模块为例进行用例测试,本文功能用例测试主要是采用黑盒测试的方法,测试用例如表5.1所示。

表5.1 基础信息管理测试用例

功能模块名称 基础信息管理

功能特性 基础信息的增删改查

预置条件 基础信息已经完整存在

测试目的 能正确进行基础信息进行管理,并提交审核

用例编号 测试步骤 输入数据 预期结果 实际结果

A001 填写基本信息 登陆主界面,选择基本信息填报,并输入被测试对象的姓名、性别以及年龄等基本信息 填写保存后,在查询界面可以正常显示查询填报的信息 与预期一致

A002 修改信息 登陆主界面,选择基本信息修改,并修改被测试对象的姓名、性别以及年龄等基本信息 修改保存后,在查询界面可以正常显示查询修改的信息 与预期一致

A003 删除测试对象 登陆主界面,选择查询测试对象,在查询对应的结果后可以对相应的信息对象删除 删除完成后,对应的测试对象被删除,不能被查询讯 与预期一致

通过测试发现在体能测试分析系统中存在的主要问题就是被测试对象信息需要经过增加或者删除操作,在相应的模块进行更正之后,整个功能管理模块能够实现相应的效果。

表5.2 体能测试信息管理测试用例

功能模块名称 体能测试信息管理

功能特性 体能测试信息的增删改查

预置条件 被测试对象的基础信息已经完整存在

测试目的 能正确对体能测试信息进行增删改查操作

用例编号 测试步骤 输入数据 预期结果 实际结果

A101 输入综合体能测试数据并进行保存 登陆主界面后进入综合体能测试管理功能模块,填写综合体能测试结果,并进行保存 填写保存后,综合体能测试数据查询界面查询到对应的测试数据填报结果 与预期一致

A102 修改综合体能测试数据并进行保存 登陆主界面后进入综合体能测试管理功能模块,修改综合体能测试结果,并进行保存 修改保存后,综合体能测试数据查询界面查询到对应的测试数据修改结果 与预期一致

A103 输入单项体能测试数据并进行保存 登陆主界面后进入单项体能测试管理功能模块,填写单项体能测试结果,并进行保存 填写保存后,单项体能测试数据查询界面查询到对应的测试数据填报结果 与预期一致

A104 修改单项体能测试数据并进行保存 登陆主界面后进入修改体能测试管理功能模块,修改单项体能测试结果,并进行保存 修改保存后,单项体能测试数据查询界面查询到对应的测试数据修改结果 与预期一致

A105 设置综合体能指标计算公式 输入综合体能指标,并选取参与计算的项目,选择计算逻辑关系 保存后可以通过公式计算可以正确得到对应的指标结果 与预期一致

通过测试发现,员工信息管理测试模块当中,存在的问题和错误综合体能测试填报没有满足相关的设计要求,因此需要通过模块的改进来实现。


表5.3 体能测试分析管理测试用例

功能模块名称 体能测试分析管理

功能特性 得出决策树,并采用图形化进行表示

预置条件 基础信息、综合体质测试数据以及单项项目测试数据已经完成录入和计算

测试目的 能正确发掘银行在数据中的关联关系

用例编号 测试步骤 输入数据 预期结果 实际结果

A201 选择决策树的根节点 登陆系统进入体能测试分析功能模块,选择挖掘的根节点,包括变量类型(例如,肺活量)以及变量特征(例如肺活量较大) 系统完成测试数据的离散处理。并提供给用户选择。 与预期一致

A202 决策树生成 点击决策树生成 根据选定的根节点生成决策树,并以图形化形式现实 与预期一致



5.3.2 性能测试

在性能测试的过程当中,通过多种模拟来进行各种测试,这些测试主要包括峰值测试、异常变化测试以及合理的正常变化测试,通过上述各种功能模块的负载和压力测试来确保各项指标都会满足设计要求,同时,还需要保证其能够为升级做好准备。

性能测试具备一个非常重要的方面,这些方面主要是通过各种测试来满足设计要求。在客户面向各种性能测试的过程当中,通过网上测试以及有机融合测试来保证整个系统在各个方面能够实现预测功能。

测试代码如下:

  if (!isset($_instance[$identify])) { 

         if (class_exists($name)) { 

             $o = new $name(); 

             if (method_exists($o, $method)) { 

                 if (!empty($args)) { 

                     $_instance[$identify]  =  call_user_func_array(array(&$o,  $method), 

$args); 

                 } else { 

                     $_instance[$identify] = $o->$method();//测试员工基本信息

                 } 

             } 

             else 

                 $_instance[$identify] = $o; 

         } 

         else 

             halt(L('_CLASS_NOT_EXIST_') . ':' . $name); 

测试的BUG有两个,分别是:员工信息与图书馆信息。

系统使用  Web server Stress Tool7  软件进行性能测试,在基本设置中,测试类型设置为点击测试类型,每次测试每人模拟 3次点击,模拟访问者设置为1000人,每次点击的时间间隔设置为 1 秒,部分测试截图如图5.1所示。

 

图5.1 点击次数和主机回应时间

如图每秒点击次数和主机响应时间所示,横坐标表示开始测试的时间长度,所有测试在95秒内完成,左侧纵坐标表示主机平台的响应时间,主机最大响应时间约为5.6秒,右侧纵坐标表示每秒点击次数,可以看出,每秒最多的时候点击次数超过38次:

用户使用客户端访问体能测试分析系统,由于用户上网方式是变化的,或许是电话拨号,或是宽带上网。针对体能测试分析系统,我们测试了在不同上网方式访问某一个页面对用户的等待时间。测试指标如表所示。

2、负载测试 

负载测试是为了测量系统同时在线人数在一定数量范围内是否能够正常工作。我们使用LoadRunner对系统进行了负载测试,测试表明当同时在线人数1000人时,系统能够很稳定的工作,通过负载测试。

3、客户端兼容性测试

体能测试分析系统还需要通过用户的配置来实现功能模块,为了保证体能测试分析系统能够正常操作,还需要对系统的兼容性进行测试,这种兼容性测试还需要结合系统的Windows可以满足功能需求。

经测试,系统能够满足一般需求,且性能表现良好。

5.4 测试结果分析

对体能测试分析系统进行的功能测试结果为:

表5.4 BUG统计结果

总用例 Bug数 通过用例比率

10 1 90%

测试结果表明,系统设计并实现的体能测试分析系统是符合需求设计的,并且测试结果良好。

业务部门的系统功能测试和用户接受测试完成系统共计3大功能模块、测试用例10个,系统功能能够正常使用,系统BUG数为1个。根据系统功能测试结果,项目组不断调整修改系统程序,系统上线实施前,测试问题全部解决,系统BUG为0,最终系统功能满足用户业务需求。

在实际环境下记录具体功能的页面响应时间、每秒完成交易数,工作负载等具体指标,经分析其性能测试结果达到预期目标。

经过对系统的功能、性能进行测试,均达到了设计要求。同时,对于系统的稳定性及可靠性还需要一个长期的监测,在系统运行和维护期间,还将继续对系统的稳定性和可靠性进行进一步的修改和完善,逐步提高系统的健壮性,有效地为图书馆的管理工作提供信息化的支持。

该系统的页面简洁大方、可操作性强,功能强大,基本上超出了之前的预期,在体能测试分析工作中出现的统计以及需求分析问题,都迎刃而解。系统的测试过程不是一帆风顺的,发现问题,经过收集大量资料,深入学习探究,所有问题都得到了较好的处理。

 



结  论


本文通过大数据技术与体能测试分析有效结合,利用大数据技术及大数据开放式平台对身体素质进行分析,基于大数据画像理论,构建体能测试的体能测试被测试对象绩效模型;基于自然倾斜时间窗口,建立动态数据挖掘决策树方法,建立目标类变量关于各输入变量的动态分类预测模型,全面实现输入变量和目标变量在不同取值下的数据分组,进而用于新数据对象的动态分类和预测,提升决策树适用范围,建立基于数据挖掘的大数据被测试对象的用户画像建模算法,实现大数据被测试对象的用户画像模型的构建;基于体能测试被测试对象画像模型研究体能测试分析大数据的预处理方法,实现对体能测试被测试对象状态分析与评估,构建基于大数据的体能测试分析优化流程;研究基于大数据的体能测试分析优化系统功能设计,构建基于大数据的体能测试分析网络拓扑结构、结构设计等;并好通过案例的验证,探索系统应用的先进性与实用性。

本文大数据算法对体能测试分析的研究,基于身体素质相关数据的采集、存储、挖掘分析和汇集整理,为制定出科学的和合理的体能测试分析决策提供指导;为促进体能测试的科学、合理为导向,解决体能测试的人工智能分析问题提供一定的参考意义。

由于时间限制,利用大数据技术研究体能测试分析取得了初步成果,但仍然存在一些不足之处,如系统功能没有得到全面的提高,验证和实施等制度不完善,作为数据选择算法有限。例如本文仅使用大数据被测试对象的用户画像建模,但是结合智能算法比较少。在今后的发展中,可以考虑与其他算法的补充,如神经网络模型、隐马尔科夫链算法等,使系统更加完善。同时可以增加的数据量,通过时间序列数据挖掘技术,进一步得到动态身体素质数据,提升精确结果。

 

参考文献

[1]  刘晓琴,杨颂华,郭树勋,王莉馨.  优秀运动员体能、技能检测分析系统[J].天津理工学院报. 2017(04)

[2]  戴敏,唐树刚. 基于关联规则挖掘的运动员体能指标优化分析[J]. 天津理工学院学报. 

2013(3)

[3]  戴敏,卢刚,邓霖.  网球运动员体能测试分析系统的开发与研制[J].天津理工学院学报. 

1998(01)

[4]  杨旭峰,李俊温.  力量型项目优秀运动员体能数据库的构建研究[J].武术研究. 2016(11)

[5]  梁园. 基于篮球运动员的体能测试数据系统开发[J]. 自动化与仪器仪表. 2016(09)

[6]  饶正婵,蒲天银.  云计算条件下的大数据挖掘内涵及解决方案[J].电子技术与软件工程. 

2018(13)

[7]  王军,赵颖珺.  基于数据挖掘的统计思维及程序设计人才的培养[J].计算机时代. 

2018(09)

[8]  刘丹妮,王颖,周丹. 气象数据挖掘与可视化——展现数据之美[J]. 浙江气象. 2018(03)

[9]  梁园.浅析数据挖掘在审计中的应用[J].  现代经济信息. 2017(22)

[10] 冯丽慧.  云计算和挖掘服务融合下的大数据挖掘体系架构设计及应用[J].电脑编程技巧与维护. 2017(24)

[11] 胡斐.  数据挖掘在体育领域中的应用研究综述[J].科技创新导报. 2015(27)

[12] 黄谦,石勇.数据挖掘在体育训练指导中的应用研究[J].  广州体育学院学报. 2015(06)

[13] 成孟金,曹志宇. 数据挖掘在足球运动中的应用[J]. 微型机与应用. 2016(21)

[14] 李慧玲,林子.  数据仓库和数据挖掘在高校体育数据分析中的应用[J].广州体育学院学报. 2015(05)

[15] 姜达维,姜一鹏.  体育统计与数据挖掘:区别、联系与融合[J].天津体育学院学报. 2015(06)

[16] 刘骏.  数据挖掘在高校体育数据分析中的应用[J].嘉兴学院学报. 2015(06)

[17] 郝丽,刘乐平,王星. 数据挖掘(Data Mining)在体育统计中的应用[J]. 东华理工学院学报(社会科学版). 2014(02)

[18] 靳小雨,吕雅君,平越,张铁玲. 全国男子排球联赛参赛运动员体能测试项目设置分析 [J]. 中国体育科技. 2013(12)

[19] 杨双燕,赵水宁.  体育数据分析中数据挖掘技术的应用[J].浙江体育科学. 2013(04)

[20] 戴敏,唐树刚.  基于关联规则挖掘的运动员体能指标优化分析[J].天津理工学院学报. 

2011(03)

[21] Fayyad,Usama,Paul. Data mining and KDD. Promise and challenges[J]. Future 

Generation Computer System s,November,2016:99-115.

[22] Borisov,A. ,Chikalov,I. ,Eruhimov,V. ,& Tuv,E. Performance and scalability analysis of tree-based models in Large-Scale Data-Mining Problems[J]. International Technology Journal,2015,9(2),143.151.

[23] Smith,K. ,& Gupta,J. Neural networks in business:Techniques and applications[M]. PA: Idea Group Publishing,2002.

[24] 肖毅,张辉. 中国乒乓球队奥运攻关研究报告-基于人工神经网络的乒乓球比赛诊断模型研究[J]. 体育科研,2015,29(6):19-22.

[25] Pawlak Z. Rough sets:theoretical aspects of reasoning about data[M]. Boston:Kl     uwer Academic Publishers,1991:65.90.

[26] 王铁生,钟平. 2014年欧洲杯足球球队技战术能力评价的自组织特征映射神经网络模型的研究[J]. 广州体育学院,2015,3(81):64.66.

[27] 乔克满,欧阳为民,孙卫. 关联规则挖掘技术在体质指标分析中的应用研究[J]. 天津体育学院学报,2016,25(2):453.455.

[28] 孙卫,马德云,欧阳为民,等. 基于聚类的体质数据库中的知识发现[J]. 计算机与现代化,2018(9):58-60.

[29] 黄谦,石勇. 数据挖掘在体育训练指导中的应用研究[J]. 广州体育学院学报,2013,29(6):106-110.

[30] 于岱峰,钟亚平,于亚光. 基于数据挖掘技术在人体肌肉力量数据分析中的应用—以人体握力肌肉力量测试数据研究为例[J]. 体育科学,2014,30(2):70-74.

[31] 汪桂兰. 数据挖掘分类技术及其在击剑负荷分析中的应用[D]. 青岛:中国海洋大学,2016.

[32] 茅洁,梅焰. 灰色ART聚类分析法在竞技体育生化指标监控中的应用[J]. 武汉体育学院学报,2015,39(10):56-58.

[33] 孙萌. 基于Web 和数据仓库的运动训练辅助分析系统[J].天津体育学院学报,2016,21(6):543.546.

[34] 蒙晓净. 基于粗糙集的运动训练计划系统知识发现方法[J]. 计算机与现代化,2017(11):149-151.

[35] 孙久喜,张静静,阿英嘎. 决策树技术在体育教学质量评价中的应用研究[J]. 南京体育学院学报,2013,8(4):78-80.

[36] 李刚,刘丽,江正. 基于数据挖掘的考试成绩科学化管理[J]. 湖北民族学院学报(自然科学版),2017,25(4):478-480.

[37] 杨亚琴,张旻,夏雨. 数据挖掘技术在体育远程教育个性化服务中的应用研究[J]. 北京体育大学学报,2016,29(12):1614.1616.

[38] Dick,R. & Sack,A.L. NBA marketing directors’perceptions of effective marketing techniques:A longitude perspective[J]. International Sports Journal,2013,7(1):88-99.

[39] Audi,T. & A. Thompson. Oddsmakers in vegas play new sports role[J]. The Wall Street Journal,2007.

[40] 李为敏.大学生体质健康标准信息管理系统的设计与实现[[J].吉林体育学院学报.2017,

23(2):19-26.

[41] 何东.公共体育信息处理系统研究与开发[D].重庆大学.,2009,123.128.

[42] 张兴科,王浩.通过数据挖掘技术预测学生学习成绩[J].科技信息,2015,6(9):22-25.

[43] 梁协雄,雷汝焕,曹长修.现代数据挖掘技术研究进展[[J].重庆大学学报,,2014,27(3):

47-52.




推荐文章