论文网

基于数据挖掘的热点书目推荐系统研究

更新时间:2020-03-03 16:49:04点击:

基于数据挖掘的热点书目推荐系统研究

第一章 绪论

1.1研究背景与意义

1.1.1研究背景

在社会经济的快速增长下,人类社会的文明程度也越来越高,最显著的表现就是信息科技的发展给人们的生活也工作带来了诸多便利,并且不断推进人类社会文明更加繁荣。在信息社会环境下,移动终端设备的普及率极大提升,随着智能手机技术的发展,传统计算机终端涉及的互联网覆盖范围已经无法跟现阶段的网络覆盖规模相比较。就我国来看,互联网信息中心在2016年至2017年统计到的互联网覆盖范围已经超过60%,而部分发达地区的互联网覆盖面积则高达80%以上[1]。互联网经济随着移动终端的发展而重新被社会各界所重视,各种与互联网相关联的产业经济发展模式也逐渐增加,各种“互联网+”已经深入了人民群众的生活,为社会居民的工作生活带来了更高层次的体验。在诸多传统行业中,传统零售行业所受到的互联网冲击影响最大,根据有关部门研究分析表明,互联网经济模式给传统零售行业所带来的竞争影响促进了零售渠道的多元化发展,并且也提升了零售商家的服务能力,使得消费者的消费体验得到极大提升[2]。资本主义国家的原始积累与发展与我国经济模式发展的时间相比,西方国家要早将近半个世纪,因此其互联网经济模式的发展起步也较我国要早。其中美国在1995年就创建了亚马逊网络电子商务公司。但是由于我国近几年在改革开放政策的引导下,经济发展水平得到迅速提升,并且由于我国人口众多,市场规模具备较大的发展潜力,并且在西方国家电子商务发展模式的经验基础上,创建了具备中国社会与经济特色的电子商务平台,从而推进了我国电子商务行业的快速发展。电子商务的产品形式也在不断向多元化方向发展,已经不仅仅局限于有形产品的范围内。并且商品类型也从最初的原始出厂产品形式,逐渐将二手商品也纳入其中,近几年来已经有多个二手商品买卖平台相继成立,根据产品的类型分为具有不同产品特色的平台,极大活跃了市场交易模式,也提升了商业运营的层次,其中较为典型的平台由闲鱼网、瓜子网、链家网等。

综上所述,随着互联网经济的发展促使商品市场规模不断提升,人民群众的生活体验得到较大满足,但是随之而来也出现了商品信息量越来越蛮大的问题,消费者如何在这与日俱增的商品信息中快速筛选出符合自身消费需求的商品,是互联网经济在发展的过程中所必须面对的问题[3]。在这样的背景下,能够对互联网中的海量信息进行筛选的搜索引擎技术也得到了较快速的发展,为了能够提高互联网用户所获得的所需信息效率,并且提高信息内容的准确性,搜索引擎能够根据用户所提供的关键字来对信息进行整理筛选,将与用户关键词最匹配的内容呈现出来,同时根据相似程度进行排序,因此也诞生了诸多推送业务与搜索功能,使得用户能够在最短的时间内获取自己所需的信息内容[4]。开发这些功能的技术机构能够结合当下的热点信息来更快速的对数据进行有效处理,使得热点信息能够得到更广范围的传播,并且能够通过收集用户信息需求与用户信息阅览情况来进行用户需求分析,从而更加快捷的为用户提供信息服务。由于这样的商业模式是以用户需求为出发点,因此能够得到用户的认可,使得产品销售效率更加高效。

1.1.2研究意义

作为电子商务的重要组成部分,网上书城为人们提供了购买书籍的新渠道,并且相对于实体的书店而言,网上书城具有藏书丰富、价格实惠等方面的优势。所以,随着互联网的发展,网上书城也在快速的扩张和发展,出现了一系列的网上书城[4]。例如专业的书籍网络销售网站“当当网”以及提供书籍网络销售服务的亚马逊购物网等等。在我用户提供书籍信息咨询服务的同时,所要做的流程与网络销售具有较高的相似性,需要能够对书籍信息进行筛选排序后提供给用户,这就需要对用户的书籍信息需求进行有效掌握,根据用户的书籍需求信息来为用户推送其需求范围内的书籍,才能够提升用户的购买可能性。但是要根据书籍信息中的热点来进行推荐算法的研究具有较多不确定性,因为书籍热点信息与实时社会信息的性质不同,书籍具有一定程度的专业性与学术性,在进行排序的过程中更加复杂。通常网页信息排序的抓取是通过爬虫程序来实现的,这种简单的方式不能适用于具备专业知识的书籍,因为爬虫程序无法对书籍内的深层次内容进行理解[5]。较为典型的例子有,当书籍的叙述方式出现不同或者对于外文书籍的翻译出现不精确的情况时,会极大影响用户对该书籍的实际需求程度。由此可见,要实现对书籍进行筛选排序则需要克服更多的问题。在这样的情况下,本文通过网上书城的实际案例来对书籍排序与书目推荐流程进行研究,以期能够构建基于数据挖掘技术的书目推荐系统,使网上书城能够根据用户的实际需求来为用户推荐符合用户期望的书籍,从而提升网上书城的销售效率。

本文所研究的系统构建能够具备现实与理论两个方面的意义。由于本文所研究的系统是以解决当下网上书城在向用户推荐书目过程中所遇到的实际问题为目的,能够提升网上书城的图书销售效果,为用户提供更好的体验服务,具备较强的现实意义;同时,由于目前学术界还缺乏系统完善的将数据挖掘技术应用到具有目标需求针对的推荐算法中的理论研究,本文的研究能够为排序算法的延伸与拓展提供理论依据,具备一定程度的理论创新意义。

1.2国内外研究现状

1.2.1数据挖掘研究现状

从上个世纪开始人们开始关注于数据挖掘方面的研究,并且在不同的领域中也开始进行应用研究。特别是随着互联网的普及,相应的数据的不断累积,人们认识到数据中蕴含一定的规律,并且对于不同的数据之间具有一定的关联关系。目前大数据以及相关的数据挖掘技术已经成为一项新兴的技术在不同的商业领域得到应用。而对应的是企业方面也开始注意到大数据和数据挖掘技术应用的重要性,开始注重数据仓库的建设以及对应的数据分析。

张慧(2013)以数据挖掘技术应用在产品销售中,在数据挖掘的具体算法上使用聚类算法进行产品类型的聚类,而后采用回归分析的方法来对产品的销售进行预测,从而得到市场产品的需求分析结果以及产品类型的聚类,达到指导产品设计、生产和销售的目的[6]。宋建成(2012)则将数据挖掘的技术应用在产品的质量管理过程中,首先根据产品制造的流程和特点建立了产品生产流程模型,而后将关联规则挖掘的方法应用在产品制造过程的分析中,而后采用决策树算法对于生产过程进行分析,对于影响产品生产质量的因素进行分析,找出影响产品质量的主要因素,提出了对应的解决方案和措施[7]。潘昌霖(2013)则将数据挖掘技术应用在了医学领域中。病人在接受输血的过程中其各项生命体征都会发生对应的变化,而这些变化在病理上的解释存在困难或者过于复杂,针对这一现象潘昌霖将输血的数量作为输入条件,生命体征的变化作为输出,采用数据挖掘的方法进行了分析建立了基于神经网络的预测模型。并且对于所建立的基于神经网络的预测模型进行了试用,其结果显示,所建立的预测模型其准确率可以达到85%以上的准确率,即由85%以上的病人可以通过该模型的预测直接得到输血后的生命体征变化过程,通过在此基础上采用对应的医疗措施来降低病人在手术过程中的危险[8]。田慧(2013)则将数据挖掘的技术应用在了汽车销售的领域中,首先在其研究中指出了汽车销售领域中的利润构成,指出在汽车生产厂商给定了指导售价和供应价格的基础上,汽车销售行业的主要利润来自于增值服务,即客户对于产品的个性化定制等等。而数据挖掘可以通过以往销售数据来进行客户需求的预测。在具体的方法上采用了k均值算法挖掘了汽车销售过程中的规律,而后对潜在的客户类型进行分析,对客户的需求进行预测。从而为汽车销售企业的决策者提供建议,在制定产品的价格和产品组合策略时辅助决策[9]。杨晓(2014)则对于公安刑侦方面的数据开展了数据挖掘研究。在具体的研究过程中,采用了聚类分析的方法对于不同案件的卷宗进行分类,并且根据对应的特点进行分类。其次采用关联规则挖掘的方法对于蕴含在卷宗中的信息进行了关联信息发掘,得到不同类型案件中相关联的信息以及犯罪分子作案时的行为规律。从而加速了案件侦破的速度[10]。

国外关于数据挖掘应用的研究,相对于国内的研究而言,与互联网的结合更加紧密。Themis Palpanas和Mikalai Tsytsarau应用于网络信息的检索和优化处理上,对于一些论文和网购网站的评论信息进行数据挖掘,实现了对于评论的筛选功能,通过对相关评论信息的筛选获得对应的文本,并根据文本中的词汇出现频率的特征来实现对于关键词的筛选,结合知识管理方面的理论实现对于平理论主题的筛选与分类,最终在海量的评论意见中保留具有价值的评论信息提供给决策者参考[11]。Saurabh Pal与Brijesh Kumar Baradwaj则对于高校的教育现状进行了数据挖掘,通过对于高校中学生在网络上主要搜索的关键内容进行分类和分析,了解当下学生关于重点的社会问题和关心的学习知识,从而制定对应的教学方案和教学内容,使得学生在学习过程中更加容易接受讲授的内容[12]。Martin Kulldorff等人通过研究将数据挖掘算法应用到药品检测过程中,能够在新药上市前对其存在的不可预见性风险因素进行筛查,使得药品在上市后不会出现在药检过程中从未出现的不良反应,使得新上市药品的安全性得到较大程度提升[13]。

对于数据挖掘的应用研究中,目前主要是根据已经较为成熟的数据挖掘方法应用在不同的领域中,其研究的核心都是根据研究对象不同根据其也核心业务流程或是目的需求采用对于的聚合、分类、预测和关联分析的方式实现对应的数据挖掘目的,从而优化其流程。在研究范围上所涵盖的范围较广,但是针对商业银行为对象的客户营销应用研究还相对较少。

1.2.2推荐系统研究现状

企业在发展过程中在一定程度上都会借鉴行业中的成功经验来减少企业发展过程中所付出的成本,在产品开发的过程中也是如此,这样就导致了市场上产品同质化的情况发生。随着市场经济替代计划经济成为我国经济发展的主要模式后,企业都希望能够通过塑造自身独特的核心价值来在同质化现象越发严重的市场中的提升竞争力,通过给用户带来的差异化体验来彰显自身的价值。在这样的市场趋势下,具有针对性的电子商务推荐系统则能够为用户在海量的商品信息中,筛选出最符合用户需求的产品,从而获得用户的认可[14]。美国最大的电子商务公司“亚马逊”在开发并应用了独特的用户商品推荐系统后,成功的提升了实际销售,我国国内最先采用类似的定制化推荐系统智能手机应用为“头条”新闻,其能够通过用户的信息阅读习惯来对用户感兴趣的信息内容进行分析,从而完成为用户定制个性化信息推送,通过对用户信息需求的满足还获取用户的信任度与忠诚度[15]。要构建一个信息推送系统,需要具备三个方面的功能,分别是对用户信息阅读内容进行采集,然后对这些采集到的信息类型进行分析,最后根据这些信息类型来为用户推送相同类型的信息内容,并根据信息与用户喜欢的程度来进行分类排序。对用户阅读信息喜欢的分析以及对定制个性化信息内容的推送都需要建立在能对用户信息进行采集的基础上来完成[16]。

现阶段的推荐系统能够划分为三大类,该类型的划分主要是根据具体的类型来完成的,通常分为组合推荐、内容推荐与协同推荐[17]。在产品的特征基础上来对其进行详细的说明,使得用户能够对该产品的特性进行深入了解的推荐类型为内容推荐,Ralitsa Angelova(1993)通过研究创建了TF-IDF来对文本中的关键词进行处理,在数据特征的量化基础上实现对文本关键信息内容的描述分析[18]。Jack G.Conrad(2005)通过研究创建了书目分析推送模型,其通过TF-IDF来实现对不同书目的文本信息进行处理,使得能够将书目中的关键信息进行提取与推荐。但是该方法存在的不足是不能根据用户的消费习惯和书籍偏好进行个性化推荐,并且对于除了书籍以外的产品进行分类的时候显得不足[19]。Grouplens(2004)通过研究将不同类别的商品之间通过信息整理分析,构建了能够进行整合个性推荐的协同过滤算法,使得不同类型的商品信息能够实现协同推送。该方法的核心思想是通过数据挖掘的方法来实现的,在实施步骤上首先是对不同类型的客户进行分类,而后通过客户的相似度计算作为客户购买商品的预测评分依据,从而确定客户购买该商品的几率,根据购买的几率进行个性化推荐和排序。在此后的研究中,对于协同过滤信息处理的研究与应用成果越来越丰富,在理论与实践方面都取得了较大程度的发展[20]。Ku L W(2010年)等在其研究中指出,在进行协同信息处理的过程中,能够将不同细分类型的协同方式来对信息处理准确度进行提升,以用户为对象来进行协同信息分类,并且在此过程中加入消费协同信息,再通过共同聚类分析来对结果进行计算,经过试验证明能够提升较大程度的精准率[21]。Linden(2013)的研究则更加重视协同项目在实际商业中的应用,其对信息协同推荐系统进行研究与构建后,将该系统运用到亚马逊网站上进行实际测试,通过一段时间的用户使用与反馈后的信息表明,该系统能够有效提升客户的网上购物体验,极大提升客户的购物效率,为客户带来了较好的体验[22]。我国学者周涛等(2013)通过研究对与聚类分析方法相似的分析计算方法进行了深入研究,并在研究基础上建立一套以二部图为基础的运算模式,其比单一的协同计算分析方法具有更高的计算效率,并且其对于用户的需求把握精确程度也比单一协同计算所获得的结果要高[23]。Kaiypis G(2015)在其研究过程中,通过神经网络技术来对大量信息进行处理,运用类型较为相似的方式来对实现对具备相似度的数据进行处理与分析,并在整个基础上对相应的模型进行构建,而后通过模型来进行大量训练。最后的结果表明,虽然方法的类型不同,但是都能够得到较好的结果,并且在获取结果的过程中所展现的优势也各不相同。其中聚类分析需要建立在具备完善的用户分类模型上才能够对特征向量的特征进行构建,而神经网络分析会在数据信息量提升的过程中,为保证计算的精确性而降低运算效率[24]。

Gibbs Sampling(2016)在其研究中对各种推荐算法的计算效率与计算精度进行了较为深入的研究,通过对比法得出的研究结果表明,虽然推荐算法的类型较多,但是其核心在于运用训练的方式来对规模较大的数据信息进行分析与判断,对算法效率造成直接影响的因素通常为数据信息量的大小,同时数据信息量的大小也会对运算结果的精确程度具有直接影响[25]。在这样的情况下Gibbs Sampling表明,在将推荐算法结合到实践案例时,需要通过较为初级的分类对样本空间进行划分,以提升运算的效率。Sarwar•B(2016)在夹角余弦相似性计算方法的基础上,加入了协同推荐算法并进行实际验证后表示,与协同过滤运算结合的夹角余弦运算在经过修正后所得到的推荐结果更加准确,由此可见组合式的推荐算法能够对不同类型的商品进行准确推荐[26]。Claypool M(2010)在对推荐算法与其他算法进行结合的综合算法进行研究后指出,推荐算法所得到的最优结果不是具有单一性的推荐内容,需要根据优先级别来对推荐算法获得的结果进行优先级的排序,这样的综合性结果才能够具备更加具有价值的实用性[27]。该方法由于对结果的专一性没有过多要求,因此需要制定对应的标准来对结果进行融合区分。

1.3研究方法与研究内容

1.3.1研究方法

本文的研究中拟引入基于TF-IDF特征量赋权的文本分析方法以及基于k-means聚类的偏好预测方法对书目的个性化推荐研究。相对于以往的研究而言,本文的研究存在两点创新:

(1)本文所提方法对于书目的内容进行了更加准确的特征描述

以往的研究中大多根据书名和摘要对于书目进行分类,这种方式虽然较为快速和便捷,但是不能体现书目的准确主题。将TF-IDF特征量赋权方法引入后可以对书籍的内容进行特征量的提取,使得书籍内容的主题描述更加准确,同时也为后续的个性化推荐奠定了坚实基础。

(2)本文所提方法实现了推荐程度的定量分析

本文在传统聚类分析的基础上,采用相似度计算的方法将推荐程度进行了定量的分析。因此可以将预测偏好程度进行量化的排序,按照排序结果优先推荐。这种模式也将大幅提高推荐的准确程度,特备是在推荐数量有限的情况下,本文所提推荐方法的优势显得更加明显。

在研究过程分为两个步骤。分别论述如下:

(1)基于TF-IDF特征量赋权的文本分析

要实现书目的个性化推荐首先则是要将书目的内容进行有效的辨识,因此需要选择恰当的方法将书本的文本内容表示为计算机容易辨识和度量的特征向量。TF-IDF特征量赋权方法则可以根据书目中关键词的出现频率进行赋权操作,从而将书目转化为不同“关键词+权重系数”的特征量表示。

(2)基于k-means聚类的偏好预测

数据挖掘提供了行为预测的一系列方法,本文采用k-means聚类方法对书目进行聚类,而后根据用户对于自身历史书目购买和评价的情况寻找对应的聚类,从而实现发现用户对于书目的偏好。并且通过相似度计算的方法来进行偏好程度的排序,以排序结果为依据将书目推送给用户。

1.3.2研究内容

本文的总体架构通过以下几个部分来构建,主要涉及到与之对应的理论与算法,并且通过设计系统来对实际案例所需的结果进行获取:

本文的第一章为绪论,介绍了本文研究的背景与研究意义。指出当前互联网高速发展的背景下,不同的行业和产业都在进行互联网+的融合发展。从图书销售行业来看,由于电子商务的快速发展,使得其也必须通过电子商务来对业务进行拓展。我国现阶段在书籍信息推荐技术方面所取得的商业成效较小,从西方发达国家的经验来看,构建书籍信息推荐系统能够有效提升书籍销售额。因此构建符合用户需求的书籍信息推荐系统具有重要的现实意义。

第二章的主要目的是对与本文相关的理论与算法进行概述,主要对排序算法以及其架构进行了描述,随后对现阶段开发的各种推荐算法进行了分类概括,其中重点介绍了数据挖掘算法与神经网络算法。

第三章为个性化热点书目排序算法的设计。在这一章的研究中可以划分为两个小部分。第一是个性化推荐算法的要求,第二则是在构建个性化推荐系统时的数据库设计。从算法的实现以及算法的优化两个方面提出了对应的解决方案。

第四章为实验与分析部分。主要根据现实案例与本文设计的推荐系统进行结合,通过实际的实验结果来对该系统运作的流程进行分析,并对数据处理与分析结果进行了研究。

第五章为本文的结尾部分,通过对本文的研究结果进行客观公正的评价,来对其存在的不足进行指出,并对其在未来的应用与完善过程中所需要面临的问题进行了提出,最后对其未来发展方向进行了展望。

 


第二章 相关理论与方法简介

2.1排序模式

在产品销售的过程中,通过排序能够提升产品的信息推广程度,从而让潜在用户能够在较短的时间内对自己需求的信息内容或产品进行确定。当互联网发展到一定程度后,必须要通过信息排序来对大规模的数据信息进行筛选处理,其中最为典型的就是网页搜索引擎,由于大量的网址都是需要输入其URL进行访问,而用户要找到对应的信息在大量信息充斥的互联网环境下就显得非常困难。于是出现了搜索引擎,其能够合理利用客户提供的关键词来在海量的信息中对于关键词匹配的信息进行筛选与提取,并根据算法优先级来对信息内容进行排序[28]。网页搜素引擎的运行原理在于对网页中所包含的关键词的使用频率与内外部连接因素等进行处理后,按照优先级的标准进行排序,从而能够使用户在使用搜索引擎的过程中,较高效的对需要了解的信息内容进行获取。搜索引擎最常用到的排序方法为pagerank,其能够进行rank值的计算并以此为排序的依据。

在电子商务平台上对各种不同类型的商品进行排序的复杂程度与互联网页面的搜索引擎相比,具有较高的难度,由于各种不同商品对应的用户需求以及满足用户的精神情感体验方面都存在较为显著的差异,并且商品的价格也是影响消费者购买决策的重要因素。在这样的情况下,电子商务要实现排序则需要更多的步骤,目前其排序根据商品属性的数量来进行划分,即单一属性商品与多重属性商品的排序。前者主要针对商品的某一项单项属性来进行排序,在进行排序的过程中都会将该种或多种属性进行量化来进行[29]。而后者则需要根据商品的综合信息来进行排序,根据加权算法所获得的结果来实现商品排序,并且在排序过程中的分类也较多,如以消费者喜好进行的排序以及以该商品综合评价进行的排序等,由于排序类型的不同所涉及到的商品排序结果就具有较大程度的差异,也对排序算法造成直接影响。图2-1展示了电子商务排序模式的各种类型[30]:

 

图2-1 排序模式分类

1、单一排序。主要针对商品的某一项单项属性来进行排序,在进行排序的过程中都会将该种或多种属性进行量化来进行。较常涉及的商品因素有价格、购买率、好评率等。图2-2展示了其排序模型的架构。

 

图2-2 单一属性排序模式

根据上图所示,T表示需要进行推荐的商品类,C1到Cn表示在排序过程中能够运用的因素。通过对这些商品因素的量化来建立对应的排序标准,并且将最终的结果呈现出来,即Rank1~Rankn[31]。

2、综合排序。根据商品的综合信息来进行排序,根据加权算法所获得的结果来实现商品排序。图2-3展示了其排序模型的架构。

 

图2-3多属性综合排序

根据上图所示,根据加权算法所获得的结果来实现商品排序,由于排序类型的不同所涉及到的商品排序结果就具有较大程度的差异,所形成的综合排序rank值使得排序的类型也较多[32]。

2.2数据挖掘技术

2.2.1数据挖掘简介

本文将数据挖掘的思想应用于教育领域,将特征聚类思想应用于分组教学的执行过程中,是目前数据挖掘应用领域中较少涉及的。数据挖掘是对数据进行深度分析处理的一种方式,其需要在大规模数据的基础上来实现对指定数据信息内容的收集与处理,通过统计技术与数学方式来实现具体的数据处理流程[33],数据挖掘能够对数据进行深层次分析处理,能够对数据信息的潜在意义与价值进行探寻,在计算机技术不断发展的趋势下,数据处理技术与数据统计分析能力得到不断提升,从而使得数据挖掘的效率不断提升。

国外关于数据挖掘应用的研究,相对于国内的研究而言,与互联网的结合更加紧密[34]。Themis Palpanas和Mikalai Tsytsarau应用于网络信息的检索和优化处理上,对于一些论文和网购网站的评论信息进行数据挖掘,实现了对于评论的筛选功能,通过对相关评论信息的筛选获得对应的文本,并根据文本中的词汇出现频率的特征来实现对于关键词的筛选,结合知识管理方面的理论实现对于平理论主题的筛选与分类,最终在海量的评论意见中保留具有价值的评论信息提供给决策者参考[35]。Saurabh Pal与Brijesh Kumar Baradwaj则对于高校的教育现状进行了数据挖掘,通过对于高校中学生在网络上主要搜索的关键内容进行分类和分析,了解当下学生关于重点的社会问题和关心的学习知识,从而制定对应的教学方案和教学内容,使得学生在学习过程中更加容易接受讲授的内容[36]。Martin Kulldorff等人通过研究将数据挖掘算法应用到药品检测过程中,能够在新药上市前对其存在的不可预见性风险因素进行筛查,使得药品在上市后不会出现在药检过程中从未出现的不良反应,使得新上市药品的安全性得到较大程度提升。

对于数据挖掘的应用研究中,目前主要是根据已经较为成熟的数据挖掘方法应用在不同的领域中,其研究的核心都是根据研究对象不同,根据其核心业务流程或是目的需求采用对于的聚合、分类、预测和关联分析的方式实现对应的数据挖掘目的,从而优化其流程。在研究范围上所涵盖的范围较广,但是在教育领域,针对以学习者个体的心理指标征作为数据挖掘的研究还相对较少,本文试图在这一领域进行一些有意义的研究和探讨。

2.2.2数据挖掘一般步骤

不同行业在运用数据挖掘来处理与之相关的信息时具有不同程度的差异,因为行业之间所在的特异性使得数据挖掘技术的实现环节也具有差别[38]。对数据挖掘具有直接或间接影响的因素还包括进行数据挖掘的专业人员素质与数据的规模以及其有效程度,这些因素使得数据挖掘在不同行业中的特性与表现都各有不同,并且在相同行业中也会因为产品类型与特性的不同而导致数据挖掘流程的不同。在这样的情况下,构建符合行业特性的数据挖掘流程则显得尤为重要。根据不同行业特性来将数据挖掘的能力进行最大化体现[39]:

1、确定挖掘目的。在进行数据信息挖掘前必须对需要达到的目的进行明确,并且以目的为则准设定挖掘标准,在进行规划的过程中对入手点以及数据类型进行确定,以便在进行实际挖掘的过程中对出现的问题进行解决。

2、数据准备。在进行数据准备的过程中需要对数据类型与数据种类进行选择,并且对完成对数据的清洗与集成,在通过数据转换来将数据格式进行统一,使得整个数据挖掘过程能够具备较高的效率。

3、构建数据挖掘模型。在前期规划的标准与基础上,对适合的算法进行选择与组合,形成具备对信息进行分析处理能力的模型。

4、进行数据挖掘。数据信息进行初步筛选后,运用挖掘模型对处理好的信息进行挖掘,该部分工作主要由计算机来完成,工作人员只需在挖掘前制定具体的算法即可。

5、对挖掘结果进行分析。完成数据挖掘后需要对数据结果进行深入分析与研究,使得其结果能够符合挖掘目标的需求。在具体的评估方法下进行数据评估。

6、对结果进行应用。经过评估处理后的有效数据能够辅助工作人员对某项应用提供决策依据,在实践中对数据挖掘结果进行再次验证,并且在为今后的数据挖掘分析积累经验。

2.3个性化推荐算法分类

上一节对目前电子商务中的排序模式进行介绍,指出“单一排序”、“综合排序”是两种基本的排序模式。而以商品为中心的排序以及以用户的排序是综合排序的两个发展方向。由于本文研究的对象是针对热门书目的排序,而书籍在销售和使用环节中所涉及的属性较多,例如书籍的价格、书籍的内容等等。而且影响人们购买书籍的因素多种多样,这些因素都具有较大程度的不确定性。较为典型的例子为理工科的学术类书籍对于普通大众的吸引力非常低,就算该书籍在学术界中具有较高的地位,也无法吸引普通民众来购买。由此可见,能够较大范围的吸引大众从而提升销售额的书籍必须要符合大众趣味,在进行书籍推荐排序的过程中需要充分考虑到受众的需求所在。本文对目前的个性化推荐算法进行总结,其结果如下表2-1所示[40]:

表2-1个性化推荐算法分类

序号 算法类型 优缺点

1 内容推荐 该推荐方法主要依赖于客户对于产品的评价进行推荐。其不足在于,缺少评论时对于内容的判断存在不准确的情况。常用的方法为神经网络法

2 协同过滤推荐 根据大量的数据样本进行训练得到客户的分类标准。对于任意用户首先对其进行分类,而后根据该类型用户的预测模型对于商品进行预测评分排序。其优点在于预测的准确率相对较高。但是该方法依赖于大量的数据样本作为训练基础。

3 关联规则推荐 对客户的购买行为进行分析,得到客户在购买商品之间的关联特性。在前置条件已知的情况下向客户推荐后续可能会购买的商品。其优点在于算法实施简单,容易理解,其缺点在于需要大量的数据作为训练样本,并且在进行推荐时需要有对应的前项条件。

4 效用推荐 根据客户在使用商品时的体验建立对应的效用模型。在搜集和效用相关的数据时不仅需要线上的评论信息,还需要通过相关的访谈来逐渐完善效用模型。因此目前在实际应用中较少。

5 知识推荐 被看作是一种推理(推理)的技术,通过推理得到能满足用户需求的相应产品。

从上表内容能够对推荐侧重点不同的推荐算法的特性进行明确,由上表的分析能够看出,效用推荐与知识推荐所能够提供的体验程度最低,因此无法成为热点书目的推荐选择。关联规则推荐也不符合普通用户的购买行为模式。综合来看,内容推荐与协同过滤算法最能够符合用户的个性化体验需求,本文也是以此算法为主要研究内容来开展对整个热点书目推荐系统的构建。

2.4基于内容的推荐

内容推荐主要通过用户的历史购买商品信息来对用户的购买习惯进行模型构建,从而实现为用户推荐符合其需求的商品。该算法通过对用户购买产品信息进行收集,以及对用户的购买习惯分析后得出用户的购买喜好,从而实现推荐。其具体如下图2-4所示:

 

图2-4内容推荐算法原理

通过上图能够看出,内容推荐算法的构成主要是通过三个方面的内容来实现,首先需要对商品信息进行收集与处理,然后对计算模型进行构建,最后生成为客户定制的推荐内容。在第一个环节中,需要对产品的描述模型进行构建,需要根据用户的购买习惯来进行明确,通过对用户购买商品的信息收集能够实现[42]。在具备完善成熟的用户购买倾向模型后,就能够以此为标准为用户推荐符合其需求与喜好的商品。通常推荐内容的形成受到用户喜好模型标准的客观影响,较为典型的情况如通过聚类分析法构建的用户喜好模型在计算过程中,主要为用户购买产品喜好的特征向量相似度来进行推荐产品的排序与生成。在运用神经网络法进行用户喜好模型在计算过程中,主要依靠预测模型的作用来实现对用户喜好产品的预测并根据优先级进行排序。下面会根据产品表示、喜欢学习以及生成推荐的侧重点来对具体的流程进行分析。


2.4.1产品表示

在进行内容推荐的初期必须完成对于产品的表示,使得产品的特征与性质能够通过量化标准进行表现。有了产品表示后才能够对用户的产品需求标准进行建立,并且对产品自身特性进行分类。书籍产品的表示因素主要有书籍的种类、知识内容、价格以及外部装帧等,用量化的形式对这些因素进行描述能够有利于数据分析。由于书籍内容中的文本具有多种含义,因此需要文本分析方法来完善对于书籍产品的表示,这样书籍产品既能够具备量化标准,也能够通过文本分析来对其产品所具备的独特特性进行补充。

2.4.2喜好学习

喜好学习需要对用户的历史够购买商品信息进行收集,根据这些信息内容来对用户的喜好内容进行客观分析,以对用户的消费方向进行预测。现阶段所采用的方法主要为KNN算法、Richio算法。

KNN算法也成为邻近算法,该算法能够下用户历史购买产品信息的基础上,对用户潜在购买商品与历史购买商品之间的相似度进行分析,并且做出科学合理的判断,在获取用户历史商品信息的同时构建商品特征向量,从而使得商品特征能够被描述,然后通过训练获取用户消费喜好模型[44]。

Rocchio算法具备较高的相关反馈效率,能够在规模较大的数据信息中对检索行为进行有效支持。Rocchio算法能够高效处理二分分类问题,而二分分类问题则对消费者对于商品内容的选择具有较大程度的影响。

2.4.3生成推荐

Profile Learning所采用的算法主要为决策树算法以及KNN算法,这两种算法都属于分类模型的范畴,因此通过分类来将用户潜在喜好商品推荐给用户。Profile Learning如果采用学习类型算法就要重点关注用户自身特性与产品特性之间存在的关系,将与用户特性最为接近的产品推荐给用户。

2.5协同过滤推荐算法

协同推荐的原理与内容推荐较为类似,主要通过预测的方式,结合用户的历史购买喜好来为用户推荐潜在喜好商品。协同推荐的实现流程与内容推荐相比也具有一致性,主要为对用户历史购买商品信息的分析评价,与计算商品相似度。

2.5.1已购买物品的评价矩阵建立

首先对用户历史购买商品讯息进行收集并进行评价,在此基础上构建特征向量,能够对不同用户的购买喜好与评价进行处理,并将其映射为特征向量内的一部分。假设在系统中评价的用户人数为M,潜在推荐产品的数量为N,则能够通过建立M*N维的矩阵来表示所有用户对于所有产品的评价结果,每位用户针对每个产品都能够建立对应的评价向量[45]。

其次,需要对评价向量进行赋值处理,能够直接赋值的为用户历史过程中实现购买并完成评价的产品,较为典型的评价标准为用户对于产品购买使用的好、中、差三种评价标准,以积分的形式表示则为好评2、中评1、差评-2,其中0表示用户未曾购买体验过程的产品。

最后,需要对用户的潜在购买商品进行预测,在大规模数据基础上建立用户群体评价向量,在此过程中对于没有在历史购买行为中涉及到的产品评价用0表示,通过已经存在的产品购买与评价信息能够将多个用户进行类型归纳,较为典型的表现为多个用户在购买过程中对于k个产品的购买评价具有相似性,就能够预测该类型分组的用户对于k+1个产品具有相同的潜在购买意愿或评价趋向。由此可见,通过信息处理过程中生成的向量思想度结果,对具备相同潜在购买意愿的用户进行确定,同时对该分组用户的产品需求与购买喜好进行明确。

2.5.2基于相似度计算的推荐生成

在进行不同向量之间的相似度计算时一般采用的方法有三种,即余弦相似度、修正的余弦相似度和相关相似度。其计算公式如下式2-1所示[46]:

              (2-1)

其中 、 分别为样本客户i和样本客户j的特征向量, 为客户i和客户j之间的相似度,其大小为两个向量的夹角余弦公式计算结果, 为向量 、 之间的点积, 、 分别为向量 、 的模。在计算得到客户i和客户j在消费上的相似度以后,进行排序。在对商品的消费行为预测上则可以采用与目标客户消费行为较为相似的客户来预测目标客户在消费上的趋势。可以表示成如下图2-5所示的形式[47]。

 

图2-5 协同推荐相似度计算

根据上图能够看出,用户i与用户j在对产品的选择上,前k个产品的购买与评价都较为一致,并且一致程度越高的情况下,能够保证其对于k+1个产品的选择上也会很大概率趋于一致。通过式2-1来对其历史购买产品评价向量的相似度进行计算,如果所得结果的相似度较高,那么在对潜在商品购买意愿上的相似度也较高。如果用户i与用户j的潜在购买产品面得到拓展后,还能够帮助其他用户建立相关的预测分析依据。

2.6本章小结

本章对于本文研究所涉及的关键理论方法进行了介绍和简要分析。对于目前常见的个性化推荐方法进行了罗列,并对比了不同类型的推荐方法,指出了包含内容推荐、协同过滤、关联规则推荐、效用推荐以及知识推荐在内的不同方法的优势和劣势。并且重点对比了内容推荐以及协同过滤推荐两种方法的原理以及实施流程。最终考虑到本次研究内容即书目推荐功能的实现诉求以及获取数据的范围,最终选择采用内容推荐来进行实现。



 

第三章 书目评价数据的预处理

3.1个性化推荐排序的应用模式

本文所研究与构建的热点书目推荐系统将会运用协同过滤算法来实现,在整个过程中需要重点考虑的环节在于对协同算法预测准确度的提升,为达到该目的将采用聚类分析法来对原有的KNN算法进行替代。以往通过协同过滤算法来进行预测时,所采用的主要算法为相邻客户算法,其原理在于根据用户群体的消费信息分析,来将消费行为相似的用户分类,用以对后续消费喜好进行预测。运用该算法来构建热点书目推荐系统将会面临显著问题,其一是KNN算法具备较大程度的随机性,但是在对相似的相邻用户进行分类的过程中,其参考值为相似程度最高的用户向量,KNN算法所获得的结果则是以该类用户的平均选择为参数,使得判定结果的精确程度较低。其二是该系统所涉及到的用户数量以及产品数量规模较大时,要对相似度进行精算都需要通过较大的运算量来支持,但是热点书目推荐系统要求具备较高的效率,能够在尽量短的时间内为用户推荐符合其潜在购买意愿的书籍,因此需要通过以用户消费行为的聚类分析模型来进行用户群体消费习惯分析,使得预测精确度与预测效率两个方面能够得到均衡。

图3-1展示了本文研究设计的热点书目推荐系统中排序算法的架构,第一阶段需要对评价向量进行构建,主要通过用户对于商品的评价信息来获取;第二阶段需要对典型评价特征向量进行获取,主要通过聚类分析方法来获取。同时本文对于预测准确率的要求较高,因此需要对典型评价特征向量的空缺进行弥补;第三阶段需要对用户的潜在购买意愿进行预测,主要通过相似度计算的方式来实现,在将用户与典型特征向量进行相似度比较来对结果进行明确,最终成为进行热点书目推荐排序的依据。




 图3-1 热点书目推荐系统中排序算法的架构

根据上图能够看到,在进行书目排序推荐的过程中能够采用两种结构来共同实现,两种分支的特点主要为用户侧的分类与产品相似度计算,在以往历史购买记录信息的基础上进行预测。整体流程结构具体表现为:

1、用户对不同产品的预测评分。在进行预测评分前需要根据用户的购买意愿喜好来对用户进行分类,然后预测根据不同用户群体对不同产品的评价,对不同用户群体的潜在消费意愿记性分析,通过评分形式来将其量化处理。具体流程如图3-2所示:

 

图3-2 客户对任意商品的打分预测模型

实际结构流程主要表现为:(1)对用户历史购买产品信息的评价向量进行构建;(2)实现针对该评价向量的聚类分析,建立用户消费模式矩阵,对不同类型用户的消费评价预测矩阵进行明确。(3)运用估值方法来对矩阵中的用户购买空缺,即“0”元素进行补充。

2、计算产品的相似度。通过该阶段的分析计算能够对符合用户潜在购买意愿的产品类型进行明确,对具备相似度的产品进行集合。图3-3展示具体实现流程架构:

 

图3-3 相似商品寻找

实际结构流程主要表现为:(1)通过书目内容介绍来对书籍特征向量进行搜集,建立与之对应的产品特征描述,该阶段主要运用TF-IDF特异性计算公式来完成书籍特征向量的构建。(2)在用户历史购买数据的基础上,按照相似度计算方法对产品相似度排序进行生成。

3、根据商品相似度排序以及客户对这些商品的打分预测进行排序,得到最后的个性化综合排序结果。

3.2产品评价的向量表示

3.2.1确定分析窗口

要运用数据挖掘方法需要对数据样本范围进行明确,主要对数据的类型以及数据的时间区间进行明确。在对这些条件因素进行确定后,能够有效提升数据挖掘的科学有效性与合理性。对需要处理的数据进行时间窗口采集分析,即对具体时间段的数据进行分析则是分析窗口的确定。对该窗口进行确定的标准是需要对持续时间段内的数据进行选定,本文所采用的筛选标准主要有以下几条:(1)2017年5月为用户注册数据统计的开始时间节点。(2)对于信息登录不完整的用户信息不予以采用。(3)对于超过两月以上为登录网上平台的用户信息不予以采用,由此能够保证数据挖掘具备较高的时效性。

3.2.2客户购买行为的抽象表示

根据本文研究规划目的所需的挖掘数据结果,对数据挖掘的样本数据进行明确,具体内容如表3-1所示:

表3-1 用户基础信息

序号 字段名称 字段说明

1 ACC_ID 账户账号

2 USER_NAME 用户姓名

3 USER_ID 身份证号码

4 GENDER 性别

5 AGE 年龄

6 PHONE_NO 电话号码

7 VIP 是否开通VIP服务

上表3-1为客户的基本信息,包含客户的基础信息,并以账户ID来作为识别的标识。


表3-2书目评价历史信息

序号 字段名称 字段说明

1 ACC_ID 购书账号

2 BOOK_ID 书目ID

3 BOOK_COM 书目评价


因此可以采用矩阵的形式对于任意用户关于任意一本书的评价进行记录,另总共有m个客户以及n本不同的书籍,那么任意客户对于任意一本书的评价记录进行矩阵形式的描述则可以表示成如下式3-1所示:

                    (3-1)

其中P为评价记录矩阵。其中 表示第m个客户对第n本书的评价。而任意一个客户对于所有书籍的评价,则可以表示成为一个n维的向量,其形式如下式3-2所示:

                   (3-2)

其中每一个元素都对应客户i对应于不同书籍的评价,例如 则可以描述客户i对于书籍j的评价。其具体的取值上,根据客户对于书籍的切实评价给出,而对于没有购买过或者没有评价的书籍按照默认评价进行取值为1。

                   (3-3)

通过以上两个步骤的处理则可以通过矩阵的形式来描述任意人对于任意产品的评价,该评价向量的维度对于书籍的编号数量。


3.3基于TF-IDF的关键词提取

以往的研究中大多根据书名和摘要对于书目进行分类,这种方式虽然较为快速和便捷,但是不能体现书目的准确主题。将TF-IDF特征量赋权方法引入后可以对书籍的内容进行特征量的提取,使得书籍内容的主题描述更加准确,同时也为后续的个性化推荐奠定了坚实基础。

3.3.1关键词提取的原因

由上文分析可知,根据用户的评价能够对与之对应的评价向量进行构建,但通过该向量来对潜在消费意愿预测具有一定难度,主要困难之处在于:

首先,要实现预测分析就需要建立在具备大量数据的基础上,这些数据在更新与维护上都具备较大的难度,而且书籍的种类也较为复杂,增加一个新的书籍信息就需要对整个对应评价向量进行更新,会带来较大的数据维护难度。

其次,书籍在观点内容上都缺乏独一性,不同书籍中存在相同观点与内容的情况较为普遍,使得聚类预测在建立评价向量上具有难度。较为典型的例子有,不同版本的“高等语文”其内容表述具有较强的相似性。如果运用书籍编号来将此两本书编为a与b,则矩阵P中第a列的列向量与b列的列向量具有较强的相似性。而这样的矩阵分析对于预测用户购买喜好没有任何意义,并且会对储存空间与预测分析效率造成直接影响。

综上所述,本文需要通过书籍关键词来进行类别划分,并且结合用户对于书籍的评价情况进行用户评价整合,对P矩阵的维度进行优化。

3.3.2基于TF-IDF的书目的关键词提取

由于书目在网上书店进行介绍时都有相应的文本介绍,因此采用特征向量对书目进行描述时可以采用文本特征项提取的方式来进行。并以此为依据开展书籍产品的相似度计算。在对书目进行推荐时其具体步骤如下所述:

1、对书籍内容介绍文本信息进行收集,对特征项进行整理。对于书籍内容进行描述的信息主要以文字信息为主,能够通过文字分类来对书籍内容介绍信息进行处理。一般采用基于统计的分词方法来实现该流程,具体系数统计方法如下式所示:

                  (3-4)

其中 为汉字X和Y的互现信息系数, 为X,Y相邻出现在书籍中的几率, 、 分别为汉字X、Y在书籍中出现的几率。相邻的两个字同时出现的次数越多,其可信度越高,由汉字X、Y组成的词组也越有可能成为关键词。将互相系数 >0的词条计入文本特征相集合。

2、去除平凡词。产品介绍信息中会存在大量诸如“的”、“了”的平凡词。该类汉字对于文本描述的内容无贡献,因此将这类词排除在外,最终形成文本的特征项集合: ,其中 为筛选后得到的关键词。

3、词条权重计算。采用TF-IDF公式计算词条在书籍中的权重大小,其计算公式为:

                 (3-5)

其中, 为词条 在书籍 中出现频率,N为所有书籍的个数, 为含有词条 的书籍个数。由TF-IDF公式计算得到的权重系数表征了词条的特异性,若 越大则表明词条 的特异性越高,在不同文档中出现的比率越低,但在单个文档中出现的频次越高,那么词条 用于表征文档 的可信度越高。

4、建立文本特征空间向量。通过式3-6可以计算得到不同词条在书籍中的权重。但是这样得到的权重没有进行归一化处理,归一化处理后的权重为:

                (3-6)

因此任意书籍 可以表征为一个关键词的向量,其形式如下式(3-7)所示:

                (3-7)

其中 表示书籍j, 表示书籍j中关键词 的权重。 则为书籍j中关键词的向量,k表示书城中在售书籍筛选出有效关键词的总数量。在以上过程中,前两步骤主要目的是从书籍信息中对关键词进行提取,后两步骤主要目的在于对关键词频率进行分析后对其权重进行确定。根据以上步骤能够有效对书籍进行抽象k维度向量,而书城中的所有书籍均能够成为该维度空间中的构成点。

3.4书目评价矩阵到内容评价矩阵的转换

上文3.2表示了任意客户对于任意书籍的评价向量和评价矩阵,即书目评价矩阵其形式为:

                    (3-8)

其中p的取值为 。该评价矩阵用以描述书籍评价存在两个问题,一是缺乏较为精确的针对性,即只能反映用户对于某种类型书籍的潜在购买意愿;二是书城中的书籍数目变化时,要实现系统更新需要较大的数据运算量。为了对以上两个问题进行有效解决,本文根据以关键词为基础的评价矩阵描述方法来构建数目推荐系统。在前章分析中能够对关键词提取进行实现,即可将随机书籍视为其矩阵中的表述点,即 。基于此,本文提出基于内容评价的向量。该向量其具体的形式如下:

       (3-9)

其中i为客户编号,n为书目的总数,pi,j为客户i对于书籍j的评价, 为客户i对所有书目评价构成的n维向量。t为所有书籍关键词总和的数量, 为客户i对关键词 的评价(或此类内容的偏好),其计算公式如下式3-10所示:

                       (3-10)

其中, 为客户i对于书籍j的评价,可以直接从网上书店的数据库中直接查询得到。 为书籍j中关键词 的权重,通过3.3所述的TF-IDF公式计算公式获取。 则表示客户i对关键词 的评价(或此类内容的偏好)。 则为客户i对所有关键词的t维评价向量。通过以上步骤则可以将任意客户对于书籍的评价转变为内容偏好的评价,如下式3-11所示:

        (3-11)

其中m为客户的总数,n为书目总数,t为所有关键词的总数。

3.5本章小结

数据的预处理是实现数据挖掘的前提,本章则对于训练数据的选择以及处理办法进行了研究。其主要研究内容包括两个方面,第一是数据的选择以及抽象表示。将客户对于数据的购买以及评价信息转换成数据记录的形式。第二则是对于书目的特征量进行表示,将书目表示成不同关键词为维度的特征量表示。通过这两个步骤的处理则可以将用户对于书目的购买和评价行为以记录的方式进行存储。而对类似书目或内容相近书目也可以通过特征向量的相似度计算的方式予以聚类。从而为后续的用户偏好的预测提供基础。

 


第四章 基于客户聚类分析的书目推荐

4.1聚类分析的一般步骤

聚类分析是以数据为基础实现对于信息的分类,最常见的应用则是对于文档的分类。本文则将以文档书籍分类为例介绍聚类分析的原理和实施步骤。聚类分析的过程中存在两个关键的步骤[48],第一是特征量的提取,第二则是分类。聚类分析的一般过程如下图4-1所示:

 

图4-1聚类分析一般过程

聚类分析的过程可以分为四个步骤来进行,第一步,通过去噪技术对数据信息进行整理,使得数据信息能够进行初步过滤,对有效信息进行保留。第二步,通过分类与聚合的方法来对信息数据的样本进行统计,提取数据信息特征量,在此过程中需要对度量标准进行明确,运用抽象方式对特征量进行表示。第三步,明确度量方式后对数据样本进行计算,对聚合分类模型进行构建,由此能够获取具备不同特性的聚合典型相量类别。第四步,使用评价函数来对聚合分类模型进行测试,直到测试结果符合评价标准后则能够完成该步骤,如果不能符合标准则需要继续进行样本数据训练。

用户对于书籍进行评价的聚类分析步骤主要通过文档预处理的形式,具体的步骤有以下内容:

1、对书籍书目中的无效信息进行剔除,对于内容介绍与主题类型混乱的书籍进行筛选剔除。构建对应的书籍评价特征表示向量,主要是对书籍中的关键词出现频率进行整理分析,将出现频率较高的关键词作为初始特征向量的定义标准,随后对特征向量空间的维度进行明确,如与计算机挖掘技术有关的三维特征向量矩阵的构成关键词主要为以下三个,即“计算机”、“应用技术”、“数据挖掘”。

2、运用特异性度量法来度量文档使得文档特性能够得到准确度量,主要依靠对书籍内容信息中的出现的特异性关键词进行计算,从而对书籍内容信息文档所对应的特征向量进行赋值,此时具体数值特征向量能够通过不同的文档进行描述,例如[(计算机,0.3),(应用技术,0.5),(数据挖掘,0.9)],对于以上信息进行度量的过程中,所构建的维度空间则为“计算机”、“应用技术”、“数据挖掘”,所对应的权重系数用0.3、0.5、0.9表示。以此类推,能够实现对于所有数据集的书籍内容介绍文档所对应的特征向量度量,只要在特征向量标准不变的条件下,能够得出系统中所有用户对应的向量表示,例如[(计算机,0.3),(应用技术,0.5),(数据挖掘,0.9)]的例子则可以表示为[0.3,0.5,0.9],即客户在计算机、应用计算、数据挖掘这三个方面的评价结果分别为0.3、0.5、0.9,客户在书籍内容上的偏好顺序则可以理解为数据挖掘>应用技术>计算机。

3、通过度量方法处理书籍介绍内容对应的文档特征向量,在经过大量的样本训练后构建完整的聚类模型,在此过程中所采用的方法主要是K-means算法,在接下来的研究过程中会详细分析,再次则不用过多的篇幅阐述。通过聚类分析后,能够达到对聚类模型进行修正的目的,主要依靠对样本的多次训练,直到典型的特性向量构建完毕,此时能够对文档分类标准进行明确。


4.2 基于K-means算法的用户聚类

4.2.1 K-means聚类算法简介

聚类分析的目标在前文已经进行详细分析与阐述,并且通过书籍评价的范例来表明。为了能够有效促进书城的实际销售,需要为用户推荐符合其购买意愿的书籍,必须要对用户的潜在购买意愿即书籍购买偏好进行了解。通过聚类分析能够对用户购买与评价行为进行有效把握,使得书籍类型需求类型能够通过市场侧表现出来。

现阶段聚类分析过程中运用最多的算法主要为k-means算法,其是建立在对数据样本进行分析的基础上,对分类标准进行建立以及对数据样本进行分类。主要步骤有以下几个部分:

步骤一、将k设定为一个常数,在此基础上来对分类进行实现,从样本集合中选择k个样本,并且与之对应设定k个分类,从样本对应到分类并构建初始簇。

步骤二、运用相似度计算方式进行大量样本处理,从而生成新样本与簇中心的相似程度,并对新样本进行归纳对应簇的操作。

步骤三、由于簇中心不断有新的样本加入,因此需要对其中心进行修正,通过重复的计算来对簇中心进行更正。

步骤四、在簇集合构建完成后,需要对其特性是否满足标准进行评判,主要通过评价函数来实现该过程,如果不能符合标准则需要重复第二三步骤。

在进行聚类分析过程中,需要对以下三点问题进行处理,一是选择合适的特征向量来对用户在书籍购买方面的评价,主要是对特性向量的维度进行确定。二是对特征向量的度量标准进行明确,要建立科学合理的标准来对聚类分析过程中的样本分析进行处理。三是需要在评价标准的基础上构建函数模型。对应这三个主要需解决的关键问题,本文将通过以下方式来解决:

1、建立特征向量。建立用户潜在购买意愿特征向量的标准为用户对各种书籍的评价信息。如书城中的书籍共有m种,那么用m表示用户潜在购买意愿特征向量,则为m维的向量。

2、计算特征向量相似度。度量如果为离散型的情况下,通过离散数字变量来与之相对应,具体排序为从好评到中评再到差评,如果遇到人工评价超时后系统自动进行好评的情况,则按照好评处理,如果该类书籍没有被用户购买过,即没有任何评价的情况下,用0来表示特征向量。计算相似度的过程中采用夹角余弦公式。

3、选择评价函数。在聚类分析完毕后,能够实现对用户进行各种类型对应分类的目的,因此分类完成后不同用户组之间存在的差异较大,本文所选用的评价函数为各类样本与簇所对应的特征向量均方差的和。在新样本持续加入的过程中,对分类模型的训练也在一直持续,能够对簇对应的特征向量进行更新,直到加入新样本后,簇的特征向量均方差之和不再变化。

4.2.2用户聚类分析

在进行实际案例分析过程中,需要通过以下阶段来对书城现有用户进行聚类分析:

1、对初始簇集合进行构建。任意选择确定k个样本构建最初始的簇集合,k表示聚类分析准备前期确定的常数,要保证划分类型的精准程度越高,就需要该数值越大,不足之处则是需要耗费大量的计算时间。

2、将除去初始选择外的随意样本纳入初始簇中。将新样本加入到初始簇中并用相似度计算法来对簇的相似度进行计算,对新样本划入簇的标准为相似度计算结果这一因素进行明确,将新样本划入最大簇中,具体计算方式按照式4-1进行:

                 (4-1)

其中 为簇的特征向量, 为样本的特征向量(即客户对关键词的评价向量)。K为簇的个数,N为样本个数。

3、各个簇的特征向量的更新。簇中在纳入新的特征向量后簇的特征向量按照下式4-2更新计算,得到簇的特征向量。

                        (4-2)

其中a为簇中原有的向量的个数, 、 分别为更新前和更新后的特征向量。采用式4-2进行更新得到新簇的特征向量。

4、聚类结果的评价。计算重新整合后的簇的评价函数。评价函数的计算公式为:

                 (4-3)

将样本中所有的样本带入到公式4-3中进行计算,得到当前聚类的评价结果, 为评价函数值的大小, 为第k个簇的特征向量, 为样本特征向量。 为 与 之间的相似度,其计算公式如式4-1所示。

5、迭代过程。通过不断重复步骤2到步骤4来将新的样本与簇进行结合,并对簇的特征向量进行完善,要对函数变化进行评价也需要以上重复步骤来使得评价函数的数值处于稳定状态。

根据上述流程能够使得样本本身具备的特征向量向簇中转移,并且对簇的特征向量进行不断持续修正。当迭代过程完成时所获得的与簇对应的特征向量数量为k个,即表示能够对应k种类型的用户特征。通过样本训练能够持续训练簇,使得簇的特征向量能够与样本进行匹配,并生成对应的特征向量。新增样本也能够运用相似度计算来将其划分到对应的簇中。

图4-2展示了书城童虎聚类分析过程,通过该过程能够根据用户对书籍评价的标准来进行用户聚类划分,该图坐标则为对应的关键词,具体表示为关键词P与关键词R。不同用户对于书城中不同书籍的评价都以点的形式分布在整个坐标空间内,对于书籍特征关键词描述不涉及关键词的点则其坐标为0。运用以上步骤来不断对样本进行分类,并且将其纳入不同簇中,对簇中心的特征向量进行持续更新。对评价差异用户进行处理,使其能够聚合。

 

图4-2 聚类分析过程

4.3基于聚类的书目推荐

本文在传统聚类分析的基础上,采用相似度计算的方法将推荐程度进行了定量的分析。因此可以将预测偏好程度进行量化的排序,按照排序结果优先推荐。这种模式也将大幅提高推荐的准确程度,特备是在推荐数量有限的情况下,本文所提推荐方法的优势显得更加明显。

4.3.1客户聚类评价矩阵的建立

上文3.4提出了书目评价到内容评价转换的方法,将原本针对具体书目的评价转换为了对应关键词的评价。其主要目的是降低用户评价矩阵的维度,实现 矩阵的变化,将维度从书目的个数n降低到关键词的个数t。而上文4.2提出的方法则是将用户进行聚类,在此基础上本文则可以对内容评价矩阵进行进一步的降维处理,将内容评价矩阵进一步改写为用户分类评价矩阵。其具体形式如下式4-4所示:

        (4-4)

其中矩阵 同上文中式3.12,表示客户的关键词评价矩阵。该矩阵为m*t维的矩阵,m为客户的总数,t为关键词的个数。矩阵 为基于聚类的评价矩阵,为k*t维的矩阵,其中k为用户聚类分析得到的分类个数。 表示第t类客户对于第k个关键词的评价系数。R中每一个行向量都对应于聚类分析所得到的一个典型特征向量,记作 :

                   (4-5)

 的具体计算步骤如上文4.2.2所述。在进行用户聚类处理的过程中,其生成的评价矩阵能够具备两个优势,一是能够通过抽象的方式来对大规模用户评价数据进行有效分类,二是对评价矩阵的维度范围进行优化,使其得到有效降低,从而提升了进行用户喜好评估过程中的计算效率。

4.3.2排序推荐生产

根据商品相似度排序以及客户对这些商品的打分预测进行排序,得到最后的个性化综合排序结果。其流程如下图4-3所示:

 

图4-3个性化推荐排序生成流程

从网上书城的角度来看,用户所留存的信息主要为用户历史购买信息与用户历史评价信息,通过用户历史评价信息能够对用户类型进行区分,根据用户对于书籍的评价来运用相似度计算方法对用户类型进行划分,使得该类用户所对应的关键词特征向量 得以构建,即确定与关键词有关的用户群体。用户历史购买信息能够建立书籍特征向量来选定用户热点书目购买意愿,通过对不同书籍相似度的计算来对书目进行排序,使得用户推荐排序目录得以生成,具体的实现流程如下:

1、对初始相似度书籍进行明确。运用相似度计算方法来对用户推荐书目进行排序处理,构建热点书目集合,用I来表示该集合。

2、通过加权计算公式计算与用户需求相匹配的综合推荐书目排序,具体所需算式如下所示:

                    (4-6)

式中I为根据客户历史购买记录进行相似度计算排序中前k个元素组成的集合。N为客户i没有购买商品的集合。 为客户i购买商品t的可能性,即客户i所属客户对于书籍t评价向量的相似度计算结果。其大小为:

                   (4-7)

 为客户i的内容评价向量,该向量中的每一个元素为客户i所属客户类型对于不同关键词的评价(即对于内容方面的倾向)。 为书籍t的关键词特征向量,其提取办法如上文3.3所述。加权后评价结果 则是客户i对于商品t的综合排序分数,分数越高在排序是的序号也相对靠前。

4.4本章小结

本章将聚类分析的方法引入到用户对于书目的个人偏好预测中。其主要原理是通过将书目进行聚类,而根据客户的历史购买和评价记录来发现客户对于不同内容书目的偏好。继而根据相似度计算的方法查找与客户偏好类似的书目,并且通过排序推荐的方式呈现给客户,从而实现个性化推荐的目的。


 

第五章 实验与分析

5.1个性化推荐功能实验过程描述

5.1.1实验数据集

本次试验所需数据来自某事新华书店网上书城系统数据库保存的数据,具体获取的测试数据参数为:用户数量943人,书籍数量1682本,评价数量100000条。用户评价评分标准为5档,具体对应的分数为1至5分,1表示最低评价,与之对应的5则是最高。其中训练集的数据为70%,测试集的数据为30%,同时在进行数据筛选前建立了相关的标准来对数据进行初步筛选。具体标准为:(1)2017年5月为用户注册数据统计的开始时间节点。(2)对于信息登录不完整的用户信息不予以采用。(3)对于超过两月以上为登录网上平台的用户信息不予以采用,由此能够保证数据挖掘具备较高的时效性。

在完成筛选后得到的数据样本显示,用户数据包含两个部分,一是用户基础信息方面的数据,包括用户的年龄段与账号信息以及用户账户情况等,另一部分信息则为用户对于书籍的评价信息,按照前面制定的评价标准来进行划分,具体数据样本情况如表5-1所示:

表5-1 用户对于书籍评价的原始数据表

姓名 年龄 注册账号 账户余额 书目评价

G2.01 G2.02 G4-136

毛*敬 24 myj2013 ¥33 3 3 - -

王*庆 55 Wangsiqing2 ¥45 1 1 - -

徐*红 43 Xubeihong163 ¥88 2 2 1 1 5

李*哲 33 Liyizhe33 ¥203 2 2 2 1 3

陈* 61 Chennian1954 ¥113 3 3 5 1 5

闫*玉 29 Yangouyu1991 ¥331 1 5 3 5 3

马* 23 Maqing2015 ¥0.8 1 5 3 2 2

如上表5-1所示,不同用户对于不同书籍的评价结果存在差异,并且随着书籍类目的增加,在书目评价的表中会增加相应的列用于记录用户对于书籍的具体评价。客户虽然对于书籍的评价主要是针对书籍中的内容进行的评价。因此在此基础上需要对所搜集的训练数据进行预处理,将“用户书籍评价”的信息转换为“用户内容评价”的信息。

5.1.2 数据训练

数据训练的具体步骤在上文的第三章和第四章进行过较为详细的描述,主要是对用户评价的具体书籍所对应的相关信息进行训练,对不同用户类型的标准进行确立,并对具体标准明细进行确定。实际执行过程中需要两个步骤来实现,首先需要把用户对于书籍的评价信息进行转换,使其成为用户对相关书籍相似内容的评价信息。然后需要将用户对相关书籍相似内容的评价信息转换为该用户类型对于具体书籍相似内容的评价信息。由此能够对用户针对各种书籍的潜在购买意愿。

1、对书籍信息进行处理,使其成为对应关键词的特征向量。本文前部分章节已经对其进行详细分析,其实现步骤如图5-1所示:

 

图5-1 书籍关的特征向量建立

从上图步骤能够看出,需要经过5个步骤来完成,具体为1、提取书籍内容文本特征;2、对平凡词进行晒除;3、计算词条的权重等级;4、对文本特征的空间向量进行构建。对书城全部书籍对应的关键进行获取后,实际结果如表5-2所示:





表5-2 不同书籍的关键词特征向量表示

书籍编号 关键词权重

教学 应用 小说

G2.01 0.12 0.23 0.02

G2.02 0.07 0.33 0.08

G2.03 0.03 0.04 0.23

G4-136 0.45 0.15 0.01

如上表所示,可以将不同的书籍表示为关键词的特征向量。通过上述方法的处理则可以将一本抽象的书籍表示为具体的关键词特征向量。

2、建立对应的用户评价矩阵。经过第一步骤后,书籍信息被转化为关键词特征向量,随后能够对用户评价进行转换,使其成为用户对于书籍内容的评价,实际转换分析前文已经叙述。与用户对应的评价关键词优先级计算能够通过具体的算式计算,最终结果表示为:

                       

其中, 为客户i对于书籍j的评价,可以直接从网上书店的数据库中直接查询得到。 为书籍j中关键词 的权重。通过上述步骤的处理,则可以将用户对于书籍的评价转换为内容评价,上表5-1通过处理则可以表示为下表5-3:

表5-3 用户对于书籍内容评价的处理结果

姓名 年龄 注册账号 账户余额 内容评价(关键词评价)

教学 应用 小说

毛*敬 24 myj2013 ¥33 0.408 0.782 0.068

王*庆 55 Wangsiqing2 ¥45 0.238 1.122 0.272

徐*红 43 Xubeihong163 ¥88 0.102 0.136 0.782

李*哲 33 Liyizhe33 ¥203 1.53 0.51 0

陈* 61 Chennian1954 ¥113 1.3872 2.6588 0.034

闫*玉 29 Yangouyu1991 ¥331 0.8092 3.8148 0.2312

马* 23 Maqing2015 ¥0.8 0.3468 0.4624 0.9248

如上表5-3所示,通过上述步骤则将用户对于具体书籍的评价变换为了用户对于内容方面的评价。这就为用户行为的预测分析提供了更为有利的依据。

3、实现用户聚类分析。在经过前两个步骤的处理后,获得用户对书籍内容的评价信息,使得在此基础上进行用户潜在购买意愿预测成为可能。在实际的应用中,由于用户数量规模较大,且用户行为存在相似性的概率也较大,因此进行用户行为聚类分析将个人意愿融入某一特性的集体意愿中。实现步骤为图5-2所示:

 

图5-2 用户聚类分析步骤

通过1、建立初始簇集合、2、将新的样本纳入原有簇中、3、各个簇的特征向量的更新、4、聚类结果的评价、5、符合评价函数后终止迭代。则可以得到对应的分类标准。下表5-4为设置初始簇的数目为20情况下的聚类分析结果一览。

表5-4 不同类型客户购买行为聚类分析结果(k=20)

序号 客户类型名称 内容评价(关键词评价)

教学 应用 小说

1 C1 0.583 1.118 0.834 

2 C2 0.340 1.604 0.487 

3 C3 0.146 0.194 0.209 

4 C4 2.188 0.729 3.129 

19 C19 1.157 5.455 1.655 

20 C20 0.496 0.661 0.709 

经过上述1~3步骤则实现了将“用户书籍评价”评价矩阵转换为“用户类型内容评价”评价矩阵。为客户行为预测奠定了基础。

5.1.3个性化推荐排序

用户热点书目推荐结果的排序步骤如本文4.3所述,具体步骤为:1、对书籍中的相似书籍进行确定。运用相似度计算法来对具备相似度的书籍进行排序处理,进而对具备用户潜在购买意愿的书籍集合I进行确立。2、对排序结果进行计算,主要运用加权计算公式来实现,对应的加权计算公式如下所示:

 

其中 的计算公式为

 

其中 为客户i的内容评价向量,该向量中的每一个元素为客户i所属客户类型对于不同关键词的评价(即对于内容方面的倾向)。 为书籍t的关键词特征向量,其提取办法如上文3.3所述。加权后评价结果 则是客户i对于商品t的综合排序分数,分数越高在排序是的序号也相对靠前。下表5-5则为不同客户具体的推荐排序结果

表5-5 个性化推荐结果

姓名 注册账号 书目推荐排序

1 2 20

毛*敬 myj2013 幻觉盛宴

女儿亚妮

爱的教育


王*庆 Wangsiqing2 声律启蒙

午夜起来听寂静

人间词话


徐*红 Xubeihong163 最好的方法读唐诗

瞬变

学会管自己


李*哲 Liyizhe33 自控力

初级会计职

做最富足的自己


陈* Chennian1954 逆势销售

自控力

奇谈•人文卷


闫*玉 Yangouyu1991 如何说孩子才会

好妈妈胜过好老师

呼兰河传


马* Maqing2015 知行合一王阳明大合

自控力

中国通史


根据上表能够看到,在聚类分析的结果上通过相似度计算法来实现推荐书目排序,需要先对用户购买书籍的相似度进行计算,这样才能对具体的书籍进行确定,构建对应的书籍备选集合。然后根据加权计算来对相似度进行计算,根据相似度的大小来进行排序。


5.2实验结果对比分析

5.2.1检验指标


对于个性化推荐结果评价,本文采用召回率以及准确率两个指标来进行统计评价。其计算公式分别为:

                      (5-1)

式5.1中 为用户推荐并且用户表示喜欢(即实际购买评价在4级及以上的产品)。 为没有为客户推荐,但是客户喜欢的产品(即实际购买评价在4级及以上的产品,但是没有出现在该类客户的推荐序列上的产品)。在计算准确率方面,其计算公式为:

                     (5-2)

式5.2中 为用户推荐并且用户表示喜欢(即实际购买评价在4级及以上的产品)。 为给客户推荐了,但是客户不喜欢的产品(即实际购买评价在3级及以下的产品)。为衡量整个系统的召回率以及准确率,进行归一化的处理,其分别的计算公式如下式5-3所示。

                  (5-3)

其中M为实验样本的总数。

5.2.2实验分析

1、推荐书目个数对推荐准确率的影响

采用实验数据集进行了分析,并且改变了聚类分析时的参数k(即客户类型分类的类型数量),其结果如下图5-3所示:

 

图5-3改进算法与传统协同推荐算法准确率对比

从上图现实能够看出,该坐标轴的横轴表示推荐书目的数量,纵轴为用户推荐书目的精确度,在书籍推荐书目不断增加的情况下,推荐精确度会受到影响出现逐步下降的情况。在书目数量增加明确的状态下,精确程度也在随之不断下降。从图上可以看出,当推荐书目数量达到80条时,所有算法的精确程度几乎表现相同。同时,改进过后的聚类分析参数设置中,初始用户划分的类型越多,推荐书目的准确程度也会更高。在与传统计算方法进行比较的过程中发现,本文所采用的改进算法在推荐书籍书目较少的情况下能够达到较高的准确率。如上图所示,当热点书籍推荐数量为20时,改进算法的k值设置为40时,推荐准确率高达25%以上。

2、聚类分析参数设置与推荐准确率的关系。参数k设置的数值越大表示对于用户的聚类分析越细致,因此对应的用户书目推荐准确性也越高,具体结果如图5-4所示,其中横坐标表示聚类分析参数k值,纵坐标表示热点书目推荐准确程度。

 

图5-4 k值对推荐准确率的影响

根据上图现实结果能够看出,聚类分析算法中的参数k值在进行改变的过程中,对于热点书目推荐的准确率具有较大影响,k值越大并且推荐书目数量越少的情况下,其推荐结果的准确程度越高,当参数k值不断加大的情况下,推荐准确率在不断降低,k值增大到100时,可以看到推荐书目数量对于推荐准确度的影响已经非常接近了。由此能够判断,在需要提升推荐书目数量的要求下,对于参数k值的设置能够尽量设小,在需要进行精确书目推荐的状态下时,对于参数k值的设置需要尽量加大,使得构建模型的精细程度得到提升。

3、推荐书目数量与召回率的关系。运用上节内容来对算法进行改进后重新分析召回率,具体的结果如图5-5所示:

 

图5-5改进算法与传统协同推荐算法召回率对比

根据上图所示,该坐标轴的横轴表示推荐书目的数量,纵轴为用户推荐书目的召回率,在书籍推荐书目不断增加的情况下,推荐召回率会受到影响出现逐步上升的情况。在书目数量增加明确的状态下,精确程度也在随之不断下降。从图上可以看出,当推荐书目数量达到80条时,所有算法的精确程度几乎表现相同。同时,本文的推荐方法与KNN算法,当推荐书籍数量不同时,对应的推荐召回率也存在较大程度的差异。具体表现为当书目推荐数量较少时,推荐书目的召回程度也会较小,本文提出的额推荐算法与KNN算法的结果差异较小。当书目推荐数量较多时,本文提出的额推荐算法与KNN算法的结果差异开始加大,当推荐书目数量达到80时,本文提出的额推荐算法与KNN算法的结果差异数值已经达到13%以上。

5.2.3性能测试

在性能测试的过程当中,通过多种模拟来进行各种测试,这些测试主要包括峰值测试、异常变化测试以及合理的正常变化测试,通过上述各种功能模块的负载和压力测试来确保各项指标都会满足设计要求,同时,还需要保证其能够为升级做好准备。

性能测试具备一个非常重要的方面,这些方面主要是通过各种测试来满足设计要求。在客户面向各种性能测试的过程当中,通过网上测试以及有机融合测试来保证整个系统在各个方面能够实现预测功能。

测试代码如下:

if(!isset($_instance[$identify])){

if(class_exists($name)){

$o=new$name();

if(method_exists($o,$method)){

if(!empty($args)){

$_instance[$identify]=call_user_func_array(array(&$o,$method),

$args);

}else{

$_instance[$identify]=$o->$method();//测试学生基本信息

}

}

else

$_instance[$identify]=$o;

}

else

halt(L('_CLASS_NOT_EXIST_').':'.$name);

系统使用WebserverStressTool7软件进行性能测试,在基本设置中,测试类型设置为点击测试类型,每次测试每人模拟3次点击,模拟访问者设置为1000人,每次点击的时间间隔设置为1秒,部分测试截图如图5-7所示。

 

图5-7点击次数和主机回应时间

如图每秒点击次数和主机响应时间所示,横坐标表示开始测试的时间长度,所有测试在95秒内完成,左侧纵坐标表示主机平台的响应时间,主机最大响应时间约为5.6秒,右侧纵坐标表示每秒点击次数,可以看出,每秒最多的时候点击次数超过38次:

用户使用客户端访问网上书城热点书目推荐系统,由于用户上网方式是变化的,或许是电话拨号,或是宽带上网。针对网上书城热点书目推荐,我们测试了在不同上网方式访问某一个页面对用户的等待时间。测试指标如表所示。

1、负载测试

为保证系统能够达到一定程度的同时在线人数负载能力,保证系统在用户数量较多的情况下保证系统正常运行,本文将通过LoadRunner进行系统负载测试,经过测试后的结果表示,当用户同时在线人数达到1000人时,系统任然能够保持较为稳定的工作状态,因此能够满足负载测试的标准。

2、客户端兼容性测试

网上书城热点书目推荐还需要通过用户的配置来实现功能模块,为了保证网上书城热点书目推荐能够正常操作,还需要对系统的兼容性进行测试,这种兼容性测试还需要结合系统的Windows以及Linux操作满足功能需求。经测试,系统能够满足一般的书目个性化推荐的需求,且性能表现良好。

5.3本章小结

本章结合具体的数据进行了个性化推荐的实验。以某市大禹书店web系统提供的用户评分记录信息为基础进行了数据训练。对于形成了书目的典型特征向量,并结合用户对于历史购买书目的评价对用户的书目类型偏好进行预测。最后采用相似度计算的方法将用户偏好类目中的具体书目进行排序,从而实现个性化推荐的目的。经过测试显示,本文所提的个性化推荐方法可以较好的实现推荐目的,推荐书目的准确率较高而召回率较低。与常见的KNN算法相比具有在小数量推荐时更加准确的特点。

 


总结与展望

本文对于个性化推荐算法进行了研究,在对常见的个性化推荐算法进行介绍和论述的基础上,提出了一种基于聚类分析的综合协同推荐算法。并且从算法的设计、数据库设计以及代码展示等方面进行了综合的论述。

在算法设计方面分为三个步骤来进行实施。 1、客户对任意商品评价的预测打分。基于聚类分析对客户进行分类,建立不同类型客户对于商品的偏好矩阵。2、商品相似度计算。根据客户的购买记录获取客户可能购买的相似度商品。3、根据商品相似度排序以及客户对这些商品的打分预测进行排序,得到最后的个性化综合排序结果。

在数据库设计方面,提出了基于二叉树结构的个性化排序数据结构。根据书目的增、删、改(即书籍的购买和评价信息修改)等操作,分别提出了其对应的数据记录更新办法以及其对应的存储过程执行代码。

最后通过实际案例分析来对本文研究设计的热点书目推荐系统进行测试,在测试过程中分析了本文提出的算法与传统KNN算法直接的差异,运用推荐准确率与召回率进行了量化分析。最后结果表明,本文提出的算法相比传统KNN算法,在推荐书籍数量较少的情况下具备较为明显的优势。

本文研究的热点书目推荐系统所运用的算法虽然能够在推荐书籍数量较少的状态下具备较高的准确性与效率,但是就热点书目推荐行为来看,其准确性还是有待提升。本文所研究分析的聚类分析与用户评价相结合的推荐算法属于数据挖掘类型的算法,随着学术界对于数据挖掘研究的不断深入,所生成的算法也越来越丰富,因此对该领域的研究成果进行持续关注,并持续改进热点书目推荐系统的算法,以提升现实商业中的推荐效率。 

参考文献


[1] 张辉,孟维金,张丽.网络柠檬问题的表现、影响及营销启示——消费者行为视角.广西财经学院学报,2009.03:1673.5609.

[2] S. Brink,R. Motwani,C. Silverstein.Beyond market baskets: generalizing Association rules to correlations . Proceedings of the ACM SIGMOD[C],1996.pages 255-276.

[3] 杨柳.基于数据垂直分布的关联规则挖掘算法研究.天津理工大学,2008.

[4] 李书红,基于关联规则的学生成绩分析系统.中国石油大学(华东),2011.

[5] 朱金清,王建新,陈志泊.基于 APRIORI 的层次化聚类算法及其在 IDS 日志分析中的应用.计算机研究与发展,2007,44(增刊):326-330.

[6] 张慧,罗可.基于 Apriori 算法的确定指定精度矩阵聚类方法.计算机工程与应用,2012,48(7):139-141.

[7] 宋建成.基于云计算的 Apriori 挖掘算法.计算机测量与控制,2012,20(6):1653.1655.

[8] 潘昌霖,金碧漪 .范并恩 .中文文本情感倾向分析研究 .情报资料工作,2013,01:1002.0314.

[9] 田慧,何留进,孙凯,方薇.基于情感计算的网络中文信息分析技术.计算机技术与发展,2010,11:1673.629.

[10]杨晓,季节.基于 Heritrix 的主题爬虫在互联网舆情系统中应用.电子设计工程,2015.06:1674-6236.

[11] Themis Palpanas,Mikalai Tsytsarau.Extracting policy positions from political texts using words as data.American Political Science Review,2003.97(02):311-331.

[12] Saurabh Pal,Brijesh Kumar Baradwaj .Recognizing contextual polarity: An exploration of features for phrase-level sentiment analysis.Computational linguistics,  2009, 35(3): 399-433.

[13] Martin Kulldorff. Learning extraction patterns for subjective expressions[C].Proceedings of the 2003 conference on Empirical methodsin natural language processing. Association for Computational Linguistics,2003 : 105-112.

[14] 董引娣. 数据挖掘中关联规则在零售业中的应用. 重庆科技学院学报(自然科学版),2010,01:121-123+146.

[15] Agrawal R, Srikantr R.,et al. Fast algorithms for mining association rules. Proc. 20th int. conf. very large data bases.. 1994:487-499

[16] 窦祥国. 关联规则评价方法研究.合肥工业大学,2005.

[17] 常少春. 高效频繁项集发现方法与 Apriori 的改进.江苏科技大学,2011.

[18] Ralitsa  Angelova,Gerhard Weikun. Graph-based Text Classification : Learn from Your Neighbors .Proceedings of the 29th annual international ACM SIGIR conference,Research and development in information retrieval,session: Classification and machine learning 1993,485-492.

[19] Jack G.Conrad,Khalid Al-Kofahi,Ying Zhao,George Karypis. Effective document clustering for large heterogeneous law firm collections .International Conference on Artificial Intelligence and Law .2005,Bologna, Italy.2005,177-187.

[20] Ku L W, Liang Y T, Chen H H. Opinion Extraction, Summarization and Tracking in News and Blog Corpora. AAAI spring symposium:Computational approaches to analyzing weblogs. 2010, 100107.

[21]Linden. Recommendation algorithm combining the user-based classified regression and the item-based filtering//Proceedings of the 8th international conference on Electronic commerce: The new e-commerce: innovations for conquering current barriers, obstacles and limitations to conducting successful business on the internet. ACM, 2006: 574-578.

[22]周涛,孙志挥. 基于频繁模式树的关联规则增量式更新算法. 计算机学报,2013,26(1):91-96

[23]Kaiypis G Evaluation of item-based top-n recommendation algorithms. Proceedings of the tenth international conference on Information and knowledge management. ACM, 2015:247-254.

[24]Gibbs Sampling,Hwang H J, Kang U G Constructing full matrix through naive Bayesian for collaborative filtering. Computational Intelligence, 2016:1210-1215.

[25]Sarwar•B. User preference through Bayesian categorization for recommendation. PRICAI 2006: Trends in Artificial Intelligence. Springer Berlin Heidelberg, 2016: 112.119.

[26]Claypool M. Using singular value decomposition approximation for collaborative flltering. E-Cornmerce Technology, 2005. CEC 2005. Seventh IEEE Internationa! Conference on. IEEE, 2005: 257-264.

[27]王爱平,王占凤,陶嗣干,燕飞飞. 数据挖掘中常用关联规则挖掘算法. 计算机技术与发展,2010,04:105-108.

[28] 李智辉, 卢苇. Web 文本主题挖掘技术研究. 计算机教育, 2005, 11: 34-36.

[29] 任丽芸. 搜索引擎中文分词技术研究. 重庆理工大学, 2011.

[30]陈刚,刘发升.基于BP神经网络的数据挖掘方法.计算机与现代化,2006 (10): 20-22.

[31]Vozalis M G, Mai^aritis K G. Applying SVD on item-based filtering//InteIligent Systems Design and Applications, 2005. ISDA!05. Proceedings. 5th International Conference on. IEEE,2005: 464-469.

[32]Rashid A M, Albert I,Cosley D,et al. Getting to know you: learning new user preferences in recommender systems, Proceedings of the 7th international conference on Intelligent user interfaces. ACM, 2002: 127-134.

[33]ShuoM,YuZhen, OuriWolfson.T-Share: A Large-Scale Dynamic Taxi Ride sharing Service.IEEE International Conference on Data Engineering(ICDE2013).

[34]董引娣.数据挖掘中关联规则在零售业中的应用.重庆科技学院学报(自然科学版),2010,01:121-123+146.

[35]Ralitsa Angelova,Gerhard Weikun.Graph-based Text Classification: Learn you’re your Neighbors.Proceedings of the29th annual international ACMSIGIR conference,Research and development in information retrieval,session : Classification and machine learning 2006 ,485-492.

[36]窦祥国.关联规则评价方法研究.合肥工业大学,2005.

[37]常少春.高效频繁项集发现方法与Apriori的改进.江苏科技大学,2011.

[38]高杰,李绍军,钱锋.挖掘关联规则中AprioriTid算法的改进.计算机工程与应用,2014,43(7):188-190

[39]JackG.Conrad,KhalidAl-Kofahi,YingZhao,GeorgeKarypis.Effective document clustering for large heterogeneous law firm collections. International Conference on Artificial Intelligence and Law.2005,Bologna,Italy.2005,177-187.

[40]安娜.关联规则挖掘算法AprioriTid算法的改善与研究..河北:河北工业大学,2014

[41]AgrawalR,SrikantR. Fast algorithm for mining association rules..The International Conference on Very Large DataBase,1994:487-499

[42]钟晓,马少平,张钹,等.数据挖掘综述.模式识别与人工智能,2011,14(1):48-55

[43]Henrry.leaser.消费者行为和营销策略[M].北京:机械工业出版社,2012.

[44]杜习惠.数据仓库和数据挖掘技术在银行业中的研究与应用..贵州:贵州大学,2013

[45]PeiJiWang,LinShi,BaiJinNiu,etal. Mining association rules based on Apriori algorithm and application . 2013 International Forumon Computer Technology and Applications. 2013,(1):141-143

[46]Padthraic Smyth. From Data Mining to Knowledge .Discovery in Databases. American Association for Artificial Intelligence,2009:56-60

[47]GirishK.Palshikar,MandarS.Kale,ManojM. Apte. Advances rules mining using heavy itemsets..Data & Knowledge Engineering,2015,61:93.113

[48]Gary M.Weiss.Data Mining in Telecommunications,.Department of Computer and Information Science Fordham University,2015

[49]闵锐.数据挖掘在CRM中的应用研究:长春工业大学,2014


推荐文章