基于项权值变化的矩阵加权关联规则挖掘和扩展查询技术信息检索模型研究

时间:2024-12-26 12:19:41 来源:作文网 作者:管理员

摘 要:将项权值变化的矩阵加权关联规则挖掘技术应用于信息检索,提出一种基于项权值变化的矩阵加权关联规则挖掘的信息检索模型及其算法,采用新的剪枝策略和模式支持度计算方法。实验结果表明น,新模型检索性能得到改善和提高。

关键词:文本信息检索;矩阵加权;查询扩展;关联规则

DOIDOI:10.11907/rjdk.151669

中图分类号:TP391

文献标识码:A 文章编号:1672-7800(2015)007-0159-02

0 引言

近年来,信息过量问题越来越受关注,如何从海量信息中准确高效地搜索到有价值的信息成为信息检索领域的研究热点。传统信息检索算法主要基于布尔查询和关键字查询,存在信息过载、信息迷向和不匹配等缺陷。将基于关联规则的数据挖掘技术应用于信息检索倍受关注,可以从根本上提高和优化信息检索性能。

文献[1]首次提出了一种基于关联规则的个性化信息检索模型,该模型主要通过用户访问日志挖掘出个性化信息之间的关联规则,帮助用户优化查询请求并提供具有个性化的搜索结果。文献[2]提出了一种基于正负关联规则的信息检索模型,采用正负关联规则的挖掘算法、两次检索技术和查询扩展优化等核心技术,达到区分和删除虚假扩展词的目的,从而得到比原查询更优的扩展查询结果。文献[3]融合了词语抽取、负关联规则挖掘算法和查询扩展三大关键技术,提出了基于词语抽取和负关联规则挖掘的信息检索算法,很大程度上改善了检索性能。文献[4]将负关联规则挖掘技术、频繁项集挖掘技术和查询优化扩展等技术进行融合,并且应用于信息检索,提出了基于频繁项集的挖掘算法和负关联规则挖掘的信息检索系统模型,实验结果验证了算法的有效性。文献[5]提出了一种新的基于完全加权关联规则挖掘与查询扩展技术的信息检索系统模型,该模型利用传统的向量空间算法进行初检,在第二次检索中则采用上述检索模型算法,显著提高了信息检索性能,实验结果表明结果是有效的。

本文在深入研究矩阵加权(完全加权)关联规则挖掘的基础上,提出基于项权值变化的矩阵加权关联规则挖掘算法,并将其应用于信息检索,采用一种新的模式支持度计算方法和项集剪枝技术,这样既避免出现无效的关联模式,又提高了挖掘效率。为测试该信息检索模型的检索性能,以1 080篇论文作为原始测试文档集进行实验,实验结果表明本文算法能有效提高检索性能(MAP)。

1 基于项权值变化的矩阵加权关联规则挖掘和查询扩展技术的信息检索模型

1.1 主要设计思想

该检索模型基本思想为:整个检索过程中进行两次检索,第一次检索的主要目的是提取初检的前N篇排序文档作为初检局部文档集,主要利用搜索引擎对原查询进行初检和对局部文档集进行预处理;第二次检索采用上述关联规则挖掘和查询扩展技术优化原查询,得到扩展优化后的新查询,将最终检索结果返给用户。

1.2 模型图及其模块功能

根据该模型设计思想,提出信息检索模型结构,如图1所示。该模型包括4个数据库和6个主要功能模块[5]。

1.3 基于项权值变化的矩阵加权关联规则挖掘的关键技术

1.3.1 矩阵加权项集剪枝策略

矩阵加权数据模型的固有特点是其项目权值随事务记录变化而变化,项目权值是项集支持度计算的主要依据。矩阵加权关联规则挖掘算法中频繁项集的任意非空子集不一定都是频繁的,不适用 Apriori 算法的剪枝性质。

图1 基于项权值变化的矩阵加权关联规则挖掘和查询扩展的信息检索模型结构

经过对矩阵加权数据的深入分析研究,给出如下矩阵加权项集剪枝策略:生成矩阵加权候选k-项集CK前,将那些权值wK-1小于其包含(K-1)-项集的K-项集权值频繁期望IWFE(CK-1,K)的候选(K-1)-项集CK-1☢剪枝,候选(K-1)-项集CK-1的后续K-项集一定是非频繁的;生成矩阵加权候选K-项集CK后,考察每个CK,只要存在某个(K-1)-子集的权值为0或者小于其包含(K-1)-子集的K-项集权值频繁期望IWFE(CK-1,K),该候选K-项集CK一定是非频繁的,可以剪枝;最后,将权值为0的候选K-项集CK剪枝。

1.3.2 挖掘算法

基于项权值变化的矩阵加权关联规则挖掘的基本思想为:

(1)对矩阵加权数据进行预处理,构建基于向量空间模型的矩阵加权数据库和特征词项目库。

(2)从项目库中挖掘矩阵加权频繁1-项集,计算出矩阵加权1-项集权值频繁期望IWFE(C1,2)。

(3)从K-项集(K≥2)起,候选(K-1)-项集CK-1进行 Apriori 连接生成候选K-项集CK,根据上述矩阵加权项集剪枝策略,从候选K-ฑ项集CK挖掘出矩阵加权频繁K-项集LK,直到候选K-项集CK为空为止。

(4)从频繁项集中挖掘矩阵加权强关联规则。

2 实验设计及结果分析

编写实验源程序,以1 080篇论文作为原始测试文档集,¿设计10个实际查询(Q1,Q2,...,Q10)作为查询集。采用MAP(Mean of Average Precision)为主要评测指标,将本文信息检索算法(简写为A算法)、基于完全加权的关联规则算法(简写为B算法)、基于局部上下文分析的扩展查询技术(简写为C算法)和传统的向量空间模型算法(简写为D算法)进行检索性能比较,分别统计4种算法中10个查询的平均准确率,实验结果如表1所示。

可以看出,本文算法准确率有显著提高,该模型能有效地优化扩充原查询,检索出更加满意的文档。

3 结语

本文在信息检索系统中首次将项权值变化的矩阵加权关联规则挖掘技术应用于查询扩展,将二者融合后应用于信息检索系统,提出基于项权值变化的矩阵加权关联规则挖掘的信息检索模型及算法,取得了非常显著的效果。该模型采用两次检索机制,先对全部文档集进行初检,采用基于项权值变化的矩阵加权关联规则挖掘算法对提取的局部初检文档进行关联挖掘分析,经查询优化扩展后,组成更佳的新查询来弥补原查询信息的不足,并将最终检索结果返回给用户。实验结果证明了该模型的有效性。

参考文献:

[1] 陈小华,赵捧未.基于关联规则的个性化信息检索系统研究[J].情报科学,2006,24(6):915-918.

[2] 黄名选,朱豪安,冯平.基于正负关联规则融合的信息检索模型[J].信息系统,2011,34(7),116-119.

[3] 黄名选,冯平,谢统义.基于词语抽取与负关联规则挖掘的信息检索[J].计算机技术与发展,2012,22(5),157-160.

[4] 黄名选,余如.基于负关联规则与频繁项集挖掘的信息检索系统[J].知识组织与知识管理,2011,22(8),91-96.

[5] 黄名选,严小卫,张师超.基于完全加权关ศ联规则挖掘和查询扩展的信息检索[J].计算机应用与软件,2009,26(8):26-28.

[6] 周秀梅,黄名选.基于项权值变化的完全加权关联规则挖掘[J].计算机工程与应用,2015,22(7):23-31.


热门排行: 教你如何写建议书