浅析舆情监测系统的设计和搭建
【摘要】近年来随着网络舆情事件的频繁发生,舆情监测系统的重要性得到了社会各界的关注,如何设计和搭建适合客户的舆情监测系统成为舆情研究的重点,本文将在舆情监测系统设计架构和舆情监测系统技术难点等问题上给读者提供一些建议。
【关键词】舆情监测系统,分词技术,全文检索引擎,热点预判
1 绪论
1.1什么是舆情监测系统。舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者及其政治取向产生ว和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。出现了社会舆情相关行政部门和新闻媒体等机构想第一时间的获得舆情信息就造就了舆情监测系统的产生。舆情监测系统是指通过相关的专业舆情软件按照一定的规则和算法将互联网上繁杂的数据信息当中用户所关注的信息抓取出来,并通过分析过滤等方式,最终呈现出与需求相匹配的舆情信息,并以舆情报告形式呈现。
2系统设计思路
2.웃1系统架构
2.2技术选型。为了保证舆情监测系统的高效、安全和跨平台等特性,在技术选型上决定所有服务器使用Linux系统,结构上采用多层B/S结构,在开发语言上选择JavaEE体系结构和MVC三层设计模式。
2.3系统构成。舆情监测系统从信息采集到生成最终舆情报告经过五个阶段:信息采集、信息加工、舆情分析、舆情发布、舆情跟踪舆情报告,其中每个阶段又分为五个独立子系统进行处理。
2.4关键技术
2.4.1敏感分析技术。针对互联网上敏感词的多样性,我们对于采集来的信息进行预加工,将信息按照时间、地点、事件等条件进行分类,同时我们将用户输入的敏感词逻辑关系表达式进行分词,形成模糊查询条件,将符合模糊条件的信息导入备选库,在形成检索的敏感词中引入同义词、反义词、拼音、字形等扩充进一步完善查询条件,再从备选库中将符合条件的信息展示出来。
但是在现实操作中发布舆情信息者为了避免计算机自动识别和关键词屏蔽,往往会将敏感词进行修饰,其中主要的干扰手段有:敏感词之间加入空格或者特殊字符;使用会意字、同音字或拼音等代替敏感词中的部分文字;使用图片、图形等代替敏感词中部分文字。针对这些变形我们可以通过分词技术、O™CR识别技术、正则表达式等方式去除干扰。
同时为了增加敏感词检索效率,我们会将用户输入的敏感词逻辑关系表达式识别成一个个的关键词进行索引。信息预加工的时候如果信息敏感词可以在索引中找到关键词直接归类,如不在索引中找到将信息导入备选库,系统每天零点将备选库中信息进行二次计算避免信息的遗漏。
2.4.3信息排重ต技术。因为互联网网站数量十分庞大,网站信息同质化情况严重,造成采集来的信息重复度很高,对于舆情分析来说相同内容信息只需要显示一条就可以,所以就产生了信息排重的需求。我们通过信息指纹技术进行信息排重。信息指纹技术在百度百科中的解释是:提取一个信息的特征,通常是一组词或者一组词+权重,然后根据这组词调用特别的算法,例如MD5,将之转化为一组代码,这组代码就成为标识这个信息的指纹。生成信息指纹之前先将采集来的信息去除非特征关键词、连接词、形容词、语气词等干扰关键词,针对每段剩余的关键词生成信息指纹,比对疑似相同内容的文章各段的信息指纹判断内容是否相同。
2.4.4 稿件溯源技术。信息的出口地址对于舆情分析和舆情处理起着十分重要的作用,我们的溯源算法是通过分析信息时间点和信息关系拓扑计算出来的。其中的几个时间点有:网页文件生ณ成时间、网页内容发布时间、搜索引擎快照时间、搜索引擎收录时间。通过分词技术和信息指纹技术找到信息内容的原始拷贝,结合网页提供的相关参数和上面提到的几个时间我们可以大体的分析出信息的原始出口。
3结论。舆情监测系统的好坏归根到底唯一的标准就是:第一时间将舆情数据展示给客户。不管你的舆情监测系统技术架构有多先进,抓取效率有多么的高,如果不能第一时间将舆情内容提交给用户那都得不到用户的信任,所以舆情监测系统是个不断迭代更新的系统。随着移动互联网、大数据、web3.0的时代到来,市场细分加剧,服务更趋于个性化,舆情监测系统更需要关注整个互联网的发展形势,提供更加专业、细分的舆情信息和舆情处理服务。