社会化标注在数据挖掘中的应用
摘 要:社会化标注系统的出现为网络信息研究以及自然语言处理领域带来了一个新的研究热点。通过对标签、用户、资源之间的相互关联性进行研究,提供一些对网络信息理解和自然语言处理的新思路、新方法。社会化标注现在已广泛应用于各种网络资源(如网页、视频、音频、图片等)的组织、管理中,为网络信息检索及网络知识个性化服务推送带来了极大方便。
关键词:标注;社会化标注;标签;数据挖掘
DOI:10.11907/rjdk.143743
中图分类号:TP391
文献标识码:A 文章编号:1672-7800(2014)012-0144-04
作者简介:张新华(1981-),女,湖北荆州人,硕士,武汉软件工程职业学院计算机学院讲师,研究方向为计算机应用。
0 引言
Social Bookmarking是Internet用户用来组织、存储、管理、查询在线资源书签的一种方法。该方法仅仅是作为书签被引用(或分享),用户可以很方便地依据附加在这些书签上的元数据描述来知道这些资源的内容,而不需要在第一时间去下载才能了解其内容。这些描述可能是以比较自由的文字评价、对资源质量的满意或不满意、集成或协作的标签而形成一个Folksonomy。Folksonomy也被称作Social Tagging,即“很多用户添加关键字元数据来达到共享内容的处理过程”[1]。
在Web2.0环境下,Social Tagging得到广泛应用。其应用历史要回溯到1996年4月itList的尝试[2], itList的特征包括公开的和非公开的书签[3]。在接下来的3年里,伴随着Backflip、Blink、Clip2、ClickMarks、HotLinks以及其它风险投资公司进入这个市场,在线书签服务变得有竞争力。再后来出现了Delicious、Youtube、LibraryThing、Connotea、CiteUlike等众多新的应用与体验。在Social Tagging系统应用中,允许用户对网络信息资源进行自由标注。这些标注通常是在用户自身对资源理解的基础上公开进行的,所有用户对资源添加的标注都相互可见。Social Tagging这种自由、开放的模式及其所反映用户真实意图的标注信息,为网络信息资源的检索性能提高和有效利用带来了方便。
1 相关理论
1.1 标签与标注界定
标签(tag)是互联网用户标志网络资源类别或内容的相关用语,标注则是对用户针对网络资源添加标签这一动作行为的描述。当众多的互联网用户针对多个网络资源对象添加体现个性意识的标签时,便形成了所谓标签云,这就使得标签具有了社会性,也就使其成为社会化标签(Social Tag)。这种行为模式称之为社会化标注(Social Tagging)。
在文献[4]中,VanderWal将社会化标注系统划分为两种类型:广义和狭义的社会化标注。在广义的社会化标注系统中,网络用户可以针对任意网络共享资源添加标签。这种情形常常体现为多个网络用户对同一网络公共资源进行标注。这些网络用户通常具有不同的年龄层次、学历层次、专业知识结构和兴趣爱好,其添加的标签信息反映着个人背景。在狭义的社会化标注系统中,网络用户在得到授权许可后才可以对其他网络用户添加的网络资源进行个性化标注。这种网络资源有限共享式标注对于单个网络资源而言,一般情况下,只有较少的❧网络用户才会被授权添加标签,这使得每个标签所对应的网络资源相对较多,而且标签的内容所选用语基本相似。因此,利用单个标签就能相对准确地找到尽可能多的相关资源。
1.2 Social Tagging系统模型
Social Tagging系统模型中有3个主要对象:用户(User)、资源(Resource)和标签(Tag)[5]。用户是指(网络)资源的创建、标注或使用者,对于Social Tagging系统而言,用户基本都是互联网的普通使用者,资源则是互联网中的网络信息,标签是指对资源进行标注的用语。通过社会化标注这一处理过程,标注系统将网络用户、标签、网络资源三者之间建立联系,在用户与用户、资源与资源、标签与标签间也建立了联系,从而形成了用户、标签与资源之间的关系网络,如图1所示。
图1 用户、标签、资源关系
文献[6]中,Mika对用户、标签和网络资源进行分析并提出了一个三分超图模型:H(T)=V, E,其中V=A∪C∪I,A、C、I分别代表用户、标签和网络资源,E ={{a, c, i}|(a, c, i) ∈ T },为三者之间的关系。有研究者认为该模型不能反映用户标签的上下位关系,就将模型修改为F=U, T, R, Y, * ,其中*为新变量[7]。在此基础上,有分析者又提出了更为一般的模型:F: = (U, T, R,Y, ),表示用户所定义的标签之间的层级关系[8]。从后来的研究来看,Mika的模型应用得比较多。考虑到标注系统的动态性与用户的集聚性,有研究认为标注系统具有动态性以及用户的集聚性应将时间和用户组(group)因素考虑到系统模型中[9-10]。此外,随着对社会化标注研究的深入,一些研究者将社会情感[11]等考虑到标注系统模型中。
图2 del.icio.us标签聚类关系(图片资料来自文献[6]) 2 在数据挖掘中的应用
Social Tagging建构的用户、标签、网络资源之间的关系网♥络,为网络信息、知识的挖掘提供了较高质量的数据源,为社会化网络信息挖掘、推荐等应用服务打下了坚实基础。这也引起很多研究者对该领域的密切关注,并成为当前研究的热点。
2.1 社会化标注信息挖掘
在社会化标注系统中,标签为信息挖掘提供了高质量的数据。在文献[12]中比较了作者(Author)元数据与标签信息后,发现标签信息比作者元数据在了解用户关注点的知识方面更具有优势。文献[13]对标签在信息检索中应用的效果进行实证分析,结果显示标签具有较好的检索性能,用户对同一标签的多次使用也从侧面反映用户兴趣所在。在对社会化标注信息进行挖掘时,研究者们普遍将数据挖掘方法应用于标注信息挖掘中。
(1)标注信息聚类。标注信息聚类主要包括对用户的聚类、对网络资源的聚类和对标签的聚类。对用户的聚类主要是计算用户间的相似度或是网络的社区划分来实现用户聚类,如文献[14];对资源的聚类则应用了支持向量机等方法,如文献[15];对标签的聚类则类似于文本聚类,更接近于关键词聚类,SOM、马尔科夫等聚类方法 [16-17]聚类中都有所尝试。
(2)信息检索与个性服务推荐。通过研究一些算法尝试将标签与搜索相结合,如将标签、分类和浏览进行集成[18] 以期达到提高检索效果,也有研究将标签应用到Google上[19];文献[20]中介绍了folkrank算法,用以更全面的计算用户、标签和资源之间关系,以提高信息检索与推荐的效果。在其研究中,采用了基于矩阵的LSA及基于标签共现来进一步提高用户、资源、标签之间的相关度来达到有效的信息推荐服务[21-22]。
2.2 标签语义分析
社会化标注是一个自由、开放的大众化数据资源,在具体操作过程中还存在着标签的同义、多义等不足之处,因此影响了社会化标注在实际应用中的效果。为了弥补这些应用中的不利因素,目前研究采取的主要解决方法是从标注系统中提取浮现语义,并借助一些相关语义词典、领域知识本体等语义工具来增强标签的语义表达,提高对标签的自动正确理解,减少信息混乱。①利用一些概念集合进行标签的同义与多义处理,如文献[23]和[24];②将标签进行层级化处理,如文献[25];③结合诸如Wordnet、Hownet、wikipedia等公开的语义工具可以减轻甚至消除标签在语义理解上存在的一些问题,如利用Wordnet可以返回标签所属的类别,藉此查对该标签与其内容是否属于同一类别[26],文献[27]使用Wordnet将相关标签建立起语义层级来帮助网络用户更容易寻找相关资源。这些方法对解决标签的同义方面比较有效,但对标签的歧义问题却效果有限。因此,在后来的研究中,有研究者在分析中引入了用户喜好信息,通过计算用户的喜好与标签所表达概念的相似度来辨别标签的具体含义,达到解决标签歧义问题的目的,如文献[28];④结合本体进行标签语义分析。Tom Grube[29]认为标签数据体现了大众智慧,若能使用本体对其进行形式化描述,则有利于提取标签的语义信息。据此,他提出TagOntology的思想,设计了一个基于标签构建本体的概念模型,定义了Term(为人或计算机能够识别的词或短语)、Document(用URI或相似的命名服务标示的事物)、Tagger(标注者)、Tagged(已标注)等主要特征。这些特征进一步清晰地标示出了用户、资源、标签三者之间的潜在语义关系。文献[30]在前述研究的基础上给出了更为一般的本体模型,试图为标签建立起统一的结构和语义。
2.3 当前应用
社会化标准系统出现伊始,标签多用于个人博客的资源组织与标注。随着标注信息的广泛传播与应用,人们对大众标注概念的进一步理解与熟悉,标签的对象已经从最初的博客资源向网络图片、音视频等网络多媒体资源拓展。目前,标签已成为一种用于标注和组织包括博客等在内的各类网络信息资源的重要工具。Gilad Mishne则开发了一个名为AutoTag的软件工具,它可以通过采用合作过滤的方法,为网络用户在标注自己的博客时自动推荐更为合适的标签[31]。图3给出了一个一般的社会化标注系统结构[32]。
图3 Social Tagging系统架构
在系统结构图的下层是一个社会化标签服务的模拟;右上角是不同身份使用者互动情况的模拟,包括资源的发布、收集、回应与补充等动作;左边是一个tagging system场景的模拟,包括使用标签的角色、使用标签以及被标注标签的资源。
对用户而言,社会化标注可用于作为访问一个从不同计算机集结起来的标签集,组织大规模的标签并且在特定协议下共享标签的一种方式。同时,大规模的社会化标签也进一步为建立高质量的搜索引擎企业级应用贡献力量,所有基于标签的Internet资源分类(如Web网站)都是人工完成的。用户能够充分理解这些资源的内容,也能找到和用书签标注那些不曾被Web Spiders关注或索引的Web页面。
3 结语
社会化标注系统的出现为网络信息研究以及自然语言处理领域带来了新的研究热潮。通过对标签、用户、资源之间的相互关联性进行研究,可以提供对网络信息理解和自然语言处理的新思路、新方法。标签与自然语言处理方法相结合,可以提高对网络信息的准确抽取、对语义分析及理解的效果。因此,对基于社会化标注的搜索算法、排序算法进行改进,将极大促进社会信息的检索与推送服务。 参考文献:
\[1\] GOLDER SCOTT,HUBERMAN BERNARDO A.Usage patterns of collaborative tagging systems[J].Journal of Information Science,2006,32(2):198-208.
[2] The scout report[EB/OL].http://www.mail-archive.com/scout-report@hypatia.cs.wisc.edu/msg00038.html,1999.
[3] Extras-itlist and other bookmark managers by lajean humphries[EB/OL].http://www.llrx.com/,2000.
[4] WALTV.Explaining and showing broad and narrow folksonomies[EB/OL].http://www.perso-nalinfocloud.com /2005/02/explaining_and_.html.
[5] C CATTUTO.Network properties of folksonomies[J].Special Issue on Network Analysis in Natural Sciences and Engineering,2007(20):245.
[6] MIKA P.Ontologies are us: a unified model of social networks and semantics[J].LNCS: The Semantic Web-ISWC 2005. Springer Berlin/Heidelberg,2005,3729(2):522-536.
[7] SCHMITZ C, HOTHO A, JASCHKE R,et al Mining association rules in folksonomies[J].Data Science and Classification. Springer Berlin/Heidelberg,2006(6):261-270.
[8] HOTHOA,JASCHKE R,SCHMITZ C,et al.Information retrieval in folksonomies: search and ranking[J].LNCS: The SemanticWeb:Research and Applications.Springer Berlin/Heidelberg, 2006,4011(3): 411-426.
[9] ZHOU M,BAO S,WU X,et al.An unsupervised model for exploring hierarchical semantics from social annotations [C].LNCS:The Semantic Web.Springer Berlin /Heidelberg,2008:680-693.
[10] ABELF,HENZEN,KRAUSE D.A novel approach to social tagging: group me[C].In 4th International Conference on Web Information Systems and Technologies(WEBIST),2008.
[11] SCHENKELR,CRECELIUS T,KACMI IM,et al.Social wisdom for search and recommendation[J].IEEE Data Engineering Bulletin,2008,31(2):40-49.
[12] NOLLM G, MEINEL C.Authors vs readers:a comparative study of document metadata and content in the www[C].In Proceedings of 7th International ACM Symposium on Document Engineering 0'7,2007:177-186.
[13] MORRISON P J.Tagging and searching: search retrieval effectiveness of folksonomies on the world wide web[J]. Information Processing Management,2008,44 (4):1562-1579.
[14] JI A T,YEON C,KMI H N,et al.Collaborative tagging in recommender systems[J].LNCS:Advances in Artificial Intelligence.Springer Berlin/Heidelberg,2007, 4830(2): 377-386.
[15] WANG X,BAI R,LIAO J.Chinese weblog pages classification based on folksonomy and support vector machines[J].Autonomous Intelligent Systems: Multi-Agents and Data Mining,2007(4):309-321. [16] BALDASSARRI A, CATTUTO C, LORETOV,et al.Ranking and community detection in undirected networks[EB/OL].http://www.tagora-project.eu/wp-content/2007/04/talk_servedio_folkrank.pdf,2008-10-11.
[17] CHOY S O,LUIA K.Web information retrieval in collaborative tagging systems[C].IEEE/WIC/ACM International Conference on Web Intelligence,2006:352-355.
[18] BARROWS R, TRAVERSO J.Search considered integral[J]. Queue,2006, 4(4):30-36.
[19] HAN P,WANG Z,LI Z,et al.Substitution or complement: an empirical analysis on the impact of collaborative tagging on web search[C].In Proceedings of International Conference on Web Intelligence,2006:757-760.
[20] HOTHO A,JASCHKE R,SCHMITZ C,et al.Information retrieval in folksonomies:search and ranking[J].LNCS:The Semantic Web:Research and Applications.Springer Berlin/Heidelberg,2006,4011(2):411-426.
[21] XU Y,ZHANG L.Personalized information service based on social book marking[J].Digital Libraries:Implementing Strategies and Sharing Experiences.Springer Berlin/Hei❅delberg,2005(2):475-476.
[22] MICHLMAYR E,CAYZER S.Learning user profiles from tagging data and leveraging them for personal(ized) information access[C].In Proceedings of the Workshop on Tagging and Metadata for Social Information Organization, 16th International World Wide Web Conference,2007.
[23] AURNHAMMER M, HANAPPE P, STEELS L. Augmenting navigation for collaborative tagging with emergent semantics[J]. LNCS:The Semantic Web ISWC 2006. Springer Berlin/Heidelberg, 2006,4273(3):58-71.
[24] RONZANO F,MARCHETTIA,TESCONIM,et al.Tagpedia:a semantic reference to describe and search for web resources[C].In SWKM 2008: International Workshop on Social Web and Knowledge Management on the WWW,2008.
[25] CHRISTIAENS S.Metadata mechanisms: from ontology to folksonomy and back[C].LNCS:On the Move to Meaningful Internet Systems 2006:OTM 2006 Workshops.Springer Berlin/Heidelberg,2006:199-207.
[26] CARMAGNOLA F,CENA F,GENA C.User modeling in the social Web[J].LNCS: Knowledge-Based Intelligent Information and Engineering Systems.Springer Berlin/Heidelberg,2008,4694(3):745-752.
[27] LANIADO D,EYNARD D,COLOMBETTI M.A semantic tool to support navigation in a folksonomy[C].Proceedings of the eighteenth conference on Hypertext and hypermedia,2007, 153-154.
[28] NAUMAN M,HUSSAIN F.Using personalized web search for enhancing common sense and folksonomy based intelligent search systems[C].Proceedings of the IEEE/WIC/ACM International Conference on Web Intelligence,2007:423-426. [29] GRUBER T.Ontology of folksonomy: a mash-up of apples and oranges[EB/OL].http: //tomgruber. org/writing/mtsr05-ontology-of-folksonomy.htm.
[30] KIM H L,BRESLIN J G,YANG S,et al.Social semantic cloud of tag: semantic model for social tagging[J].LNCS: Agent and Multi-Agent Systems:Technologies and Applications, Springer Berlin/Heidelberg,2008,4953(3):83-92.
[31] GILAD MISHNE.Autotag:a collaborative approach to automated tag assignment for weblog posts[C].WWW'06 Proceedings of the 15th international conference on World Wide Web ACMญ New York,2006.
[32] 宋昆铭.在社W路上透^Tag-Thesaurus模型_到有效的Y源≌[D].台北:“国立”政治大学,2008.
Application of Social Tagging in Data Mining
Abstract:The emergence of Social Tagging system has brought a new research hotspot for network inⒶformation and Natural Language Processing field. Based on the label, users, resources between the interconnected nature of the study, can provide some help to understand the network information and new thought, new method for Natural Language Processing.Nowadays, Social Tagging has been widely used in various network source (such as Webpage, video, audio, pictures etc.) organization, management, that brings convenient for network information retrieval and personalized service of network knowledge.
Key Words: Tagging;Social Tagging; Label;Data Mining