基于互联网平台的大数据收集在社会认知研究

时间:2025-01-14 07:09:00 来源:作文网 作者:管理员

在信息化时代, 随着媒体技术的爆炸式发展, 人们在工作与生活中所产出的信息也在高速增长. 大数据 这一概念最初由John Mashey 在矽图科技的报告中提出, 主要阐述了由大型复杂数据的挖掘所带来的新的发现. 而这一概念也随着科学技术的发展, 尤其是互联网平台的日益宽广和其效率的突飞猛进而发生巨大的变化. 时至2012年, 全球平均每天约产出25亿吉字节, 而这一数字每隔约40个月将翻一番. 而互联网使用者也在其中收集人们所产出的各类信息. 例如, 沃尔玛集团每小时可以从用户的业务办理活动中搜集超过2000万Gb的用户数据. 随着信息千变万化, 怎样规模的数据足以被称为大数据始终在发生变化, 然而Mcafee等人提出的大数据的几大属性被广泛认同而成为大数据时代的主流观点. 他认为, 大数据之大体现在数据的样本量大小、数据采集和分析的速度以及数据的多样性这3个维度. 也正是因为大数据在以上3个方面的特征, 其分析方式和所得到的结果从本质上区别于传统数据.

以互联网为平台的数据采集与分析在大数据领域中占有重要地位. 社交网络、云计算等基于互联网的网络数据交流及加工平台促使人们不断尝试将传统活动投放在网络平台上, 从而使经济学、社会学、心理学及计算机科学等多个领域的研究者越来越多地从网络平台获取人们的活动数据, 谷歌流感趋势系统就是研究者利用网络信息跟踪、分析和预测社会信息的典型案例. Ginsberg等谷歌公司研究者并未采用任何疾病控制与防御中心的数据, 却成功地通过网络搜索记录快速追踪到了全美国范围内的流感动态. 谷歌公司的追踪仅比当地疫情延迟约一天时间,而相同的工作需要CDC中心通过收集医生的诊疗记录, 花费一周或更多的时间才能完成.

由此可见,网络平台中不仅仅储存了大量的既得数据, 而且通过有效的分析, 可以利用此类数据得到在传统研究方式中难以获得的研究结论. 正是基于网络平台的大数据的显著优势, 越来越多的研究和经费计划集中于网络大数据的研究和数据共享. 而其现实价值亦是吸引了众多企业加强了对网络大数据的开发和分析. McAfee等人对多达330个北美公司进行调查并对其主管进行了访谈. 研究发现, 较多主管认为公司决策依靠网络大数据的企业在财政和管理上表现更为出色. 而在行业内排名前1/3的企业中, 这种大数据导向决策的方式所引起的优势更为显著, 表现为在产量上高于同类型企业5%, 在收益上领先6%.网络大数据以其独特的价值和可靠性吸引着研究者、实业家乃至政府对其应用逐步加深, 因而在生产和生活中起着较之以往更为重要的作用.

1 大数据与心理学研究

近年来, 以网络为平台的社会行为吸引着越来越多的心理学领域研究者的关注. 以网络为平台的大数据分析主要体现在2类数据上, 一类为以Twitter,Facebook等社交网站用户操作为对象的网络社交行为分析; 另一类则是心理学研究者将实验程序从实验室移户到互联网平台, 身处不同地点的被试自行在网站操作完成实验, 这类研究主要依靠亚马逊的MTurk平台等具有交易功能的网站进行. 在社会学、经济学等众多领域, 网络收集大数据已成为众多研究者的选择. 大数据具有样本量大、样本分布广等优势. Paolacci等人[8]收集了1000名使用MTurk平台参加实验的被试的人口变量, 发现样本在地区、年龄、性别、教育程度方面都有较好的分布, 较之以往研究中的样本多集中于特定的在校大学生明显具有优势.然而在网络环境中完成实验, 被试能否正确地理解实验规则并且完成实验等质疑也时常存在. 随着网络平台的运营方式不断完善, 被试任务完成质量的监控也日趋精密, 数据质量也得到了较好的控制. 近年来, 各领域的研究者对网络大数据的信度进行了系统的检验. Germine等人在MTurk平台和实验室分别进行了剑桥面孔记忆、情绪认知等一共5项认知加工测验, 其中网络数据采集样本大小超过4000. 研究发现, 在被试的性别、年龄和任务完成成绩上均无⌚显著差异. Schnoebelen和Kuperman则针对多项语言认知加工任务在MTurk平台上获得的数据进行了信度检验, 发现传统实验室方法获得的数据可以有效地预测网络数据. 更有研究者进一步用测谎问题进行被试在完成任务过程中注意程度的测试, 发现95%以上的被试可以通过. 互联网平台的大数据收集的便利性和可靠性,使其逐渐成为心理学大数据领域的热点.

2 基于互联网平台的大数据采样在社会认知领域应用的优势

2.1 在保障社会心理学实验的数据质量方面的优势

系统性的高信度. 数据信度关乎结论质量, 在各实证研究领域中, 研究者通过改进测量方法和数据采集方式不断提升数据的信度. 近年来, 在社会心理学领域研究信度的问题引起了广泛的关注,众多的社会心理学实验的信度问题引起了Science,Perspectives on Psychological Science等杂志的专题讨论. 在讨论中, 检验研究结果能否被重复是解决信度问题的最为直接有效的方式. 而总结对研究信度的检验情况, Makel等人基于WoS网站进行检索, 发现自1950年开始, 在影响因子排在前100位的心理学研究杂志中, 重复研究率虽然在2000年以后有明显增长, 但也维持在较低的2%以下. 而且,在被调查的重复研究中, 他人直接重复实验成功率仅72.9%. 可见, 对以往研究所进行的信度检验, 其结果在数量和结果上都表明, 心理学研究亟需对其可重复性和结论的可靠性提出更高的要求.

为进一步进行系统的检验, Klein等人对13项社会心理学行为进行了研究, 每个实验采集了相互独立的36个样本, 共6344名被试, 范围涉及巴西、荷兰、英国、美国等众多国家和地区. 这一大型重复研究发现, 13项研究中有9项的平均效应量小于原始研究发现的效应量, 甚至有3项研究的平均效应量接近零. 研究者认为, 除实验操作的☿差异外, 样本的多样性是效应量差异的重要原因. 研究被试的教育程度、所在地区、年龄等众多因素都会对实验结果产生影响, 而更为广泛和大量的采样是解决假阳性结果的关键手段.

由于重复实验数量较少, 且以往研究的信度还存在质疑, 为解决社会心理学研究颇受诟病的信度问题, 扩大采样的数量和范围是较为可行的办法. 依靠网络平台采集大数据, 速度快、成本低、面向人群广, 所以可以方便地解决大量收集数据的问题. Mason和Suri[16]统计了在MTurk平台上收集行为实验数据的速度和样本分布, 发现在短短的10 d以内就可以完成500次测查, 而样本的分布与以往传统大数据收集样本的结构相似. Casler等人则直接对样本的多样性进行比较, 发现MTurk平台的样本人种多样性显著高于传统样本. 然而近年来, 随着越来越多的研究人员采用网络平台收集数据的方式进行研究, 网络研究平台也日臻正规和完善. MTurk, Clickworker,MicroTurk等站点通过开发各项适合实证研究采样的功能, 进一步对样本类型有了精密的控制. 例如,MTurk平台作为其中最为著名、发展时间最长的研究数据收集站点, 可以根据研究者的要求, 平衡各地区的被试数量, 并通过多种方式严格控制任务完成情况, 从而保障了在传统实验中需耗费大量成本才能确保的系统性的高信度.

匿名程度更高. 在社会心理学实验中, 由于所研究的问题涉及人际互动, 为了严格控制变量,常需要研究者尽可能地控制被试之间的非实验性质的社会交互. Warkentin等人发现面对面的互动更容易建立稳固的社会关系. 更有研究发现细微的社会线索, 包括身份信息、面部表情、目光交流等都会影响人和人之间的利他偏好, 更多更直接的社会线索会导致个体在与他人交往时表现更为利他. 这一现象被发现具有相应的神经基础, 从而进一步验证了社会线索对于个体的社会行为形成和变化的显著作用.

社会行为实验中, 参加者是否匿名参与实验对实验效应有明显影响. 而在实验中难以对被试的表现加以外在控制, 因而容易产生预期之外的干扰. 平衡面对面的交互所造成的影响是在社会心理学实验中特殊的要求, 区别于其他心理学领域的研究, 因而很多社会心理学实验采用了匿名的方式进行.在实验室情境中, 被试往往被分隔在不同的房间完成任务, 但这样的防护也难以匹及网络平台实验中更为严格的匿名效果.

2.2 在创造新的实验情境方面的优势

利于研究社会群体对个体行为的影响. 社会是共同生活的个体及其关系的总和[24]. 个体行为寄居于群体中, 与人和人之间的关系息息相关, 进而作用于群体活动模式. 这一关系在社会心理学、经济学等领域的研究中均得到证实. 例如, Grerk等人发现个人如果做出维护公平合作的行为, 组内的合作程度将得到整体提高. 类似地, 在计算机模拟中也有相似的发现. 然而, 群体与个人的关系不仅仅局限于个体行为的扩散上, 群体属性也会对个体行为产生影响, 这种影响主要表现为文化乃至信仰差异.

Barchard等人使用网络平台招募388名被试对色彩的情绪属性进行判断, 发现在蓝色和黑色与情绪之间的连接判断上, 印度被试与美国被试存在显著差异, 美国被试普遍认为蓝色与忧郁、阴沉的情绪有关, 而印度被试则认为蓝色代表平安快乐和多子.其原因在于与情绪有关的宗教人物形象和国家标识有国家间的差异, 从而导致了认知上的差异. 网络大数据研究不仅仅涉及个体层面的社会认知跨文化差异研究, 近年来ฌ, 更复杂的多人社会行为研究也采用了网络收集的方式. Raihani和Bshary采用独裁者博弈范式对不同文化下的利他偏好差异进行研究. 独裁者博弈是经典经济学范式, 该范式中包括分配者和接受者2种角色. 在实验之初, 分配者将获得实验者所给予的资金, 并需要决定如何分配这部分资金, 且接受者没有权利对方案提出任何异议, 需无条件接受分配者提出的分配方案, 故而称此范式为独裁者博弈. 按照经典经济学理论经济人假说, 担任分配者的个体应尽可能地将所有资金收归私囊, 但大量行为实验证实分配者不会选择用绝对利己的方式进行分配, 而是仍会给毫无话语权的对家保留一定金额, 这部分金额则被用于衡量分配者的利他偏好. 研究招募了700余名被试,随机设定分配者或接受者的角色, 对全球4个主要文化背景下的个体进行了利他偏好的分析, 发现文化背景具有显著影响, 在经济市场化程度更高的地区的利他偏好相比其他地区更高. 分析原因, 可能在于公平主义在市场经济体制较为完善的地区是更加普遍的认知方式, 因而在公平主义偏好下表现得更加利他.

比较以往的跨文化研究, 采用传统研究方法的研究往往样本量较小, 通常每个独立地区的样本量在20~30左右, 但网络平台下的大数据样本量常高达100甚至数百以上. 且这种更大的样本所反映的群体间差异可以更好地说明文化差异问题.之所以网络平台采集数据样本量较大, 是因为网络平台采集大数据的速度和成本都不是传统方法可以相比拟的, 完成一项数百人的跨文化研究往往仅需要几天时间, 而成本也远小于传统方法.

方便研究社会心理效应随时间的变化. 纵向研究, 亦即追踪研究, 是用于分析现象随时间变化的研究, 主要用于探究几个时间点上相同或不同个体变化的差异. 然而纵向研究相对应用较少, 主要原因在于此类研究成本高, 完成难度大. 采用网络平台收集数据较为容易, 近年来已有研究者根据网络大数据的纵向分析有所发现.

纵向研究在网络领域分为2种. 一种是对既有的网络行为进行分析, 其中主要包括Twitter, Linkedin,Facebook在内的社交媒体使用行为. Archambault和Grudin对多达1000名社交媒体使用者进行了使用情况的追踪研究, 发现日常使用Facebook的比例随时间显著增长, 原因在于个体在网络社交活动中会更多地卷入集体性活动, 而非常规的生活事项陈述,表明社群£性的行为对社会个体的重要性. 类似的也有关于愧疚感、社交焦虑等方面的研究. 另一种纵向研究的方式是将实验室纵向研究移植到网络平台上. 例如, 有研究者使用MTurk平台对多达369名被试的酒精日常摄入情况进行ผ了跟踪调查, 跟踪时间长达2周, 详细记录了个体每天的酒精摄入情况和过往酒精使用历史. 发现个体使用酒精量与过往是否滥用酒精以及社会交往情境有关. 且在该样本中由于包含了大量非在校大学生, 所以日常摄入酒精比例明显低于以往研究, 进一步说明大而分布广泛的样本在纵向研究中的必要性. 在社会认知领域,也有研究者采用这一方法研究奖赏学习条件下的学习效应. 这类使用网络平台进行的追踪研究, 对于时间的控制更加严格且记录更加精确. 此外, 正是因为网络操纵的环境较为私密, 被试参与研究的环境更为友好, 社会性生态效度更好.

发展新的分析方法. 网络大数据因其方便性而在各项以往难以达成的研究上体现出其独特的优势. 然而, 网络大数据在社会认知中的新颖贡献不仅局限于此, 还体现在对已有实验结论的扩充上.由于数据量大, 研究者可以灵活地根据被试类型分类进行切分分析. 大多数传统研究中针对由实验者操纵的自变量的效应进行分析. 所谓切分, 即根据个体的反应, 对一类型的个体行为进行分析, 将个体的反应类型作为被试间的自变量.Rand和Nowak使用MTurk进行了群体合作与惩罚的关系的研究, 其中针对被试的群体反应进行了切分分析. 该研究采用的是公共物品博弈范式, 4名被试一同进行实验. 被试在实验之初都有等额的私人资产, 在实验过程中需要选择将私人资产的一部分投入公共账户中, 公共账户中的资产按比例增长, 增长后均分给各被试. 在该范式中, 存在个人利益和公共利益的此消彼长, 如果被试投入得多, 那么团队共有的资产将会增长; 但如果被试投入得少, 依附他人的投资来赚取利益, 则团队共有的资产会减少,但被试可以通过这种方式赚取更多的利益. 这一范式是用于研究多方合作的经典案例, 在现实社会中也有广泛印证. 以往研究发现惩罚可以促进合作, 另又有行为实验证明在公共资产增长率较高的情况下, 惩罚并非最优选择. 对于惩罚能否促进多人合作,一直存在争议. 在该研究中, 采用了大量的样本, 在不同公共资产增长率和惩罚选项上广泛进行实验, 发现在不同惩罚策略下存在合作频次在不同资产增长率上的正态分布, 正是由于不同实验参数的使用导致了前人研究中的不同结果, 进而得出结论, 惩罚对合作产生的作用仅在限制对象的惩罚策略下有显著作用. 其中对于不同惩罚策略的反应进行切分的分析正是利用了网络数据的大样本特点,从而得以进行. 这种基于多种实验条件的、对被试行为类型进行分类分析的方法对样本量有很大的要求,而在多人互动的社会行为实验中, 对样本量的要求更是成倍增长, 以往的样本量在切分后进行分析, 难以达到大样本统计的基本要求. 网络平台下的大数据采集则解决了这一问题.

针对社会交互行为研究, 基于网络平台的人际合作行为可以采用网络分析的方式. 以往的多人互动研究主要针对两人互动, 而现实日常的社会互动往往脱离两人的限制, 转而涉及更广的互动范围, 呈现网络内多方交互的景象. 小到幼儿园中儿童的团队游乐, 大到涉及多个研究机构的大型研究项目, 合作的范围往往远远超出两个人. 随着网络媒体的疾速发展, 在网络环境中的合作和互动则更为高效, 自然也更加复杂. 由于以往研究中实验条件的限制, 缺乏对被试的网络化合作行为的分析, 仅有的少量研究中对行为实验中个体合作的网络化分析也比较简单, 较为精细的网络分析通常在计算机模拟中使用,还需要规模接近计算机模拟的行为实验对模拟的结果进行验证. Mason等人采用勘探井范式研究团队合作中的探索行为. 该范式要求多名被试一同根据极少的线索在地图上寻找矿井, 前人研究发现在群体数量较大的时候由独裁者领导团队完成任务效率更高, 然而在团体数量并未达到数十人的大型规模的条件下, 团队合作共享信息是更为有效的合作方式. 然而尚需探明怎样的信息共享模式最有利于合作. Mason等人使用这一范式在传统实验室情境下完成, 研究者根据连接模式进行分类, 研究不同连接模式的合作效率. 连接模式在计算神经、信息传播等领域均有丰富的研究. 连接模式是用于描述网络中代表个体的节点以及节点之间互相联系的边的概念. 通过阐述节点和节点之间的关系即可对信息传播的方式进行描述和分析.研究者将个体间的连接模式分为全连接、栅格连接、小世界和随机连接, 这4种连接方式是网络连接中较为常见且被广泛研究的网络类型. 对这些网络模式的合作效率进行分析, 发现各种连接方式分别适用于解决不同的问题, 例如, 全连接对于探索性强的任务是一种效率更高的合作模式. 在随后进行的基于网络平台的数据采集在保障了更大的样本量之外还扩充了网络的大小, 从而可以在对网络模式进行分类的基础上进一步分析网络的属性, 包括介数、最小平均簇、最大紧密度等. 这些网络属性相较连接类型, 是对网络连接方式更为具体的描述, 通过定义网络属性, 就可以确定网络的类型, 同时也可以更确切地描述混合多种类型的网络模式. 研究发现网络中与网络能效有关的属性都能够较好地预测团体合作的效率, 即理论上信息传播更经济的网络在实际合作中的效率也更高. 此类网络研究不仅对样本大小有较高的要求, 同样也要求实验过程中可以进行大范围的实时交流, 充分运用了网络平台信息交流快速的特点.

3 存在的问题与展望

大量实验研究对基于互联网的大数据采样信度进行了系统的检验, 然而仍有问题尚未解决, 基于互联网的采样还无法完全替代实验室行为研究. 首先,由于实验条件的限制, 实验者无法完全控制被试完成任务的资源. 有研究者检验了被试在网络平台完成任务时是否采用互联网搜索正确答案, 发现如果被试回答得正确与否与报酬相关联, 通过网络舞弊的比例高达40.1%; 而如果回答正误不影响报酬, 被试的舞弊比例虽然减少很多, 但仍达27.2%. 因而,涉及知识的记忆类任务得到的数据可能会质量较低.此外, 还存在部分变量, 即使加大样本也难以平衡.由于现有的网络平台主要使用英文, 所采集到的数据也多数来源于以英语为母语或第二语言的国家.虽然样本在各国家和地区的分布明显优于传统实验方式, 但构成仍然单调, 绝大部分为美国和印度被试. 在其他国家采集的样本仍然较少, 并且由于语言学习环境的限制, 能够熟练使用英语的、来自其他国家的被试往往教育程度较高, 可能带来难以在地区间平衡的人口学变量.

此外, 已有的基于网络采样的大数据, 虽然大量地被证实与实验室研究结论相差无几, 但仍有部分研究发现基于网络的数据采样与传统实验数据的差异. 在行为表现上, MTurk被试对于金钱的价值评价更高, 类似地, 也发现MTurk进行的经济决策实验中, 被试表现得更加规避风险. 在情绪特征方面,网络被试抑郁的评分相比传统方法招募的被试更高, 但另有研究发现MTurk被试在大五人格量表中的外倾性评分比社群被试更高. 类似的对2类被试的特质进行比较研究, 发现两者之间产生差异的结果时常出现, 研究结论也偶有矛盾, 带来这种差异的关键因素也尚未探明, 但也说明网络平台收集数据所得结论在与以往研究进行比较时, 需考虑两类被试的特质性差异, 谨慎推论.

尽管存在以上问题, 基于互联网平台的大数据研究仍然为社会认知领域的行为研究带来了崭新的发展方向. 在我国, 由于其起步晚, 还尚未得到完全的推广. 现有的少量研究主要集中探讨网络大数据平台的建立和对数据分析的设想上. 网络平台的实证研究大数据采集所采用的手段也比较局限.

Wang等人使用网络方式对社交网络隐私保护偏好进行调查, 样本来自美国、中国和印度. 其中印度和美国样本在MTurk平台采集, 而中国样本使用ZBJ网络平台进行收集. 研究发现, 中国受试者对社交网络的信任度和隐私尊重的程度高于印度受试者, 低于美国受试者, 其差异主要来源于网络社交习惯的不同. 该研究使用问卷测查的方法进行比较, 手段简单、对网络平台的要求也较低, 因而得以实施. 然而因功能欠缺和推广不足, 在我国实施网络平台的大数据采集难度较大, 且尚未有针对性地对我国网络数据的信效度进行检验. 未来研究需要进一步使用实验方法检验网络大数据的信效度, 系统地对样本进行测查. 其次, 网络大数据还局限在它的高效率和低成本上, 对网络数据中的分析尚以个体分析为单位, 本质上没有完全脱离传统行为实验的分析方式,甚至在分析所得结果上表现得比传统研究更为描述性, 而非解释性. 人类所具有的心理理论能力和镜像神经系统表明个体在对客观刺激的认知受到社会线索的调节, 个体之间的交互是多方向的, 具有网络特征. 在未来针对社会认知内容的研究中, 应更多地将人类社会行为以群体为单位进行网络化分析, 充分发挥网络平台的信息传播优势. 国外已有研究涉及社会行为的网络化分析, 然而我国的此类研究尚且欠缺. 正是这种原因, 社交行为网络化模式的跨文化比较研究也同样欠缺. 未来需要在对国内网络平台大数据的信效度得到有效检验的基础上, 进一步对国内外的群体社交行为进行比较. 总之, 网络大数据在社会认知领域正发挥着日益重要的作用,其数据质量还需采取手段保障, 分析方法还需要在未来进一步挖掘.


热门排行: 教你如何写建议书