Science|保护个人隐私、防范学术造假,数字时代如何开展社科研究?
在数字化时代,人们几乎一切行为都会留下数字化痕迹,对这些痕迹的汇总和分析可能改变我们对生活、组织和社会的认识。
Part 1
数字化为社会科学研究带来重大机遇
科学家总是会低估科技的发展速度。目前社会科学领域可以获取的数据已经极大地超越了几十年前社会科学家对于信息丰富度的预测。其原因在于:首先,计算机技术的发展,随着计算机技术的革命,更多的数据可以被记录下来;其次,人们获取数据的来源也更为丰富,既包括政府部门,也包括商业部门;此外,生物科学与计算机科学的技术也被大量引入到社会科学的研究中。
值得注意的是,丰富的数据为诸多研究带来了全新的机遇。以调研市民的观点为例,以往是要通过使用调查问卷,随机挑选1000个或者更多的市民来获取信息。而现在的社交媒体一天就能更新超过一亿条的信息,并且研究者可以通过文本分析的方法对相关文字进行识别。
收集和分析海量数据的能力给自然科学领域带来了很大变革,然而,在社会科学领域,数据驱动的学科发展却慢得多。比如,由于数据可获得性的限制,计算社会科学(Computational Social Science)就只能在一些私有公司和政府部门的小范围内发展,同时也存在基于数据的研究结果难以复制的问题。
那么,在开放的学术环境下,计算社会科学对增进个人和社群理解方面有哪些价值?又是哪些因素阻碍了计算社会科学的发展?David Lazer等人[1]在2009年发表于《Science》的文章中讨论了计算社会科学(Computational Social Science)的发展前景及发展过程中存在的障碍。Gary King[2]于2011年在《Science》也发表了一篇文章,讨论关于“数据丰富”时代社会科学研究的未来。
Part 2
互动关系与社交网络
David Lazer等认为传统关于人际交往的研究主要依赖于自我报告的主观数据,而新技术使得对互动关系的实施评估成为可能。例如,通过电子邮件的往来可以观察群体之间的互动情况,也能够判断群组关系是否发生明显的变化,或是哪种互动关系能够提升群组的工作效率,个体接收的新闻和内容的多样性能否影响个人能力和表现等等。同时还可以使用可穿戴设备捕捉人际交往中的个体行为和集体互动方面的变量,用于研究社交模式与工作效率之间的关系。
注:以上是一个政治博客社区的关联节点图。红色代表保守主义,蓝色代表自由主义,橙色代表从自由主义转向保守主义,粉色代表从保守主义转向自由主义。节点大小反映了博客关注数量。
David Lazer等表示,这些数据也奠定了从宏观层面上了解社会网络的基础。例如通讯公司能够收集、记录客户的通话记录,Google和Yahoo之类的电子商务门户网站也能轻易获得世界范围内的即时通讯数据。那么这些数据是否能全面描绘社会层面的交流模式呢?这些互动又是以什么方式影响经济生产力的?
关于这些问题的研究,David Lazer等认为互联网提供了与之前的小范围调查完全不同的研究渠道。其中,社交网站提供了一个独特的场景,来了解个体在网络中的角色对个人偏好、情绪、健康等各方面的影响,而自然语言处理技术则提供了组织和分析大量信息的能力。
Part 3
数字化带来的风险
对于社会科学而言,大数据的迅速发展带来了机遇,也带来了诸多问题,其中最值得注意的问题有两点:数据隐私和学术造假。
>>>>
数据隐私问题显现
然而,基于大数据研究社会科学还存在巨大的制度障碍。与自然科学最大的不同在于,使用个体数据存在隐私方面的问题。得益于计算机技术,目前数据来源的渠道非常丰富多样。首先,数据的获取方法就已经非常多元化,例如,研究人员可以通过手机获取被研究者的地理位置、通过选民登记获得政治偏好、通过信用卡信息获取消费信息、通过电子医疗记录获取健康信息等;其次,部分社会科学文章的数据与代码已经逐步开始对所有学者开放。实际上,在美国,研究者只要结合出生日期、性别和邮政编码就足以识别高达87%的美国人口。因此,数据匿名化的传统策略并非足够有效,数据丰富度可能会进一步加重隐私问题的顾虑。
在物理学和生物学的研究中,夸克和细胞既不介意我们什么时候揭露它们的秘密,也不抗议我们是否在研究过程中改变其环境。对于基础设施,从社会科学到计算社会科学的飞跃要比从生物学到计算生物学的飞跃更大,这在很大程度上是由于数据的使用需要寻求许可的同时,也存在加密的要求。很多社会科学的数据都涉及个人信息(例如手机和金融交易信息),需要特别关注共享个人数据过程中存在的潜在风险。正确管理隐私数据至关重要,需要行业和学术界之间共同协作。在涉及隐私权的问题上处理不当可能会扼杀计算社会科学这一新生领域。
>>>>
学术造假
以学术造假为代表的学术伦理问题需要引起重视。通过商业部门收集的数据往往具有敏感性,几乎也没有外部研究人员可以获取。即使研究人员得到了这些敏感数据,商业部门有时也会要求研究人员完成研究后对数据进行销毁,因此,科学复制几乎是不可能的,这极大降低了学术造假的成本。
Part 4
如何促进大数据在社会科学研究的应用?
如果隐私可以得到适当的保护,数据共享也会带来更多的发展机遇。那么,在促进数据共享、保护隐私的同时,研究人员该如何利用新数据?
第一,建立学术信誉机制,提倡所有学者将数据上传,并给予作者一次性决定对何种学术信誉水平的学者进行数据共享的权利,而非现在的临时决定模式。
第二,鼓励学术复制行为,期刊也应该鼓励数据共享与复制行为,学校要对学生进行教育,建立起共享数据与复制以往研究意义的认知。
第三,继续研究增强隐私的数据共享协议并更好地与政府官员沟通,方便社会科学研究人员可以更频繁地使用隐私数据,并取得更多有意义的研究结果。
第四,学术界应该开发出所有学科通用的数据共享方案,社会科学的研究相比其他会更依赖于跨学科之间的合作,因此数据共享不仅仅是直接将数据放在网站上,更要让各个学科的学者可以方便地使用。
最后,法律部门应该利用现有的知识产权法律体系制定出针对数据的保护法,这样数据分享的成本会极大降低。
数据的丰富为社会科学的研究带来了全新的机遇,也带来了诸多的问题。学科的健康发展绝不是单纯地呼吁学者对数据进行共享,只有建设好足够完善的基础设施,数据丰富的社会科学才会拥有更好的未来。如果能够解决研究中最关键的挑战,人类行为与社会的新数据会带来新的机遇。
参考文献:
[1] Lazer, D., Pentland, A., Adamic, L., Aral, S., Barabási, A. L., Brewer, D., ... & Jebara, T. (2009). Computational social science. Science, 323(5915), 721-723.
链接:https://science.sciencemag.org/content/323/5915/721.full
[2] King, & G. (2011). Ensuring the data-rich future of the social sciences. Science, 331(6018), 719-721.
链接:https://science.sciencemag.org/content/331/6018/719.full
学术前沿速递
学说观点
AIGC交流社区
未央网
毕宣
王凯
- 1
- 2
- 3