人文社会科学大数据研究基本特征与不足知多少特征

导读:

依托海量的数据状态和云级别的数据处理能力,大数据带来了一场全方位的思维变革、产业变革和科研变革。如何将科学数据变成科研创新资源,并在其积极作用下促进各学科的发展,成为学者们关心的话题。

充分认识大数据

何为大数据?我国《促进大数据发展行动纲要》指出:“大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合。”维克托·迈尔-舍恩伯格和肯尼斯·克耶编写的《大数据时代》中提出“大数据”的4V特点:(体量浩大)、(生成快速)、(模态繁多)、Value(价值巨大而密度较低)。

数字化人文社会科学研究基本特征与不足知多少

特征

·大数据分析方法提供了人文社会科学新的研究空间

·一般引入计算分析方法,其结论通过大量数据汇集而“自动涌现”

·人文社会科学大数据研究的可用性、共享性、重用性、协作性增强

·数字人文研究由跨度较大的不同学科的专业学者共同完成

·决定研究质量的主要是数据集的质量、数量和利用方式,而研究假设相对容易

不足

·数据可能生涩,并且缺乏可理解性和适用性

·大数据研究可能无法给问题合理的解释

·数据分析的集群研究会消灭重要的个体特征

·人文社会科学大数据研究过分关注技术分析可能忽视创新思维和思辨分析

综合已有的研究,南京大学教授孙建军认为,人文社会科学大数据研究的基本特征表现为以下五点:

一是所涉及资料均大大超过一般的阅读、分析和理解所能处理的范畴,是以往“不可研究”或“难以研究”的,大数据分析方法的出现提供了人文社会科学研究新的研究空间,提供了新的研究可能。

二是一般引入计算分析方法,其结论并非观察、思索、领悟等传统方法获得,而是通过大量数据的汇集而“自动涌现”,其理论的获得不同于传统人文社会科学研究。

三是均构建了可持续完善和丰富的数据集和分析工具人文社会科学大数据研究基本特征与不足知多少特征,其可用性、共享性、重用性、协作性大大增强,提供了人文社会科学学者大规模协作的可能。

四是均具有跨学科特征。数字人文研究需要汇集专业领域技能、数据管理技能、数据分析技能和项目协作技能,因而这类项目往往由跨度较大的不同学科的专业学者共同完成。

五是决定研究质量的主要是数据集的质量、数量和利用方式,而研究假设相对容易。在某种程度上,数据科学家将成为人文社会科学大数据研究中的主角。

数字化人文社会科学研究虽然有美好前景,但也存在不足。首先,由于完全剥离了数据所处的具体环境,数据可能生涩,并且缺乏可理解性和适用性。其次,人文社会科学的大数据研究有可能“敏锐地”发现问题,却无法给问题合理的解释,也无法给出有针对性的对策,限制了其应用范围。再次,数据分析的集群研究会消灭重要的个体特征,而个体反而是众多人文社会科学研究关注的焦点。最后历史学属于人文科学还是社会科学,人文社会科学大数据研究过分关注技术分析,可能忽视创新思维和思辨分析,不利于大师级人文社会科学学者的培养。

大数据下的人文社会科学研究举例

·准确把握大势,科学分析舆情

·大数据与历史学科学化

·中共党史研究迎来大数据时代

·基于大数据的税收分析和预测体系研究

·古典文学信息化的重点的转型

人文社会科学大数据研究基本特征与不足知多少特征

准确把握大势,科学分析舆情。大数据时代给我们的舆情研究提供了怎样的有利条件?对此,中国社会科学院新闻传播研究所所长唐绪军认为,怎样把非结构化的数据结构化,怎样在看似不相关的两组,或者多组数据之间找出它们之间内在的联系,这就是我们做舆情分析和研究所需要做的事情。善于发掘大数据间的关联性,可能会更有效地把握舆情。未来的舆论研究,采集数据应尽可能完整准确;分析方法要尽可能科学合理;呈现的结果应尽可能客观公正。

大数据与历史学科学化。北京大学教授李伯重分析了运用大数据研究历史的必要性。他认为,历史学的科学化是当今史学发展的主要方向,它包括史料学的科学化和方法论的科学化。同时,李伯重教授指出大数据的来源是数据采集、数据处理、数据验证、数据格式化,之后再建立数据库,为学术研究所用。比如李中清与康文林花费20多年时间,所建立的基于八旗户口册和清代皇室族谱资料的中国多代人口系列数据库。

中共党史研究迎来大数据时代。围绕着大数据对历史研究的影响,首都师范大学政法学院副教授王冠中认为,大数据给既有党史研究思维方式带来了三大挑战,即大数据“4V”特征给党史研究的资料运用和存储带来挑战,大数据带来的思维革命挑战现有的党史研究思维方式,大数据对既有党史叙事方式和“专家治史”格局形成挑战,此外,微信、微博、论坛等社交媒体的广泛运用,势必会诱发党史表达话语权向下位移。他强调,在大数据的洪流中人文社会科学大数据研究基本特征与不足知多少特征,党史研究要真正做到科学化和现代化,必须学会科学运用和处理数据。

基于大数据的税收分析和预测体系研究。中国人民大学财政金融学院副教授谢波峰通过研究国内外的基于大数据的税收分析和预测体系,认为税收经济分析和预测的重点在于以下三点:其一,探索和形成基于大数据的若干税源变量;其二,整合税务内部大数据, 建立重点行业税收分析和预测模型;其三,推出重点行业税收预测的公开体系。

大数据视阈中的文学地理学研究。大数据对传统研究产生了极大影响,也为文学地理学学科在更为深广的领域拓展,提供了技术支持。中国社会科学院文学研究所副研究员刘京臣尝试用技术手段对行录笔记进行再次研究,他分析了数据挖掘如何能够找到文献之间可能存在的关联,在此基础上,他认为,互补、部分重合两种关系能够不断发现相关资料,及时补充、更新已有文献数据历史学属于人文科学还是社会科学,这对于建构开放式数字方志体系具有重要意义。

大数据时代,科研人员需要具备哪些能力?

·能够熟练运用现代信息技术和数据装备处理人文社会科学的复杂信息

·能够科学合理解读现代人文社会科学信息所蕴含的意义

·能够运用大数据技术引领人文社会科学研究和人文社会现实的良性健康发展

目前的问题是,人文社会科学工作者如何自觉地进入大数据时代,推进人文社会科学研究的变革与创新。华中科技大学国家治理研究院院长欧阳康教授认为,人文社会科学工作者需要自觉学习和有效运用复杂性思维,应自觉学习和运用大数据技术,要通过大数据技术把人文社会科学研究的相对客观部分提升为可以与自然科学和工程技术相媲美的“硬科学”,对大数据技术的应用可以分为以下三个层次:

其一历史学属于人文科学还是社会科学,能够熟练运用现代信息技术和数据装备处理人文社会科学的复杂信息;

其二,能够科学合理解读现代人文社会科学信息所蕴含的意义;

其三,能够运用大数据技术引领人文社会科学研究和人文社会现实的良性健康发展,引领社会文明的数字化发展方向。

如何既运用科学技术,又防止为技术所裹挟,是摆在科研人员面前的一道难题。欧阳康教授指出,大数据时代最大的特点就是人、对象世界、数据世界与数据技术的多维互动,这需要人文社会科学研究者自觉置身于自然—社会—人—数据的复杂巨系统中,勇于实现自我超越。