需求分析
进入21世纪以来,科研范式已经进入到以大数据驱动的科学发现第四范式时代。大数据环境下,科研项目需要特定的数据支撑,但在获取与利用数据上遇到各种困难,如数据量大而异构,不知道如何采集获取,获取后又如何整理筛选,都是些费时费力的工作,需要专业的数据科学技术给予支持。

解决思路
将数据定制采集、处理和分析工作交给专业的、熟悉数据采集与分析的软件公司来进行,科研机构负责定义数据采集的范围、结构,根据研究方向的需要,共同构建数据分析模型,是大数据环境下进行科学研究的有效解决途径。在大数据环境下进行科学研究的案例越来越多,略举如下:

案例1:某课题关于全球基金项目数据的采集
某高校课题组需要研究全球主要国家关于人工智能领域的基金项目投入产出情况,课题研究需要数据支撑,委托我公司进行相应数据的采集。经过1个月的数据采集,总共采集了全球23个基金机构共139万条数据,筛选出关于人工智能的数据2.8万条用于课题研究。
序号 机构码 机构名称 项目数量
1 AU-ARC 澳大利亚研究理事会(ARC) 21611
2 AU-NHMRC 澳大利亚国立健康与医学研究理事会基金(NHMRC) 15045
3 CA-CFI 加拿大创新研究基金(CFI) 10892
...... ...... ...... ......
23 IN-DST 印度国家科学技术部 25759
案例2:浙江大学智库评价研究项目的定制数据
浙江大学受中国工程院委托,正在做基于客观、开源数据的全球智库评价。但开源数据采集与清洗是一项费时费力的工作,课题组将大量精力耗在上面,不利于做真正的趋势分析、智库评价、政策监测与预警研究等工作。特委托我公司进行数据定制。
根据数据结构,进行了数据的预采集。
采集的数据包括智库机构信息、专家数量、成果数量等众多信息,可以直接用于项目的研究,节省了课题组在数据采集与清洗的时间,从而把工作重心转移到趋势分析、智库评价等核心工作上来,大大提高了研究的效率。

实施流程:
双方初步接触后签订保密协议,研究机构根据科研方向,预定义数据定制采集的范围、结构等确定数据定制需求,我公司根据需求撰写数据定制方案,实施预采集,提交样例数据供评测,根据评测结果改进定制方案再实施预采直到满意为止。然后签订合作协议,实施定制数据采集,根据科研需求进行数据处理,包括数据归约、清洗、降维、转换等数据处理技术,发现数据内在联系与规律,对数据进行深度挖掘与分析,满足科研需求,利用可视化工具,生成可视化知识图谱,供成果产出使用,并根据合作需要持续对数据进行更新,紧跟科研课题动态。实施流程图如下: