数字人文领域的数据获取与利用挑战及解决方案
1. JCDJ项目的资源连接尝试
JCDJ致力于连接资源的两端。尽管最终由人类用户解读聚合数据,但像维基百科和路线图这类阅读辅助工具能显著提升叙事水平,将碎片化数据转化为上下文信息,这在处理多学科数据时尤为重要。对于不熟悉自身专业领域外术语的用户来说,维基百科是JCDJ项目中的有效解决方案。
不过,JCDJ基于预先选定的资源构建,在这方面并不完全令人满意,因为与在整个网络上搜索信息相比,新发现的可能性较低。此外,还存在一些更基础的理论和技术问题,如如何搜索和识别分布式数据(资源发现)、按需更无缝地连接它们(资源连接性)以及创建故事(信息和知识形成)。
2. API应用的技术挑战
在API应用方面,存在诸多挑战:
- 数据结构差异大 :分析API的数据结构是一项极具挑战性的任务,即使是经验丰富的数据分析师也不容易完成。需要具备领域知识和技术技能来“解码”数据,而且使用多个API会使问题更加复杂,这也增加了跨学科研究的难度。
- 实时多调用导致性能缓慢 :应用完全依赖外部API,对于数据再利用者来说,性能缓慢并非小问题,需要技术进步和资金投入来实现真正有用的分布式研究。
- API密钥问题 :许多API使用需要手动请求的API密钥,这与开放数据的理念相矛盾。例如DBpedia等服务就不需要API密钥。服务提供商需要一定的安全性和信任,但API密钥的使用增加了开发的复杂性。
- 数据归一化和编码耗时 :不同的字符串分隔符等因素导致