数据、元数据与叙事:文化数据管理与职业 ICT 教育课程开发的挑战与对策
1. 数据处理与人文研究的困境
在数字图书馆系统及更广泛的计算领域,数据处理是一个关键问题。人们天生有从数据中构建叙事的冲动,同时又倾向于认为所发现的数据是“原始的”,未受叙事影响。然而,现实并非如此。所谓的“数据清理”过程,实际上是一个既细化又模糊的过程,它会突出某些方面,同时掩盖其他方面。
在科学领域,数据清理是标准操作,但记录往往不完整。而在人文学科中,数据清理很少受到关注和认可。人文学科对于数据的定义、数据如何成为数据、是否需要清理以及原始语境、抽象化和重新语境化在数据处理中的作用等问题存在诸多矛盾和困惑。
例如,语义和语境复杂的文化数据是人文学者研究的重点,但在信息系统管理和策展方面却面临巨大问题。如何捕捉和整合这种不确定性、不规则性和丰富性,而不将其隐藏起来?谁能判断什么是“信号”,什么是“噪音”?谁能确定哪些关键信息仍然缺失?
2. 数据清理的影响与 EOS DIS 模型
数据清理的决策对研究结果、解释、重用和复制有着深远影响。虽然数据清理在科学领域被视为理所当然,但在人文学科中却缺乏相关的探讨和记录。
NASA 的地球观测系统数据信息系统(EOS DIS)为数据处理提供了一种功能性的定义。它不仅承认材料成为数据所经历的处理层次,还对清理过程进行分层,同时保持对“原始数据”来源语境的可追溯性。
不过,EOS DIS 模型也存在问题。它提到了“0 级”之前的“原始数据”,但这个术语存在问题,且该模型仅适用于研究开始时数据收集的阶段,之后数据被视为原始数据,直到进一步处理。而且,目前尚不清楚该模型用于人文学科研究时