数据化是将均匀、连续的数字比特结构化和颗粒化,形成标准化的、开放的、非线性的、通用的数据对象,并基于不同形态与类别的数据对象,实现相关应用,开展相关活动。

数据化是中文中独有的一个重要概念,它是在电子化、信息化、计算机化和网络化等术语之间自然出现的。在很多地方,数据化的概念经常被与量化、数值化的概念相混淆,但实际上在这里,数据不是指狭义的数量值,而是指可以对应于各种信息对象的,数字比特的结构化集合。

数据化与数码化

数据化和数码化不是对立的。数据化这一概念的提出不是对数码化的否定,而是对数码化的拓展与推进。数据化关注的焦点更多地集中在数字比特更复杂、更高级的存在形态上。数据化基于由数字比特组合形成的客体——数据。数据是所有数字比特对象的子集,数据化是数码化进程中的一个方向。

数据化是内生于数码化的,就像半导体化内生于电子化,就像“数字的”内生于“模拟的”,就像活字印刷术内生于印刷术。在人类文明史中,活字印刷取代印刷术发展早期的雕版印刷,将中文里的汉字、英文里的字母和单词分离出来,成为可以自由组合的、在各种具体的文本中通用的独立颗粒,这一拓展革命性地提升了印刷的效率,导致了印刷成本的大幅度降低。在早期印刷术发展的基础上,活字印刷这一伟大发明带给我们更多灵活性,更大的选择空间,推动了社会中知识的传播与普及,加速了人类文明的进程。而数据化的文化意义和社会价值正是与它非常相似的。

在电子化的时代,从“模拟的”转向“数字的”是一个巨大的飞跃。数码化是通过对连续时空对象进行离散化实现的。

典型的数据化对象

数码化对应的基本单元是比特(bits),数据化对应的典型对象则是字节(bytes)和字(words)。其他基本的数据类型还有布尔、双字、整型、浮点型等,而复合的数据类型则有数组、结构、枚举、联合等等。对应于通讯、计算与存储等具体应用,我们有复杂的高级数据对象,它们是数据包(packet)、类(class)和文件(file)等。

参见