- 大数据导论
- 黄源 龙颖 吴文灵主编
- 394字
- 2023-11-29 19:04:36
1.2.2 非结构化数据
非结构化数据本质上是除结构化数据之外的一切数据。非结构化数据具有内部结构,但不能通过预定义的数据模型或模式进行结构化。它可能是文本格式的或非文本格式的,也可能是人为的或机器生成的。非结构化数据通常可以存储在NoSQL这样的非关系数据库中。
非结构化数据构成了网络上绝大多数可用的数据,并且它每年都在增长。目前企业中80%的数据都是非结构化数据,这些数据每年都增长60%。相对于以往便于存储的以文本为主的结构化数据,越来越多的非结构化数据的产生给所有企业都带来了挑战。
典型的非结构化数据如下。
(1)文本文件数据:文字处理数据、电子表格数据、演示文稿数据、电子邮件、日志。
(2)社交媒体数据:来自新浪微博、微信、QQ等社交平台的数据。
(3)移动通信数据:聊天短信、电话录音、实时位置等。
(4)媒体数据:数码照片、音频文件、视频文件等。
(5)传感器数据:交通传感器数据、地震图像数据、海洋图像数据等。