本文为原创文章,未经本人允许,禁止转载。转载请注明出处。
1.数据型态
数据(Data):
- 定量资料(Quantitative)
- 离散型(Discrete)
- 连续型(Continuous)
- 定性资料(Qualitative)
🚩定性数据:叙述特性或种类,如居住地、种族等。
🚩定量数据:可以被计数或测量,如身高、消费金额等。
🚩离散数据:只能用自然数或整数单位计算。只能按计量单位数计数,可由一般计数方法取得。如员工人数。
🚩连续数据:一定区间内可以任意取值的数据,其数值是连续不断的,相邻两个数值可取无限个数值。其数值只能用测量或计量的方法取得。如零件的规格尺寸,身高,体重等。
2.结构化数据、半结构化数据、非结构化数据
2.1.结构化数据
每笔数据都有固定的字段,固定的格式,方便程序进行后续取用与分析。
例如:数据库(可用SQL语言操作)。
2.2.半结构化数据
数据介于结构化数据与非结构化数据之间。
数据具有字段,也可以依据字段来进行查找,使用方便,但每笔数据的字段可能不一致。
可以弹性的存放各种字段格式的数据(更方便,更节省空间)。
例如:XML、JSON。
半结构化数据举例👉XML:
1
2
3
4
5
6
7
8
9
10
11
12
<users>
<user>
<name>Qoo</name>
<gender>M</gender>
<age>12</age>
</user>
<user>
<name>Mary</name>
<gender>F</gender>
<!-- 缺少“age”字段,和上面字段不一致,故属于半结构化数据 -->
</user>
</users>
半结构化数据👉JSON:
1
2
3
4
5
6
7
8
9
10
11
[
user:{
name:Qoo,
gender:M,
age:12,
},
user:{
name:Mary,
gender:F,
}
]
JSON数据的特点:
- 使用key:value存放数据。
- 不用宣告字段的结尾,可以比XML更快更有效传输数据(网络传输中常用的格式之一:JSON)。
2.3.非结构化数据
必须通过ETL(Extract,Transformation,Loading)工具将数据转换为结构化数据才能取用。