2.数据及其特征、分类、质量

原创

bbuugg888 2周前 (05-09) 阅读数 48 #期货

上一篇我们知道了，统计学是研究数据的收集、整理、分析的一门科学，工作流程可以分为：设计、搜集、整理、分析、展示、解释数据。

数据是统计活动过程中所获得的反映社会现象的数字资料及与之相联系的其他资料的总称。统计学研究客观事物离不开数据，数据是客观现象进行计量的结果，所以数据的类型、质量在统计分析中很重要，甚至还能影响结果。数据的类型、分布与特征反映了对象的基本状况，也决定了要使用的分析方法。数据要应用、有意义，还要结合具体的业务场景，才能有标准、能判断。

在做数据分析之前，先清楚我们研究的对象属于哪类范畴，然后在按着这个分支检索自己该用到的知识或方法来解决问题。统计学的目的是对于数据（特别是未知的数据）进行描述、假设推断、预测和分析，其实描述更像是统计为得出最终结论的一个手段，分析的过程就是通过描述，从数据中获取有用的信息，比如规律或异常即上一篇的同质性或差异，加以利用并创造价值。

（一）数据的分类

统计数据是采用某种计量尺度对事物进行测度的结果采用不同的计量尺度会得到不同类型的统计数据，数据包括：各种数字、文字、图像、音频、视频及它们的组合等多种格式。根据数据的内容大概可以分为以下2类：

（1）分类数据，又称为定性数据。它用于确定数据的属性，是不支持算术运算的数据，用于说明事物的品质特征，结果表现为类别，可能是文字也可能是数字，可以分为两类：

①无序数据。比如：人的性别可以分为：男，女，未知三类，也可以把它们记为0，1，2；学生的成绩可以分为：及格，不及格，按自己的需求、惯例等，也可以用0，1或者a，b来标识等等。

②顺序数据，这其实也是分类数据的一种，但是分类数据不要求有顺序，它是有序的。比如空气污染可以分为：优，良，轻度污染，中度污染，重度污染，其中后面一级都比前面一级的程度更严重，也可以用1，2，3，4，5来标识这几种分类；学生的成绩也可以分为：优秀，良好，及格，不及格，后面一级的数据也都比前面的更差。

（2）数值型数据，又称为定量数据，用于说明现象的数量特征，形式是数字，也可以分为两类，主要按数值表现是否连续：

①离散型数据，离散型是通过计数方式得到的，增长量不固定，比如：一个企业1月份招聘了10人，2月份招聘了50人；北京市去年净流出200万人，今年净流出100万人；

②连续型数据，这是一直叠加上去的，增长量可以划分为固定的单位。如：人的年龄是1岁，1.2岁，1.5岁，2岁......人的身高1.5米，1.51，1.52......

定性与定量数据的关系：定性数据与定量数据相互补充，定性是定量的前提和依据，定量使定性更加具体、准确，结合使用才能通过比较来分析和说明问题。

区分测量的层次和数据的类型很重要，因为不同类型的数据采用处理和分析的统计方法也不同。比如，对无序数据，通常计算出各组的频数或频率，计算其众数和异众比率，进行列联表分析和x2检验等；对顺序数据，可以计算其中位数和四分位差，计算等级相关系数等非参数分析；对离散数据还可以用更多的统计方法进行处理，如计算各种统计量、进行参数估计和检验等。我们所处理的大多为数量数据。

特别地，适用于低层次测量数据的统计方法，也适用于较高层次的测量数据，因为后者具有前者的数学特性。比如：在描述数据的集中趋势时，对无序数据通常计算众数，对顺序数据通常是计算中位数，但对离散和连续数据同样也可以计算众数和中位数。反之，适用于高层次测量数据的统计方法，则不能用于较低层次的测量数据，因为低层次数据不具有高层次测量数据的数学特性。比如，对于离散和连续数据可以计算平均数，但对于无序数据和顺序数据则不能计算平均数。理解这一点，对于选择统计分析方法是十分有用的。

（二）数据的计量尺度

对统计数据的属性、特征进行分类、标示和计算，称为统计计量或统计量度。

由于客观事物有的较简单，有的较复杂；有的特征和属性是直观的（如人的外貌体征），有的则不直观（如人的偏好和信仰）；有的表现为数量差异，有的表现为品质差异。因此，统计计量也就有定性计量和定量计量的区别，并且可分不同的层次。美国社会学家、统计学家史蒂文斯（S.S.Stevens）1968年按照变量的性质和数学运算的功能特点，将统计计量划分为四个层次或四种计量尺度：

1.分类尺度（无序数据）

将数字作为现象总体中不同类别/组别的代码，这是最低层次的尺度。此时，不同的数字仅表示不同类（组）别的品质差别，而不表示它们之间量的顺序或量的大小。定类尺度的主要数学特征是“＝”或 “≠”。

如：将国民经济按其经济类型，可以分为国有经济、集体经济、私营经济、个体经济等类，并用（01）代码表示国有经济，（02）表示集体经济，（03）表示私营经济，（04）表示个体经济；用（011）代表国有经济中的国有企业，（012）代表国有联营企业；用（021）表示集体经济中集体企业，（022）表示集体联营企业；用（031）表示私营经济中的私营独资企业，（032）表示私人合伙企业，（033）表示私营有限责任公司；用（041）表示个体经济中的个体工商户，（042）表示个人合伙等等。其中两位代码表示经济大类，而三位代码则表示各类中的构成；不同代码反映同一水平的各类（组）别，并不反映其大小顺序。各类中虽然可以计算它的单位数，但不能反映第一类的一个单位可以相当于第二类的几个单位等等。

2.顺序尺度（顺序数据）

顺序尺度不但可以用数表示量的不同类（组）别，而且也反映量的大小顺序关系，从而可以列出各单位、各类（组）的次序。顺序尺度的主要数学特征是“>”或“<”。在统计的变量数列中可以确定其中位数、分位数等指标的位置。

如：对合格产品按其性能和好坏，分成优等品、一等品、合格品等等。这种尺度虽然也不能表明一个单位一等品等于几个单位二等品，但却明确表示优等品性能高于一等品，而一等品性能又高于合格品等等。定序尺度除了用于分类（组）外，在变量数列分析中还可以确定中位数、四分位数、众数等指标的位置。

3.定距尺度（离散数据）

定距尺度也称间隔尺度，是对事物类别或次序之间间距的计量，它通常使用自然或度量衡单位作为计量尺度。定距尺度是比顺序尺度高一层次的计量尺度。它不仅能将事物区分为不同类型并进行排序，而且可以准确地指出类别之间的差距是多少。定距尺度的主要数学特征是“+”或“-”。定距尺度在统计数据中占据重要的地位。

如：学生某门课程的成绩，可以从高到低分类排序，形成90分、80分、70分……0分的序列。它们不仅有明确的高低之分，而且可以计算差距，90分比80分高10分，比70分高20分等等。定距尺度的计量结果表现为数值，可以进行+、-的运算，但却不能进行乘或除的运算，其原因是在等级序列中没有固定的、有确定意义的“零”位。例如，学生甲得分90分，学生乙得0分，可以说甲比乙多得90分，却不能说甲的成绩是乙的90倍或无穷大。因为“0”分在这里不是一个绝对的标准，并不意味着乙学生毫无知识。恰如不能说 40℃比20℃暖和2倍一样。没有确定的标准的“零”位（基准位），但有基本的确定的测量单位，如学生成绩的测量单位是1分，质量价差的测量单位量1元，温度的测量单位是1℃等等，这是定距尺度的显著特点。

4.定比尺度（连续数据）

定比尺度是在定距尺度的基础上，确定可以作为比较的基数，将两种相关的数加以对比，而形成新的相对数，用以反映现象的构成、比重、速度、密度等数量关系。由于它是在比较基数上形成的尺度，所以能显示更加深刻的意义。定比尺度的主要数学特征是“÷”或“×”。在统计的对比分析中，定比尺度的运用较广泛。

如：将某地区人口数和土地面积对比计算人口密度指标，说明人口相对的密集程度。甲地区人口可能比乙地区多，但甲地区的土地更广阔，用人口密度指标就可以说明，相对说来甲地区人口不是多了，很可能是少了。又如将一个国家（地区）的国内生产总值与该国（地区）居民对比。计算人均国内生产总值，可以反映国家（地区）的综合经济能力。1998年我国国内生产总值约占世界生产总值的12％，排列世界第七位，堪称世界经济大国，但我国人口占世界总人口的21.2％，如果按人均国内生产总值计算，在世界各国中又居于比较落后的位次，说明我国仍属于发展中国家。

上述四种计量尺度对事物的计量层次是由低级到高级、由粗略到精确逐步递进的。高层次的计量尺度具有低层次计量尺度的全部特性，但不能反过来。显然，我们可以很容易地将高层次计量尺度的测量结果转化为低层次计量尺度的测量结果，比如将考试成绩的百分制转化为五等级分制。在统计分析中，一般要求测量的层次越高越好，因为高层次的计量尺度包含更多的数学特性，所运用的统计分析方法越多，分析时也就越方便，因此应尽可能使用高层次的计量尺度。

（三）统计数据的质量

统计数据质量主要包括：统计数据的内容质量、表述质量、约束标准三大方面。

（1）统计数据的内容质量

统计数据的内容质量是统计数据最基本的特征，它包括相关性、准确性与及时性。一旦缺少了其中任何一个，统计数据就失去了转化为信息的性质和基本作用。因此，这三个特征也可称为统计数据质量的主要特征。

1.相关性

相关性指统计机构所生产的数据是否正是用户感兴趣的统计数据。统计数据的相关性反映了它满足需求的程度，它与所提供的可利用数据是否是用户最关心的主题有关。由于对相关性的评价是主观的，会随用户需求目标的改变而改变，所以要平衡不同用户的需求目标，在给定的资源条件限制下，尽可能的满足大部分用户的大部分需求。

2.准确性

准确性指观测值或估计值与未知的真实值之间的距离（接近程度），通常用统计误差来衡量。它是统计数据质量的基础和核心内容，也是一般“统计数据质量”概念的主要问题。一般来讲，误差分为系统误差和随机误差两部分，有时也用引起不准确性的主要潜在原因（如抽样误差、无回答误差等）来分类描述。完全准确的测量经常受到成本、环境等各种限制，有时甚至是不可能的。所以关键是：误差是否已降低到用户可以接受的地步。

3.及时性

与用户需求相关的准确的统计数据如果没有在用户做出决策之前传递给用户，那么该数据对用户来说，是没有用的。所以，及时性也是统计数据能否满足用户需求的重要特征。

如果该现象本身变化较快，则对该类统计数据的及时性要求高；如果该现象本身变化较缓慢，则对及时性要求不高。

（2）统计数据的表述质量

对统计数据质量来说，仅考虑其内容方面的质量是不够的。统计数据需要表述，特别是将某个统计数据同其他相关统计数据相互联系地加以表述时，要考虑表述的质量问题。如：单个数据的内容是正确的，但表述不清晰、不充分，就会影响整套数据的质量，甚至引起误解。所以，统计数据质量必须考虑其表述质量。统计数据的表述质量包括可比性、可衔接性和可理解性。

1.可比性

可比性指同一项目的统计数据在时间上、空间上的可比程度。这要求统计的概念和方法在时间上相对稳定；在不同地区使用统一的统计制度方法和分类标准，保持统计数据的口径范围、计算方法在时间上一致衔接，在地区之间可比。

2.可衔接性

可衔接性指同一统计机构内部不同统计调查项目之间、不同机构之间以及与国际组织之间统计数据的衔接程度。这要求全国范围内所有专业统计项目在统一的统计框架体系、分类标准下，按统一的方法编制统计数据，在统计调查和数据加工整理中使用统一的方法和程序，同时采用国际统计标准，如国际标准时间等。

3.可理解性

可理解性指统计数据便于用户正确理解、使用的程度。统计数据是提供给用户使用的，如果某些用户不能理解，看不懂统计数据和统计分析报告，当然也就谈不上使用数据。为了恰如其分地使用从统计机构得到的统计数据，用户必须了解他们所获得数据的性质。这就要求统计机构在提供统计数据时附带提供对数据的补充说明。如：提供隐含在有关概念下面的说明、已使用的分类法、数据收集和加工过程中所使用的方法以及统计机构自身对数据质量的评价。

（3）统计数据的约束标准

在实现统计数据目标的过程中，除了注意统计数据的内容质量和表述质量这两方面外，还必须注意以下两项具有普遍意义的约束标准，这也体现了统计数据的质量特征。

1.可取得性

可取得性是指用户从统计部门取得统计数据的便利程度。对于有用的统计数据，用户必然要考虑：能得到哪些数据，如何得到这些数据。因此，统计数据必须以一种用户方便使用且能够负担的形式提供给用户。这要求提供统计数据时，必须列明用户从统计机构可以取得的统计数据内容，同时要应用先进便捷的统计数据服务方式，使用户取得数据更为便利。

2.有效性

有效性指利用统计数据所产生的效益要大于提供该数据的成本。如果情况相反，则提供这种数据对提供方和使用方来说都是不值得的。虽然目前统计数据的效益、成本，特别是前者不容易准确地计量，但是，保持这样一种基本的指导思想是十分必要的。这要求在统计数据的其他质量不受大的影响的前提下，尽可能降低统计数据的生产费用，提高效率。

这一篇主要是数据本身的特性，下一篇写如何处理数据。

版权声明

注意：以上内容(如有图片或视频亦包括在内)为自媒体平台用户上传并发布，本平台仅提供信息存储服务。

Attention: The above content (including any pictures or videos) is uploaded and published by users of self media platforms, and this platform only provides information storage services.

上一篇：听数据分析师说说，到底怎么理解“数据”？下一篇：53秒 90秒 15分钟 16年……中国创造力在哪？数据告诉你

发表评论:取消回复

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。

2.数据及其特征、分类、质量

版权声明

作者文章