欢迎来到梦题库! 请登录 注册 今天是2023/3/28 |
![]() |
![]() |
12 | ![]() |
![]() |
![]() |
![]() |
课程 | 题库 | 下载 | 答疑 |
第三节 分 配 数 列
一、分配数列的概念与种类
将总体中的所有单位按某个标志分组后,所形成的总体单位数在各组之间的分布,称为分配数列或次数分布。分配数列由两个要素组成,一个是分组,另一个是次数,又叫频数。
根据分组标志的不同,分配数列分为品质分配数列和变量分配数列。按品质标志分组所编制的分配数列叫品质分配数列,简称品质数列。按数量标志分组所编制的分配数列叫变量分配数列,简称变量数列。
变量数列又有单项式变量数列和组距式变量数列之分。用一个变量值代表一个组形成的数列,叫单项数列。用变量值变动的一定范围(组距)代表一个组形成的数列,叫组距数列,
二、变量数列的编制
1.整理数据资料,确定全距
对于一个杂乱无章的原始资料,把标志值按大小顺序排列后所计算的最大值与最小值之差就是全距。
2.确定变量数列的形式
确定变量数列的形式,也就是确定编制单项变量数列还是组距数列。
3.组数和组距的确定
对于组数和组距,先确定哪一个,不能机械地规定,应视具体情况而定。在编制等距数列的情况下,组数、组距和全距存在下列关系:
组数=全距+组距
为计算方便,组距宜取5或10的倍数,在确定组距时,必须考虑原始资料的分布状况和集中程度,注意组内的同质性,尤其是对带有根本性的质界限,更不能混淆,否则就失去了分组的意义。
4.确定组限
当组距组数确定后,只需划分各组数量界限,便可编制组距数列了。一般来讲,组限应是决定事物性质的数量界限,具体划分时应注意以下几点。
第一,组限的确定应当有利于表现各变量值实际分布的规律性。
第二,最小组下限要略低于最小变量值,最大组上限要略高于最大变量值。
第三,如果变量值相对集中,无特大或特小极端值时,则采用闭口式;反之,如果变量值相对比较分散,则采用开口式。
5.编制变量数列
确定上述要素以后,就可以把变量值归类排列,最后把各组单位数经综合后填入相应的各组次数栏中。
编制组距式数列时,该用多大组距,组数多少,可能一时难以确定,不妨先按小组距分组,然后逐步合并组距,再从比较中择优。美国学者斯特吉斯(H. A. Sturges)提出这样的分组组数公式:n=1+3.322lgN。N为总体单位数,n为应分组数。这是经验公式,可以参考,但不能生搬硬套。
三、频数与频率
在整理和分析的时候,不但要注意各组标志值的变动范围,而且也要注意各组标志值的作用大小,即频数的大小。在变量数列中标志值构成的数列表示标志值的变动幅度,而频数构成的数列则表示相应标志值的作用程度。频数越大,则组的标志值对于全体标志水平所起的作用也越大;反之,频数越小,梦题库版权所有,则组的标志值所起的作用也越小。将各组单位数和总体单位数相比求得的频率表明各组标志值对总体的相对作用程度,也可以表明各组标志值出现的频率的大小。按顺序列出各组标志值的范围(或以各组组中值来代表)和相应的频率形成的统计分布,称为频率分布。很显然,任何一个分布都必须满足:①各组的频率大于0;②各组的频率总和等于1(或 100%)。
在研究频数和频率分布的时候,常常还需要编制累计频数数列和累计频率数列。其方法通常是先列出各组的组限,然后依次累计到本组为止的各组频数,求得累计频数。将累计频数除以频数总和即为累计频率。23年高级统计师报名时间 高级统计师考试教材 高级统计实务教材 统计时政热点 统计师辅导 高级统计师历年真题 高级统计师押题密卷 购买点图片
将各组频数和频率由变量值低的组向变量值高的组累计,故称为向上累计或称为较小制累计;将各组频数和频率由变量值高的组向变量值低的组累计,故称为向下累计或称为较大制累计。向上累计各累计数表示各组上限以下的累计频数或累计频率。当我们所关心的是标志值比较小的现象的次数分配情况时,通常用次数向上累计,以表明在这些数值以下所有数值所占的比重。有时为表示在一定标志值以上的累计频数和累计频率,则会采用分组的下限,并从变量值高的最后一组的频率开始按相反的顺序向变量值低的组累计,来求得累计频数和累计频率,即向下累计。各累计数表示各组下限以上的累计频数或累计频率。当我们所关心的是标志值比较大的现象的次数分配情况时,通常用次数向下累计以表明在这些数值以上所有数值所占的比重。
按年销售额分组 /万元 |
营业员人数/人 |
向上累计次数/人 |
向下累计次数/人 |
500-600 600-700 700-800 800-900 900-1000 1000以上 |
24 48 105 60 37 26 |
24 72 177 237 274 300 |
300 276 228 123 63 26 |
合计 |
300 |
- |
- |
四、次数分布主要类型
(一)钟型分布
钟型分布的特征是“两头小、中间大”,即靠近中间的变量值分布的次数多,靠近两边的变量值分布的次数少,其曲线图宛如一口古钟。如图3-2所示。
在社会经济现象中,许多钟型分布表现为对称分布。对称分布的特征是中间变量值分布的次数最多,以标志变量中心为对称轴。两侧变量值分布的次数随着与中间变量值距离的增大而逐渐减少,并且围绕中心变量值两侧呈对称分布。这种分布在统计学中称为正态分布。社会经济现象中许多变量分布都属于正态分布类型。
(二)U型分布
U型分布的特征与钟型分布恰恰相反,靠近中间的变量值分布的次数少,靠近两端的变量值分布的次数多,形成“两头大、中间小”的U型分布。如图3-3所示。
图3-2 钟形分布 图3-3 U型分布
(三)J型分布
在社会经济现象中,也有一些统计总体分布曲线呈J型分布,如图3-4、图3-5所示。
图3-4 J型分布(1) 图3-5 J型分布(2)
洛伦茨分布
洛伦茨分布曲线是美国统计学家洛伦茨(M. Lorenz)提出来的,专门用以检验社会收入分配的平等程度。
洛伦茨分布曲线运作的条件为:第一,居民或家庭按收入水平分组,计算各组居民或家庭的比重。第二,计算各组收入的比重。从统计学概念上来说,前者就是频率,即各组单位数占总体单位数的比重;后者就是各组标志总量占总体标志总量的比重。
洛伦茨曲线拓展运用于一般社会经济现象借以反映总体单位标志分布的集中状况——集中的存在、集中的程度,因此也称为集中曲线,或称标志曲线。正方形图示域对角线表示各组的频率同各组的标志总量对总体标志总量的比重完全对应,即现象总体标志(变量)呈线性均匀分布,不存在集中过程。集中曲线离开了这条对角线,说明集中的存在。为了研究国民收入在国民之间的分配问题,美国统计学家M.O.洛伦兹(Max Otto Lorenz)1907年提出的了著名的洛伦兹曲线。它先将一国人口按收入由低到高排队,然后考虑收入最低的任意百分比人口所得到的收入百分比。将这样的人口累计百分比和收入累计百分比的对应关系描绘在图形上,即得到洛伦兹曲线。
绘制洛伦茨曲线,必须正确分辨给定的数据中哪一项是总体单位,哪些项是单位标志,并且明确前者放在横轴上,后者放在纵轴上。
第三节 分 配 数 列
一、分配数列的概念与种类
将总体中的所有单位按某个标志分组后,所形成的总体单位数在各组之间的分布,称为分配数列或次数分布。分配数列由两个要素组成,一个是分组,另一个是次数,又叫频数。
根据分组标志的不同,分配数列分为品质分配数列和变量分配数列。按品质标志分组所编制的分配数列叫品质分配数列,简称品质数列。按数量标志分组所编制的分配数列叫变量分配数列,简称变量数列。
变量数列又有单项式变量数列和组距式变量数列之分。用一个变量值代表一个组形成的数列,叫单项数列。用变量值变动的一定范围(组距)代表一个组形成的数列,叫组距数列,
二、变量数列的编制
1.整理数据资料,确定全距
对于一个杂乱无章的原始资料,把标志值按大小顺序排列后所计算的最大值与最小值之差就是全距。
2.确定变量数列的形式
确定变量数列的形式,也就是确定编制单项变量数列还是组距数列。
3.组数和组距的确定
对于组数和组距,先确定哪一个,不能机械地规定,应视具体情况而定。在编制等距数列的情况下,组数、组距和全距存在下列关系:
组数=全距+组距
为计算方便,组距宜取5或10的倍数,在确定组距时,必须考虑原始资料的分布状况和集中程度,注意组内的同质性,尤其是对带有根本性的质界限,更不能混淆,否则就失去了分组的意义。
4.确定组限
当组距组数确定后,只需划分各组数量界限,便可编制组距数列了。一般来讲,组限应是决定事物性质的数量界限,具体划分时应注意以下几点。
第一,组限的确定应当有利于表现各变量值实际分布的规律性。
第二,最小组下限要略低于最小变量值,最大组上限要略高于最大变量值。
第三,如果变量值相对集中,无特大或特小极端值时,则采用闭口式;反之,如果变量值相对比较分散,则采用开口式。
5.编制变量数列
确定上述要素以后,就可以把变量值归类排列,最后把各组单位数经综合后填入相应的各组次数栏中。
编制组距式数列时,该用多大组距,组数多少,可能一时难以确定,不妨先按小组距分组,然后逐步合并组距,再从比较中择优。美国学者斯特吉斯(H. A. Sturges)提出这样的分组组数公式:n=1+3.322lgN。N为总体单位数,n为应分组数。这是经验公式,可以参考,但不能生搬硬套。
三、频数与频率
在整理和分析的时候,不但要注意各组标志值的变动范围,而且也要注意各组标志值的作用大小,即频数的大小。在变量数列中标志值构成的数列表示标志值的变动幅度,而频数构成的数列则表示相应标志值的作用程度。频数越大,则组的标志值对于全体标志水平所起的作用也越大;反之,频数越小,梦题库版权所有,则组的标志值所起的作用也越小。将各组单位数和总体单位数相比求得的频率表明各组标志值对总体的相对作用程度,也可以表明各组标志值出现的频率的大小。按顺序列出各组标志值的范围(或以各组组中值来代表)和相应的频率形成的统计分布,称为频率分布。很显然,任何一个分布都必须满足:①各组的频率大于0;②各组的频率总和等于1(或 100%)。
在研究频数和频率分布的时候,常常还需要编制累计频数数列和累计频率数列。其方法通常是先列出各组的组限,然后依次累计到本组为止的各组频数,求得累计频数。将累计频数除以频数总和即为累计频率。23年高级统计师报名时间 高级统计师考试教材 高级统计实务教材 统计时政热点 统计师辅导 高级统计师历年真题 高级统计师押题密卷 购买点图片
将各组频数和频率由变量值低的组向变量值高的组累计,故称为向上累计或称为较小制累计;将各组频数和频率由变量值高的组向变量值低的组累计,故称为向下累计或称为较大制累计。向上累计各累计数表示各组上限以下的累计频数或累计频率。当我们所关心的是标志值比较小的现象的次数分配情况时,通常用次数向上累计,以表明在这些数值以下所有数值所占的比重。有时为表示在一定标志值以上的累计频数和累计频率,则会采用分组的下限,并从变量值高的最后一组的频率开始按相反的顺序向变量值低的组累计,来求得累计频数和累计频率,即向下累计。各累计数表示各组下限以上的累计频数或累计频率。当我们所关心的是标志值比较大的现象的次数分配情况时,通常用次数向下累计以表明在这些数值以上所有数值所占的比重。
按年销售额分组 /万元 |
营业员人数/人 |
向上累计次数/人 |
向下累计次数/人 |
500-600 600-700 700-800 800-900 900-1000 1000以上 |
24 48 105 60 37 26 |
24 72 177 237 274 300 |
300 276 228 123 63 26 |
合计 |
300 |
- |
- |
四、次数分布主要类型
(一)钟型分布
钟型分布的特征是“两头小、中间大”,即靠近中间的变量值分布的次数多,靠近两边的变量值分布的次数少,其曲线图宛如一口古钟。如图3-2所示。
在社会经济现象中,许多钟型分布表现为对称分布。对称分布的特征是中间变量值分布的次数最多,以标志变量中心为对称轴。两侧变量值分布的次数随着与中间变量值距离的增大而逐渐减少,并且围绕中心变量值两侧呈对称分布。这种分布在统计学中称为正态分布。社会经济现象中许多变量分布都属于正态分布类型。
(二)U型分布
U型分布的特征与钟型分布恰恰相反,靠近中间的变量值分布的次数少,靠近两端的变量值分布的次数多,形成“两头大、中间小”的U型分布。如图3-3所示。
图3-2 钟形分布 图3-3 U型分布
(三)J型分布
在社会经济现象中,也有一些统计总体分布曲线呈J型分布,如图3-4、图3-5所示。
图3-4 J型分布(1) 图3-5 J型分布(2)
洛伦茨分布
洛伦茨分布曲线是美国统计学家洛伦茨(M. Lorenz)提出来的,专门用以检验社会收入分配的平等程度。
洛伦茨分布曲线运作的条件为:第一,居民或家庭按收入水平分组,计算各组居民或家庭的比重。第二,计算各组收入的比重。从统计学概念上来说,前者就是频率,即各组单位数占总体单位数的比重;后者就是各组标志总量占总体标志总量的比重。
洛伦茨曲线拓展运用于一般社会经济现象借以反映总体单位标志分布的集中状况——集中的存在、集中的程度,因此也称为集中曲线,或称标志曲线。正方形图示域对角线表示各组的频率同各组的标志总量对总体标志总量的比重完全对应,即现象总体标志(变量)呈线性均匀分布,不存在集中过程。集中曲线离开了这条对角线,说明集中的存在。为了研究国民收入在国民之间的分配问题,美国统计学家M.O.洛伦兹(Max Otto Lorenz)1907年提出的了著名的洛伦兹曲线。它先将一国人口按收入由低到高排队,然后考虑收入最低的任意百分比人口所得到的收入百分比。将这样的人口累计百分比和收入累计百分比的对应关系描绘在图形上,即得到洛伦兹曲线。
绘制洛伦茨曲线,必须正确分辨给定的数据中哪一项是总体单位,哪些项是单位标志,并且明确前者放在横轴上,后者放在纵轴上。
![]() |
|
高级统计师选课中心 | |