第二专题 新增内容的教学——以统计与概率教学为例(二上)
《全日制义务教育数学课程标准》对7-9年级统计与概率提出如下要求:“学生将体会抽样的必要性以及用样本估计总体的思想,进一步学习描述数据的方法,进一步体会概率的意义,能计算简单事件发生的概率。”
一、统计与概率学习与以往数学学习的差异
统计与概率学研究的对象、研究的思路与方式,以及获得的研究结论的性质,都与过去学生所接触到的数学内容有根本的不同。
1. 研究对象,由过去的对确定性现象的研究变为对不确定性现象的研究。
对于不确定性的现象本身来讲,也有两种情况:
投币问题是当一枚硬币落地,究竟是国徽面还是币值面朝上,我们不能确定,但总是可以确定“非此即彼”,不存在“亦此亦彼”的问题,即这是一种结果出现的偶然性(又叫随机性)问题。偶然性(随机性,Randomness)是与必然性相对应的。偶然性刻画的是认识对象出现(内外)条件方面的不确定性,关于认知对象本身在类属和性态方面的定义是完全确定的。
不确定性现象并不是都是统计与概率研究的对象。还有一种类似“两个人长得像”的现象也是不确定的,它是一种更复杂的不确定性,我们把它称为模糊性。模糊性(Fuzziness)是和精确性、清晰性相对应的,表征着对象在类属、性态方面的定义是不精确的、不明晰的。
不确定性的随机性与模糊性是有区别的:随机性的不确定,反映在某事件是否发生,判据是明确的;模糊性的不确定,反映在事件本身的涵义上,判据不分明。统计与概率研究的是前者;后者是模糊数学研究的内容。
2.研究的思路、方式与所获得的结果
数学在研究确定性现象过程中所用的科学推理方式基本上属于演绎推理的方式,由一般到特殊;而统计学在研究不确定性现象时,由样本推断总体,使用的是归纳推理,而且许多时候是不完全归纳推理。因此,统计学研究所获得的结果不像以往学生学习的用演绎推理所获得的结果那样“确定无疑”。
统计学所得到并予以接受的结果主要是局部的、归纳性的;这是与学生以往在确定性数学的学习过程中,经常得到的是较为一般性的、演绎的结果的不同之处。
统计与概率教学时,必须要注意到这些差异在学生学习过程中可能发生的影响。
二、初中统计学学习一些基本概念分析
在初中统计教学的重点是什么?首先要知道统计学是什么?实际上,统计学是研究如何搜集数据和如何整理、分析数据,从数据中提取信息的学科。其中关键是提取信息。这里有一个怎么搜集数据和怎么整理数据的问题。
1.普查与抽样
抽样讲的是如何搜集数据。由于我们希望得到的数据能正确反映实际的状况,所以采用随机地抽样。这是关键所在。学生虽然在课堂上学习了抽样的优缺点,但是毕竟不能亲身经历收集大量数据的过程,所以感受不深。
全面普查跟抽样要分清楚。这两个概念,表面上看来学生好像很容易理解。所谓普查就是每一个都来检查;抽样就是取一部分来检查。但实际上,什么叫普查,什么叫抽样,要看我们所抽取的对象是谁,我所要研究的对象的每一个都查了,这叫普查。否则的话,即使我每一个都查了,但是我想下的结论要比这范围大的话,就不是普查了,而变成抽样了。
为什么不全是普查,还要抽样呢?也就是抽样的必要性是什么呢?在初中要讲清楚这一点。要让学生知道全面普查有它的好处,每一个都查到了,每一个都知道了。这就很全很好。但是,它往往费时,费力。而且,可能不一定能实现。应该给学生举出这样的例子,就是说不可能做到全面普查的实例。在一些情形下,由于一些问题的特殊性,不可能全面普查。
比如说,想考察一个工厂生产的灯泡,它的使用时间或者是寿命,那么把这个产品抽出来以后,就去做实验,一点点了3000小时,它报废了,这个灯泡的寿命就 3000小时了,那么如果这一批产品出来了,1000个也好,10000个也好,你每个都去实验,实验完了以后,所有的就都报废了。即实验完了就报废了,这批产品也就无法销售了。所以,普查有时也是不恰当的。这种情况下,只能抽查,抽其中的一部分。所以,抽样是很有必要的。再比如,还有些东西你根本做不到普查,比如湖里头有些鱼,我想了解这湖里头都有哪些鱼,有多少呢?一般不可能把这湖里头所有鱼,都给它打捞出来,你也不知道是不是把它都打捞出来了。
多给学生举一些像这样情形的例子,让学生认识到,不得不抽样或者必须要抽样。同时,普查的对象数量太大时,普查也有普查的缺点。让学生认识到抽样的优点,必要性。实际上进行全面调查具有破坏性的时候,我们必须要进行抽样的研究。抽样有它的好处,就是简单。像咱们国家的人口普查,它的漏查率很高。与其有漏查率,不如我抽一些有代表性的来调查。
2.样本与总体
抽样时,我们要考虑选取怎样的方法,使得它能代表这个全体。这是抽样方法的问题。在抽样方法中,还涉及到两个基本概念,一个是样本,还有一个是总体。
总体,实际上就是我们要考察的对象的全体,像这样的一些概念,不需要去特别的深究。因为这种概念在统计学里还是比较深的,初中教学时,只要学生能理解,我要考察的全体就是总体就行。实际上这个全体,可以范围很广,比如说我生产出这一批灯泡来,这一批灯泡有1000支,我要考察这一批灯泡,这就是我的总体;如果我要买这一批灯泡,质量怎么样呢?我抽10个检查,但是作为一个厂家来说,他的总体不光是这1000个,还有按同样的工艺来看,过去生产的,也是这个总体中的,甚至还没有生产出来的,将来按同样工艺生产出来的也是总体中的。总体可以很抽象,但是在中学,只要学生弄清楚了,就是考察对象的全体就可以了。
样本,就是其中的一部分。关于样本,能不能代表这个总体,你的样本抽得好还是不好,这是非常重要的问题。比如我想了解这个年级的学习成绩,我找的这10个学生,都是实验班的学生,我想了解北京市学生成绩,我找的都是实验重点校的学生,这样的样本代表性就差。有没有代表性的问题,是样本的一个核心问题。
比如你在马路上随便访问一些人,那么这些人有没有代表性等等,像这样的问题,要让学生了解。怎么能够做到它有代表性,能不能有代表性,在初中也没必要去深究,因为这里涉及到样本和总体的相对性问题。比如,展开全班的调查,如果我们所研究的对象就是这个全班,那么这个全班就是总体。如果我们研究的对象是全校的同学,那么这个全班同学,相对来讲就是一个样本。样本和总体这两个概念是相对的,一定要跟我们所研究的对象,是取自哪些部分,或者是针对什么问题紧密结合的。
3.样本的代表性
我们选取样本的目的,是为了什么?希望通过这笔数据,更好的正确的反映我们所研究的这个对象的数据特征,所以选择什么样的样本,作为总体的代表,这个选取是非常重要的。就是说你怎么样去抽取样本,才具有典型的代表作用。
比如,做一个心理学的实验,要测验一个人睡眠被人干扰后,他的性格、脾气会不会暴躁。做这样实验的话,一般来说做不好。因为这个样本就不太好,要什么时候来做呢,谁愿意睡觉老被人吵,所以就需要找一些志愿者,而志愿者这些人就缺乏代表性;或者用钱雇一些人来,但是雇来的人呢,一般来说都是经济上比较困难的人,也缺乏代表性。我们经常会发现,报刊媒体上经常会看到一些广告,说一个药怎么灵、怎么有效,其实这种广告有时是虚假的。原因是研究者在做一些实验时所选取的样本缺乏代表性,这样的研究结果是要打折扣的。比如说像安眠药这种东西,它会有心理作用,我发明了一种安眠药,先跟你说这药怎么怎么有效,后让你吃这药,你心理觉得这个药一定很好,即使给的不是安眠药,吃完了以后的人也觉得睡觉好了,这样的结果不是药物的影响,而是心理暗示在起作用。这一点应该注意。医学上,经常进行对比实验,对两组被试都给予药物处理,一组给他吃淀粉片,一组给他吃安眠药,但是都不告诉他们,这样的做法,就去掉了一个干扰。所以,怎么有代表性,这是一件非常困难的问题。搞不好的话,他吃了淀粉片,他就说今天睡得特别好,实际上是心理作用。那么,怎么能做到有代表性呢?就是随机抽取。
为什么随机抽样具有代表性呢?比如说,要了解北京市18岁的这个男孩的身高情况。如果要随机抽取的话,假设这个一米九以上的占千分之一,那么,抽到一米九以上的可能性也就是千分之一。如果一米六到一米八的占50%,那么,抽到一米六到一米八的也是50%,这样的随机抽样,就保证抽到的样本里头,各个身高的百分比与总体的百分比是一样的。
另外,由于抽签与顺序无关,若抽取第一个男孩,身高在一米九以上的概率是千分之一,那么抽取第二个男孩、第三个男孩等,其身高在一米九以上的概率也是千分之一。随机抽样能使得样本中不同身高的百分比和总体中的百分比近似相同。
换句话说,随机抽样的样本能很好地反映总体的状况。如果不把这一点说清楚,只单纯地介绍抽样的具体操作方法就有失偏颇。随机抽样,比较确切地反应总体的状况,当然这也是个近似的一个反映,仍然是抽得越多就越准确。所以,随机抽样需要体会,为什么要随机抽样;要采取随机取样,随机取样为什么能够来反应这种代表性。
总之,统计与概率研究的对象具有的随机性特征,从最开始学习总体和样本这两个基本概念的时候,老师就要渗透这个随机性。在抽样方法的学习过程中,要保证样本具有代表性,也要重视这个随机性的作用,应该说清楚随机取样,这样才能让学生正确的理解统计与概率的概念与以往数学概念之间的差别。否则的话,抽样方法介绍了,学生会操作方法,但不知道这方法为什么如此。但是随机取样不是很容易做到的。比如说你随机给我写正反两个字,某个字有可能出现的多于二分之一。就是你随机写,其实写出来的也是很不随机的,所以随机性这一点呢,问题看似简单,要做到也是很困难的一件事,这一点是我们老师尤其要注意。
4.数据的描述
我们抽取到的原始数据常常是杂乱无章的。需要对数据进行整理,目的是为了能从这组数据中得到一些关于这组数据的特征信息。为此,首先要描述数据。数据的描述,中学讲得比较多的是统计图表。统计图表这部分知识,在小学也学习,到中学了之后,应该怎么去教学呢?统计图表的学习,一定不要把它讲成这图表怎么画。还是要从提取信息的这一角度来看,也就是我们搜集到一堆数据是杂乱无章的数据,是一堆无序的数据,怎么从里面提取信息呢?我们通过列表,画图的方式县整理数据。所以,画图和列表是反应信息的非常重要的方法。
要注意的是,不同的图和表,反应的信息是不一样的。教学的重点不是图、表怎么制作,而应是在反映信息时,表与表之间有什么不同,表和图有什么不一样,图和图有什么不同。比如说,要反映五个班的数学考试成绩。可以用表格,也可以用图来描述。即使用图,可以是条形图,也可以是扇形图。表格能够给出原始的数据;条形图可以看出这五个班不同的情况;扇形图能反映整体与局部之间关系。图比表直观形象。但是,扇形图把数据归类成了一块一块的了,这时候原始数据就没有了。可见不同的图,反映的情况是不太一样的。统计表表示的数据精确,但不太醒目。统计图很形象,只是个别的数字不容易精确表示出来,没有表所呈现的数量和精确性。所以,图表各有各的好处的,每一个图都有它自己的特点,适用范围。让学生认识到每种统计图有各自的特点,也有其局限性。例如,条形图是以丢失一部分信息为代价的,即由条形图人们无法恢复原来的数据。当然丢失的数据可能对我们要处理的问题没用。
而且,现在不同的领域里面,人们还在不停地创造各种各样的图去描述信息。如茎叶图,就是近几年来才常采用的一种方法。我们要鼓励学生创造性地使用各种合理的方法,自己创造的图表示数据特征。比如同样的条形图,可能画成是宽度相同,高度不一样;也可以画成高度相同,宽窄不一样,让学生发挥自己的想象力,创造性地使用各种各样的图表,去描述数据。因为这部分内容不是很难掌握,不需要硬性的去规定,约束学生。不要说表跟图,图就比较粗一些,表就对数字要求很准等等。
从处理信息的角度来看,不要把统计教学成具体的图表制作方法课。要让学生弄清楚,你想要反映什么问题,目的是什么,才能谈到使用何种统计图表。比方说七大洲的面积,你就是想比较这七大洲的面积有什么不一样的话,就用条形图就可以了;你还想看看某块面积,在整个面积占多少,那可能要用扇形图,所以没有绝对的,关键是你想达到什么目的。
我们经常通过折线图来反映变化的趋势。但是要注意,折线图坐标系的界定。有时候,只看图的形象会误导学生。比方说,想反映的是随着时间,生产量增加的快慢,有时候想要夸大自己增长得很快的时候,就可以把纵坐标的单位取得很大。也就是说,坐标单位取得大或者小,会使同样一件事画出不同的折线图来。有时候我们看一些宣传广告之类的图,就可以发现它增长得很快。但是,实际上并非如此,这是它的坐标单位选取得使图像容易产生这样的印象。厂家为了利益需要,可以把图做成各种各样的,误导人们,这是我们在统计图表教学中要特别注意。
5.数据的分析
整理数据、画统计图表的目的是要描述这组数据的特征。从整理好的数据或绘制好的图表中,获得关于这组数据的特征,如是比较集中,还是比较分散。这部分内容属于数据的分析。在统计中,数据分析包括:描述性统计分析,以及推断性统计分析。初中阶段学生主要学习的是描述性统计分析的内容。
为了集中反映一组样本的信息,统计中找了一些非常重要的一些“一个数”来分析一组数据。这些“一个数”和其他单个数据比较起来,很突出的一个特点是它能反映总体的特征。例如日常生活中在体操,音乐比赛时,几个评委分别给一个选手打分,最后得分怎么给。经常是去掉一个最高分、去掉一个最低分,把剩下的加起来算平均数,这是一种估计。如果我们觉得不太可靠,就可以去掉两个最高分、两个最低分,再求平均;还可以再去三个,去四个,那去到最后的话,就变成了中位数。中位数也是一种估计方法。我们可以通过这个数字来代表一组数据信息。这就是数据的分析。
与描述数据的教学一样,数据的分析教学也要注重概念意义的理解,计算不是重点。虽然对有关术语初中教学不要求进行严格表述,但是要避免将这部分内容的学习变成数字运算的练习,学生只知道如何进行计算,不明白为什么要使用某个术语分析一组数据。例如,计算出平均数对于初中生不是难事。但用样本平均数与总体平均数分析数据时,学生有时分不清。比如我们要了解北京市男孩的身高,我们抽了100个也好、1000个也好,把平均数算出来了,这是一个样本的平均数,与总体的平均数是两个概念。当然我们可以用样本平均数来估计总体的平均数。
比如,分析两个不同省市收入的水平怎么样?是用算术平均数来算;还是用中位数来比较更能反映一组样本的信息呢?中位数很极端,就取中间的那个数,把两边都去掉了来代表一组数据的特征;而算术平均数,是所有数据都参与计算,所以贫富差异巨大,少数人收入过高,大部分人收入过低时,平均数不一定能反映一个省市大多数人的收入水平。
例1:现有一个工厂的工资表格给出了100个工人工资总额和5个股东总利润随年度的变化情况
年度
2001年
2002年
2003年
工人工资总额
100万元
125万元
150万元
股东总利润
50万元
75万元
100万元
例2:一个同学在第一学期的数学成绩分别是:平时单元测试四次,分别得分:90、86、84、88,期中考试得分80分,期末考试得分87分,如果按照平时、期中、期末的权重分别为15%、30%与55%。请你计算小瑞在这学期的总评成绩应为多少分?
这两个例题中所涉及到的平均数是加权平均数。例2中的权重直接给出了。例1中虽没有提到权重是多少,但在这组数据中,涉及到两类不同的对象,一个是工人,一个是股东。实际上,我们除了要知道工人的总利润,工资总额之外还要知道工人、股东的人数是不一样的。因为有100个工人,股东只有5个人,所以要把它都折合成每个人的工资量,工人100个人,比方说2001年的时候,工资总额是100万,每个工人工资只有1万,而股东每个人是10万。所以,算平均利润,不能直接简单地算,还要考虑不同的人所占的权重。每个工人1万元乘上100人,再加上5乘上10万,然后被105个人来除,这才是所有人的平均工资。工人占了100/105,股东占了5/105,这就是权重。这样的权重,是根据我们的问题研究自然生成的。也有我们人为觉得问题某些方面是重要的,赋予的权。
例2 的数学考试成绩中的平时的成绩,期中和期末的成绩,被我们人为赋以权重15%,30%,55%,来说明它们的重要程度是不一样的,这样的权重不是对象研究过程中本身自然生成的,而是我们觉得这组数据当中,某些数据的重要程度,分别赋予了它一个权值。与例1中的权重意义是不一样的。
6.方差的教学
方差这个概念以及计算方法,现在把公式呈现给学生的话,也没有太大的困难。如果老师们去扩大自己的知识视野,买了很多统计学的书的话,就会发现这样一个问题,我们现在课本上所提供的方差的计算方式,这个分母是除以N,有一些统计学书中,方差的一个计算公式分母是除以的N-1。
方差的计算公式为: ,
还有一个是: 。
一般计算器上,两个公式都有。为什么会有这样的差异,这两个公式哪个对,哪个错,还是都有道理?
我们先看一个例子。现在有10000个灯泡,那么它有一个方差,这个方差是一个总体方差。如果我们抽了这个总体中的1000个灯泡去计算方差,并且用它去估计总体的那个方差,如果要除以N的话呢,在理论上可以证明,用除以N的来估计总体,它的估计是偏低的,也就是说我们算出来的样本方差比总体方差要低。要除以N-1的话,就不偏低,所以除以N-1好,这是理论上的问题。
我们用一个数据来估计总体时,要有一个标准,就是说估计得好还是不好。比如说要估计这个总体方差,用谁来来估计。用第一个公式算出来的样本方差是估计,用第二个公式算出来的样本方差也是估计,都是估计,好还是不好,首先就要看你给出一个什么叫好,什么叫不好的标准,如果你认为它偏低或者偏高都不好的话,那么标准就是要估计得无偏,就是说认为无偏估计是好,理论上已经证明了除以N-1就要比除以N要好;当然还可以有别的标准,比如说靠得越近就好,这时除以N就好,这在统计学中称为极大似然估计。因此标准不一样,好坏也就不一样。
教材里选用N,还有一个就是比较自然,顾及到学生的可接受性,因为N个数求算术平均数时除以的是N,再学习计算方差的公式,除以N接受起来比较自然,比较方便。要除以N-1的话,我们还需要给学生解释,或者是介绍更多的内容去理解为什么要减去这个1。老师们可以根据自己学生的能力水平,是否去介绍这种新的公式。而且当这个数很大的话,比如除以10000跟除以9999,得到的那个数据结果,差异很小很小。所以,当N很大时,两个都可以。当然N很小时,除以N -1,还是除以N还是有差异的,但这不是一个什么太本质的问题。
总之,各个概念的计算方法和计算公式,不是初中统计学习的重点,因为有关的计算,基本上涉及到就是四则运算,加减乘除,还有乘方,平方,这些计算方法在小学已经学习过,学生都已经掌握,重要的是要让学生理解,每一个概念的意义是什么。每一个概念在实际使用过程当中,有什么优势,有什么局限性。教学时不应过多地关注计算,有时候还教学生一些简便算法,比如说同加一个数同减一个数,最后算出来的方差是不变的,什么同乘一个数同除一个数,算完了以后,比如有小数点,先同乘100,然后把小数点没了最后再除过去什么,在这个算的技巧上下功夫下得太多,其实这东西是不重要的,特别是有了计算器以后,这些东西都不重要,重要的是这些概念的意义,比如极差,是一组数据里最大的减最小的形成的,它与方差相比,用的数据比较少,只用到两个极端的数据,所以它所提供的信息,一般来说就没有方差提供得好,因为它把中间那些数据都给舍掉了。但它的好处就是简单,快,一下就把一组数据的范围就确定下来了。所以,我们要关注的这些数学概念的意义差别,它们的适用范围,缺点,局限性,而不是在计算上,下太大功夫。