沧州三亚菏泽经济预测自然
投稿投诉
自然科学
知识物理
化学生物
地理解释
预测理解
本质社会
人类现象
行为研究
经济政治
心理结构
关系指导
人文遗产
菏泽德阳
山西湖州
宝鸡上海
茂名内江
三亚信阳
长春北海
西安安徽
黄石烟台
沧州湛江
肇庆鹤壁
六安韶关
成都钦州

修正调研数据扩展使用限度

8月28日 失了心投稿
  缘起网络调查具有先天的优劣势
  最近一个季度做了N多调研项目,结项之余,不由自主地对比了一下网络调查与传统调查的优劣,详见下图:
  有了这些先天的优劣势,网络调查一般执行的周期较短,但时常为了样本均衡,会采用脉冲式投放,收集数据的时间会适当延长一些。在我主导的网络调研项目中,投放的样本量一般都有几十万,一是为了能够快速收集足够多的调研样本,二是考虑到低响应率的问题。
  如此大的投放量,而网络调研中又有很多不可控的因素,最终使用的有效调研样本量相对较低,他们到底是否能够有效代表总体呢?我想这个问题可以一分为二来看,在相同的执行条件下,只针对性地研究特殊用户的调研,有效调研样本在达到一定量的前提下,代表性偏差一般不大;需要推断网站全体用户的调研,虽然有效调研样本也能达到一定量,但代表性还是会打折扣,尤其是对淘宝用户而言。
  加权弥补网络调研数据先天的劣势
  统计学中关于随机抽样的理论中讲过,一个研究随机抽取多少样本与总体的大小无关,而主要与最大允许误差和置信区间有关。但真正执行的时候,未必会这么理想,尤其是在人力财力有限的条件下,随机抽取的投放样本与有效调研样本之间,受响应率和认真填答的积极性等因素影响,会存在偏差。
  那么在推断网站全体用户的调研中,就需要引入加权的思想,适当的加权可以使样本的关键结构,调整到与总体的关键结构相一致,从而提升样本的应用范围,所得结论会更严谨更具推广性;针对特殊用户的调研,也可以对样本进行加权,更有效地发挥样本的代表性。
  加权的经典场景(例子中引用的数据均为虚拟数据,仅作为说明问题的案例,与真实数据无关)
  A场景:常常遇到这样的问题:产品经理想要了解全体买家对某一个产品的使用体验、需求或满意度,也要比较初级买家和高级买家。
  一般而言,随机抽取条件下,95的置信度、5的最大允许误差,推及目标总体所需样本量为384个,此处为计算方便,近似为400个。
  事先已知,全网初级买家与高级买家的比例为39:1,高级买家所占比例仅为2。5。若按照随机抽样原则抽取投放样本,为保证高级买家对比时满足统计需要,至少应有400个调研样本。那么,随机填答的前提下,总体调研样本至少需要16000个,响应率按照5计算,需要投放的样本量达到32万。这只是理想状态下的情况,事实上高级买家的响应率更低,这就使得需要投放的总体样本量更大,工作中又不能经常投放如此大量的用户。事前我们无法保证统计要求,怎么办?
  B场景:若要推及全体卖家对某一产品的使用体验,如果随机抽取了20万投放样本,最终有效调研样本有4000个。经过数据匹配可知,调研样本的开店时间分布与总体存在较大差异,而该研究中开店时间是非常重要的指标。事后我们无法保证统计要求,怎么办?
  不论是事前还是事后,为使得研究有效,应该保证统计要求;调研理论与现实执行常常存在很大差距,这也是不争的事实。因此,研究中引入加权的思想,非常重要也很有必要。
  加权的前提
  样本加权是为了推及总体情况,主要用于两种情形:
  加权的准备
  范欣珩于杭州翠苑三区
  如何加权单变量比例加权
  为了比较初级买家与高级买家之间对某一产品的体验差异,采用非等比随机抽样,事先增加了高级买家的抽中比例。
  当需要推及总体买家对这一产品的体验情况时,需要对数据进行加权,结果如下:
  上表第d列(SP)是用各级别买家在调研样本中占的比例除以其在总体中占的比例,其值越接近1,说明该级别买家在调研样本中的比重越合适;反之,其值越背离1,其在调研样本中的比重越不合适。
  若恰巧各组的这一比值均接近1,可以近似等同总体分布,而不对调研样本进行加权。本例显然需要对调研样本进行加权。
  首先要确定加权的起点在哪里?这里有三种选择:
  1)以SP的最小值(本例0。69)为起点,将其他组的SP值都降低到这个水平,因此叫做Scaledownweighting(水落石出法)。其结果是将原调研样本缩小SP最小值倍(本例0。69,原调研样本7200人,每组权重为0。69d列相应值,加权后减至4968),放水过多,不合适
  2)以SP的最大值(如本例的8。33)为起点,将其他组的SP值都提高到这个水平,这种策略叫做Scaleupweighting(水高船涨法)。其结果也就是将原来的调研样本放大SP最大值倍(本例8。33倍,原调研样本7200人,每组权重为8。33d列相应值,加权后会增至59976人),可见水分太大,不可取。
  3)以SP的加权平均值为起点,将大于1的SP值调低至1而将小于1的SP值调高至1,因此叫做Zerosumweighting(有增有减但总数不变法)。加权后的样本数与原调研样本相同、还是7200(见表第f列)。可见这种方法相比之下最合理,学术界和调查业界通常都用它来加权。
  比例加权需要注意的几个问题:
  1)加权只能调整样本各组之间的相对比例、并不会产生任何新的信息。
  2)一个重要细节是如果SP值中有小于0。5(也即PS值或权数大于2)的,则不能靠过分灌水来解决问题。这时的对策有三个:
  l增加那些采样不足的(undersampled)组别的case数量(上策)
  l用SP值最小值(Scaledown的策略)来加权(最保守、浪费资源、但不犯I类错误)
  l前两者的结合,即增加部分case数然后按新的最小SP值来加权
  3)如果那些采样不足的(undersampled)组case数量太少(一般不能少于30),需要按2)同样的原则来处理。
  对于2)和3)中提到的情况,另外一种变通的方法就是重新划分组,此法省时省力。
  4)经过加权的样本,能够推算总体的常规统计量,但计算误差时则不能用加权样本直接计算。
  5)为了便于解释,上述例子只涉及一个变量(买家级别)的加权。实际上,研究买家除了级别,注册时长、月成交量额等也很重要。所以需要用多个变量同时加权(weightedbyseveralvariablessimultaneously)。
  (本小节以上内容参考了香港城市大学祝建华博士的BLOG文章《如何对样本进行加权?》http:zjz06。ycool。compost。2695611。html,在此表示感谢,愿祝老师健康、笔耕不辍!)
  总结一句话:在随机抽样的前提下,比例加权的本质就是将调研样本分布修正为等比随机抽样分布。
  如何加权单变量推及量加权
  为什么用推及量加权:
  1)上小节提到的获取总体参数的变通方法:在总体中用简单随机抽样抽取一定数量的样本,能够获得一个较大的样本,用来推及总体依然带有少许误差。用加权处理的调研样本推及这个大样本群体的行为和态度更为恰当,有时候需要直观的知道这个大样本群体中每种划分的组内有多少人。
  2)比例加权的运算方法有些麻烦;而推及量加权的运算方法简便。
  推及量加权的依据:
  1)加权的前提与比例加权相同:修正非等比随机抽样NPPS和等比随机抽样PPS
  2)两种方法等价:
  比例加权:PnSn
  推及量加权:PnSn(PnP)(SnS)(PnSn)PS由于每一组case相对于比例加权都扩大了PS倍,即每一个样本都扩大了PS倍。绝大部分研究结果都以比例呈现,而计算比例的时候,每一个样本扩大的PS倍没有影响,因此推及量加权适用。
  推及量加权需要注意的事项与比例加权相似,此不赘述。
  如何加权多变量推及量加权
  加权的步骤和方法相同
  单变量加权时,以买家级别组为例,需要分别统计三组的总体比例(量)和调研样本的比例(量)
  多变量加权时,各个变量进行交叉,如三组级别、三组注册时长、三组月成交量,即组合出27组,分别统计这27组的总体比例(量)和调研样本的比例(量)
  总结一句话:多变量加权实际上就是单变量加权的复杂版。
  如何加权实际操作
  通过EXCEL和SPSS对数据进行加权:
  1)通过SPSS计算总体中大样本的有关参数和调研样本相应的统计量
  2)将结果放入EXCEL进行整理,注意单变量或多变量交叉后的对应,并批量编写SPSS命令
  3)将命令拷贝到记事本,再拷到SPSS的Syntax中运行命令
投诉 评论 转载

老屋童年老屋带来的美好回忆数不胜数。屋子前曾有过一片大池塘,池水又绿又蓝,里面到处都是小鱼、小虾,还有青蛙。记得小时候我最爱去那儿,东一下西一下地乱拨。过一会儿,不想抓鱼了,……冬瓜与哪些食物相克冬瓜是人们喜爱的蔬菜,也是炎炎夏日解暑的佳肴,冬瓜本身不含脂肪,热量不高,对于防止人体发胖具有重要意义,含蛋白、糖类、胡萝卜素、多种维生素、粗纤维和钙、磷、铁,且钾盐含量高,钠……励志正能量短语1。丈夫志不大,何以佐乾坤(唐邵谒)2。以财交者,财尽而交绝,以色交者,色衰而爱移,以诚交者,诚至而情固3。生活只有两种选择:重新出发,做自己生命的主角;抑或停留在……修正调研数据扩展使用限度缘起网络调查具有先天的优劣势最近一个季度做了N多调研项目,结项之余,不由自主地对比了一下网络调查与传统调查的优劣,详见下图:有了这些先天的优劣势,网络调查一般执行的……让勇气伴你成功的作文做任何事都需要十足的勇气,没有勇气就克服不了困难,没有勇气就改正不了错误,没有勇气就取得不了成功。在我们的学习、生活、工作中,勇气是至关重要的。话说蜀国大将关羽,过五关,……相遇在春天作文我要与我的爱人,相遇在春天,下着淅淅小雨的春天。任春天的晨光,拨散开严冬的死寂,沐原野一片银灰的曙色。让我迈出的每一步,都有春雨后的青草气。在玫瑰花的致命诱惑下,我要与我……杂文孵化培训班外议原文及鉴赏有幅漫画,煞是有趣:孵化培训班门前,雏鸡问妈妈:你为啥还排队呀?你会孵化呀!母鸡忧心忡忡地说:傻孩子!妈妈还是混张文凭好,要不,有人不承认妈妈会孵鸡。观画沉思,心中一阵酸……精选教师节的作文100字集合8篇教师节的作文100字篇19月10日,教师节!想要给三位可爱漂亮的老师制作贺卡作为礼物送给她们,想向妈妈寻求帮助,可是妈妈却告诉我我是小学生了,可以自己独立制作贺卡了。可是……保护环境,人人有责在中国的某一个城市里,沙尘暴在慢慢的侵蚀着这座城市,在一天夜里,明明看到桌子上与一个绿色的小球球在一闪闪的发光,突然光灭了,里面出现的一个只有弹珠大小的外星人引起了明明的注意。……美丽的蝴蝶作文150字我爱美丽的蝴蝶,我更爱美丽的大自然!如下是小编给大家整理的美丽的蝴蝶作文,希望对大家有所作用。美丽的蝴蝶作文篇【一】走在乡间的小路上,路边的野花,香气扑鼻而来,蜜蜂们在忙……青少年撸管正常吗对于青少年来说,尤其是住过宿舍的人,会发现宿舍的人都会有撸管的现象,甚至会比赛,那么,青少年撸管正常吗??青春期,随着身体的发育,以及此时对异性和欲望的好奇,性幻想的出现……春天春天是阳光的季节,也是花开的季节,如果说我们的是花,那么,春天就是花的天下(一)兰迎春有人说,春天里的花是最真实的。因为他们……
如何放风筝的作文初中开学国旗下献词精选多篇过元宵的日记杜骗新书的主要内容是什么赏析美丽的冬天小学作文550字精华小学文明作文500字合集7篇未来的发明做得造句用做得造句大全我喜爱的一种鸟四年级日记怎样鉴别注水鸡翅如何成为企业人读后感求成造句用求成造句大全

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找