数据收集及数据分析工具介绍-LMLPHP

以下文章内容,来自草堂君的新书《人人都会数据分析-从生活实例学统计》。因为新书中增添和细化了很多知识点,所以草堂君会逐步将这些内容补充到统计基础导航页中来,帮助大家建立数据分析思维。限于篇幅,只截取书中部分内容


数据分析过程可以分为确定目标数据、数据采集、数据清洗、数据存储、数据分析、结果可视化及结果支持的决策等六个步骤。随着数据分析在各个领域发挥越来越重要的作用,针对不同数据分析步骤的软硬件工具也很快发展起来。下面我们介绍几种重要的数据分析工具。


各类传感器

数据可以通过很多方式进行采集。例如,制作调查问卷,随机抽取人群样本填写问卷,得到人群样本的反馈数据;人工观察记录也是过去常用的数据采集方式。而在数据时代的今天,传感器极大地改变了人工观察记录这种数据采集的场景,特别是温度和湿度等容易量化测量的客观指标。虽然人类主观意识类的数据依然需要通过问卷调查的方式进行获取,不过作者相信不久的将来人类的意念也将伴随科学技术的进步而能够被量化,到时人类只需在脑中思考,不需表示就能将脑中的意念量化记录下来。


传感器是一种检测装置,能感受到被测量目标的信息,并将感受到的信息以一定的规律变换成电信号或其他形式的信号输出,以满足信息数据的传输、处理、存储、显示、记录和控制等要求,是实现自动检测和自动控制的首要设备。传感器是通过特殊材料制成的敏感元件,它能感知外界的各种信息,现在已经商业化的敏感元件有热敏元件、光敏元件、气敏元件、力敏元件、磁性敏感元件、湿敏元件、声波敏感元件、放射线敏感元件、色敏元件和味道敏感元件等十大类。下面我们以温度传感器为例介绍传感器的工作原理。

  • 温度传感器的核心部分是热敏材料。热敏材料的各种物理性质会随温度的变化而出现规律的变化,且这种材料变化与温度有一一对应的关系。因此,温度传感器能够将温度转换为材料变化,再转换为数字输出信号,从而实现温度的实时监控。温度传感器是温度测量仪表的核心部分,种类繁多,按测量方式的不同,可以分为接触式和非接触式两大类;按热度敏感元件特性,又可以分为热电阻和热电偶两类。现代的温度传感器外形已经非常小巧,能够让它们广泛应用在生活实践的各个环节,为我们的生活提供了便利。

  • 热电偶温度传感器的热度敏感元件是热电偶,它是由两种不同的导体或半导体组成的。当两种不同的导体或半导体组成一个回路,两端相互连接时,只要两结点处的温度不同,那么回路中就会有电流产生,电流的大小会随着温度差的不同而变化,而电流的这种变化只与导体或半导体的组合有关,即不同的电流对应不同的温度差,从而能够感知检测物体的温度。

  • 红外温度传感器是另一种常用的温度传感器,例如,家庭常备的儿童耳部温度计和体温计里都有红外温度传感器。在自然界中,当物体的温度高于绝对零度时,物体内部就会存在分子热运动,并不断地向四周辐射电磁波,红外温度传感器中的电磁波吸收材料能够吸收物体辐射出来的电磁波,并转化为热能,同时传感器中的热敏材料又能够将热能转化为电压。因此,电压与外界温度就形成了比例关系,从而可以检测出外界物体的温度。


各种数据分析软件

数据分析过程的所有步骤中,只有数据采集的步骤需要特殊的硬件采集或通过人工采集,当数据被采集并被录入到计算机以后,其他的数据分析步骤都可以在数据分析软件中完成。下面我们介绍几种常用的数据分析软件,它们都有各自的优势与劣势,大家可以根据实际情况选择合适的软件进行学习和使用。


Excel办公软件

Excel常被归类到办公软件的类别中,作为办公室级别的数据处理软件,必然会包括一些基本的数据统计分析功能,但是随着数据分析要求的提高,在数据统计分析方面的缺陷也将逐步表现出来,因此,Excel只适合于处理简单的数据分析问题。从Excel2010版本开始,Excel增加了数据分析工具包,工具包不能直接使用,而是需要使用者手动加载后才能显示菜单栏中。具体内容可以参考文章链接:Excel数据分析工具(导航页)


SPSS数据统计分析软件

SPSS是最著名的专业数据统计分析软件之一,已经被广泛运用在市场营销、教育、体育、医学等领域。SPSS的英文全称为Statistical Package for the Social Science ,翻译成中文就是社会科学统计程序包。SPSS软件的特点是操作比较方便,统计方法齐全,能够直接输出数据分析结果的统计图形和数值表格。SPSS的使用可以参考文章链接:SPSS分析技术(导航页)


SPSS统计分析方法包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几个大类。每个大类里又有多个小类,例如,回归分析这个大类中包括线性回归分析、曲线估计、逻辑回归、加权估计、两阶段最小二乘法、非线性回归等多个小类。SPSS还有专门的绘图菜单,可以绘制各种统计图形。SPSS还能够直接读取Excel或Database的数据文件,这极大地方便了各种数据的提取和分析。SPSS的优势是提供菜单和代码语言操作、界面友好、分析操作方便,统计分析功能齐全;劣势是数据录入和整理方式比较死板,一般都是在Excel中将数据整理好后再导入SPSS中进行分析。


SAS数据分析软件

SAS的英文全称是Statistical Analysis System,译为统计分析系统。SAS最初是由美国北卡罗来纳州立大学的两名研究生开发出来的,1976年创立了SAS公司。SAS分析软件具有十分完备的数据访问、数据管理、数据分析功能,包括统计分析、经济计量分析、时间序列分析、决策分析、财务分析和全面质量管理工具等。SAS软件是一个模块组合式结构的软件系统,共有30多个功能模块。SAS是用汇编语言编写而成的,所以使用SAS需要编写程序,这就决定了SAS比较适合统计专业人员使用,对于不是统计专业出身的使用者,学习SAS是比较困难的。


SAS的功能由模块组成,其中基础模块为必需模块,其他模块可任意选择安装。供选择的模块包括统计、矩阵运算、绘图和全屏幕操作等20余个。基础模块可以进行数据存储、调入、追加、复制、文件处理、编写报告、打印图表、数据排序和分类等操作,同时能够完成一些基本统计指标计算,例如,平均数和相关系数。与SPSS相似,SAS可以与一些大型数据库进行数据交换和通信。基础模块是SAS软件的核心模块。统计模块提供高度可靠和完整的统计分析方法,主要有方差分析、线性相关和回归分析,以及非参数测验等共有26个统计分析大类,每个大类还提供适用不同情况的小类,这使得SAS软件成为一个全面、细致、科学的统计分析软件。


SAS分析软件的优势是程序庞大、统计分析功能强大,特别始于大数据量的数据分析;劣势是费用较高、升级频繁、兼容性差、采用编程语言操作、学习难度大。


R统计分析软件

R是包含数据处理、计算和制图的软件系统,它的功能包括数据存储和处理、数组运算、统计分析工具、优秀的统计制图功能。R统计分析软件通过编程语言进行控制和操作,该语言在语法上类似于C语言。因为R统计分析软件是通过编程语言进行操作的,所以想要利用R进行统计分析,需要经过一段编程语言的熟悉过程。草堂君将会在AMOS软件介绍完毕后,开始介绍R统计分析软件。


R是一个完全免费的开源软件,它有适用于不同操作系统的版本,可以从R的官方网站上免费下载和使用。在R的基础安装程序中只包含8个基础模块,其他模块是以“包”的形式存在的,不同的包适用于不同的统计分析过程,用户可以根据需要下载。这些“包”是由全球的数据分析爱好者自愿编制和上传的,所以“包”的数量还在快速增长。


R的优势是体积小巧、免费开源、各种不同应用场景的功能包丰富;劣势是用编程语言操作、学习难度大、入门比较困难。


Minitab质量管理软件

Minitab软件是专注于质量管理的统计分析软件,最初由美国宾夕法尼亚州立大学开发。Minitab软件的特点是简单易懂,很方便进行实验设计及质量控制。因此,被广泛应用于世界各国的制造企业,例如,通用电气、福特汽车、通用汽车、3M、霍尼韦尔、LG、东芝和松下等外国企业;在中国也有很多著名的客户,包括宝钢、徐工集团、海尔、中国航天集团、中铁、中国建设银行、浦发银行、太平人寿、北大光华学院、中欧国际工商学院、华中科大、武汉理工、华东理工等。


Minitab质量管理软件的设计处处体现了质量管理的思想,提供产品质量管理所必需的数据统计分析工具,包括假设检验、回归分析、方差分析、时间序列分析等,除此之外,Minitab的统计图表功能也是异常强大,能够制作散点图、点图、矩阵图、直方图、茎叶图、箱线图、概率图、概率分布图、边际图、矩阵图、单值图、饼图、区间图、帕累托图、鱼骨图和运行图等。Minitab还能够和生产设备系统连接,对生产过程实施实时监控。


Minitab质量管理软件的优势是菜单式操作,专业性的质量管理软件,包含各种质量管理分析工具;劣势是费用较高、升级频繁、统计分析功能有待加强。


总结一下

数据分析软件能够帮助数据分析师在短时间内完成复杂的数据分析计算过程,输出准确的数据分析结果,提高工作效率,所以熟练掌握一到两种统计数据分析软件是数据分析师的基本要求。除以上提到的几种常用统计分析软件以外,还有很多其他的统计分析软件,例如,Python软件、Eview统计软件、Stata统计软件、BMDP软件、Epinfo统计软件、SPLM统计软件和CHISS统计软件等,这些统计分析软件都各有特点,但是核心的统计分析过程都是类似的,大家在学习统计分析软件时,可以根据自己的实际要,选择其中的一到两种软件进行学习即可,不必要花费大量时间,做到样样精通。


温馨提示:

  • 数据分析课程私人定制,一对一辅导,添加微信(possitive2)咨询!

  • 生活统计学QQ群:134373751,用于分享文章提到的各种案例资料、软件、数据文件等。

  • 生活统计学微信交流群,用于各自行业的数据研究项目及其成果交流分享;由于人数大于100人,请添加微信possitive2,拉您入群。

  • 数据分析咨询,请点击首页下方“互动咨询”板块,获取咨询流程!

12-08 21:18