初入数据分析,需要学哪些工具?需要掌握到什么程度?这里李海博客给大家简单总结一下,希望对你有所帮助。
00序言
数据分析,横向来看,属于计算机与统计学的结合;纵向来看,始于数据、终于业务。因此需要掌握的工具/技能跨度还是比较大的,从数据流转角度来看,涵盖从「数据仓库→数据提取→数据分析→数据展示→数据汇报」几个模块,李海博客为大家梳理了各模块涉及的工具内容,并标注重要性,供大家参考。
01数据仓库
数据分析岗位,一般不会涉及数据仓库的搭建及维护,但对数据仓库的了解,有助于下游数据提取,以及做一些ADS层的数仓建设,有益于自身成长。其中涉及到的工具/技巧主要涵盖:SQL、Python、Java、Flink等。
其中SQL是最为重要的,会在下文详细展开;Python、Java在数据处理层会应用到,Python会在下文展开,Java的优先级不高,大家了解即可;Flink在处理实时流时会应用到,优先级同样不高,了解即可。
02数据提取
数据提取是数据分析的首个环节,将数据从数据库中,按照指定的格式输出出来。在这个过程中,SQL是必备工具。
SQL「重要性:五星」
非常重要!非常重要!非常重要!建议掌握程度如下。
熟练掌握增、删、查、改等基础语句。
熟练掌握基础函数,在遇到问题时,能够快速检索出用什么类型函数来解决问题。
熟练掌握语法结构,能够写出相对复杂的嵌套语句。
有清晰的代码逻辑,在遇到不同类型需求时,能够快速在脑海中形成输出结构。
03数据分析
数据提取后,分析是日常工作的核心环节,将数据加工处理,探索其中的业务价值。这里涉及的工具比较多,包含但不限于:Excel、Python、R、Spss、Eviews、Sas等。
Excel「重要性:五星」
虽然不高端,但仍然是数据分析最好用、最常用的工具。建议掌握程度如下。
熟练掌握常用函数。例如:sum、average、vlookup等。
熟练掌握常用操作技巧。例如:行列转置、选择性粘贴等。
熟练掌握常用快捷键。例如:快速删除行列、快速筛选内容等。
了解VBA,能够简单实现Excel自动化。这一点不是必须,但对提高工作效率会有帮助。
Python「重要性:四星」
Python并不是数据分析必备工具,但却能够决定你的发展上限。主要应用场景涵盖:创建SQL中应用的UDF函数、通过脚本快速产出分析报告、通过数据挖掘产出模型。建议掌握程度如下。
熟练掌握Python基础语法、函数,能够看懂别人写的代码。
熟练掌握分析及挖掘常用工具包。例如:numpy、pandas、matplotlib、sklearn等。
熟悉通用的Python项目目录结构。
R「重要性:三星」
从功能角度来说,R与Python很多功能是交叉的。R更加偏向于统计分析与绘图,一般在学术研究中应用较多。对于数据分析同学,Python与R二选一即可,个人推荐前者,应用方向更广一些。
Spss「重要性:三星」
Spss是一款数据统计与应用软件,在处理「离线+中小数据量」的统计分析时比较好用。通过「可视化界面+点选方式」选择不同类型的统计分析,例如:概率统计、相关分析、回归分析等,甚至还包含了机器学习算法与文本分析等,应用方向较广。建议掌握程度如下。
熟练掌握常用的统计学原理,并了解各原理中的参数含义。
了解工具能解决哪些问题,至于具体的操作细节,可在用到的时候查询。
Eviews、Sas「重要性:两星」
Eviews和Sas在非经济学领域出现频次不太高。Eviews主要在时间序列分析中有较多应用;而Sas主要在银行及金融业应用较多,属于付费软件。这两个工具,大家了解就好,用到的时候再深入研究。
04数据展示
产出数据结论后,往往需要配合图表进行展示,Excel、Python Matplotlib基本就可满足需求。但如果希望配置成例行图表,则需要通过BI软件来完成。一般公司内部会有自己的BI平台,而至于外部软件,Tableau应用较为广泛。
BI平台操作相对比较简单,但如果之前没有应用过,建议下载Tableau用一用,了解一下BI平台的一般功能,并能够实现一些简单的看板搭建(Tableau是付费的)。
05数据汇报
数据对于业务的价值,需要通过汇报让更多人知晓。这里PPT是最常用的工具。
PPT「重要性:五星」
只有一个原则,汇报的PPT「思路清晰+内容简洁+突出结论」即可。
以上就是本期的内容分享,希望对你有所帮助!
还没有评论,来说两句吧...