加入收藏 | 设为首页 | 会员中心 | 我要投稿 | RSS
您当前的位置:首页 > 大数据分析 > 大数据分析培训

大数据分析培训进阶_书籍推荐

时间:2017-11-06 18:08:44  来源:互联网  作者:光环大数据

  具有一定的行业针对性,要求具备一定的分析常识,适合网站分析师,商业分析师以及数据产品经理。

大数据

深入浅出统计学:HeadFirst类书籍,可以帮助你快速了解统计方面的知识。——Simon

非常非常基础的统计书,适合任何一个没有基础的小白,文科生也能看懂。有人说这本书简直太简单了,但是对于数据分析来说,需要用到的恰好是这些最简单的东西。比如基本的统计量,基本上每个分析项目中都会用到。比如基本的概率分布,总体与样本的概念、置信区间、假设检验、回归分析,我去,都是为数据分析定制的统计学知识。

所以强烈推荐这本,其他的比较深度的书,并不建议在入门的阶段去啃,一方面是很多难以理解,二是即便你花大力气学习了,入门的阶段你也不怎么能在实践中使用。当然多学一些是没有坏处的,但你需要知道在什么时候学习哪些东西性价比最高。或者你自我感觉良好,誓要学最难的,从入门到放弃,得不偿失。

总结起来,需要重点了解的统计学知识如下:

基本的统计量:均值、中位数、众数、方差、标准差、百分位数等;概率分布:几何分布、二项分布、泊松分布、正态分布等;总体和样本:了解基本概念、抽样的概念;

这本书非常的简单,但是基本的数据分析的一些方法都有了,你需要做的,是利用之前学过的Python的一些库(pandas、Numpy、matplotlib)来实现这些数据分析的方法、实现基本的可视化来进行图形化的分析。——DataCastle

大数据

MySQL必知必会:这本也是我当年学习SQL的入门书,薄册子一本,看起来很快。SQL是个性价比很高的技能,简单而强大。任何想进一步提高自己数据分析技能的产品/运营/分析师同学,都建议点亮这个技能点。——Simon

这本书把SQL写的非常简单,没办法,SQL确实也很简单。其实pandas就已可以实现很多数据管理的工作,而了解SQL的意义在于融入到实际的数据使用的场景。比如企业的数据,多是以数据库的形式存储起来的,那么如果你需要去调用你需要的那部分数据,那么SQL就是必须的技能。如果你在最开始就想用公司的数据来练习,那么你可以把这本书的阅读放到最前面。(当然,如果你不回遇到数据提取的问题,SQL这部分也可以暂时不管,对具体的数据分析没有影响,等到你真正需要用到SQL的时候再学习。)

MySQL本身比较简单,对于数据分析师来说,只需要掌握基本的语句和技巧,能够进行基本的数据提取和处理就能够应对一般的数据分析需求了。

书中重点掌握以下几个点:

SELECT语句:让你能够去提取你需要的那部分数据;DELETE和UPDATE:知道怎么实现数据的增、删、改;数据过滤:where、and、or、通配符等过滤方式;数据的汇总和分组、数据库连接:应对更加复杂的数据和相关联的数据;子查询:查询中的查询。

当然还是希望你去公司的数据库找一些数据来进行练习,如果不方便的话,也可以直接用上述UCI数据集中的数据来进行实践。

如果遇到问题,可以去菜鸟教程查询相关操作。

MySQL教程|菜鸟教程

好了,恭喜,你已经基本入门了。到此,你就完全可以去进行一个完整的数据分析项目了,如果你没有头绪,可以去找一些行业的分析报告来看看,找一找分析的思路。能够独立完成一些项目,通过数据分析能够得出一些深刻的结论,能够给人以可视化的形式将结果描述出来,能够基于历史数据对未来的一些情况进行预测,那么一般的数据分析岗位,完全可以胜任了。

互联网增长的第一本数据分析手册:GrowingIO出的一本数据分析的增长手册,为大家提供常见的分析手段讲解,如漏斗分析,同期群分析等等。可在GrowingIO技术论坛中免费下载。

大数据

利用Python进行数据分析:这应该是最经典的数据分析书之一了,作者是pandas库的作者WesMcKinney。所以这本书对于pandas的理解,应该是非常深刻的,而利用梳理介绍的pandas、bumpy、matplotlib等库,应对一般的数据分析,完全足够了。

书中应该重点掌握的一些点:

IPythonNotebook的使用:最适合小白的代码编写环境,非常容易上手;科学计算库Numpy:数组和矢量计算、学会利用数组进行数据处理;数据处理及分析工具pandas:数据查询,缺失值、重复值、异常值的处理,数据的合并与规整化,基本的描述性分析及可视化;可视化工具matplotlib:用这个库,基本的数据可视化问题皆可以解决了。

看上去是不是很简单,这本书就是教会你如何开始使用Python进行数据分析,当然首推的就是pandas,不仅可以做数据的预处理,还能够做基本的数据分析和可视化。这个库一定是你开始入门的时候需要重点学习的,其次用Numpy进行数组的计算、利用matplotlib进行可视化的描述性分析,也是同步需要掌握的东西。

但是,这个部分光看书是远远不够的,你可以尽量去找一些可以练手的数据集,来实际操作和调用这些库的功能,确保熟练数据分析中最常用的函数和模块。如果纠结去哪找练手的数据,推荐UCI经典数据集。

关于pandas、Numpy、matplotlib网上应该可以搜索到很多有用的资料、教程,可以看一看别人的使用技巧、应用场景,并通过练习转化成自己的经验。

因为Python库的更新迭代非常快,这本书里额一些内容其实已经“过时”了,这里也非常建议你去查看一些官方的文档,基本上你需要的都能查到。

pandas官方教程文档

Numpy官方教程文档

matplotlib官方推荐教程文档

另外,在进行一些数据处理、数据分析的时候,你可能需要去了解一些更细节的Python的用法,这里就不推荐书了,因为你没必要去系统地学,按照这个菜鸟教程看看或者查询相关的用法就OK了。

来顶一下
返回首页
返回首页
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表
在线客服
推荐资讯
相关文章
    无相关信息
栏目更新