天才领路者
课程导航
课程大全
更多

终于理会大数据怎么自学

发布时间: 2019-08-25 10:57:43

数据被誉为新时代的石油,随着大数据市场的发展,数据开始流通,越来越多人也开始挖掘数据的价值。本文尽可能全面地介绍国内的数据源、搜索数据的方法以及数据交易的平台,帮助数据工作者们快速全面地找数据。文中涉及的数据交易方式包括API数据接口、数据包下载、数据定制等,涵盖免费的公开源数据以及付费数据。以下是小编为你整理的大数据怎么自学  

统计数据  

国家统计局/国家数据  

最正统、最官方的数据,数据范围涵盖各行各业,时间跨度也较大,可下载为各种常见格式  

政府网站通常有统计数据,但不同部门数据量有多有少,目前为止数据并不算深入,但随着数据开放政策的深入,相信政府网站会成为很好的数据源  

部门列表可以在中国政府网找,下文中的各行业数据都可以在相关的部门网站找到数据,就不一一列举了

大数据怎么自学

 

数据需要申请或购买,公开的并不多,但不失为一个选择  

咨询、金融、市场调研公司,尤其是业内顶尖的,通常有自己的数据,但同样并不免费公开,部分数据可购买  

大部分主要行业都有自己的年鉴,数据比较宝贵,只是给机器用之前还需要处理;价值高的年鉴通常需要付费获取;这里推荐一下人大经济论坛,氛围较好  

如何统计数据  

公开信息及整理比如统计局的数据、公司自己发布的年报、其他市场机构的研究报告、或者根据公开的零散信息整理;  

购买的数据库市场上有很多产品化的数据库,比如Bloomberg、OneSource、Wind等等,这个一般是以公司的名义买入口,不光咨询公司还有很多高等院校及研究机构也买了;  

自己的数据库自己维护的数据库有,但是比较少,一是专业的数据公司差不多能想到的都做了,二是自己做数据库其实是一件很麻烦的事情。在有些数据是外界无法得到的情况下有可能自己维护一个小型的数据库;  

咨询行业专家当然是有偿的,这个在项目中应该蛮常见的。有些行业专家会专门收集和销售数据,想要的基本能买到。  

发问卷有时候为了单独的项目也会收集很特别的数据,如果外界实在没有但是项目上没有不行就只有自己做了,比如自己发发问卷之类的,但是这类数据需求要控制工作量,因为除非数据本身是交付内容之一,要不然不能为了个中间件花费太多时间和精力;  

客户有些数据就是来源于客户,甚至是咨询公司的产品。举个例子,比如HR咨询公司的行业工资数据、四大的一些数据库等等,这些数据的采集需要比较强的专业性或者时间积累,很大一部分是通过调查客户的HR收集来的数据进行统计的。  

HBase集群及其管理  

1、集群的搭建过程 2、集群的监控 3、集群的管理  

Pig基础知识  

Pig是进行Hadoop计算的另一种框架,是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询,Pig 可以简化 Hadoop 的使用。  

1、Pig概述 2、安装Pig 3、使用Pig完成手机流量统计业务

 

Hive  

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用。  

1、数据仓库基础知识 2、Hive定义 3、Hive体系结构简介 4、Hive集群 5、客户端简介 6、HiveQL定义 7、HiveQL与SQL的比较 8、数据类型 9、表与表分区概念 10、表的操作与CLI客户端 11、数据导入与CLI客户端 12、查询数据与CLI客户端 13、数据的连接与CLI客户端 14、用户自定义函数(UDF)  

Scala  

Scala是另一种基于Java的语言,并且和Java相同的是,它正日益成为大规模机器学习,或构建高层次算法的工具。它富有表现力,并且还能够构建健壮的系统。  

“Java就像是建造时的钢铁,而Scala则像黏土,因为你之后可以将之放入窑内转变成钢铁,”Driscoll说。  

Kafka和Storm  

那么,当你需要快速实时的分析时又该怎么办呢?Kafka会成为你的好朋友。它大概5年前就已经出现了,但是直到最近才成为流处理的流行框架。  

Kafka,诞生于LinkedIn内部,是一个超快速的查询消息系统。Kafka的缺点?好吧,它太快了。在实时操作时会导致自身出错,并且偶尔地会遗漏东西。  

“有精度和速度之间有一个权衡,”Driscoll说, “因此,硅谷所有的大型高科技公司都会使用两条管道:Kafka或Storm用于实时处理,然后Hadoop用于批处理系统,此时虽然是缓慢的但超级准确。”  

Storm是用Scala编写的另一个框架,它在硅谷中因为流处理而受到了大量的青睐。它被Twitter纳入其中,勿庸置疑的,这样一来,Twitter就能在快速事件处理中得到巨大的裨益。  

MatLab  

MatLab一直以来长盛不衰,尽管它要价不菲,但它仍然被广泛使用在一些非常特殊的领域:研究密集型机器学习,信号处理,图像识别,仅举几例。  

Octave  

Octave和MatLab非常相似,但它是免费的。不过,它在学术性信号处理圈子之外很少见到。  

GO是另一个正在掀起浪潮的后起之秀。它由Google开发,从C语言松散地派生,并在构建健壮基础设施上,正在赢得竞争对手,例如Java和Python的份额。  

更多培训课程,学习资讯,课程优惠,课程开班,学校地址等学校信息,请进入 天才领路者网站详细了解
咨询电话: 400-160-5808

你也可以留下你的联系方式,让课程老师跟你详细解答: 在线咨询

相关资讯

温馨提示:提交留言后老师会第一时间与您联系! 热线电话:400-160-5808