终于晓得大数据怎么学好

在中级数据分析师的基础上要求掌握 JAVA 语言和 linux 操作系统知识，能够掌握运用Hadoop、Spark、Storm 等至少一门专业大数据分析软件，从海量数据中提取相关信息，并能够结合 R、Python 等软件，形成严密的数据分析报告。就业方向：通常在*、金融、电信、零售、互联网、电商、医学等行业专门从事数据分析与云端大数据的人员。以下是小编为你整理的大数据怎么学好

java基础：

1. Java 语言的发展史、java 开发环境搭建以及环境变量的配置，java 语言跨平台的原理，java 程序初次开发

2. Java 语法格式，关键字，标识符，注释，常量，数据类型，数据类型转换，运算符

3. 程序流程控制语句以及其应用场景

4. 数组的应用及其常见操作

5. 类和对象的概念、类和对象之间的关系

大数据怎么学好

6. 类的组成部分(成员变量，构造方法，成员方法)及其详细讲解

7. 面向对象的三大特性：继承、封装及其特点剖析

8. 接口和抽象类及其特点分析

9. java 的异常处理机制

10. jdk API 常用类的讲解：Math,Random、String,StringBuffer,Date

11. Java I/O 体系介绍：File 类的介绍和常用操作，字节流 InputStream 和OutputStream，字符流 Reader 和 Writer，以及相应实现类的介绍和使用，缓冲流和序列化流的的详解，IO 性能分析，字节和字符的转化流，包装流的概念，以及常用包装类。

数据来源

大数据分析的数据来源有很多种，包括公司或者机构的内部来源和外部来源。分为以下几类：

1.交易数据。包括POS机数据、信用卡刷卡数据、电子商务数据、互联网点击数据、“企业资源规划”(ERP)系统数据、销售系统数据、客户关系管理(CRM)系统数据、公司的生产数据、库存数据、订单数据、供应链数据等。

2.移动通信数据。能够上网的智能手机等移动设备越来越普遍。移动通信设备记录的数据量和数据的立体完整度，常常优于各家互联网公司掌握的数据。移动设备上的软件能够追踪和沟通无数事件，从运用软件储存的交易数据(如搜索产品的记录事件)到个人信息资料或状态报告事件(如地点变更即报告一个新的地理编码)等。

3.人为数据。人为数据包括电子邮件、文档、图片、音频、视频，以及通过微信、博客、推特、维基、脸书、Linkedin等社交媒体产生的数据流。这些数据大多数为非结构性数据，需要用文本分析功能进行分析。

4.机器和传感器数据。来自感应器、量表和其他设施的数据、定位/GPS系统数据等。这包括功能设备会创建或生成的数据，例如智能温度控制器、智能电表、工厂机器和连接互联网的家用电器的数据。来自新兴的物联网(Io T)的数据是机器和传感器所产生的数据的例子之一。来自物联网的数据可以用于构建分析模型，连续监测预测性行为(如当传感器值表示有问题时进行识别)，提供规定的指令(如警示技术人员在真正出问题之前检查设备)等。

利用黑名单和灰名单识别风险

互联网金融公司面临的主要风险为恶意欺诈，70%左右的信贷损失来源于申请人的恶意欺诈。客户逾期或者违约贷款中至少有30%左右可以收回，另外的一些可以通过催收公司进行催收，M2逾期的回收率在20%左右。

市场上有近百家的公司从事个人征信相关工作，其主要的商业模式是反欺诈识别，灰名单识别，以及客户征信评分。反欺诈识别中，重要的一个参考就是黑名单，市场上领先的大数据风控公司拥有将近1000万左右的黑名单，大部分黑名单是过去十多年积累下来的老赖名单，真正有价值的黑名单在两百万左右。

黑名单来源于民间借贷、线上P2P、信用卡公司、小额借贷等公司的历史违约用户，其中很大一部分不再有借贷行为，参考价值有限。另外一个主要来源是催收公司，催收的成功率一般小于于30%(M3以上的)，会产生很多黑名单。

灰名单是逾期但是还没有达到违约的客户(逾期少于3个月的客户)，灰名单也还意味着多头借贷，申请人在多个贷款平台进行借贷。总借款数目远远超过其还款能力。

黑名单和灰名单是很好的风控方式，但是各个征信公司所拥有的名单仅仅是市场总量的一部分，很多互联网金融公司不得不接入多个风控公司，来获得更多的黑名单来提高查得率。央行和上海经信委正在联合多家互联网金融公司建立统一的黑名单平台，但是很多互联网金融公司都不太愿意贡献自家的黑名单，这些黑名单是用真金白银换来的教训。另外如果让外界知道了自家平台黑名单的数量，会影响其公司声誉，降低公司估值，并令投资者质疑其平台的风控水平。

GraphX(图计算模型)

Spark GraphX*是伯克利AMPLAB的一个分布式图计算框架项目，目前整合在spark运行框架中，为其提供BSP大规模并行图计算能力。

MLib(机器学习库)

Spark MLlib是一个机器学习库，它提供了各种各样的算法，这些算法用来在集群上针对分类、回归、聚类、协同过滤等。

Streaming(流计算模型)

Spark Streaming支持对流数据的实时处理，以微批的方式对实时数据进行计算

Kafka(分布式消息队列)

Kafka是Linkedin于2010年12月份开源的消息系统，它主要用于处理活跃的流式数据。

活跃的流式数据在web网站应用中非常常见，这些数据包括网站的pv、用户访问了什么内容，搜索了什么内容等。

这些数据通常以日志的形式记录下来，然后每隔一段时间进行一次统计处理。

更多培训课程，学习资讯，课程优惠，课程开班，学校地址等学校信息，请进入 天才领路者网站详细了解
咨询电话：400-850-8622