大数据数据分析课程

讲师介绍

孟硕,恩墨学院大数据产品总监,金牌讲师

曾任职于 Oracle 甲骨文软件研究开发中心,负责 Oracle RAC 与操作系统优化,擅长利用MDB DTrace 剖析系统原理,解决系统适配的诸多问题。同时在 Oracle 解决方案中心担任 Oracle Big Data Appliance 咨询工作。取得国际商业大数据领导公司 Cloudera ACTP 认证讲师资质。加入 Oracle 之前,曾任职于中科红旗(RedFlag-Linux)操作系统服务器组,负责安全,虚拟化产品自动化 QE。在此之前供职于 国软检测中心的开源软件实验室,自此开始基础软件的研究。

授课特点:能够结合十余年的丰富操作系统、数据库以及大数据的经验,从原理层展示大数据的运用之妙。作为资深键盘侠、手敲党,能结合自身庞大的知识储备,将课程中的诸多难点消化于指尖之上,绝对让学员收获于课程之外。

获得认证:Oracle OCM

          Cloudera Certified Administrator for Apache Hadoop (CCAH)

      Cloudera ACTP 认证讲师。


大数据数据分析课程大纲

查询数据与分析:Hive

HDFS 存储特点

Apache Hive 介绍

Hive 与 HDFS 的关系

Hive 的表结构与数据存储

对比 Hive 与传统关系型数据库

实践:Hive 的安装与部署

Hive 基本数据分析:Hive 数据库和表

基本 HiveQL 语法

数据类型和内建功能

数据查询与分析:Hive 进阶

Hive 的数据格式

创建数据库并由 Hive 管理表

Hive 查询简化:视图

Hive 数据访问控制

实践:Hive 数据管理

Hive 的文本处理

Hive 正则表达式

情绪分析(Sentiment Analysis)以及 N-Grams 模型

实践:通过数据的情绪分析获取价值

Hive 优化与扩展

理解 Hive 查询性能

控制 Hive 任务语句执行计划

Hive 表分区,Bucketing 以及索引数据

SerDes,UDF 以及并行查询

实践:Hive 的数据类型转换

查询数据与分析:Impala

什么是 Impala

什么是面向 ad-hoc 的查询

Impala 与 Hadoop 组件的关系

对比 Impala 与传统关系型数据库

Impala 的局限与未来发展

实践:使用 Impala Shell

Impala 基本语法与数据类型

数据查询与分析:Impala 进阶

过滤、排序与结果集限定

实践:实现自定义 Partitioner

Impala 的性能提升

如何选择工具 MapReduce Hive Impala

实践:使用 Impala 做交互式数据分析

查询数据与分析:Pig

Pig 简介与使用场景

Pig 的语法

查询数据与分析:Pig 进阶与扩展

复杂数据类型

理解 Pig 执行计划

提高 Pig 性能的关键因素

UDF 用户自定义函数

实战:用 Pig 执行 ETL 流程

恩墨学院大数据数据分析课程

联系我们

  • 全国统一咨询热线:400-660-8755
  • QQ咨询:点击这里给我发消息 点击这里给我发消息 点击这里给我发消息
  • QQ群咨询:279589917
  • 邮箱:training@enmotech.com
  • 联系人:黄老师