大数据数据索引与流式计算

讲师介绍

孟硕,恩墨学院大数据产品总监,金牌讲师

曾任职于 Oracle 甲骨文软件研究开发中心,负责 Oracle RAC 与操作系统优化,擅长利用MDB DTrace 剖析系统原理,解决系统适配的诸多问题。同时在 Oracle 解决方案中心担任 Oracle Big Data Appliance 咨询工作。取得国际商业大数据领导公司 Cloudera ACTP 认证讲师资质。加入 Oracle 之前,曾任职于中科红旗(RedFlag-Linux)操作系统服务器组,负责安全,虚拟化产品自动化 QE。在此之前供职于 国软检测中心的开源软件实验室,自此开始基础软件的研究。

授课特点:能够结合十余年的丰富操作系统、数据库以及大数据的经验,从原理层展示大数据的运用之妙。作为资深键盘侠、手敲党,能结合自身庞大的知识储备,将课程中的诸多难点消化于指尖之上,绝对让学员收获于课程之外。

获得认证:Oracle OCM

          Cloudera Certified Administrator for Apache Hadoop (CCAH)

      Cloudera ACTP 认证讲师。


大数据索引与流式计算大纲

索引数据基础

    索引数据

    Apache Solr 介绍

    深入了解 Flume 组件

实践:Flume 组件的高级功能:自定义 agent

    Apache kafka 组件介绍

深入理解索引

    理解 Morphlines

    自定义 Morphlines 配置文件

    Schema 设计

    集合管理

Apache Solr 实践

    利用 Mapreduce 对静态数据数据 (HDFS) 添加索引

    利用 Flume 对数据进行实时索引

    利用 lily HBase  数据进添加索引

    其它索引形式介绍

实践:利用 Apache Tika 侦测提取元数据和结构化内容

    提高索引性能:索引性能优化及故障诊断

    索引用户接口

    Cloudera Search 介绍

实战:不同索引形式的综合练习和故障诊断

流动的数据

    实时数据分析概述

    实时数据抽取与预处理:FlumeKafka

    深入了解 Flume 拦截器

实践:Flume 自定义拦截器与 Avro 对象

Kafka 介绍

    Message,Topic Partitions 的概念

    Producers 和 Consumers

    消息顺序保证

    与 Flume 组件的集成

    案例分析

实践:部署 kafka 组件的注意事项

流式计算进阶:流式计算框架

    Spark Streaming 介绍

    Spark 分布式内存结构 RDD

    RDD 的流式表示结构:DStreams

    Streaming state 操作

    滑动窗口操作

实践:利用 Spark steamming 实现实时词频统计

    其它流式计算框架介绍

恩墨学院大数据数据索引与流式计算

联系我们

  • 全国统一咨询热线:400-660-8755
  • QQ咨询:点击这里给我发消息 点击这里给我发消息 点击这里给我发消息
  • QQ群咨询:279589917
  • 邮箱:training@enmotech.com
  • 联系人:黄老师