数据处理
数据算法:Hadoop/Spark大数据处理技巧 英文pdf原版
资源名称:数据算法: 大数据处理技巧 英文 原版 第 章二次排序:简介 第 章二次排序:详细示例 第 章 列表 第 章左外连接 第 章反转排序 第 章移动平均 第 章购物篮分析 第 章共同好友 第 章使用 实现推荐引擎 第 章基于内容的电影推荐 第 章使用马尔可夫模型的智能邮件营销 第 章 均值聚类 第 章 近邻 第 章朴素贝叶斯 第 章情感分析 第 章查找、统计和列出大图中的所有三角形 第 章 计数 第 章 测序 第 章 回归 第 章 趋势检验 第 章等位基因频率 第 章 检验 第 章皮尔逊相关系数 第
企业大数据处理 Spark、Druid、Flume与Kafka应用实践 完整pdf
资源名称:企业大数据处理 、 、 与 应用实践 完整 第一部分 准备工作 第 章 基础环境准备 第二部分 核心技术 第 章 详解 第 章 原理及部署 第 章 数据摄入 第 章 客户端 第 章 日志收集 第 章 分布式消息队列 第三部分 项目实践 第 章 数据平台 第 章 监控系统 资源截图:
用Apache Spark进行大数据处理-第一部分:入门介绍 中文
资源名称:用 进行大数据处理 第一部分 入门介绍 中文 本文档主要讲述的是用 进行大数据处理 第一部分:入门介绍; 是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在 年由加州大学伯克利分校的 开发,并于 年成为 的开源项目之一。 资源截图:
Python数据处理 PDF_Python教程
资源名称: 数据处理 内容简介: 本书采用基于项目的方法,介绍用 完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。主要内容包括: 基础知识,如何从 、 、 、 和 文件中提取数据,如何获取与存储数据,各种数据清洗与分析技术,数据可视化方法,如何从网站和 中提取数据。 作者简介: 数据科学家,资深软件开发者。活跃于 软件基金会、 等社区。曾参与美国总统创新伙伴项目,是美国政府技术组织 的联合创始人。曾担任《华盛顿邮报》数据记者。 资深 开发者, 联合创始人。喜欢数据分析和获取、网页抓取
Spark大数据处理技术 完整pdf
资源名称: 大数据处理技术 完整 第 章 系统概述 大数据处理框架 大数据处理框架 表达能力 子系统 小结 第 章 及编程接口 程序 分区( ) 优先位置( ) 依赖关系( ) 分区计算( ) 分区函数( ) 创建操作 集合创建操作 存储创建操作 转换操作 基本转换操作 键值 转换操作 再论 依赖关系 控制操作( ) 行动操作( ) 集合标量行动操作 存储行动操作 小结 第 章 运行模式及原理 运行模式概述 运行模式列表 基本工作流程 相关基本类 模式 部署及程序运行 内部实现原理 模式 部署及程序运行
Spark快速数据处理
资源名称: 快速数据处理 内容简介: 是一个开源的通用并行分布式计算框架,由加州大学伯克利分校的 实验室开发,支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。 内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性,现已逐渐获得很多企业的支持,如阿里巴巴、百度、网易、英特尔等公司。 本书系统讲解 的使用方法,包括如何在多种机器上安装 ,如何配置一个 集群,如何在交互模式下运行第一个 作业,如何在 集群上构建一个生产级的脱机 独立作业,如何与 集群建立连接和使
Hadoop大数据处理 中文pdf
资源名称: 大数据处理 中文 章大数据处理概论 什么是大数据 数据处理平台的基础架构 大数据处理的存储 提升容量 提升吞吐量 大数据处理的计算模式 多处理技术 并行计算 大数据处理系统的容错性 数据存储容错 计算任务容错 大数据处理的云计算变革 本章参考文献 章基于 的大数据处理架构 核心云计算技术 并行计算编程模型 分布式文件系统 分布式结构化数据存储 云计算技术及发展 的由来 原理与运行机制 相关技术及简介 技术的发展与演进 基于云计算的大数据处理架构 基于云计算的大数据处理技术的应用 百度 阿里巴巴