大数
Spark大数据商业实战三部曲:内核解密|商业案例|性能调优
资源名称: 大数据商业实战三部曲:内核解密商业案例性能调优 内容简介: 《 大数据商业实战三部曲:内核解密商业案例性能调优》基于 ,以 商业案例实战和 在生产环境下几乎所有类型的性能调优为核心,以 内核解密为基石,分为上篇、中篇、下篇,对企业生产环境下的 商业案例与性能调优抽丝剥茧地进行剖析。上篇基于 源码,从一个动手实战案例入手,循序渐进地全面解析了 新特性及 内核源码;中篇选取 开发中 有代表的经典学习案例,深入浅出地介绍,在案例中综合应用 的大数据技术;下篇性能调优内容基本完全覆盖了 在生产环境下的
大数据治理与安全从理论到开源实践
资源名称:大数据治理与安全从理论到开源实践 内容简介: 作为大数据前沿的新兴领域,市面上大数据安全与治理的相关书籍屈指可数。本书在介绍大数据学术界新动态与大数据行业生产实践的同时,对大数据安全与治理的新理论与实践内容做了详尽的阐述。本书分为两部分 第壹篇(理论篇 介绍大数据治理与安全的理论、方法和技术挑战等;第二篇 开源实现篇 ,介绍开源社区各类开源项目,将研究与实践的内容根据不同组件分类。 资源目录: 前 言 第一篇 理论篇 第 章 大数据治理技术 概述 大数据治理的基本概念 大数据治理的意义和重
Spark大数据分析实战
资源名称: 大数据分析实战 内容简介: 本书一共 章:其中第 ~ 章,主要介绍了 的基本概念、编程模型、开发与部署的方法;第 ~ 章,详细详解了热点新闻分析系统、基于云平台的日志数据分析、情感分析系统、搜索引擎链接分析系统等的应用与算法等核心知识点。 资源目录: 前 言 第 章 简介 初识 生态系统 架构与运行逻辑 弹性分布式数据集 简介 算子分类 本章小结 第 章 开发与环境配置 应用开发环境配置 使用 开发 程序 使用 进行交互式数据分析 远程调试 程序 编译 配置 源码阅读环境 本章小结 第 章 简
BIG DATA大数据系统构建:可扩展实时数据系统构建原理与最佳实践
资源名称: 大数据系统构建:可扩展实时数据系统构建原理与最佳实践 内容简介: 随着社交网络、网络分析和智能型电子商务的兴起,传统的数据库系统显然已无法满足海量数据的管理需求。 作为一种新的处理模式,大数据系统应运而生,它使用多台机器并行工作,能够对海量数据进行存储、处理、分析,进而帮助用户从中提取对优化流程、实现高增长率的有用信息,做更为精准有效的决策。 但不可忽略的是,它也引入了大多数开发者并不熟悉的、困扰传统架构的复杂性问题。 本书将教你充分利用集群硬件优势的 架构,以及专门用来捕获和分析网络规模数据
数据科学与大数据分析
资源名称:数据科学与大数据分析 内容简介: 数据科学与大数据分析在当前是炙手可热的概念,关注的是如何通过分析海量数据来洞悉隐藏于数据背后的见解。本书是数据科学领域为数不多的实用性技术图书,它通过详细剖析数据分析生命周期的各个阶段来讲解用于发现、分析、可视化、表示数据的相关方法和技术。《数据科学与大数据分析 数据的发现 分析 可视化与表示》总共分为 章,主要内容包括大数据分析的简单介绍,数据分析生命周期的各个阶段,使用 语言进行基本的数据分析,以及高级的分析理论和方法,主要涉及数据的聚类、关联规则、回归、分
大数据大创新-阿里巴巴云上数据中台之道
资源名称:大数据大创新 阿里巴巴云上数据中台之道 内容简介: 在 集团内,数据人员面临的现实情况是:集团数据存储已经达到 级别,部分单张表每天的数据记录数高达几千亿条;在 年 双 购物狂欢节 的 小时中,支付金额达到了 亿元人民币,支付峰值高达 万笔 秒,下单峰值达 万笔 秒,媒体直播大屏处理的总数据量高达百亿级别且所有数据都需要做到实时、准确地对外披露 巨大的信息量给数据采集、存储和计算都带来了极大的挑战。《大数据之路 大数据实践》就是在此背景下完成的。本书中讲到的 大数据系统架构,就是为了满足不断变化
大数据时代的算法:机器学习、人工智能及其典型实例
资源名称:大数据时代的算法:机器学习、人工智能及其典型实例 内容简介: 《大数据时代的算法:机器学习、人工智能及其典型实例》介绍在互联网行业中经常涉及的算法,包括排序算法、查找算法、资源分配算法、路径分析算法、相似度分析算法,以及与机器学习相关的算法,包括数据分类算法、聚类算法、预测与估算算法、决策算法、关联规则分析算法及推荐算法。《大数据时代的算法:机器学习、人工智能及其典型实例》涉及的相关算法均为解决实际问题中的主流算法,对于工作和学习都有实际参考意义。 《大数据时代的算法:机器学习、人工智能及其典型
Python+Spark 2.0+Hadoop机器学习与大数据实战
资源名称: 机器学习与大数据实战 内容简介: 本书从浅显易懂的 大数据和机器学习 原理说明入手,讲述大数据和机器学习的基本概念,如分类、分析、训练、建模、预测、机器学习(推荐引擎)、机器学习(二元分类)、机器学习(多元分类)、机器学习(回归分析)和数据可视化应用等。书中不仅加入了新近的大数据技术,还丰富了 机器学习 内容。 为降低读者学习大数据技术的门槛,书中提供了丰富的上机实践操作和范例程序详解,展示了如何在单机 系统上通过 虚拟机安装多机 虚拟机,如何建立 集群,再建立 开发环境。书中介绍搭建的上机实