Hands-On Big Data Analytics with PySpark在线阅读
会员

Hands-On Big Data Analytics with PySpark

Rudy Lai Bart?omiej Potaczek
开会员,本书免费读 >

计算机网络数据库3.6万字

更新时间:2021-06-24 15:52:53 最新章节:Leave a review - let other readers know what you think

立即阅读
加书架
下载
听书

书籍简介

ApacheSparkisanopensourceparallel-processingframeworkthathasbeenaroundforquitesometimenow.OneofthemanyusesofApacheSparkisfordataanalyticsapplicationsacrossclusteredcomputers.Inthisbook,youwillnotonlylearnhowtouseSparkandthePythonAPItocreatehigh-performanceanalyticswithbigdata,butalsodiscovertechniquesfortesting,immunizing,andparallelizingSparkjobs.Youwilllearnhowtosourcedatafromallpopulardatahostingplatforms,includingHDFS,Hive,JSON,andS3,anddealwithlargedatasetswithPySparktogainpracticalbigdataexperience.Thisbookwillhelpyouworkonprototypesonlocalmachinesandsubsequentlygoontohandlemessydatainproductionandatscale.ThisbookcoversinstallingandsettingupPySpark,RDDoperations,bigdatacleaningandwrangling,andaggregatingandsummarizingdataintousefulreports.YouwillalsolearnhowtoimplementsomepracticalandproventechniquestoimprovecertainaspectsofprogrammingandadministrationinApacheSpark.Bytheendofthebook,youwillbeabletobuildbigdataanalyticalsolutionsusingthevariousPySparkofferingsandalsooptimizethemeffectively.
品牌:中图公司
上架时间:2019-03-29 00:00:00
出版社:Packt Publishing
本书数字版权由中图公司提供,并由其授权上海阅文信息技术有限公司制作发行

最新章节

Rudy Lai Bart?omiej Potaczek
主页

最新上架

  • 会员
    MySQL数据库是目前全球流行的数据库之一。《MySQL8.0从入门到实战》从入门到实战,系统全面、由浅入深地介绍MySQL数据库应用的各个方面。全书分为8个部分,共18章。第1部分(第1~3章)介绍MySQL的基础知识,包括初识MySQL、数据库设计和数据类型;第2部分(第4~6章)介绍MySQL的基本操作,包括SQL基础操作、MySQL连接查询和数据复制、MySQL基础函数;第3部分(第7、8
    张文亮编著计算机9.7万字
  • 会员
    《数据分析师手记:数据分析72个核心问题精解》从底层认知、思维方法、工具技术、项目落地及展望出发,使用问答的形式对数据分析中的72个核心知识点进行讲解,构建了数据分析的知识框架,带领读者认识数据分析背后的奥妙。读者可以用本书作为学习地图,针对具体的方法、技术进行延伸学习。
    刘林 李朝成 饼干哥哥计算机16.8万字
  • 全书以学生成绩管理数据库案例为主线,从建立空数据库开始,逐步讲解数据库中的表、查询、窗体、报表、宏、模块、VBA程序设计与数据库编程等Access2016的主要功能;以图书馆借还书管理数据库项目实训为辅线,结合每章知识设计项目实训内容,帮助读者巩固和加深对所学知识的理解和掌握;以商品销售管理数据库实战演练为扩展训练,帮助读者提高应用数据库技术分析和处理数据的操作技能。本书符合最新版《全国计算机等
    谢萍 周蓉 苏林萍编著计算机13.8万字
  • 会员
    本书共3篇:第1篇主要介绍分布式数据库基础理论,包括经典的CAP理论、一致性算法相关的理论、并发控制相关的理论等;第2篇具体介绍Greenplum数据库,从分布式事务、分布式计算和分布式存储3个方面,深入代码层级,讲述分布式理论在工业上的实现;第3篇是总结和展望,介绍云原生数据库和新技术带给Greenplum和数据库管理系统的机遇和挑战。本书打破以理论介绍和架构介绍为主的思路,深入分析工业化的实现
    王凤刚计算机7.1万字
  • 会员
    《SQLServer从入门到精通(第5版)》从初学者角度出发,通过通俗易懂的语言、丰富多彩的实例,详细介绍了SQLServer开发所必需的各方面技术。全书分为4篇共19章,内容包括数据库基础、SQLServer数据库环境搭建、创建与管理数据库、操作数据表、SQL基础、SQL函数的使用、SQL数据查询基础、SQL数据高级查询、视图的使用、存储过程、触发器、游标的使用、索引与数据完整性、SQL中
    明日科技编著计算机14.1万字
  • 会员
    本书瞄准当前高校MySQL数据库教学与实验的需求,在MySQL8.0的基础上编写而成。全书分为两篇。第一篇为MySQL数据库基础,内容包含:数据库基础、MySQL语言、数据定义、数据操纵、数据查询、视图和索引、MySQL编程技术、MySQL安全管理、备份和恢复、事务管理、PHP和MySQL教学管理系统开发。第二篇为MySQL实验,所编排的各个实验与第一篇中的各章(除第10、11章外)内容相对应,
    赵明渊 唐明伟主编计算机12万字
  • 会员
    本书是《数据库原理——GaussDB技术及应用》一书配套的辅助教材。全书共分3部分:第一部分为实验指导,共有13个综合实验,每一个实验都是根据教学目标而设计,详细讲述了每一个实验的实验目的、实验任务及实验步骤,从而培养学生掌握关系数据库管理软件技术与应用的技能;第二部分为习题集,是根据主教材各章节内容编写的习题及习题答案,内容广泛,有填空、选择、简答、设计及实验题等多种形式,利求通过对这些习题的训
    李雁翎编著计算机6.9万字
  • 会员
    这是一套数据指标体系全流程构建(从规划、框架设计、数据采集加工到应用)方法论与实践指南。它不仅深入浅出地分享了通用的数据指标体系构建策略,还通过多个行业实例展示了具体操作方法。书中从数据采集入手,借助BI工具Superset实践构建过程。本着“一切技术都是为业务服务的”这一宗旨,本书除了包含数据指标体系构建相关内容外,还结合统计学原理及Excel、Python等工具,深入剖析数据指标波动对业务的影
    李渝方计算机12.7万字
  • 会员
    本书以案例的形式,介绍从思维模型分析到场景实践的数据分析方法。全书围绕“数据分析”与“运营增长”两大关键要素,在系统介绍数据分析思维、数据分析方法、数据采集技能、数据清洗技能等基础知识的同时,以问题为导向,解读运营与增长的关键性业务内容,在获客、激活、留存、变现、自传播循环等各个核心运营环节展开数据分析实战。本书提供案例相关数据集与源码包,适合数据分析、产品运营、市场营销等行业有数据分析具体业务需
    黄佳计算机12万字

同类书籍最近更新

  • 会员
    本书以一个开发案例贯穿全书,从软件工程的角度出发,按照项目开发的阶段流程组织数据库设计原理和应用系统实现的相关内容,引导读者在数据库应用系统开发的每个阶段都实现从理论到实践的探索。在我国软件国产化的大背景下,本书采用国产的华为openGauss作为数据库技术实验环境,以帮助读者更好地了解国产数据库产品的使用方法。
    林育蓓 汤德佑 汤娜编著数据库19.2万字
  • 会员
    本书涉及云数据中心网络很多块的内容,主要包括传统技术、商用SDN方案、开源SDN方案以及相关的学术论文,覆盖了目前绝大部分的主流技术以及一些其他较为新颖的技术,是目前市面上少数能够切入SDN某一个具体行业应用场景,并对相关技术和产品进行系统性介绍的书籍之一。
    张晨数据库33.6万字
  • 会员
    数据中心UPS系统运维在介绍UPS基本知识的基础上,着重介绍了当前数据中心主要使用的双变换在线式UPS的电路组成和工作原理,重点讨论了蓄电池配置的计算方法和UPS针对不同负载的选型计算方法,尤其对数据中心UPS配电系统供电方案、UPS的操作方法以及UPS主机和蓄电池组的巡检及维护方法进行了重点介绍。数据中心UPS系统运维力求理论和实践相结合,书中所列UPS供电方案及运维保养方法普遍适用于当前主流的
    陶亚雄等主编数据库17.2万字
  • 会员
    本书系统地讲解了TableauPrepBuilder和TableauDesktop的原理与实践应用。全书以可视化分析、Tableau计算为重点,详细介绍了如何理解数据的层次、如何使用TableauPrepBuilder整理和准备数据、如何使用TableauDesktop开展敏捷数据分析、Tableau高级互动,特别是深入介绍了Tableau的各种计算,从而以有限的数据实现无限的业务场景
    喜乐君数据库21.3万字
  • 会员
    在这本书里读者将会跟随作者一同对Oracle数据库的相关知识进行梳理,然后共同提炼出必须最先掌握的那部分知识,无论你是数据库开发、管理、优化、设计人员,还是从事Java、C的开发人员。接下来作者再将这部分知识中最实用的内容进一步提炼,浓缩出精华的部分,分享给大家。这是二八现象的一次经典应用。这部分知识就是Oracle的物理体系结构、逻辑体系结构、表、索引以及表连接五大部分。通过阅读这些章节,
    梁敬彬 梁敬弘数据库17.8万字
  • 会员
    R是一种适用于统计分析计算和图像处理的语言,受S语言和Scheme语言影响发展而来。早期R是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不做任何修改地在R环境下运行。R的语法来自Scheme,作为一款诞生于20世纪90年代的语言,R已经成为S统计编程语言的一类实现方式。本书从实际应用出发,结合实例及应用场景,深入浅出地介绍了R语言应用的相关知识:R语言的
    张良均等数据库9.2万字