[美] Megan Squire
数据清洗是数据挖掘与分析过程中不可缺少的一个环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能利用正确的工具和方法,就可以让数据清洗工作事半功倍。 本书从文件格式、数据类型、字符编码等基本概念讲起,通过真实的示例,探讨如何提取和清洗关系型数据库、网页文件和PDF文档... 详情
豆瓣评分: 6.5分 发布时间: 2019年6月16日 10:54
伊德里斯 (Ivan Idris)
NumPy是一个优秀的科学计算库,提供了很多实用的数学函数、强大的多维数组对象和优异的计算性能,不仅可以取代Matlab和Mathematica的许多功能,而且业已成为Python科学计算生态系统的重要组成部分。但与这些商业产品不同,它是免费的开源软件。 本书从NumPy安装讲起,逐渐过渡到数... 详情
豆瓣评分: 6.5分 发布时间: 2019年6月15日 18:41
[美] 杰奎琳·凯泽尔凯瑟琳?贾缪尔
本书采用基于项目的方法,介绍用Python完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。主要内容包括:Python基础知识,如何从CSV、Excel、XML、JSON和PDF文件中提取数据,如何获取与存储数据,各种数据清洗与分析技术,数据可视化方法,如何从网站和API中... 详情
豆瓣评分: 6.3分 发布时间: 2019年6月15日 18:39
[美] 桑迪 · 里扎,[美] 于里 · 莱瑟森,[英] 肖恩 · 欧文,[美] 乔希 · 威尔斯
作为计算框架,Spark速度快,开发简单,能同时兼顾批处理和实时数据分析,因此很快被广大企业级用户所采纳,并随着近年人工智能的崛起而成为分析和挖掘大数据的重要得力工具。 本书由业内知名数据科学家执笔,通过丰富的示例展示了如何结合Spark、统计方法和真实世界数据集来解决数据分析问题,既涉及模... 详情
豆瓣评分: 0.0分 发布时间: 2019年6月15日 18:57