尘宇下载站-分享你所想尘宇下载站

尘宇下载站
有时间读书,有时间又有书读,这是幸福;没有时间读书,有时间又没书读,这是苦恼。

《干净的数据 数据清洗入门与实践 》.pdf

《干净的数据 数据清洗入门与实践 》.pdf
书籍简介:
数据清洗是数据挖掘与分析过程中不可缺少的一个环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能利用正确的工具和方法,就可以让数据清洗工作事半功倍。
本书从文件格式、数据类型、字符编码等基本概念讲起,通过真实的示例,探讨如何提取和清洗关系型数据库、网页文件和PDF文档中的数据。最后提供了两个真实的项目,让读者将所有数据清洗技术付诸实践,完成整个数据科学过程。
如果你是一位数据科学家,或者从事数据科学工作,哪怕是位新手,只要对数据清洗有兴趣,那么本书就适合你阅读!

书籍目录:
第1章  为什么需要清洗数据  1
1.1  新视角  1
1.2  数据科学过程  2
1.3  传达数据清洗工作的内容  3
1.4  数据清洗环境  4
1.5  入门示例  5
1.6  小结  9
第2章  基础知识——格式、 类型与编码  11
2.1  文件格式  11
2.1.1  文本文件与二进制文件  11
2.1.2  常见的文本文件格式  14
2.1.3  分隔格式  14
2.2  归档与压缩  20
2.2.1  归档文件  20
2.2.2  压缩文件  21
2.3  数据类型、空值与编码  24
2.3.1  数据类型  25
2.3.2  数据类型间的相互转换  29
2.3.3  转换策略  30
2.3.4  隐藏在数据森林中的空值  37
2.3.5  字符编码  41
2.4  小结  46
第3章  数据清洗的老黄牛——电子表格和文本编辑器  47
3.1  电子表格中的数据清洗  47
3.1.1  Excel的文本分列功能  47
3.1.2  字符串拆分  51
3.1.3  字符串拼接  51
3.2  文本编辑器里的数据清洗  54
3.2.1  文本调整  55
3.2.2  列选模式  56
3.2.3  加强版的查找与替换功能  56
3.2.4  文本排序与去重处理  58
3.2.5  Process Lines Containing  60
3.3  示例项目  60
3.3.1  第一步:问题陈述  60
3.3.2  第二步:数据收集  60
3.3.3  第三步:数据清洗  61
3.3.4  第四步:数据分析  63
3.4  小结  63
第4章  讲通用语言——数据转换  64
4.1  基于工具的快速转换  64
4.1.1  从电子表格到CSV  65
4.1.2  从电子表格到JSON  65
4.1.3  使用phpMyAdmin从SQL
语句中生成CSV或JSON  67
4.2  使用PHP实现数据转换  69
4.2.1  使用PHP实现SQL到JSON的数据转换  69
4.2.2  使用PHP实现SQL到CSV的数据转换  70
4.2.3  使用PHP实现JSON到CSV的数据转换  71
4.2.4  使用PHP实现CSV到JSON的数据转换  71
4.3  使用Python实现数据转换  72
4.3.1  使用Python实现CSV到JSON的数据转换  72
4.3.2  使用csvkit实现CSV到JSON的数据转换  73
4.3.3  使用Python实现JSON到CSV的数据转换  74
4.4  示例项目  74
4.4.1  第一步:下载GDF格式的Facebook数据  75
4.4.2  第二步:在文本编辑器中查看GDF文件  75
4.4.3  第三步:从GDF格式到JSON格式的转换  76
4.4.4  第四步:构建D3图  79
4.4.5  第五步:把数据转换成Pajek格式  81
4.4.6  第六步:简单的社交网络分析  83
4.5  小结  84

  • 版权声明:资料整理于网络,版权归原作者及原开发商所有,限个人测试学习之用,若您喜欢请支持并购买正版书籍
上一篇:《修改代码的艺术》.pdf
下一篇:《编程人生》15位软件先驱访谈录.pdf
隐藏边栏