数据分析:修订间差异
(创建页面,内容为“ ==数据分析过程== ==思维== ==工具== ===统计学=== ===基础工具=== ===数据库=== ===分析工具=== {| class="wikitable" style="width: 100%; !…”) |
无编辑摘要 |
||
(未显示同一用户的6个中间版本) | |||
第1行: | 第1行: | ||
== | ==简介== | ||
===时间轴=== | |||
== | |||
==分析步骤== | |||
===目标需求=== | |||
===获取数据=== | |||
====获取方式==== | |||
{| class="wikitable" style="width: 100%; | |||
! 方法 | |||
! 描述 | |||
|- | |||
| 手工 | |||
| 对于简单网页数据,复制粘贴方便 | |||
|- | |||
| [[网络爬虫]] | |||
| | |||
|- | |||
| SQL | |||
| | |||
|- | |||
| 数据采集 | |||
| 对于应用或设备,可以使用埋点或无埋点采集数据。 | |||
|} | |||
====外部数据==== | |||
{| class="wikitable" style="width: 100%; | |||
! 类别 | |||
! 命令 | |||
! 描述 | |||
|- | |||
| | |||
| | |||
| | |||
|- | |||
| | |||
| | |||
| | |||
|} | |||
====内部数据==== | |||
{| class="wikitable" style="width: 100%; | |||
! 类别 | |||
! 命令 | |||
! 描述 | |||
|- | |||
| | |||
| | |||
| | |||
|- | |||
| | |||
| | |||
| | |||
|} | |||
===处理数据=== | |||
===分析数据=== | |||
===展示输出=== | |||
==工具== | ==工具== | ||
第9行: | 第62行: | ||
===基础工具=== | ===基础工具=== | ||
=== | ===数据存储查询=== | ||
{| class="wikitable" style="width: 100%; | |||
! 分类 | |||
! 名称 | |||
! 描述 | |||
|- | |||
| rowspan="2"| 常用文本格式 | |||
|[[CSV]] | |||
|全称Comma Separated Vaules,电子表格和数据库中最常见的输入、输出文件格式。csv格式一般为:一行一条记录,记录间不同字段值用逗号分隔。 | |||
|- | |||
|[[JSON]] | |||
|全称JavaScript Object Notation,是一种轻量级的数据交换格式。 | |||
|- | |||
| rowspan="1"| 数据库基础 | |||
|[[SQL]] | |||
| 一种数据库查询和程序设计语言,简单易用。各个数据库管理软件的SQL语言实现大部分相同。 | |||
|- | |||
| rowspan="5"|关系数据库软件 | |||
|[[MySQL]] | |||
| | |||
|- | |||
|[[MariaDB]] | |||
| | |||
|- | |||
|[[PostgreSQL]] | |||
| | |||
|- | |||
|[[SQLite]] | |||
| | |||
|- | |||
|[[Microsoft Access]] | |||
| | |||
|- | |||
| rowspan="3"|大数据 | |||
|[[Hadoop | Apache Hadoop]] | |||
|是一个开源软件项目,利用计算机集群来高效地处理大数据集。核心包括:<br \>[[MapReduce]],执行框架 <br \>[[HDFS]],分布式文件系统<br \>[[Hadoop YARN | YARN]],资源管理器 <br \><br \>Hadoop周边开源工具:<br \>[[ Hive | Apache Hive]],提供类似SQL查询功能。 <br \>[[Apache pig]] <br \>[[Hue]] | |||
|- | |||
|[[Apache Spark]] | |||
| | |||
|- | |||
|[[Apache Flink]] | |||
| | |||
|} | |||
=== | ===分析与可视化=== | ||
{| class="wikitable" style="width: 100%; | {| class="wikitable" style="width: 100%; | ||
! 分类 | |||
! 名称 | ! 名称 | ||
! 描述 | ! 描述 | ||
|- | |||
| rowspan="4"|软件 | |||
| [[Excel]] | |||
| | |||
|- | |||
| [[Tableau]] | |||
| | |||
|- | |||
| [[Power BI]] | |||
| | |||
|- | |- | ||
| [[SPSS]] | | [[SPSS]] | ||
| 全称是Statistical Product and Service Solutions,IBM公司推出的用于统计分析、数据挖掘、预测分析等软件。简单易用,价格不便宜。 | | 全称是Statistical Product and Service Solutions,IBM公司推出的用于统计分析、数据挖掘、预测分析等软件。简单易用,价格不便宜。 | ||
|- | |- | ||
| rowspan="2"|编程 | |||
| [[Python]] | | [[Python]] | ||
| | | 是一门简单易学的计算机编程语言,搭配一些开源的Python库可实现数据统计分析、绘图、数据挖掘和预测等。<br \> [[Numpy]],科学计算的基本软件包。<br \>[[Pandas]],用于数据分析的Python库。 <br \>[[Matplotlib]],Python的一个绘图库,常用于数据可视化。 <br \>[[SciPy]] <br \>[[Scikit-learn]] <br \>[[Statsmodels]],统计学包 <br \><br \>常用代码编辑器:<br \>[[Jupyter]],这款软件在数据分析中很常用。<br \>[[Pycharm]],是由JetBrains打造的一款Python IDE。 <br \>[[VS Code]],是由微软开发,同时支持Windows 、 Linux和macOS等操作系统的免费开源代码编辑器。 | ||
|- | |- | ||
| [[R语言]] | |||
| 是一计算机编程语言,主要用于统计分析、绘图、数据挖掘等。R内置多种统计学及数字分析功能,还可以通过安装包(Packages)增强。 | |||
|- | |||
| rowspan="3"|在线可视化分析平台 | |||
| [[神策数据]] | |||
| | |||
|- | |||
| [[Quick BI]] | |||
| | | | ||
|- | |||
| [[海致BDP]] | |||
| | |||
|- | |||
| rowspan="4"|开源可视化库 | |||
| [[D3.js]] | |||
| 基于 [[JavaScript]], | |||
|- | |||
| [[ECharts]] | |||
| 基于 JavaScript,最初由百度开源,后捐赠给Apache基金会,成为Apache顶级项目。 | |||
|- | |||
| [[g2]] | |||
| 基于 JavaScript,阿里巴巴开源可视化库,[https://g2.antv.vision/zh/ g2官网] | |||
|- | |||
| [[Matplotlib]] | |||
| 基于 Python,常用于Python数据可视化。 | |||
|- | |||
| rowspan="3"|开源可视化平台 | |||
| [[Superset]] | |||
| | | | ||
|- | |||
| [[Grafana]] | |||
| | |||
|- | |||
| [[Kibana]] | |||
| | |||
|} | |} | ||
== | |||
==思维方法== | |||
==资源== | ==资源== | ||
===相关网站=== | ===相关网站=== | ||
===相关书籍=== | |||
*[https://otexts.com/fppcn/ 《预测: 方法与实践》] Rob J Hyndman 和 George Athanasopoulos | |||
===相关文章=== | ===相关文章=== | ||
*[https://en.wikipedia.org/wiki/Data_analysis Wikipedia:Data analysis] | |||
*[https://www.zhihu.com/question/29265587 知乎:如何快速成为数据分析师?] | *[https://www.zhihu.com/question/29265587 知乎:如何快速成为数据分析师?] | ||
*[https://www.jianshu.com/p/5a8f01fe7f2a 简书:老树之见 - 数据驱动决策的13种思维方式] | |||
[[分类:数据分析]] | |||
2021年8月19日 (四) 22:55的最新版本
简介
时间轴
分析步骤
目标需求
获取数据
获取方式
方法 | 描述 |
---|---|
手工 | 对于简单网页数据,复制粘贴方便 |
网络爬虫 | |
SQL | |
数据采集 | 对于应用或设备,可以使用埋点或无埋点采集数据。 |
外部数据
类别 | 命令 | 描述 |
---|---|---|
内部数据
类别 | 命令 | 描述 |
---|---|---|
处理数据
分析数据
展示输出
工具
统计学
基础工具
数据存储查询
分类 | 名称 | 描述 |
---|---|---|
常用文本格式 | CSV | 全称Comma Separated Vaules,电子表格和数据库中最常见的输入、输出文件格式。csv格式一般为:一行一条记录,记录间不同字段值用逗号分隔。 |
JSON | 全称JavaScript Object Notation,是一种轻量级的数据交换格式。 | |
数据库基础 | SQL | 一种数据库查询和程序设计语言,简单易用。各个数据库管理软件的SQL语言实现大部分相同。 |
关系数据库软件 | MySQL | |
MariaDB | ||
PostgreSQL | ||
SQLite | ||
Microsoft Access | ||
大数据 | Apache Hadoop | 是一个开源软件项目,利用计算机集群来高效地处理大数据集。核心包括: MapReduce,执行框架 HDFS,分布式文件系统 YARN,资源管理器 Hadoop周边开源工具: Apache Hive,提供类似SQL查询功能。 Apache pig Hue |
Apache Spark | ||
Apache Flink |
分析与可视化
分类 | 名称 | 描述 |
---|---|---|
软件 | Excel | |
Tableau | ||
Power BI | ||
SPSS | 全称是Statistical Product and Service Solutions,IBM公司推出的用于统计分析、数据挖掘、预测分析等软件。简单易用,价格不便宜。 | |
编程 | Python | 是一门简单易学的计算机编程语言,搭配一些开源的Python库可实现数据统计分析、绘图、数据挖掘和预测等。 Numpy,科学计算的基本软件包。 Pandas,用于数据分析的Python库。 Matplotlib,Python的一个绘图库,常用于数据可视化。 SciPy Scikit-learn Statsmodels,统计学包 常用代码编辑器: Jupyter,这款软件在数据分析中很常用。 Pycharm,是由JetBrains打造的一款Python IDE。 VS Code,是由微软开发,同时支持Windows 、 Linux和macOS等操作系统的免费开源代码编辑器。 |
R语言 | 是一计算机编程语言,主要用于统计分析、绘图、数据挖掘等。R内置多种统计学及数字分析功能,还可以通过安装包(Packages)增强。 | |
在线可视化分析平台 | 神策数据 | |
Quick BI | ||
海致BDP | ||
开源可视化库 | D3.js | 基于 JavaScript, |
ECharts | 基于 JavaScript,最初由百度开源,后捐赠给Apache基金会,成为Apache顶级项目。 | |
g2 | 基于 JavaScript,阿里巴巴开源可视化库,g2官网 | |
Matplotlib | 基于 Python,常用于Python数据可视化。 | |
开源可视化平台 | Superset | |
Grafana | ||
Kibana |
思维方法
资源
相关网站
相关书籍
- 《预测: 方法与实践》 Rob J Hyndman 和 George Athanasopoulos