数据分析:修订间差异

(创建页面,内容为“ ==数据分析过程== ==思维== ==工具== ===统计学=== ===基础工具=== ===数据库=== ===分析工具=== {| class="wikitable" style="width: 100%; !…”)
 
无编辑摘要
 
(未显示同一用户的6个中间版本)
第1行: 第1行:


==数据分析过程==
==简介==
===时间轴===


==思维==
 
 
==分析步骤==
===目标需求===
===获取数据===
====获取方式====
{| class="wikitable"  style="width: 100%;
! 方法
! 描述
|-
| 手工
| 对于简单网页数据,复制粘贴方便
|-
| [[网络爬虫]]
|-
| SQL
|
|-
| 数据采集
| 对于应用或设备,可以使用埋点或无埋点采集数据。
|}
====外部数据====
{| class="wikitable"  style="width: 100%;
! 类别
! 命令
! 描述
|-
|
|
|
|-
|
|
|
|}
====内部数据====
{| class="wikitable"  style="width: 100%;
! 类别
! 命令
! 描述
|-
|
|
|
|-
|
|
|
|}
===处理数据===
===分析数据===
===展示输出===


==工具==
==工具==
第9行: 第62行:
===基础工具===
===基础工具===


===数据库===
===数据存储查询===
{| class="wikitable"  style="width: 100%;
! 分类
! 名称
! 描述
|-
| rowspan="2"| 常用文本格式
|[[CSV]]
|全称Comma Separated Vaules,电子表格和数据库中最常见的输入、输出文件格式。csv格式一般为:一行一条记录,记录间不同字段值用逗号分隔。
|-
|[[JSON]]
|全称JavaScript Object Notation,是一种轻量级的数据交换格式。
|-
| rowspan="1"| 数据库基础
|[[SQL]]
| 一种数据库查询和程序设计语言,简单易用。各个数据库管理软件的SQL语言实现大部分相同。
|-
| rowspan="5"|关系数据库软件
|[[MySQL]]
|
|-
|[[MariaDB]]
|
|-
|[[PostgreSQL]]
|
|-
|[[SQLite]]
|
|-
|[[Microsoft Access]]
|
|-
| rowspan="3"|大数据
|[[Hadoop | Apache Hadoop]]
|是一个开源软件项目,利用计算机集群来高效地处理大数据集。核心包括:<br \>[[MapReduce]],执行框架 <br \>[[HDFS]],分布式文件系统<br \>[[Hadoop YARN | YARN]],资源管理器 <br \><br \>Hadoop周边开源工具:<br \>[[ Hive | Apache Hive]],提供类似SQL查询功能。 <br \>[[Apache pig]] <br \>[[Hue]]
|-
|[[Apache Spark]]
|
|-
|[[Apache Flink]]
|
|}


===分析工具===
===分析与可视化===
{| class="wikitable"  style="width: 100%;
{| class="wikitable"  style="width: 100%;
! 分类
! 名称
! 名称
! 描述
! 描述
|-
| rowspan="4"|软件
| [[Excel]]
|
|-
| [[Tableau]]
|
|-
| [[Power BI]]
|
|-
|-
| [[SPSS]]
| [[SPSS]]
| 全称是Statistical Product and Service Solutions,IBM公司推出的用于统计分析、数据挖掘、预测分析等软件。简单易用,价格不便宜。
| 全称是Statistical Product and Service Solutions,IBM公司推出的用于统计分析、数据挖掘、预测分析等软件。简单易用,价格不便宜。
|-  
|-
| rowspan="2"|编程
| [[Python]]
| [[Python]]
| 是一门简单易学的计算机编程语言,搭配一些开源的Python库可实现数据统计分析、数据挖掘和预测等。<br \> [[Numpy]],科学计算的基本软件包。<br \>[[Pandas]],用于数据分析的Python库。
| 是一门简单易学的计算机编程语言,搭配一些开源的Python库可实现数据统计分析、绘图、数据挖掘和预测等。<br \> [[Numpy]],科学计算的基本软件包。<br \>[[Pandas]],用于数据分析的Python库。 <br \>[[Matplotlib]],Python的一个绘图库,常用于数据可视化。 <br \>[[SciPy]]  <br \>[[Scikit-learn]] <br \>[[Statsmodels]],统计学包 <br \><br \>常用代码编辑器:<br \>[[Jupyter]],这款软件在数据分析中很常用。<br \>[[Pycharm]],是由JetBrains打造的一款Python IDE。 <br \>[[VS  Code]],是由微软开发,同时支持Windows 、 Linux和macOS等操作系统的免费开源代码编辑器。
|-  
|-  
| [[R语言]]
| 是一计算机编程语言,主要用于统计分析、绘图、数据挖掘等。R内置多种统计学及数字分析功能,还可以通过安装包(Packages)增强。
|-
| rowspan="3"|在线可视化分析平台
| [[神策数据]]
|
|-
| [[Quick BI]]
|  
|  
|-
| [[海致BDP]]
|
|-
| rowspan="4"|开源可视化库
| [[D3.js]]
| 基于 [[JavaScript]],
|-
| [[ECharts]]
| 基于 JavaScript,最初由百度开源,后捐赠给Apache基金会,成为Apache顶级项目。
|-
| [[g2]]
| 基于 JavaScript,阿里巴巴开源可视化库,[https://g2.antv.vision/zh/ g2官网]
|-
| [[Matplotlib]]
| 基于 Python,常用于Python数据可视化。
|-
| rowspan="3"|开源可视化平台
| [[Superset]]
|  
|  
|-
| [[Grafana]]
|
|-
| [[Kibana]]
|
|}
|}
===可视化===
 
==思维方法==




==数据分析分类==


==资源==
==资源==
===相关网站===
===相关网站===


===相关书籍===
*[https://otexts.com/fppcn/ 《预测: 方法与实践》]  Rob J Hyndman 和 George Athanasopoulos


===相关文章===
===相关文章===
*[https://en.wikipedia.org/wiki/Data_analysis Wikipedia:Data analysis]
*[https://www.zhihu.com/question/29265587 知乎:如何快速成为数据分析师?]
*[https://www.zhihu.com/question/29265587 知乎:如何快速成为数据分析师?]
*[https://www.jianshu.com/p/5a8f01fe7f2a 简书:老树之见 - 数据驱动决策的13种思维方式]


==参考==
[[分类:数据分析]]
*[https://en.wikipedia.org/wiki/Data_analysis Wikipedia:Data analysis]

2021年8月19日 (四) 22:55的最新版本

简介

时间轴

分析步骤

目标需求

获取数据

获取方式

方法 描述
手工 对于简单网页数据,复制粘贴方便
网络爬虫
SQL
数据采集 对于应用或设备,可以使用埋点或无埋点采集数据。

外部数据

类别 命令 描述

内部数据

类别 命令 描述

处理数据

分析数据

展示输出

工具

统计学

基础工具

数据存储查询

分类 名称 描述
常用文本格式 CSV 全称Comma Separated Vaules,电子表格和数据库中最常见的输入、输出文件格式。csv格式一般为:一行一条记录,记录间不同字段值用逗号分隔。
JSON 全称JavaScript Object Notation,是一种轻量级的数据交换格式。
数据库基础 SQL 一种数据库查询和程序设计语言,简单易用。各个数据库管理软件的SQL语言实现大部分相同。
关系数据库软件 MySQL
MariaDB
PostgreSQL
SQLite
Microsoft Access
大数据 Apache Hadoop 是一个开源软件项目,利用计算机集群来高效地处理大数据集。核心包括:
MapReduce,执行框架
HDFS,分布式文件系统
YARN,资源管理器

Hadoop周边开源工具:
Apache Hive,提供类似SQL查询功能。
Apache pig
Hue
Apache Spark
Apache Flink

分析与可视化

分类 名称 描述
软件 Excel
Tableau
Power BI
SPSS 全称是Statistical Product and Service Solutions,IBM公司推出的用于统计分析、数据挖掘、预测分析等软件。简单易用,价格不便宜。
编程 Python 是一门简单易学的计算机编程语言,搭配一些开源的Python库可实现数据统计分析、绘图、数据挖掘和预测等。
Numpy,科学计算的基本软件包。
Pandas,用于数据分析的Python库。
Matplotlib,Python的一个绘图库,常用于数据可视化。
SciPy
Scikit-learn
Statsmodels,统计学包

常用代码编辑器:
Jupyter,这款软件在数据分析中很常用。
Pycharm,是由JetBrains打造的一款Python IDE。
VS Code,是由微软开发,同时支持Windows 、 Linux和macOS等操作系统的免费开源代码编辑器。
R语言 是一计算机编程语言,主要用于统计分析、绘图、数据挖掘等。R内置多种统计学及数字分析功能,还可以通过安装包(Packages)增强。
在线可视化分析平台 神策数据
Quick BI
海致BDP
开源可视化库 D3.js 基于 JavaScript
ECharts 基于 JavaScript,最初由百度开源,后捐赠给Apache基金会,成为Apache顶级项目。
g2 基于 JavaScript,阿里巴巴开源可视化库,g2官网
Matplotlib 基于 Python,常用于Python数据可视化。
开源可视化平台 Superset
Grafana
Kibana

思维方法

资源

相关网站

相关书籍

相关文章