数据分析:修订间差异

无编辑摘要
无编辑摘要
第1行: 第1行:
==简介==
===时间轴===


==分析步骤==
==分析步骤==
第118行: 第123行:
==思维方法==
==思维方法==


==分类==
 


==资源==
==资源==
===相关网站===
===相关网站===


===相关书籍===
*[https://otexts.com/fppcn/ 《预测: 方法与实践》]  Rob J Hyndman 和 George Athanasopoulos


===相关文章===
===相关文章===
*[https://en.wikipedia.org/wiki/Data_analysis Wikipedia:Data analysis]
*[https://www.zhihu.com/question/29265587 知乎:如何快速成为数据分析师?]
*[https://www.zhihu.com/question/29265587 知乎:如何快速成为数据分析师?]
*[https://www.jianshu.com/p/5a8f01fe7f2a 简书:老树之见 - 数据驱动决策的13种思维方式]
*[https://www.jianshu.com/p/5a8f01fe7f2a 简书:老树之见 - 数据驱动决策的13种思维方式]


==参考==
 
*[https://en.wikipedia.org/wiki/Data_analysis Wikipedia:Data analysis]
 


[[分类:数据分析]]
[[分类:数据分析]]

2021年6月17日 (四) 05:50的版本

简介

时间轴

分析步骤

目标需求

获取数据

处理数据

分析数据

展示输出

工具

统计学

基础工具

数据存储查询

分类 名称 描述
常用文本格式 CSV 全称Comma Separated Vaules,电子表格和数据库中最常见的输入、输出文件格式。csv格式一般为:一行一条记录,记录间不同字段值用逗号分隔。
JSON 全称JavaScript Object Notation,是一种轻量级的数据交换格式。
数据库基础 SQL 一种数据库查询和程序设计语言,简单易用。各个数据库管理软件的SQL语言实现大部分相同。
关系数据库软件 MySQL
MariaDB
PostgreSQL
SQLite
Microsoft Access
大数据 Apache Hadoop 是一个开源软件项目,利用计算机集群来高效地处理大数据集。核心包括:
MapReduce,执行框架
HDFS,分布式文件系统
YARN,资源管理器

Hadoop周边开源工具:
Apache Hive,提供类似SQL查询功能。
Apache pig
Hue
Apache Spark
Apache Flink

分析与可视化

分类 名称 描述
软件 Excel
Tableau
Power BI
SPSS 全称是Statistical Product and Service Solutions,IBM公司推出的用于统计分析、数据挖掘、预测分析等软件。简单易用,价格不便宜。
编程 Python 是一门简单易学的计算机编程语言,搭配一些开源的Python库可实现数据统计分析、绘图、数据挖掘和预测等。
Numpy,科学计算的基本软件包。
Pandas,用于数据分析的Python库。
Matplotlib,Python的一个绘图库,常用于数据可视化。
SciPy
Scikit-learn
Statsmodels,统计学包

常用代码编辑器:
Jupyter,这款软件在数据分析中很常用。
Pycharm,是由JetBrains打造的一款Python IDE。
VS Code,是由微软开发,同时支持Windows 、 Linux和macOS等操作系统的免费开源代码编辑器。
R语言 是一计算机编程语言,主要用于统计分析、绘图、数据挖掘等。R内置多种统计学及数字分析功能,还可以通过安装包(Packages)增强。
在线可视化分析平台 神策数据
Quick BI
海致BDP
开源可视化库 D3.js 基于 JavaScript
ECharts 基于 JavaScript,最初由百度开源,后捐赠给Apache基金会,成为Apache顶级项目。
g2 基于 JavaScript,阿里巴巴开源可视化库,g2官网
Matplotlib 基于 Python,常用于Python数据可视化。
开源可视化平台 Superset
Grafana
Kibana

思维方法

资源

相关网站

相关书籍

相关文章