数据分析

Eric讨论 | 贡献2021年5月22日 (六) 23:12的版本

分析步骤

目标需求

获取数据

处理数据

分析数据

展示输出

工具

统计学

基础工具

数据存储查询

分类 名称 描述
常用文本格式 CSV 全称Comma Separated Vaules,电子表格和数据库中最常见的输入、输出文件格式。csv格式一般为:一行一条记录,记录间不同字段值用逗号分隔。
JSON 全称JavaScript Object Notation,是一种轻量级的数据交换格式。
数据库基础 SQL 一种数据库查询和程序设计语言,简单易用。各个数据库管理软件的SQL语言实现大部分相同。
关系数据库软件 MySQL
MariaDB
PostgreSQL
SQLite
Microsoft Access
大数据 Apache Hadoop是一个开源软件项目,利用计算机集群来高效地处理大数据集。 Hadoop的核心包括:
MapReduce,执行框架
HDFS,分布式文件系统
YARN,资源管理器

Hadoop周边开源工具:
Apache Hive
Apache pig
Hue
Apache Spark
Apache Flink

分析与可视化

分类 名称 描述
软件 Excel
Tableau
SPSS 全称是Statistical Product and Service Solutions,IBM公司推出的用于统计分析、数据挖掘、预测分析等软件。简单易用,价格不便宜。
编程 Python 是一门简单易学的计算机编程语言,搭配一些开源的Python库可实现数据统计分析、绘图、数据挖掘和预测等。
Numpy,科学计算的基本软件包。
Pandas,用于数据分析的Python库。
Matplotlib,Python的一个绘图库,常用于数据可视化。

常用代码编辑器:
Jupyter,这款软件在数据分析中很常用。
Pycharm,是由JetBrains打造的一款Python IDE。
VS Code,是由微软开发,同时支持Windows 、 Linux和macOS等操作系统的免费开源代码编辑器。
R语言 是一计算机编程语言,主要用于统计分析、绘图、数据挖掘等。R内置多种统计学及数字分析功能,还可以通过安装包(Packages)增强。
在线可视化分析平台 神策数据
Quick BI
海致BDP
开源可视化库 D3.js 基于 JavaScript
ECharts 基于 JavaScript,最初由百度开源,后捐赠给Apache基金会,成为Apache顶级项目。
g2 基于 JavaScript,阿里巴巴开源可视化库,g2官网
Matplotlib 基于 Python,常用于Python数据可视化。
开源可视化平台 Superset
Grafana
Kibana

思维方法

分类

资源

相关网站

相关文章

参考