数据分析

简介

时间轴

分析步骤

目标需求

获取数据

获取方式

方法 描述
手工 对于简单网页数据,复制粘贴方便
网络爬虫
SQL
数据采集 对于应用或设备,可以使用埋点或无埋点采集数据。

外部数据

类别 命令 描述

内部数据

类别 命令 描述

处理数据

分析数据

展示输出

工具

统计学

基础工具

数据存储查询

分类 名称 描述
常用文本格式 CSV 全称Comma Separated Vaules,电子表格和数据库中最常见的输入、输出文件格式。csv格式一般为:一行一条记录,记录间不同字段值用逗号分隔。
JSON 全称JavaScript Object Notation,是一种轻量级的数据交换格式。
数据库基础 SQL 一种数据库查询和程序设计语言,简单易用。各个数据库管理软件的SQL语言实现大部分相同。
关系数据库软件 MySQL
MariaDB
PostgreSQL
SQLite
Microsoft Access
大数据 Apache Hadoop 是一个开源软件项目,利用计算机集群来高效地处理大数据集。核心包括:
MapReduce,执行框架
HDFS,分布式文件系统
YARN,资源管理器

Hadoop周边开源工具:
Apache Hive,提供类似SQL查询功能。
Apache pig
Hue
Apache Spark
Apache Flink

分析与可视化

分类 名称 描述
软件 Excel
Tableau
Power BI
SPSS 全称是Statistical Product and Service Solutions,IBM公司推出的用于统计分析、数据挖掘、预测分析等软件。简单易用,价格不便宜。
编程 Python 是一门简单易学的计算机编程语言,搭配一些开源的Python库可实现数据统计分析、绘图、数据挖掘和预测等。
Numpy,科学计算的基本软件包。
Pandas,用于数据分析的Python库。
Matplotlib,Python的一个绘图库,常用于数据可视化。
SciPy
Scikit-learn
Statsmodels,统计学包

常用代码编辑器:
Jupyter,这款软件在数据分析中很常用。
Pycharm,是由JetBrains打造的一款Python IDE。
VS Code,是由微软开发,同时支持Windows 、 Linux和macOS等操作系统的免费开源代码编辑器。
R语言 是一计算机编程语言,主要用于统计分析、绘图、数据挖掘等。R内置多种统计学及数字分析功能,还可以通过安装包(Packages)增强。
在线可视化分析平台 神策数据
Quick BI
海致BDP
开源可视化库 D3.js 基于 JavaScript
ECharts 基于 JavaScript,最初由百度开源,后捐赠给Apache基金会,成为Apache顶级项目。
g2 基于 JavaScript,阿里巴巴开源可视化库,g2官网
Matplotlib 基于 Python,常用于Python数据可视化。
开源可视化平台 Superset
Grafana
Kibana

思维方法

资源

相关网站

相关书籍

相关文章