知行迭代
导航
首页
最近更改
随机页面
常用
分类目录
Linux命令
Mediawiki常用
电脑技巧
工具
链入页面
相关更改
特殊页面
页面信息
登录
查看“数据分析”的源代码
←
数据分析
页面
讨论
阅读
查看源代码
查看历史
因为以下原因,您没有权限编辑本页:
您请求的操作仅限属于该用户组的用户执行:[
[1]
]
您可以查看和复制此页面的源代码。
==简介== ===时间轴=== ==分析步骤== ===目标需求=== ===获取数据=== ====获取方式==== {| class="wikitable" style="width: 100%; ! 方法 ! 描述 |- | 手工 | 对于简单网页数据,复制粘贴方便 |- | [[网络爬虫]] | |- | SQL | |- | 数据采集 | 对于应用或设备,可以使用埋点或无埋点采集数据。 |} ====外部数据==== {| class="wikitable" style="width: 100%; ! 类别 ! 命令 ! 描述 |- | | | |- | | | |} ====内部数据==== {| class="wikitable" style="width: 100%; ! 类别 ! 命令 ! 描述 |- | | | |- | | | |} ===处理数据=== ===分析数据=== ===展示输出=== ==工具== ===统计学=== ===基础工具=== ===数据存储查询=== {| class="wikitable" style="width: 100%; ! 分类 ! 名称 ! 描述 |- | rowspan="2"| 常用文本格式 |[[CSV]] |全称Comma Separated Vaules,电子表格和数据库中最常见的输入、输出文件格式。csv格式一般为:一行一条记录,记录间不同字段值用逗号分隔。 |- |[[JSON]] |全称JavaScript Object Notation,是一种轻量级的数据交换格式。 |- | rowspan="1"| 数据库基础 |[[SQL]] | 一种数据库查询和程序设计语言,简单易用。各个数据库管理软件的SQL语言实现大部分相同。 |- | rowspan="5"|关系数据库软件 |[[MySQL]] | |- |[[MariaDB]] | |- |[[PostgreSQL]] | |- |[[SQLite]] | |- |[[Microsoft Access]] | |- | rowspan="3"|大数据 |[[Hadoop | Apache Hadoop]] |是一个开源软件项目,利用计算机集群来高效地处理大数据集。核心包括:<br \>[[MapReduce]],执行框架 <br \>[[HDFS]],分布式文件系统<br \>[[Hadoop YARN | YARN]],资源管理器 <br \><br \>Hadoop周边开源工具:<br \>[[ Hive | Apache Hive]],提供类似SQL查询功能。 <br \>[[Apache pig]] <br \>[[Hue]] |- |[[Apache Spark]] | |- |[[Apache Flink]] | |} ===分析与可视化=== {| class="wikitable" style="width: 100%; ! 分类 ! 名称 ! 描述 |- | rowspan="4"|软件 | [[Excel]] | |- | [[Tableau]] | |- | [[Power BI]] | |- | [[SPSS]] | 全称是Statistical Product and Service Solutions,IBM公司推出的用于统计分析、数据挖掘、预测分析等软件。简单易用,价格不便宜。 |- | rowspan="2"|编程 | [[Python]] | 是一门简单易学的计算机编程语言,搭配一些开源的Python库可实现数据统计分析、绘图、数据挖掘和预测等。<br \> [[Numpy]],科学计算的基本软件包。<br \>[[Pandas]],用于数据分析的Python库。 <br \>[[Matplotlib]],Python的一个绘图库,常用于数据可视化。 <br \>[[SciPy]] <br \>[[Scikit-learn]] <br \>[[Statsmodels]],统计学包 <br \><br \>常用代码编辑器:<br \>[[Jupyter]],这款软件在数据分析中很常用。<br \>[[Pycharm]],是由JetBrains打造的一款Python IDE。 <br \>[[VS Code]],是由微软开发,同时支持Windows 、 Linux和macOS等操作系统的免费开源代码编辑器。 |- | [[R语言]] | 是一计算机编程语言,主要用于统计分析、绘图、数据挖掘等。R内置多种统计学及数字分析功能,还可以通过安装包(Packages)增强。 |- | rowspan="3"|在线可视化分析平台 | [[神策数据]] | |- | [[Quick BI]] | |- | [[海致BDP]] | |- | rowspan="4"|开源可视化库 | [[D3.js]] | 基于 [[JavaScript]], |- | [[ECharts]] | 基于 JavaScript,最初由百度开源,后捐赠给Apache基金会,成为Apache顶级项目。 |- | [[g2]] | 基于 JavaScript,阿里巴巴开源可视化库,[https://g2.antv.vision/zh/ g2官网] |- | [[Matplotlib]] | 基于 Python,常用于Python数据可视化。 |- | rowspan="3"|开源可视化平台 | [[Superset]] | |- | [[Grafana]] | |- | [[Kibana]] | |} ==思维方法== ==资源== ===相关网站=== ===相关书籍=== *[https://otexts.com/fppcn/ 《预测: 方法与实践》] Rob J Hyndman 和 George Athanasopoulos ===相关文章=== *[https://en.wikipedia.org/wiki/Data_analysis Wikipedia:Data analysis] *[https://www.zhihu.com/question/29265587 知乎:如何快速成为数据分析师?] *[https://www.jianshu.com/p/5a8f01fe7f2a 简书:老树之见 - 数据驱动决策的13种思维方式] [[分类:数据分析]]
返回至“
数据分析
”。