数据分析的环境不会搭?看这里准没错!

时间:2020-10-28 作者:admin

你好,我是悦创。

自学一门编程语言着实不易。从我自己的经历看,你需要翻越好几个障碍,从心态,到体力,再到思维,最终才能成为一名优秀的程序员。所以说掌握一门语言,需要你用心去感悟,去认真体会你和“她”的那一丝默契。

但是遗憾的是,太多的朋友们,并不是倒在了中途,而是他们并没有开始,是的,他们连 Python 公主的纤纤玉手都没有摸到。

Python 应该下载哪个版本?

Python 环境如何配置?

推荐几款最好用的 Python IDE 等等。我们的挑战在于选择太多,在丰收的农场门口,我们望着满眼的西瓜和葡萄,踌躇满志却不敢前进。

如果你现在还没有配置好 Python 环境,那么恭喜你,跟着本文走,你将能够收获基于 Python3.7 搭建的编程平台,以及以 Jupyter 为主要工具的编程环境,本文还将带你安装常用的数据分析工具以及可视化工具,一站式购齐,无后顾之忧。

如果你已经安装了 Python3.7 的环境,或者 anaconda 环境,你也可以顺着本文的思路往下走,工具不是重点,配置环境的能力才是。

但是如果你的 Python 环境来历不明(不明论坛下载),我强烈建议你卸载后重新安装官网版本( Python 的卸载方式同普通软件,在控制面板中卸载即可)。毕竟 “磨刀不误砍柴工” ,有的版本残缺不全,谁也无法预测你会出现什么 bug。

本文以windows 10 X64系统为例,演示本地 Python 数据分析环境的搭建过程。

1. 安装 Python 环境

1.1 Python 软件下载

作为 21世纪的大好青年,从来都是要玩最正宗的,盗版?!那是上一代人玩剩下的。特别是在正版还免费的情况下。推荐去 Python 官网https://www.python.org/ 下载。部分朋友可能加载会比较慢,稍安勿躁,除非网络问题,网站都是能够访问的。

数据分析的环境不会搭?看这里准没错!

进入官网后,你可以直接按照上图的提示,选择 Windows 标签,进入 Windows 平台的 Python 版本详单页面( Releases Page ),建议选择 3.7或以上的版本。Python2.7 将在 2020年停止所有更新,就像曾经辉煌的 Windows XP 一样,最终慢慢成为历史的尘埃,所以本专栏不推荐安装 Python2.7

在选择 Python 版本要注意根据自己 PC 的版本一致,如果自己的版本是 64位,建议选择 x86-64 版本下载,否则直接选择普通版本。切记电脑位数和 Python 版本保持一致,否则以后流的泪都是当初挖的坑啊。

数据分析的环境不会搭?看这里准没错!

对于使用 mac OS 的朋友,请选择 mac OS X 标签,进行下载,步骤基本一致。

1.2 Python 软件安装

Python 的安装过程非常人性化,你只要双击安装程序,设置好安装路径,「记得勾选:Add Python 3.7 to PATH」然后不断点击下一步,直至完成安装。

数据分析的环境不会搭?看这里准没错!

上图 add python3.7 to Path ,是指安装过程中程序默认把安装路径添加到系统环境变量中,此项务必打勾!

至此我们已经初步完成了 Python3.7 的安装。在 cmd 命令行中输入 python ,可以直接进入 python 环境中:

C:\Users\Administrator>python
Python 3.7.4 (v3.6.5:f59c0932b4, Mar 28 2018, 17:00:18) [MSC v.1900 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.

继续输入我们的第一行 Python 语句,开启我们的数据分析之旅吧:

>> print("Life is short, I do data analysis in python!")
"Life is short, I do data analysis in python!"

如果把 Python 比作公主的话,那么怎么也得配个丫鬟才对,是吧?我们常说 Python 广泛应用与数据分析、爬虫、网络编程、人工智能、运维等领域,其实是因为基于 Python 有非常多的第三方库,这些库极大地丰富了 Python 的生态,使得 Python 近乎无所不能。那我们该怎么安装这些第三方库呢?

没错,PIP 工具应该说是这块的小能手了。PIP 直观上理解,就是为 Python 量身定做的管理第三方库的小工具,扮演了丫鬟的角色。让我们先来撩一下 PIP ,在 cmd 窗口中输入命令查看 PIP 的版本和安装路径:

C:\Users\Administrator>pip --version
pip 19.1 from d:\users\lemeng\appdata\local\programs\python\python37\lib\site-packages\pip-19.1-py3.7.4.egg\pip (python 3.7)

如果系统提示 PIP 不是最新版本,请继续执行如下命令:

C:\Users\Administrator>python -m pip install --upgrade pip

PIP 是不是就这么简单呢?我们稍后揭晓。

2. Jupyter Notebook,最适合做数据分析的编程工具

准确来讲,Jupyter Notebook 不仅仅适合做数据分析,而且它非常适合新入门的朋友练习 Python

Jupyter Notebook 是一种以 “问答式” 为重要特征的 Python 编辑器,就像排版精良的笔记,你的程序、执行结果,井然有序。

本专栏重点介绍在 Python 数据分析过程中的 Jupyter Notebook 的使用。在实际案例中,你输入一句,它便返回程序执行的结果。并且执行后程序的内存会被锁定,直到程序关闭,变量才会被销毁、内存被释放。

这种特征,在数据分析领域尤为重要。在数据分析的过程中,一切套路都是围绕着数据本身的特点来的。特别是对于中大型的数据表格,只有熟悉了数据的特点,才能对数据进行下一步的分析。这也正是数据编程与网络编程最大的差别。

我们先安装 Jupyter Notebook,然后通过一个实例来感受它的便捷。

我们推荐通过 PIP 工具进行一键式安装,在 cmd 窗口输入如下命令:

C:\Users\Administrator>pip install jupyter

这里推荐给你的 pip 换源,这里以 Windows10 为例:

  1. 先打开查看文件后缀:查看 -> 勾选文件扩展名

    数据分析的环境不会搭?看这里准没错!

  2. 首先在 Windows 的文件夹「快捷键:Win 图标+ E 」窗口输入 : %APPDATA%

    数据分析的环境不会搭?看这里准没错!

  3. 然后在底下新建 pip 文件夹,然后到 pip 文件夹里面去新建个 pip.ini ,然后再里面输入内容

    数据分析的环境不会搭?看这里准没错!

  4. 输入一下内容:

    [global]
    index-url = http://mirrors.aliyun.com/pypi/simple/
    [install]
    trusted-host=mirrors.aliyun.com
    

    数据分析的环境不会搭?看这里准没错!

  5. 自此就换源结束

  6. 补充:

    从 pip10.0.0 开始,有个 config 子命令可用来改配置,无需关心不同操作系统下配置文件路径。

    详见讨论:Create a command to make it easy to access the configuration file · Issue #1736 · pypa/pip

    实际使用例子:

    # 阿里源
    pip config set global.index-url http://mirrors.aliyun.com/pypi/simple/
    
    # 豆瓣源
    pip config set global.index-url https://pypi.douban.com/simple
    
    # 阿里云 http://mirrors.aliyun.com/pypi/simple/
    # 科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
    # 豆瓣(douban) http://pypi.douban.com/simple/
    # 清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/
    # 中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/
    

提示安装成功后,推荐设置一下我们常用的 Python 学习路径,这样新建和保存文件均会默认放置到该路径下。在 cmd 窗口中继续输入:

C:\Users\Administrator>jupyter notebook --generate-config
Writing default config to C:\Users\Administrator\.jupyter\jupyter_notebook_config.py

编辑上一步提示的 jupyter_notebool_config.py 文件,找到 c.Notebook.notebok_dir ,放开前面的注释,并按照下图修改完成(路径根据自己的实际情况填写,注意避免放置中文路径,给自己挖坑),保存并关闭。

数据分析的环境不会搭?看这里准没错!

到此为止,Python 环境就完成配置了,下面我们就来撩一下吧。

cmd 窗口中输入 jupyter notebook ,启动环境:

C:\Users\Administrator>jupyter notebook

通过 New 菜单,新建一个 Python 3 的程序后,在新的页面继续输入:

for i in range(10):
    print(i, end=",")

jupyter notebook 界面及效果如下:

数据分析的环境不会搭?看这里准没错!

Jupyter 的常用工具栏上,有保存、剪切、复制、粘贴、运行、停止等按钮,鼠标移动到按钮上会有提示,总体来说,还是很人性化的,相信上手应该没有难度的。

这里请朋友们注意了,在本专栏的后续章节中,除特殊说明外,Python 程序的演示都是在 Jupyter Notebook 中进行的。

3. 数据分析三大神器

  • Numpy ,一款用于科学计算时的基础模块

简单来说,Numpy 提供了一个 N 维数组容器,基于 Numpy ,你可以非常方便地进行数组的变换与计算,比 Python 自带的嵌套列表的效率高多了,不仅仅是运行效率,开发效率也是极高。并且后续的数据分析工具很多都是基于 Numpy 开发而来,也就是说想玩转数据分析,必须要安装并且了解 Numpy。

推荐用 PIP 安装 Numpy ,正常有 2 种方法:在线安装和离线安装。如果网络条件还可以,可以在 cmd 窗口中输入:

C:\Users\Administrator>pip install numpy

PIP 会根据 Python 的版本,自动搜索匹配的 Numpy 版本,进行安装。

如果网络不佳的朋友,因为国外的站点链接并不稳定,很可能会出现下载失败的情况,这里给大家推荐阿里云镜像站点 http://mirrors.aliyun.com/pypi/simple/ 。朋友们可以进入阿里云镜像点,下载对应的包到本地,比如 c:/盘 ,进行本地安装。安装命令中需要带上文件的本地路径,如下:

C:\Users\Administrator>pip install c:/numpy-1.17.2-cp37-cp37m-win_amd64.whl

这里告诉大家如何去寻找适合自己的版本, cp37 表示适用于 Python3.7 ,win_amd64 表示适用于 windows 64bit 平台。 whl 格式的文件本质上是一个压缩包,里面包含了 py 文件,以及经过编译的 pyd 文件,方便安装。

本专栏后续仍会有部分库需要用 PIP 去安装,朋友们都可以尝试用阿里云镜像站点进行离线安装,套路都一样。 「也可以使用换源」

在线安装本质上也是去站点搜寻合适的 whl 文件进行安装。

安装完成后,我们尝试一下导包操作,如果导包成功,那说明 Numpy 的安装一切顺利。在 Jupyter Notebook 输入如下并执行:

# numpy导包操作
import numpy as np
  • Pandas,一款为解决数据分析而生的工具

直白的说, Pandas 其实就是一个表格容器,并且提供了很多很秀的骚操作,能够满足日常各种 “外挂” 需求。

Excel 大家都用吧, Excel 也有很多骚操作,比如筛选、函数、排序、透视、绘图、复制等等。

但是大数据时代, Excel 有很多局限性,自动化只能靠 VBA ,但是自动化程度有限;单个 Excel 表格容量有限,超过 10 万行就运行困难,运行效率不行;无法与其他工具兼容,统计函数有限,无法定制…

对于 Pandas 来说,这些都不是问题。

Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。依托 Python 语法,可以方便地进行函数式编程和面向对象的编程,可以方便地和各类数据库进行对接,可以根据数据集的特点定制各类函数,并且 Pandas 还是入门数据挖掘与人工智能的基础。

Pandas 的安装和 Numpy 一样。但是需要注意的是,Pandas 是基于 Numpy 封装的,所以安装顺序 Numpy 在前,Pandas 在后,切勿调换顺序。

C:\Users\Administrator>pip install pandas

如果网速不佳,推荐阿里云离线安装,过程请参考 Numpy。「或者换源」

安装完成后,我们尝试一下导包操作,如果导包成功,那说明目前一切顺利。

# pandas导包操作
import pandas as pd
  • Matplotlib,入门必学的可视化工具

matplotlib 是基于 Numpy 开发的绘图工具,可以非常方便地绘制出版质量级别的图形,效果甩 Excel 不是一点半点。开发者可以仅需要几行代码,便可以生成绘图。一般可绘制折线图、散点图、柱状图、饼图、直方图、子图等等。

安装过程也非常简单,跟 Numpy 一样,命令行中输入:

C:\Users\Administrator>pip install matplotlib 

如果网速不佳,推荐阿里云离线安装,过程请参考 Numpy。

安装完成后,我们看一下 demo,看看 Jupyter 和可视化工具一起,能够擦出什么样的火花呢?我们输入如下程序:

# 这是 Python 的一个魔法函数,在命令行下起作用,方便图形在 Jupyter Notebook 中显示
%matplotlib inline
# 导包,约定俗成,固定格式
import matplotlib.pyplot as plt
import numpy as np

# 生成0-2π区间的含100项的等差数列
x = np.linspace(0,2*np.pi,100)
# 求x值对应的sin,赋值给y
y = np.sin(x)
# 绘图
plt.plot(x,y)

数据分析的环境不会搭?看这里准没错!

Matplotlib 绘图的最大特点就是依托于 Python,对数据进行清洗、与数据的交互、图形界面的交互都非常方便,一站式搞定。后续的课程,我将为大家详细介绍,如何用这套工具,做一些炫酷的事情。

4. Pyecharts,一款国民女神级的可视化工具

在这之前,我们先来聊一下 Echarts

Echarts 是一个使用 JavaScript 实现的开源可视化库,自问世以来迅速得到了朋友们的好评,效果炫酷、使用高效、可交互、可高度定制等等,好评不一一列举了。

对于学习 Python 的朋友们来说,唯一比较头疼的,是需要具备一定的 JavaScript 知识,特别是对于新入门的朋友,这一点似乎有一点点不太友好。

但是这一点对于学习完本专栏的朋友们来说,完全不是问题。这里我们推荐一款好用的工具 Pyecharts ,语法完全兼容 Python,效果全面向 Echarts 看齐。

多说不练假把式,我们来看看如何安装 Pyechartscmd 命令行中利用 PIP 执行安装任务:

C:\Users\Administrator>pip install pyecharts -U

这里要注意一下,Pyecharts 一共分为 2 个版本,Version0.5xVersion1.x ,两个版本并不兼容。 v1.x 的语法全面拥抱TypeHint ,表达方式更加 OOP(Object Oriented Programming),写法更灵活。 v0.5x 则还是原生的写法,跟脚本语言的写法非常接近。

本着与时俱进的思想——先进即好用,我们推荐朋友们使用最新的版本。事实上, v0.5x 经过我的多方面测试,跟 notebook 的兼容性存在一些问题,v1.x 的效果则更加稳定一些。为了降低版本因素可能对朋友们造成的困扰,本专栏的案例基于 Version1.8.1 编写。

完成安装后,我们先来看看效果吧,输入如下 Python 程序:

# 导入绘图工具
from pyecharts import options as opts
from pyecharts.charts import Bar

attr = ["衬衫", "羊毛衫", "雪纺衫", "裤子" , "高跟鞋" , "袜子"]
v1 = [5, 20, 36, 10, 75, 90]
v2 = [10, 25, 8, 60, 20, 80]
bar = (
        Bar()
        .add_xaxis(attr)
        .add_yaxis("商家A", v1)
        .add_yaxis("商家B", v2)
        .set_global_opts(title_opts=opts.TitleOpts(title="Bar-基本示例", subtitle="我是副标题"))
    )
# 在 notebook 中输出
bar.render_notebook()

数据分析的环境不会搭?看这里准没错!

如果出现上面的提示,是没有问题的,1.9 还没发布呢!

5. 总结

到这里,整个基于 Python 的数据分析环境就搭建完成了。总的来说,搭建这套环境的意义就在于:

  • 提供了一套数据清洗的平台,你可以方便地观察数据的规律,并完成对应指标的统计、分析;
  • 提供了一个可视化的平台。从传统的绘图方式,向自动化、批量化、可交互式的可视化方式转变;
  • 拓展了数据分析的来源。Python 的能力也将在这个方面得到充分的展现。用了这套平台,你的数据来源不再局限于 Excel 表格。随着技能点的逐步点亮,你可以自由地从各类数据库、网上在线表格、各类文本文件等获取。
  • 技能将更加全面化。你能够操作的数据也不仅仅局限于数字,文本、图片等都将成为你的操作对象;操作水平也更加精细化,并且效率极大提升;数据量也从几千的维度,迅速提升到百万级别。至于更大的数据量,则依赖更好的硬件性能和一定的建模能力,但是可以肯定的是,Python 数据分析这套技能不会过时;
  • 最为重要的是,这里提供了一个技能提升和职场晋升的阶梯。利用这套平台,你可以专注于成为一名数据分析师,也可以转型成为一名大数据工程师,可以往上晋升成为一名数据挖掘工程师、甚至是数据科学家、算法专家。

所以朋友们还等什么,赶紧加入学习吧。

声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。