Python Scrapy数据抓取—

Python Scrapy数据抓取——环境安装

2016-7-5 邪哥

Python Scrapy 环境安装，系统及安装环境如下：

CentOS 6.5 x86_64 安装 python 2.7.12

pip 安装 scrapy 1.1

关于系统、Python、Scrapy的介绍这边就不做过多赘述了，本系列博文仅做教程说明使用

如有相关兴趣希望深入了解的，可自行搜索其官网进行查阅

ok，废话完毕，进入正题：

scrapy当前最新版本为1.1 ，依然依赖 python 2.7，而我们前面安装的CentOS 6.5自带的python为2.6，所以先进行python的安装

这边需要留意的是新装的python与系统python为并行版本。

[root@localhost ~]# python -V
Python 2.6.6
[root@localhost ~]# cd soft/
[root@localhost ~]# wget https://www.python.org/ftp/python/2.7.12/Python-2.7.12.tgz 
#这个下载速度较慢，可自行使用其他工具下载，或搜索其他国内下载链接  然后上传到对应目录即可
[root@localhost soft]# tar -zxvf Python-2.7.12.tgz 
[root@localhost soft]# cd Python-2.7.12
[root@localhost soft]# yum -y install sqlite-devel
#注意这一步非常重要，否会导致后续新装的python 出现“No module named _sqlite3”的一系列问题
[root@localhost Python-2.7.12]# ./configure --prefix=/usr/local/python/2.7.12 \
 --enable-big-digits --enable-unicode \
 --with-threads --with-pth \
 --with-ensurepip=yes \
 --with-lto --with-pydebug
[root@localhost Python-2.7.12]# make && make install

为了保持系统的python环境不受影响，这边我们不修改相关的系统配置
使用python 2.7时，我们使用非root账户 (如前面系统安装时设置的用户) jeen

[root@localhost Python-2.7.12]# su jeen 
[jeen@localhost Python-2.7.12]# cd ~ 
[jeen@localhost ~]$ vi .bashrc 
#在文件底部追加如下内容
PATH=/usr/local/python/2.7.12/bin:$PATH
export PATH
#完成后保存后退出
[jeen@localhost ~]$ source .bashrc
[jeen@localhost ~]$ python -V       
Python 2.7.12
[jeen@localhost ~]$ pip -V
pip 8.1.1 from /usr/local/python/2.7.12/lib/python2.7/site-packages (python 2.7)
[157676 refs]
#可以看到python版本已为新安装版本  pip也已经可以使用了 
#pip是一种类似CentOS yum，PHP composer的包管理工具，当然它的面世比composer要早的多
#接下来就是scrapy 的安装了
[jeen@localhost ~]$ pip install scrapy
Collecting scrapy
  Downloading Scrapy-1.1.0-py2.py3-none-any.whl (294kB)
    100% |████████████████████████████████| 296kB 30kB/s 
Collecting service-identity (from scrapy)
  Downloading service_identity-16.0.0-py2.py3-none-any.whl
Collecting cssselect>=0.9 (from scrapy)
  Downloading cssselect-0.9.2-py2.py3-none-any.whl
Collecting queuelib (from scrapy)
  Downloading queuelib-1.4.2-py2.py3-none-any.whl
Collecting lxml (from scrapy)
  Downloading lxml-3.6.0.tar.gz (3.7MB)
    65% |████████████████████▉           | 2.4MB 25kB/s eta 0:00:50
#....
#一系列的依赖安装
#....  "/usr/local/python/2.7.12/lib/python2.7/site-packages/pip/_vendor/requests/packages/urllib3/response.py", line 240, in _error_catcher
    raise ReadTimeoutError(self._pool, None, 'Read timed out.')
ReadTimeoutError: HTTPSConnectionPool(host='pypi.python.org', port=443): Read timed out.
You are using pip version 8.1.1, however version 8.1.2 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.
[185395 refs]
[jeen@localhost ~]$ 
#... 结果还没安装成功就结束了
#从提示信息中可以看到 说 pip 当前版本是8.1.1,推荐使用最新的pip8.1.2
#ok  咱们根据它给的提示先进行 pip 的更新 
[jeen@localhost ~]$ pip install --upgrade pip
#这边会提示权限不足，ok  咱们回到root用户
[jeen@localhost ~]$ exit
#注意 root 没有修改环境变量  需要使用全路径
[root@localhost ~]# /usr/local/python/2.7.12/bin/pip install --upgrade pip
#...等待更新完成，为了避免后续又出现权限问题，咱们干脆使用 root 进行scray的安装
[root@localhost ~]# /usr/local/python/2.7.12/bin/pip install scrapy
#...等待安装完成
#... 这边如果你的网速非常慢的话，可能会导致多次从pipy源上断开
#...  如果你无法忍受，可以搜索一下 python安装扩展的方法 进行单独的下载安装 
#...  这边对于下载安装 先不做赘述，后续如果有必要会再单独介绍

ok 安装完成之后我们再次切换到普通账户 (jeen)

[root@localhost ~]# su jeen 
[jeen@localhost root]# cd ~ 
[jeen@localhost ~]$ scrapy --version
Scrapy 1.1.0 - no active project
#....

到这边说明 scrapy 已成功安装
我们使用scrapy shell 工具做一个简单的测试

[jeen@localhost ~]$ scrapy shell http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2014/index.html --nolog
[s] Available Scrapy objects:
[s]   crawler    <scrapy.crawler.Crawler object at 0x7ffa726f6760>
[s]   item       {}
[s]   request    <GET http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2014/index.html>
[s]   response   <200 http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2014/index.html>
[s]   settings   <scrapy.settings.Settings object at 0x7ffa726f63e0>
[s]   spider     <DefaultSpider 'default' at 0x7ffa70e30290>
[s] Useful shortcuts:
[s]   shelp()           Shell help (print this help)
[s]   fetch(req_or_url) Fetch request (or URL) and update local objects
[s]   view(response)    View response in a browser
>>> print response.xpath('//title/text()').extract_first()
2014年统计用区划代码和城乡划分代码
>>> quit()
[312323 refs]

可以看到上述过程，成功打印出了页面 http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2014/index.html 的标题
好了，关于Python及Scrapy的初步安装测试就到这边

后续我们会一步一步介绍，如何使用scrapy 创建一个项目，将样例网页中的内容抓取并存入mysql数据库 :)

运维 CentOS Python Scrapy

(0) (2424)

发表评论：

« Python Scrapy数据抓取——创建项目 | LNMP开发环境搭建——小结»

無羈

旷然小宇宙弃世何悠哉