爬虫入门之爬美眉图

总有人说我们撸码的整天面对电脑是不是特别无趣 ?听这话我当时我就不爽了,什么叫有趣 ?聊妹 ?恕我直言啊,都是 Low B 。今天就让我这个老司机给大家上一课,用 python 抓美眉图 。当然首先要选一个站点爬,就是这个了:十八岁以下请自觉捂眼

效果图:羞涩

下面讲一下环境搭建以及库的安装:

安装 Python : 可在官网下载最新版本:https://www.python.org/downloads/ 如果你感觉下的巨慢,我这有 Python 3.5 64位的:http://pan.baidu.com/s/1geW6o2v 密码:qhnv

安装 Anaconda : 链接:http://pan.baidu.com/s/1eRGtt1g 密码:iw7n

Request 、Beautifulsoup4 、Lxml 的安装 :直接在 C:\WINDOWS\system32\ 依次输入一下命令:conda install requests , conda install baeutifulsoup4 , conda install lxml 。

Requests : 官方文档 :http://docs.python-requests.org/zh_CN/latest/user/quickstart.html ( 虽然对我这个辣鸡来说看的恍恍惚惚)

Beautifulsoup4 : 官方文档 :http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/# ( 贼详细 )

LXML : 官方文档 :http://lxml.de/

Python IDE 下载:PyCharm 下载完之后打开 PyCharm File 下的 settings 按如下图配置:

是时候展现真正的技术了 !

思路:找到你要图片的位置,打开 http://www.mzitu.com/all ,F12 后 Ctrl + Shift +C 切换到开发者模式,如下图:

发现了什么?没错,所有的套图都放在 class =“all” 下的 li 标签里。(此处建议学点 HTML 基础)这就好办了,废话不多说,直接上code:

为了看的清楚,代码放在了sublime中显示,下图为运行结果:

看着红红火火恍恍惚惚的链接是不是很激动?

接下来就是提取 ‘‘ 标签的 href 属性和文本。如下图:

接下来找图片的实际地址,如果你有 HTML 基础,就知道所有的图片都放在 img 标签里,如下图:

code:

这样写,感觉巨乱,恕我直言。就当是练手了。

我们一直都向往,面朝大海,春暖花开。 但是几人能做到,心中有爱,四季不败?