爬虫入门之爬美眉图
总有人说我们撸码的整天面对电脑是不是特别无趣 ?听这话我当时我就不爽了,什么叫有趣 ?聊妹 ?恕我直言啊,都是 Low B 。今天就让我这个老司机给大家上一课,用 python 抓美眉图 。当然首先要选一个站点爬,就是这个了:十八岁以下请自觉捂眼
效果图:
下面讲一下环境搭建以及库的安装:
安装 Python : 可在官网下载最新版本:https://www.python.org/downloads/ 如果你感觉下的巨慢,我这有 Python 3.5 64位的:http://pan.baidu.com/s/1geW6o2v 密码:qhnv
安装 Anaconda : 链接:http://pan.baidu.com/s/1eRGtt1g 密码:iw7n
Request 、Beautifulsoup4 、Lxml 的安装 :直接在 C:\WINDOWS\system32\ 依次输入一下命令:conda install requests , conda install baeutifulsoup4 , conda install lxml 。
Requests : 官方文档 :http://docs.python-requests.org/zh_CN/latest/user/quickstart.html ( 虽然对我这个辣鸡来说看的恍恍惚惚)
Beautifulsoup4 : 官方文档 :http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/# ( 贼详细 )
LXML : 官方文档 :http://lxml.de/
Python IDE 下载:PyCharm 下载完之后打开 PyCharm File 下的 settings 按如下图配置:
是时候展现真正的技术了 !
思路:找到你要图片的位置,打开 http://www.mzitu.com/all ,F12 后 Ctrl + Shift +C 切换到开发者模式,如下图:
发现了什么?没错,所有的套图都放在 class =“all” 下的 li 标签里。(此处建议学点 HTML 基础)这就好办了,废话不多说,直接上code:
为了看的清楚,代码放在了sublime中显示,下图为运行结果:
看着红红火火恍恍惚惚的链接是不是很激动?
接下来就是提取 ‘‘ 标签的 href 属性和文本。如下图:
接下来找图片的实际地址,如果你有 HTML 基础,就知道所有的图片都放在 img 标签里,如下图:
code:
这样写,感觉巨乱,恕我直言。就当是练手了。