博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫 spider
阅读量:6851 次
发布时间:2019-06-26

本文共 859 字,大约阅读时间需要 2 分钟。

python 2.x

# -*- coding: utf-8 -*- import re import urllib url = 'http://tieba.baidu.com/p/4872795764' page = urllib.urlopen(url) html = page.read() r = 'src="(.*?\.jpg)" size'         # 注意此处?的作用,取消贪婪匹配 结合findall方法,只匹配分组中的内容 imgre = re.compile(r) imglist = re.findall(imgre, html) count = 0 for imgurl in imglist:     urllib.urlretrieve(imgurl, filename='mac_book Pro %s.jpg' % count)     count += 1 函数: def gethtml(url):     html = urllib.urlopen(url).read()     return html def getimg(html):     r = 'src="(.*?\.jpg)" size'     imgre = re.compile(r)     imglist = re.findall(imgre, html)     print imglist     count = 0     for imgurl in imglist:         urllib.urlretrieve(imgurl, filename='mac_book_Pro_%s.jpg' % count)         count += 1 html = gethtml('http://tieba.baidu.com/p/4872795764') getimg(html)

转载于:https://www.cnblogs.com/yum777/p/6822379.html

你可能感兴趣的文章
一张思维导图带你梳理HashMap相关知识
查看>>
MVC 从Excel导入到DataTable
查看>>
Symbol
查看>>
Selenium WebDriver + IE11 问题汇总
查看>>
Oracle数据库设置Scott登录
查看>>
IOS开发之UIScrollVIew运用
查看>>
iOS 基础-----关于UIView 的 frame 与 bounds
查看>>
ISO GPS定位,坐标转换以及如何显示
查看>>
深入理解Java:类加载机制及反射
查看>>
Use a PowerShell Module to Easily Export Excel Data to CSV
查看>>
Redis清理
查看>>
读书笔记—CLR via C#章节8-10
查看>>
洛谷 3804 【模板】后缀自动机
查看>>
子类复制父类的值
查看>>
NYOJ_44_子串和
查看>>
BZOJ4521:[CQOI2016]手机号码(数位DP)
查看>>
生成唯一编码
查看>>
C# Directory.GetFiles()获取文件时如果是根目录时有隐藏文件则报错的处理
查看>>
POJ 3320 (尺取法+Hash)
查看>>
名校公开课网站汇总
查看>>