博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python小爬虫【1】
阅读量:5049 次
发布时间:2019-06-12

本文共 932 字,大约阅读时间需要 3 分钟。

爬取百度贴吧的图片

分析贴吧源代码,图片所在位置是:<img class="" src=“。。。。。。。.jpg” pic_ext。。。。。

所以正则匹配是:

r'BDE_Image" src="(.+?\.jpg)" pic_ext'

(注:?表示懒惰匹配,如果不加?会造成匹配到一个"" src=“起始到网页最后一个pic_ext结束的一个串。

           ()表示所要提取的字符串,即。。。。.jpg

代码如下:

#!usr/bin/env python# coding: utf-8import osimport reimport urllibdef getHtml(url):    page = urllib.urlopen(url)    html = page.read()    page.close()    return htmldef getImages(html):    reg = r'BDE_Image" src="(.+?\.jpg)" pic_ext'    imgre =  re.compile(reg)    imgList = imgre.findall(html)    print 'We have got %d pictures' % len(imgList)    path = './download'    x = 0    for imgurl in imgList:        FileName = os.path.join(path, '%s.jpg' % (x+1))        urllib.urlretrieve(imgurl,FileName)        print '%s.jpg is done.' % (x+1)        x = x + 1if __name__ == '__main__':    url = raw_input('input the URL:>')    html = getHtml(url)    getImages(html)

还是最为基础的功能。

转载于:https://www.cnblogs.com/buptmuye/p/3462844.html

你可能感兴趣的文章
关于Xshell无法连接centos6.4的问题
查看>>
css3动画——基本准则
查看>>
javaweb常识
查看>>
Java注解
查看>>
web自己主动保存表单
查看>>
一个小的日常实践——高速Fibonacci数算法
查看>>
机器学些技法(9)--Decision Tree
查看>>
drf权限组件
查看>>
输入月份和日期,得出是今年第几天
查看>>
Qt中子窗口全屏显示与退出全屏
查看>>
使用brew安装软件
查看>>
[BZOJ1083] [SCOI2005] 繁忙的都市 (kruskal)
查看>>
吴裕雄 python 机器学习——数据预处理嵌入式特征选择
查看>>
Centos6.4安装JDK
查看>>
201521123069 《Java程序设计》 第4周学习总结
查看>>
线性表的顺序存储——线性表的本质和操作
查看>>
【linux】重置fedora root密码
查看>>
pig自定义UDF
查看>>
输入名字显示其生日,没有则让输入生日,做记录
查看>>
Kubernetes 运维学习笔记
查看>>