python网页抓取

1.如何用Python爬虫抓取网页内容?

首先,你要安装requests和BeautifulSoup4,然后执行如下代码.

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

importrequests

frombs4 importBeautifulSoup

iurl =''

res =requests.get(iurl)

res.encoding ='utf-8'

#print(len(res.text))

soup =BeautifulSoup(res.text,'html.parser')

#标题

H1 =soup.select('#artibodyTitle')[0].text

#来源

time_source =soup.select('.time-source')[0].text

#来源

origin =soup.select('#artibody p')[0].text.strip()

#原标题

oriTitle =soup.select('#artibody p')[1].text.strip()

#内容

raw_content =soup.select('#artibody p')[2:19]

content =[]

forparagraph inraw_content:

content.append(paragraph.text.strip())

'@'.join(content)

#责任编辑

ae =soup.select('.article-editor')[0].text

这样就可以了

2.怎样用python爬取网页

# coding=utf-8

import urllib

import re

# 百度贴吧网址:

# 根据URL获取网页HTML内容

def getHtmlContent(url):

page = urllib.urlopen(url)

return page.read()

# 从HTML中解析出所有jpg的图片的URL

# 从HTML中jpg格式为<img 。 src = "xxx.jpg" width='''>

def getJPGs(html):

# 解析jpg图片URL的正则表达式

jpgReg = re.compile(r'<img.+?src="(.+?\.jpg)"')

# 解析出jpg的URL列表

jpgs = re.findall(jpgReg, html)

return jpgs

# 用图片url下载图片 并保存成制定文件名

def downloadJPG(imgUrl, fileName):

urllib.urlretrieve(imgUrl, fileName)

# 批量下载图片,默认保存到当前目录下

def batchDownloadJPGs(imgUrls, path='../'): # path='./'

# 给图片重命名

count = 1

for url in imgUrls:

downloadJPG(url, ''.join([path, '{0}.jpg'.format(count)]))

print "下载图片第:", count, "张"

count += 1

# 封装:从百度贴吧网页下载图片

def download(url):

html = getHtmlContent(url)

jpgs = getJPGs(html)

batchDownloadJPGs(jpgs)

def main():

url = " = urllib2.urlopen(req)

return html.read()

if __name__=='__main__':

u=""

print postu(u)

python网页抓取

转载请注明出处代码入门网 » python网页抓取

资讯

python2.7

阅读(21)

本文主要为您介绍python2.7,内容包括关于下载python2.7,如何在Windows7安装Python2.7,哪里可以下载到支持python2.7的pcapy呢。python的安装主要由以下四个步骤: 下载:首先是从官方网站下载python的安装包(注意选择操作系统和机器字长:32bit|64

资讯

Pythoncsv读取

阅读(21)

本文主要为您介绍Pythoncsv读取,内容包括python怎么读csv文件,python怎么读取csv文件,python中怎么读取csv文件。什么是CSV就是内容用逗号隔开,后缀是.csv的文件。它可以被任何一个文本编辑器打开。如果用excel打开,它又可以是这样的:END读C

资讯

pythoncentos升级

阅读(20)

本文主要为您介绍pythoncentos升级,内容包括centos中如何将python更新到最新的版本,centos中如何将python更新到最新的版本,centos怎么升级python。1.下载Python-2.7.3 [plain] view plain copy print? #wget #wget 2.解压 [pl

资讯

python的测试框架

阅读(22)

本文主要为您介绍python的测试框架,内容包括python单元测试框架,当前PYTHON常用的测试框架,Python自动化测试框架?。日志类,用于测试时日志记录 pyapilog.py 1 # -*-coding:utf-8 -*- 2 # !/usr/bin/pyth

资讯

python包的导入

阅读(16)

本文主要为您介绍python包的导入,内容包括如何把一个python包导入到python库中,python导入数据包的几种方法,python包导入问题,求解。Python 运行环境在查找模块时是对 sys.path 列表进行遍历,如果我们想在运行环境中添加自定义的模块,主要有

资讯

udppython

阅读(19)

本文主要为您介绍udppython,内容包括python支不支持tipc通讯,如何用python方法检测UDP端口,如何用python方法检测UDP端口。肯定支持socket()函数用于根据指定的地址族、数据类型和协议来分配一个套接口的描述字及其所用的资源。如果协议prot

资讯

centos升级python

阅读(25)

本文主要为您介绍centos升级python,内容包括centos中如何将python更新到最新的版本,如何在centos下更改默认版本的python,centos系统系统怎样升级python到python3。1.下载Python-2.7.3 [plain] view plain copy print? #wget #wget 2.解压

资讯

golang与python

阅读(19)

本文主要为您介绍golang与python,内容包括Python,Ruby,Go语言哪个更值得学习,go和python哪个好,golang还是不如python好用。豆瓣http://www.douban.com/group/topic/46948882/?cid=579722942知乎http://

资讯

python空的list

阅读(19)

本文主要为您介绍python空的list,内容包括python编程问题,编写关于list的问题,python中的list,python3,将空的一个list,在每个循环中append上一个字符串,结果第。list是一个函数,将参数强制转换成列表 list((1,4,7)) 对元组(1,4,7)使用list函数

资讯

python列表的排序

阅读(17)

本文主要为您介绍python列表的排序,内容包括python中一个列表怎么排序,python如何将列表中的内容按照指定的格式排列,Python怎么对列表中元素排序。使用列表的sort()方法。Help on built-in function sort:sort()L.sort(cmp=None,

资讯

pythonhttps

阅读(17)

本文主要为您介绍pythonhttps,内容包括如何httpspython,如何实现python接口,的https,如何实现python接口,的https。今天写代码时碰到一个问题,花了几个小时的时间google,基本上把google搜索的前几页内容都一一看了下,问题最终是解决了,不过过程

资讯

pythonwithssl

阅读(19)

本文主要为您介绍pythonwithssl,内容包括PythonPyAutoGUI错误提示求解?,python怎么添加ssl支持,withsslsupport什么意思。先写一下自己的环境:操作系统windows7 64位,python版本python-3.7.0-amd64,安装方式pip。OK,下面就

资讯

python数据抓取

阅读(23)

本文主要为您介绍python数据抓取,内容包括如何用python抓取链家网页数据,python能抓取哪些网站的数据,如何用python抓取js生成的数据。data = os.popen(./test.sh).read() 【 在 pengsen (相濡以沫不若相忘于江湖) 的大作中提到:

资讯

python开发与实战

阅读(23)

本文主要为您介绍python开发与实战,内容包括python高效开发实战刘长龙怎么样,如何评价《pythonweb开发实战》,python高效开发实战刘长龙怎么样。需要基础验证时,服务器发送一个header(401错误码) 请求验证。这个指定了scheme 和一个realm,看

资讯

python2.7

阅读(21)

本文主要为您介绍python2.7,内容包括关于下载python2.7,如何在Windows7安装Python2.7,哪里可以下载到支持python2.7的pcapy呢。python的安装主要由以下四个步骤: 下载:首先是从官方网站下载python的安装包(注意选择操作系统和机器字长:32bit|64

资讯

Pythoncsv读取

阅读(21)

本文主要为您介绍Pythoncsv读取,内容包括python怎么读csv文件,python怎么读取csv文件,python中怎么读取csv文件。什么是CSV就是内容用逗号隔开,后缀是.csv的文件。它可以被任何一个文本编辑器打开。如果用excel打开,它又可以是这样的:END读C

资讯

pythoncentos升级

阅读(20)

本文主要为您介绍pythoncentos升级,内容包括centos中如何将python更新到最新的版本,centos中如何将python更新到最新的版本,centos怎么升级python。1.下载Python-2.7.3 [plain] view plain copy print? #wget #wget 2.解压 [pl

资讯

python的测试框架

阅读(22)

本文主要为您介绍python的测试框架,内容包括python单元测试框架,当前PYTHON常用的测试框架,Python自动化测试框架?。日志类,用于测试时日志记录 pyapilog.py 1 # -*-coding:utf-8 -*- 2 # !/usr/bin/pyth

资讯

python包的导入

阅读(16)

本文主要为您介绍python包的导入,内容包括如何把一个python包导入到python库中,python导入数据包的几种方法,python包导入问题,求解。Python 运行环境在查找模块时是对 sys.path 列表进行遍历,如果我们想在运行环境中添加自定义的模块,主要有

资讯

udppython

阅读(19)

本文主要为您介绍udppython,内容包括python支不支持tipc通讯,如何用python方法检测UDP端口,如何用python方法检测UDP端口。肯定支持socket()函数用于根据指定的地址族、数据类型和协议来分配一个套接口的描述字及其所用的资源。如果协议prot

资讯

centos升级python

阅读(25)

本文主要为您介绍centos升级python,内容包括centos中如何将python更新到最新的版本,如何在centos下更改默认版本的python,centos系统系统怎样升级python到python3。1.下载Python-2.7.3 [plain] view plain copy print? #wget #wget 2.解压

资讯

python的自动化测试

阅读(17)

本文主要为您介绍python的自动化测试,内容包括python自动化测试的工具,怎么用python做自动化测试,如何用python做自动化测试。1新建一台Jenkins服务器,安装并配置好Jenkins2配置一个自动化测试脚本的代码库,可以使用Git或者SVN等版本控制工具