python抓取网页

1.怎么用python抓取网页并实现一些提交操作?

下面这个程序是抓取网页的一个例子,MyOpener类是为了模拟浏览器客户端,并采用随机选取的方式以防网站将你认为是机器人。

MyFunc函数抓取你指定的url,并提取了其中的href链接,图片的获取类似,一般是这样的形式,其他的功能应该也不难,去网上搜下应该有些例子。import refrom urllib import FancyURLopenerfrom random import choiceuser_agents = [ 'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11', 'Opera/9.25 (Windows NT 5.1; U; en)', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)', 'Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12', 'Lynx/2.8.5rel.1 libpile(r'<img.+?src="(.+?\.jpg)"')

# 解析出jpg的URL列表

jpgs = re.findall(jpgReg, html)

return jpgs

# 用图片url下载图片 并保存成制定文件名

def downloadJPG(imgUrl, fileName):

urllib.urlretrieve(imgUrl, fileName)

# 批量下载图片,默认保存到当前目录下

def batchDownloadJPGs(imgUrls, path='../'): # path='./'

# 给图片重命名

count = 1

for url in imgUrls:

downloadJPG(url, ''.join([path, '{0}.jpg'.format(count)]))

print "下载图片第:", count, "张"

count += 1

# 封装:从百度贴吧网页下载图片

def download(url):

html = getHtmlContent(url)

jpgs = getJPGs(html)

batchDownloadJPGs(jpgs)

def main():

url = "; charset=GBK

Vary: Accept-Encoding,User-Agent,Accept

Cache-Control: max-age=80

X-Via: 1.1 czdx88:8105 (Cdn Cache Server V2.0), 1.1 dagang20:0 (Cdn Cache Server V2.0)

Connection: close

这个应该是请求错误,有多个可能:

1。你没有连接到网络上,无法访问这个地址

2。你使用了代理

3. 你一段时间内访问的太频繁,被对方的服务器拉入了黑名单。

你可以按照自己的情况排查一下。

如果解决了您的问题请采纳!

如果未解决请继续追问!

4.如何用Python爬虫抓取网页内容

首先,你要安装requests和BeautifulSoup4,然后执行如下代码.

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

importrequests

frombs4 importBeautifulSoup

iurl =''

res =requests.get(iurl)

res.encoding ='utf-8'

#print(len(res.text))

soup =BeautifulSoup(res.text,'html.parser')

#标题

H1 =soup.select('#artibodyTitle')[0].text

#来源

time_source =soup.select('.time-source')[0].text

#来源

origin =soup.select('#artibody p')[0].text.strip()

#原标题

oriTitle =soup.select('#artibody p')[1].text.strip()

#内容

raw_content =soup.select('#artibody p')[2:19]

content =[]

forparagraph inraw_content:

content.append(paragraph.text.strip())

'@'.join(content)

#责任编辑

ae =soup.select('.article-editor')[0].text

这样就可以了

5.用python怎么提取已经抓取的网页的主要内容

我这里:

【教程】抓取网并提取网页中所需要的信息 之 Python版

有代码和注释。

不过,看这个之前,你最好参考:

【整理】关于抓取网页,分析网页内容,模拟登陆网站的逻辑/流程和注意事项

去了解网站抓取相关的逻辑,然后再参考:

【教程】手把手教你如何利用工具(IE9的F12)去分析模拟登陆网站(百度首页)的内部逻辑过程

去抓取你所要处理的网站的内在执行逻辑。

(此处不给贴地址,请自己用google搜索帖子标题,即可找到帖子地址)

6.如何用python抓取网页内容

给个简单的抓取百度页面的简单爬虫案例代码给你,自己去动手测试把:

#coding=utf-8

import urllib2

def postu(url):

header = {

"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36"

,"Connection": "keep-alive"

}

req = urllib2.Request(url, headers=header)

html = urllib2.urlopen(req)

return html.read()

if __name__=='__main__':

u=""

print postu(u)

python抓取网页

转载请注明出处代码入门网 » python抓取网页

资讯

python开发与实战

阅读(23)

本文主要为您介绍python开发与实战,内容包括python高效开发实战刘长龙怎么样,如何评价《pythonweb开发实战》,python高效开发实战刘长龙怎么样。需要基础验证时,服务器发送一个header(401错误码) 请求验证。这个指定了scheme 和一个realm,看

资讯

python数据抓取

阅读(23)

本文主要为您介绍python数据抓取,内容包括如何用python抓取链家网页数据,python能抓取哪些网站的数据,如何用python抓取js生成的数据。data = os.popen(./test.sh).read() 【 在 pengsen (相濡以沫不若相忘于江湖) 的大作中提到:

资讯

pythonwithssl

阅读(19)

本文主要为您介绍pythonwithssl,内容包括PythonPyAutoGUI错误提示求解?,python怎么添加ssl支持,withsslsupport什么意思。先写一下自己的环境:操作系统windows7 64位,python版本python-3.7.0-amd64,安装方式pip。OK,下面就

资讯

pythonhttps

阅读(17)

本文主要为您介绍pythonhttps,内容包括如何httpspython,如何实现python接口,的https,如何实现python接口,的https。今天写代码时碰到一个问题,花了几个小时的时间google,基本上把google搜索的前几页内容都一一看了下,问题最终是解决了,不过过程

资讯

python列表的排序

阅读(17)

本文主要为您介绍python列表的排序,内容包括python中一个列表怎么排序,python如何将列表中的内容按照指定的格式排列,Python怎么对列表中元素排序。使用列表的sort()方法。Help on built-in function sort:sort()L.sort(cmp=None,

资讯

python空的list

阅读(19)

本文主要为您介绍python空的list,内容包括python编程问题,编写关于list的问题,python中的list,python3,将空的一个list,在每个循环中append上一个字符串,结果第。list是一个函数,将参数强制转换成列表 list((1,4,7)) 对元组(1,4,7)使用list函数

资讯

golang与python

阅读(19)

本文主要为您介绍golang与python,内容包括Python,Ruby,Go语言哪个更值得学习,go和python哪个好,golang还是不如python好用。豆瓣http://www.douban.com/group/topic/46948882/?cid=579722942知乎http://

资讯

python时间获取

阅读(29)

本文主要为您介绍python时间获取,内容包括python下如何获取当前时间的时间戳,python怎么获取当前时间年月日,python获取某个月的全部日期。使用time.time()获取当前时间的秒数,然后减去hours的秒数,从而得到一个时间,接下来使用time.localtime(

资讯

Copypython

阅读(25)

本文主要为您介绍Copypython,内容包括Python中copy和deepcopy中的区别,python如何编写一个copy函数,python怎么拷贝文件夹下的文件。def upload_file(src_path, dst_path):# 目标目录是否存在,不存在则创建if not os.path.

资讯

pythonforrandom

阅读(23)

本文主要为您介绍pythonforrandom,内容包括python中random.random是什么意思,如何用python编写产生随机长度?,python随机循环。import randomorigin = [A,B,..Z, a, z]#这个自己循环赋值result = ""randlen=ra

资讯

pythonreplace

阅读(31)

本文主要为您介绍pythonreplace,内容包括python中replace(&#39;&#39;&#39;&#39;&#39;,&#39;&#39;).replace(&#39;&#39;&#39;&#39;&#39;,&#39;&#39;)是什么意思?,python求救replace问题,python为什么打印结果replace是错的?。因为替换完的结

资讯

pythonrandom

阅读(27)

本文主要为您介绍pythonrandom,内容包括python中random.random是什么意思,pythonrandom的问题,pythonrandom的问题。回答 random指随机的意思有,三种写法:第一种:import random #导入random模块random.randint(1,

资讯

replacepython

阅读(28)

本文主要为您介绍replacepython,内容包括pythonreplace符号替换,python中replace(&#39;&#39;&#39;&#39;&#39;,&#39;&#39;).replace(&#39;&#39;&#39;&#39;&#39;,&#39;&#39;)是什么意思?,Python字符串替换replace简单。因为替换完的结果存入

资讯

pythonif或条件

阅读(23)

本文主要为您介绍pythonif或条件,内容包括python3.7if条件语句简写,python的if语句问题,Pythonif语句。“python if”语句可以多条件判断. Python 编程中 if 语句用于控制程序的执行,基本形式为: if 判断条件: 执行语句

资讯

python开发与实战

阅读(23)

本文主要为您介绍python开发与实战,内容包括python高效开发实战刘长龙怎么样,如何评价《pythonweb开发实战》,python高效开发实战刘长龙怎么样。需要基础验证时,服务器发送一个header(401错误码) 请求验证。这个指定了scheme 和一个realm,看

资讯

python数据抓取

阅读(23)

本文主要为您介绍python数据抓取,内容包括如何用python抓取链家网页数据,python能抓取哪些网站的数据,如何用python抓取js生成的数据。data = os.popen(./test.sh).read() 【 在 pengsen (相濡以沫不若相忘于江湖) 的大作中提到:

资讯

pythonwithssl

阅读(19)

本文主要为您介绍pythonwithssl,内容包括PythonPyAutoGUI错误提示求解?,python怎么添加ssl支持,withsslsupport什么意思。先写一下自己的环境:操作系统windows7 64位,python版本python-3.7.0-amd64,安装方式pip。OK,下面就

资讯

pythonhttps

阅读(17)

本文主要为您介绍pythonhttps,内容包括如何httpspython,如何实现python接口,的https,如何实现python接口,的https。今天写代码时碰到一个问题,花了几个小时的时间google,基本上把google搜索的前几页内容都一一看了下,问题最终是解决了,不过过程

资讯

python列表的排序

阅读(17)

本文主要为您介绍python列表的排序,内容包括python中一个列表怎么排序,python如何将列表中的内容按照指定的格式排列,Python怎么对列表中元素排序。使用列表的sort()方法。Help on built-in function sort:sort()L.sort(cmp=None,

资讯

python空的list

阅读(19)

本文主要为您介绍python空的list,内容包括python编程问题,编写关于list的问题,python中的list,python3,将空的一个list,在每个循环中append上一个字符串,结果第。list是一个函数,将参数强制转换成列表 list((1,4,7)) 对元组(1,4,7)使用list函数

资讯

golang与python

阅读(19)

本文主要为您介绍golang与python,内容包括Python,Ruby,Go语言哪个更值得学习,go和python哪个好,golang还是不如python好用。豆瓣http://www.douban.com/group/topic/46948882/?cid=579722942知乎http://

资讯

python网页抓取

阅读(18)

本文主要为您介绍python网页抓取,内容包括如何用Python爬虫抓取网页内容?,如何用python从网页上抓取数据,怎样用python爬取网页。首先,你要安装requests和BeautifulSoup4,然后执行如下代码. 1 2 3 4 5 6 7 8 9 10 11 12