≡
  • 网络编程
  • 数据库
  • CMS技巧
  • 软件编程
  • PHP笔记
  • JavaScript
  • MySQL
位置:首页 > 网络编程 > Python

Python使用爬虫代理proxy抓取网页的简单示例

人气:700 时间:2018-10-14

这篇文章主要为大家详细介绍了Python使用爬虫代理proxy抓取网页的简单示例,具有一定的参考价值,可以用来参考一下。

对python这个高级语言感兴趣的小伙伴,下面一起跟随四海网的小编两巴掌来看看吧!

代理类型(proxy):透明代理 匿名代理 混淆代理和高匿代理. 这里写一些python爬虫使用代理的知识, 还有一个代理池的类. 方便大家应对工作中各种复杂的抓取问题。

urllib 模块使用代理

urllib/urllib2使用代理比较麻烦, 需要先构建一个ProxyHandler的类, 随后将该类用于构建网页打开的opener的类,再在request中安装该opener.

代理格式是"http://127.0.0.1:80",如果要账号密码是"http://user:password@127.0.0.1:80".


# @param Python爬虫使用代理proxy抓取网页
# @author 四海网|q1010.com 

proxy="http://127.0.0.1:80"
# 创建一个ProxyHandler对象
proxy_support=urllib.request.ProxyHandler({'http':proxy})
# 创建一个opener对象
opener = urllib.request.build_opener(proxy_support)
# 给request装载opener
urllib.request.install_opener(opener)
# 打开一个url
r = urllib.request.urlopen('http://youtube.com',timeout = 500)

# End www_512pic_com

requests 模块 使用代理

requests使用代理要比urllib简单多了…这里以单次代理为例. 多次的话可以用session一类构建.

如果需要使用代理,你可以通过为任意请求方法提供 proxies 参数来配置单个请求:


# @param Python爬虫使用代理proxy抓取网页
# @author 四海网|q1010.com 

import requests
proxies = {
  "http": "http://127.0.0.1:3128",
  "https": "http://127.0.0.1:2080",
}
r=requests.get("http://youtube.com", proxies=proxies)
print r.text

# End www_512pic_com

你也可以通过环境变量 HTTP_PROXY 和 HTTPS_PROXY 来配置代理。


export HTTP_PROXY="http://127.0.0.1:3128"
export HTTPS_PROXY="http://127.0.0.1:2080"
python
>>> import requests
>>> r=requests.get("http://youtube.com")
>>> print r.text

# End www_512pic_com

若你的代理需要使用HTTP Basic Auth,可以使用 http://user:password@host/ 语法:


# @param Python爬虫使用代理proxy抓取网页
# @author 四海网|q1010.com 

proxies = {
    "http": "http://user:pass@127.0.0.1:3128/",
}

# End www_512pic_com

 

python的代理使用非常简单, 最重要的是要找一个网络稳定可靠的代理,有问题欢迎留言提问

本文来自:http://www.q1010.com/181/2229-0.html

注:关于Python使用爬虫代理proxy抓取网页的简单示例的内容就先介绍到这里,更多相关文章的可以留意四海网的其他信息。

关键词:proxy,抓取网页

您可能感兴趣的文章

  • php 利用递归抓取网页的类示例
  • php 通过cURL函数抓取网页、下载网页的简单示例
  • php Snoopy类的用法示例(通过Snoopy抓取网页信息)
上一篇:Python判断上传文件类型的简单示例
下一篇:python的and or 返回值的简单示例
热门文章
  • Python 处理Cookie的菜鸟教程(一)Cookie库
  • python之pandas取dataframe特定行列的简单示例
  • Python解决json.dumps错误::‘utf8’ codec can‘t decode byte
  • Python通过pythony连接Hive执行Hql的脚本
  • Python 三种方法删除列表中重复元素的简单示例
  • python爬虫代码示例
  • Python 中英文标点转换示例
  • Python 不得不知的开源项目解析
  • Python urlencode编码和url拼接实现方法
  • python按中文拆分中英文混合字符串的简单示例
  • 最新文章
    • Python利用numpy三层神经网络的简单示例
    • pygame可视化幸运大转盘的简单示例
    • Python爬虫之爬取二手房信息的简单示例
    • Python之time库的简单示例
    • OpenCV灰度、高斯模糊、边缘检测的简单示例
    • Python安装Bs4及使用的简单示例
    • django自定义manage.py管理命令的简单示例
    • Python之matplotlib 向任意位置添加一个子图(axes)的简单示例
    • Python图像标签标注软件labelme分析的简单示例
    • python调用摄像头并拍照发邮箱的简单示例

四海网收集整理一些常用的php代码,JS代码,数据库mysql等技术文章。