TypechoJoeTheme

Yuuuuuu

搜索到 5 篇与 的结果
2020-10-23

Python使用芝麻代理维护一个健康可用的IP池

Python使用芝麻代理维护一个健康可用的IP池
最近有个需求要用Python做一个爬虫不间断运行,但是对方网站做了比较严格的反爬,然后就选择了用随机header和代理。刚开始的时候使用的免费代理,后来发现免费才是最贵的,经常失效或者连接不上,于是改为使用付费代理,最后选择了芝麻代理但是爬虫每秒请求可能为5QPS左右,芝麻代理默认请求为1QPS,所以只能采取维护一个代理池的方式,每次请求从中随机选取。刚开始的时候使用的是购买套餐,后来发现并不划算,套餐每天有使用上限,IP存活时间长的,上限数量就低,IP上限高的,存活时间又比较低,有预算上限的长时间爬虫类项目可以选择IP存活时间长的套餐,把维护IP池数量稍微降低一点,勉强够用一天了。不过后期还是建议使用按次购买,控制好频率就不怕超限。注意IP获取不计次,但是一旦使用就会计次之前没经验选择5分钟套餐,不到两点IP用量就要到上限了,选套餐还是建议存活时间长的这个维护IP池同时支持套餐和按次收费,所以也不用太过纠结首先你要获取到你的AppKey和Neek参数,在官网提取IP生成的API链接里可以获取到http://h.zhimaruanjian.com/getapi/#obtain_i...
2020年10月23日
1,917 阅读
0 评论
2017-07-06

在windows用python自动备份数据库

在windows用python自动备份数据库
模板和linux上备份差不多,但是windows上有些命令不通用#!/usr/bin/env python # -*- coding: utf-8 -*- import os import time user = 'root' # 数据库帐号 passwd = 'passwd' # 密码 database = 'picking' # 要备份的数据库名称 if not os.path.exists('C:\PHP\sql\\'+database): os.mkdir('C:\PHP\sql\\'+database) while True: os.chdir('C:\PHP\sql\\'+database) xyFile = database+'-'+ time.strftime('%Y-%m-%d',time.localtime(time.time())) + '.sql' os.system("mysqldump -u"+user+" --password="+passwd+" &...
2017年07月06日
1,275 阅读
0 评论
2017-05-24

Python自动化实现主动推送站点到百度

Python自动化实现主动推送站点到百度
在百度站长平台中,有各种方式可以提交自己的站点,以提高百度抓取自己网站的效率。此文章旨在使用主动推送(实时)提交到百度站长平台以提高网站曝光率。此方法是使用curl推送,所以在这里找到你的示例命令(前提是你要成为站长)然后我是在Linux上面执行的Python,其他平台此方法不适用。找个你喜欢的目录新建一个你喜欢的文件夹文件结构其实一共就两个文件,还有一个是自动生成的curl.py #用来执行自动推送geturl.py #抓取网站所有链接urls.txt #保存抓取的网站链接其中urls.txt是在执行 geturls.py 后自动生成,用以保存你要推送网站的所有链接代码curl.py#!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 17/02/28 下午9:44 import os import time while True: ###### cmd = "你在百度站长中看到的curl推送示例命令" ###### cmd = "cur...
2017年05月24日
2,178 阅读
0 评论
2017-05-03

Python在linux简单自动化工作

Python在linux简单自动化工作
自动部署hexo到coding和github是酱紫,我用的是小书匠当做markdown编辑器,它可以自动把markdown源码同步到github,但是用github pages做hexo博客的话,于国内访问速度有点慢,于是打算用coding pages当做国内的hexo托管网站,github用做国外dalao浏览用 (如果有的话)。于是乎,我在想,能不能自动从github上clone源markdown文件,然后自动生成,部署到github pages和coding pages上。所以我把代码放到了一台闲置的服务器上,让它每天自动帮我同步。代码就如下了:#!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 17/02/28 下午9:44 import os import time hexoMd = "/home/hexo/source/_posts" #hexo的md文件路径 hexo = "/home/hexo" #hexo根目录 xiaoshujiangPath ...
2017年05月03日
1,617 阅读
0 评论
2017-02-27

ShadowsocksR 服务端安装教程

ShadowsocksR 服务端安装教程
前面直接先总结一下,如果你Centos,总共用到的步骤就如下就够了一行一行执行,把password换成你自己想要的:yum install git git clone -b manyuser https://github.com/shadowsocksr/shadowsocksr.git cd ~/shadowsocksr bash initcfg.sh python server.py -p 443 -k password -m aes-256-cfb -O auth_sha1_v4 -o http_simple -d start #说明:-p 端口 -k 密码 -m 加密方式 -O 协议插件 -o 混淆插件说明:不建议使用外面一键脚本安装,除非你自己能维护其功能,否则安装时若出了问题很难查,而且现在有不少不明来历的一键脚本内嵌后门程序。此教程为单用户版,适合个人用户。如果你是站长,请查看多用户版教程:数据库多用户教程)json版多用户教程(仅一台服务器适用))基本库安装以下命令均以root用户执行,或sudo方式执行centos:yum install gitubuntu/d...
2017年02月27日
5,623 阅读
0 评论