haipproxy优化小记

前两天简单了解了redis的过期策略:主动过期与延迟过期。主动过期的方式是,单独拿一个线程做定时扫描每个库,看expire table中的键是否过期,如果过期,就删除。它会随机抽样10个过期的键进行检查,如果其中有超过25%的键并没有实际被删除,那么删除这些键并进行下一轮随机抽样,直到比例低于25%。被动策略是在每次访问时,检查该主键是否过期,过期则删除。...

more


最近的一些近况

大概从这周开始,就陆陆续续投了一些公司的内推。直到现在,只有阿里和腾讯给了回复。不得不说阿里和腾讯的面试官的素质是真的高,或许也能称得上有德有才吧,程序员的典范。...

more


haipproxy高可用核心策略

昨日使用haipproxy作为代理源,对知乎进行了数据抓取相关的性能测试,测试效果还不错,有兴趣的可以点击项目主页查看测试结果。但是它仍有继续优化的空间,所以笔者打算单独写一篇文章来单独阐述它现有的IP筛选策略,也就是题目说的高可用策略。而关于部署的高可用后续文章会谈及到,这里暂时按下不表。 下文主要会谈到校验器和客户端的IP筛选策略。 校验器...

more


haipproxy校验器编写流程

使用过代理IP的同学应该都知道,即使是同一个IP,访问不同网站,可用性和速度都可能大不相同。因此,根据实际使用情况编写特定站点的代理校验器是非常必要的。本文介绍扩展haipproxy的校验器方法,为了方便阐述,下面我们以zhihu.com为例进行说明。 1.在settings.py中添加zhihu校验器对应的temp queue、validated queue、ttl...

more


redis优化建议

读完了Redis实战,感觉收获还是蛮多的。像往常那样,读完就想将书束之高阁。这几天总感觉差点什么,于是又翻了一下这本书,打算记录书上和自己知道的关于Redis优化的小知识点。 数据持久化 选择恰当的持久化方式。Redis提供RDB和AOF两种持久化方式。用户需要根据实际场景对两种持久化方式进行考量和选择。...

more