nltk download下载超时

在ubuntu上使用 nltk.download('all') 当下载nltk_data的时候,老是报超时的错误。后来看到可以 nltk.download() 这样下载,这样下载的好处是会出现可视化界面,可以很容易的知道下载进度,并且哪些是下载失败哪些是下载超时了,如果下载失败的话,可以点击进入下载失败的包单独下载。 nltk默认的下载路径在...

more


在centos上使用supervisor自启动

我的centos服务器还是5.11的,网上关于supervisor在centos上自启动的脚本和教程基本都是基于centos6和centos7的,后来找到一个可用的脚本,我把它稍加修改后传到gitgist上了,脚本内容如下 #!/bin/bash # supervisord This scripts turns supervisord on # chkconfig: 345 83 04 #...

more


关于requests使用的一些问题和经验

今天看了一下facebook的数据采集,由于GFW的原因,首先需要能连通到facebook。我使用购买的ss服务结合requests来做数据采集,首先我是在ubuntu上做的试验,发现一直出现sslerror,比如 EOF occurred in violation of protocol (_ssl.c:645) 或者 bad handshake: SysCallError(-1,...

more


Jupyter Notebook 快捷键(转)

这几天由于需要做情感分析相关的工作,需要用到jupyter,用了就一个字:爽!找到一篇关于Jupyter 快捷键的文章,这里搬运过来,方便自己参考。 Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是绿色的。命令模式,键盘输入运行程序命令;这时的单元框线是灰色。 命令模式 (按键 Esc 开启) Enter : 转入编辑模式...

more


httpclient:sslexception hostname in certificate didn't match

今天,发现一个爬虫程序挂掉了,查看日志,发现了这么一个错误 sslexception: hostname in certificate didn't match 该爬虫程序使用的是 httpclient...

more