2007-10-16

爬虫抓取UserAgent问题

关键字: 爬虫抓取UserAgent问题
爬虫抓取问题: cpp 代码 wget http://www.bokee.net/alisoubao/rss2.xml   这个地址抓取的内容为以前很老的内容。 同样用java写的爬虫程序抓取的内容和用wget抓取的内容一样。 而用 cpp 代码 curl http://www.bokee.net/alisoubao/rss2.xml   抓取的内容则是最新的。 感觉很奇怪。后来在google搜索了一下 wget的参数,最后用 cpp 代码 ...
2007-09-19

httpclient DNS cache问题解决办法

关键字: httpclient DNS cache
the JVM will cache the dns information for me automatically after the first query 也就是说,httpclient去抓取每个url时,JVM都会自动cache住 这个url和对应的ip,并且是永远cache住,除非cache住的内容大于 JVM的限制 ,如果将来这个url(域名)更换了ip,httpclient会首先去JVM的cache里取,如果取到了。直接根据这个ip去抓取。 所以往往某个域名更换了IP,抓取结果都是604错误。 解决办法: networkaddress.cache.ttl (defaul ...
2007-08-27

gzip压缩传送

关键字: gzip压缩传送
HTTP web 服务在网络线路上传输的 XML。XML 是文本, 而且还是相当冗长的文本, 并且文本通常可以被很好地压缩。当你通过 HTTP 请求一个资源时, 可以告诉服务器, 如果它有任何新数据要发送给我时, 请以压缩的格式发送。 在你的请求中包含 Accept-encoding: gzip 头信息, 如果服务器支持压缩, 他将返回由 gzip 压缩的数据并且使用 Content-encoding: gzip 头信息标记。 客户端请求去抓取内容时,如果 server端返回头信息: HTTP/1.1 200 OK Server: nginx/0.5.23 Date: Mon, ...
ttitfly
搜索本博客
我的相册
63e97aa5-d2de-33be-88c3-8f39d5279b8d-thumb
bbbb
共 3 张
存档
最新评论