爬虫抓取问题:
cpp 代码
wget http://www.bokee.net/alisoubao/rss2.xml
这个地址抓取的内容为以前很老的内容。
同样用java写的爬虫程序抓取的内容和用wget抓取的内容一样。
而用
cpp 代码
curl http://www.bokee.net/alisoubao/rss2.xml
抓取的内容则是最新的。
感觉很奇怪。后来在google搜索了一下 wget的参数,最后用
cpp 代码 ...
the JVM will cache the dns information for me automatically after the first query
也就是说,httpclient去抓取每个url时,JVM都会自动cache住 这个url和对应的ip,并且是永远cache住,除非cache住的内容大于 JVM的限制 ,如果将来这个url(域名)更换了ip,httpclient会首先去JVM的cache里取,如果取到了。直接根据这个ip去抓取。
所以往往某个域名更换了IP,抓取结果都是604错误。
解决办法:
networkaddress.cache.ttl (defaul ...
HTTP web 服务在网络线路上传输的 XML。XML 是文本, 而且还是相当冗长的文本, 并且文本通常可以被很好地压缩。当你通过 HTTP 请求一个资源时, 可以告诉服务器, 如果它有任何新数据要发送给我时, 请以压缩的格式发送。 在你的请求中包含 Accept-encoding: gzip 头信息, 如果服务器支持压缩, 他将返回由 gzip 压缩的数据并且使用 Content-encoding: gzip 头信息标记。
客户端请求去抓取内容时,如果
server端返回头信息:
HTTP/1.1 200 OK
Server: nginx/0.5.23
Date: Mon, ...
- 浏览: 90757 次
- 性别:

- 来自: 杭州

- 详细资料
搜索本博客
我的相册
bbbb
共 3 张
共 3 张
最近加入圈子
最新评论
-
hibernate知识小结
谢谢!!正好delete那个地方没弄懂!以为delete之后还是持久态!!现在基 ...
-- by 410228573 -
hibernate------HQL总结
谢谢,学习了!
-- by gdjbj2008 -
Extjs2.0---继承
Ext.extend(SubClass,BaseClass,{ ...
-- by yunhaifeiwu -
修改Eclipse注释里的${Da ...
找到eclipse.ini 里面有-Duser.language=en 改为-D ...
-- by duooluu -
sqlserver2005获取连接失 ...
...
-- by gordanmao






评论排行榜