反和谐,站点镜像,verycd

来源:Observer专栏杂记

前一阵刚刚解决了离线下载,资源基本上都是verycd找,这verycd一倒可真是天大的噩耗啊,好在虚惊一场,晚上verycd又能上了,今天因为verycd的倒掉促发了我的危机意识。这么好的资源站点要是真的倒了,上哪找资源?

事实上资源倒是不难找,emule上直接搜索其实就可以找到,但是找单集还算容易,找全集可就累了。privatebay号称挂了,可是还是能够访 问和搜索,而且东西也挺新,至少如果要找美剧是不愁的,可是同样要找全集还是很累。Verycd最大的贡献就在于它百科书式的资源整理和索引,它整理的那 些东西可是非常宝贵的,要是没了那可实在是可惜。

这次虽然是虚惊,但是下次呢?所以我决定要镜像verycd站点。

windows下网站镜像软件不少,比如offline explorer,webzip等等。而我要在VPS上做其他站点的镜像可就永不了这些软件了。这里有两个选择,一个就是强大的wget,另一个是linux的离线浏览软件httrack。
==============================
1.安装
sudo apt-get install httrack
sudo apt-get install wget

==============================
2.wget的使用
wget -r -l inf -p -nc -b -c -k http://www.verycd.com
参数的含义如下
-r: 递归下载
-l inf: 递归无限层(可把inf换成数字指定递归层数)
-p: 补完每个html文档(一般情况下如果达到递归层数,最下层的html的图片什么的不会抓取,-p则会让每个抓取的html都能正常显示)
-c:继续上次中断的镜像
-nc:重复文件不再下载,一般情况下重复文件会重命名并重新下载
-k:把绝对链接转换为相对链接,方便离线浏览
-b:背景运行
一些其他有用的参数
――――――�
-N timestamp,记录文件的修改时间,有更新时再下载
-E �html-extension 强制转换为html扩展名,某些text/html格式的文件扩展名不符,这个指令可以强制使用html扩展名,使得原本不能正常显示的网站得以显示
-A jpg,png,gif 定义接受的扩展名,可用shell格式的通配符
――――――�
-m或者�mirror:等价于"-r -N -l inf �no-remove-listing",
――――――-
wget文档在此 http://www.gnu.org/software/wget/manual/wget.html
好了,给个用wget做的verycd镜像把
http://mirror.app-base.com/verycd/www.verycd.com/
===================================
3.httrack的使用
wget一般情况下够用了,不过wget毕竟不是专门的离线浏览工具,处理javascript什么可能会有问题,而且功能有时也有限,这个时候就想到httrack了
httrack "http://www.verycd.com" -r2 -c20 -q -d
参数的解释
c20 � 并发20链接
r2 � 向下2层
q � 无交互模式
d � 只限根域名网址
――――――――――――-
D � 只能依目录向下拓展
――――――――――――-
httrack比较复杂,更多参数可以参考httrack的手册:
http://www.httrack.com/html/fcguide.html
那么同样给个httrack镜像的verycd:
http://mirror.app-base.com/verycdht/www.verycd.com/

没有评论: