作者:Mike Chen 来源:https://ccp.li/?p=19 今天用Python写了个脚本,用于生成单个汉字的关键词。
结果如下 (这里是 脚本的log):
#GBK序列 字符
0xA7 : 0xF5 无法显示
0xA9 : 0x50 ㏄
0xAD : 0x4A 璊
0xBA : 0xD8 贺
0xBA : 0xFA 胡
0xBC : 0xD6 贾
0xC0 : 0xEE 李
0xCE : 0xC2 温
0xCE : 0xE2 吴
0xCF : 0xB0 习
0xD6 : 0xDC 周
第三个有些问题,应该是 墙对GBK字符的审查缺陷吧,同样的东西,UTF8编码可以打开。后面的值得探究,都是人名的开头吧:
贺 -> ??
胡 -> 胡锦涛
贾 -> 贾庆林
李 -> ??
温 -> 温家宝
吴 -> 吴邦国
习 -> 习近平
周 -> ??
感叹一下,李白好可怜。贺东祥(我同学)更可怜。
到这里,对具体实现不感兴趣的可以停止阅读了。
具体原理如下:
1. GFW对google.com.hk关爱有加,针对单个字都设置了审查。2. 审查是基于HTTP协议的,而非基于IP。
3. GFW是双向审查的。意味着国外连接国内服务器有关键词照样重置连接。
所以利用这些特性。不需要跟google.com.hk建立连接,只要往国内任意服务器的任意端口连接然后发送 HTTP头,假如被重置就是有关键词 了。
这里意想不到的是:国内各大门户网站(baidu.com, sina.com.cn, sohu.com, 163.com…)都在白名单内,意味着发送关键词也不会被重置,应该是自我审查的特殊照顾吧。
GBK里面24000左右个汉字,历遍每个,并把查询内容替换为各个字,发送,看是否重置即可。
GET /search?hl=zh-CN&q=<查询内容> HTTP/1.0
Host: www.google.com.hk
Connection: close
1 条评论:
缺的那几个国家领导人是
贺国强:中央政治局常委,中央纪律检查委员会书记。
周永康:中央政治局常委,中央政法委书记,中央综治委主任。
李长春:中央政治局常委,中央精神文明建设指导委员会主任。
或者
李克强:中共中央政治局常委,国务院副总理、党组副书记。
发表评论