利用对google.com.hk的关键词审查生成了一些关键字

非常感谢热心网友赐稿!热烈欢迎大家向我们投稿,投稿信箱地址:
chinagfwblog(at)gmail.com。

作者:Mike Chen   来源:https://ccp.li/?p=19
今天用Python写了个脚本,用于生成单个汉字的关键词。

结果如下 (这里是 脚本的log):

#GBK序列     字符

0xA7 : 0xF5 无法显示
0xA9 : 0x50 ㏄
0xAD : 0x4A 璊
0xBA : 0xD8 贺
0xBA : 0xFA 胡
0xBC : 0xD6 贾
0xC0 : 0xEE 李
0xCE : 0xC2 温
0xCE : 0xE2 吴
0xCF : 0xB0 习
0xD6 : 0xDC 周
第三个有些问题,应该是 墙对GBK字符的审查缺陷吧,同样的东西,UTF8编码可以打开。
后面的值得探究,都是人名的开头吧:
贺 -> ??
胡 -> 胡锦涛
贾 -> 贾庆林
李 -> ??
温 -> 温家宝
吴 -> 吴邦国
习 -> 习近平
周 -> ??
感叹一下,李白好可怜。贺东祥(我同学)更可怜。
到这里,对具体实现不感兴趣的可以停止阅读了。

具体原理如下:

1. GFW对google.com.hk关爱有加,针对单个字都设置了审查。
2. 审查是基于HTTP协议的,而非基于IP。
3. GFW是双向审查的。意味着国外连接国内服务器有关键词照样重置连接。
所以利用这些特性。不需要跟google.com.hk建立连接,只要往国内任意服务器的任意端口连接然后发送 HTTP头,假如被重置就是有关键词 了。
这里意想不到的是:国内各大门户网站(baidu.com, sina.com.cn, sohu.com, 163.com…)都在白名单内,意味着发送关键词也不会被重置,应该是自我审查的特殊照顾吧。
GBK里面24000左右个汉字,历遍每个,并把查询内容替换为各个字,发送,看是否重置即可。

GET /search?hl=zh-CN&q=<查询内容> HTTP/1.0

Host: www.google.com.hk

Connection: close

1 条评论:

Hedger 说...

缺的那几个国家领导人是
贺国强:中央政治局常委,中央纪律检查委员会书记。
周永康:中央政治局常委,中央政法委书记,中央综治委主任。
李长春:中央政治局常委,中央精神文明建设指导委员会主任。
或者
李克强:中共中央政治局常委,国务院副总理、党组副书记。