eval(function(p,a,c,k,e,d){}())

国家税务总局全国增值税发票查验平台

前段时间,领导安排了一个poc的演示任务,将上面这个网站的左半部分替换成发票图片列表,点击发票列表中的图片,自动将图片中的信息填充到右侧的表单中,进行查验。

打开chrome的F12研究了一下网站的代码,网站所有的JS都是如下的加密形式:

eval(function(p,a,c,k,e,d){e=function(c){return(c<a?"":e(parseInt(c/a)))+((c=c%a)>35?String.fromCharCode(c+29):c.toString(36))};if(!''.replace(/^/,String)){while(c--)d[e(c)]=k[c]||e(c);k=[function(e){return d[e]}];e=function(){return'\\w+'};c=1};while(c--)if(k[c])p=p.replace(new RegExp('\\b'+e(c)+'\\b','g'),k[c]);return p}('1("0 2 4 3!")',5,5,'js|alert|eval|amazing|is'.split('|'),0,{}))

格式化之后如下:

eval(function(p, a, c, k, e, d) {
    e = function(c) {
        return (c < a ? "": e(parseInt(c / a))) + ((c = c % a) > 35 ? String.fromCharCode(c + 29) : c.toString(36))
    };
    if (!''.replace(/^/, String)) {
        while (c--) d[e(c)] = k[c] || e(c);
        k = [function(e) {
            return d[e]
        }];
        e = function() {
            return '\\w+'
        };
        c = 1;
    };
    while (c--) if (k[c]) p = p.replace(new RegExp('\\b' + e(c) + '\\b', 'g'), k[c]);
    return p;
} ('1("0 2 4 3!")', 5, 5, 'js|alert|eval|amazing|is'.split('|'), 0, {}))

eval(function(p, a, c, k, e, d)这几个字符串,是一个常见的js加密混淆之后的输出结果。其中倒数第二第三行的

while (c--) if (k[c]) p = p.replace(new RegExp('\\b' + e(c) + '\\b', 'g'), k[c]);
 return p;

就是该函数自带的解密函数,解密方式有很多种:

  • 把 eval 改成 document.write
  • 把 eval 改成 console.log
  • 把解密函数中的 return p 改成 document.getElementById(”textareaID”).innerText = p

如果使用第一个方法,会遇到一个坑,当待解密的js中含有 < (小于号) 或者 > (大于号)的时候,会被解析成html的标签元素,导致解析失败,一个解决方案就是在头尾加入xmp元素标签:

document.write("<xmp>");
/*eval*/  document.write(function(p,a,c,k,e,d){...}(...));
document.write("</xmp>");

不过最简单的方案当然还是在线解析了:http://tool.chinaz.com/js.aspx

衍生话题:

  • 该网站的数据获取和提交也有许多加密方式,不过都是采用跨域的方式,所以可以直接在页面发起ajax请求和提交数据,不需要经过自己的服务端包装数据再转发到原提交网站。直接保存网站源代码稍作修改就可以使用,其中一个注意点就是该网站的查验结果是在iframe中显示,会存在跨域iframe操作问题,需要自己手动创建一个http服务器来解决该问题。

  • 如果不是html页面端发送这些数据,例如安卓和IOS应用发送未加密的发票数据到
    服务端的时候,我们需要在自己的服务端,将这些提交参数,加密成和原网站一样的加密数据之后,再转发到原提交网站。这时候服务端采用nodejs会极其方便,原网站html源码中的加密js方法都可以原封不动的挪用到后端直接使用,无需做不同语言之间的翻译过程。这可能也是用nodejs做爬虫的一大优势。

  • 图片识别的部分,现在有很多现成的OCR可以用。

  • 最后一个难点就是验证码识别了,该网站的验证码有很多反机器识别干扰,识别起来比较复杂。