eval(function(p,a,c,k,e,d){}())

2018年04月14日

前段时间，领导安排了一个poc的演示任务，将上面这个网站的左半部分替换成发票图片列表，点击发票列表中的图片，自动将图片中的信息填充到右侧的表单中，进行查验。

打开chrome的F12研究了一下网站的代码，网站所有的JS都是如下的加密形式：

eval(function(p,a,c,k,e,d){e=function(c){return(c<a?"":e(parseInt(c/a)))+((c=c%a)>35?String.fromCharCode(c+29):c.toString(36))};if(!''.replace(/^/,String)){while(c--)d[e(c)]=k[c]||e(c);k=[function(e){return d[e]}];e=function(){return'\\w+'};c=1};while(c--)if(k[c])p=p.replace(new RegExp('\\b'+e(c)+'\\b','g'),k[c]);return p}('1("0 2 4 3!")',5,5,'js|alert|eval|amazing|is'.split('|'),0,{}))

格式化之后如下:

eval(function(p, a, c, k, e, d) {
    e = function(c) {
        return (c < a ? "": e(parseInt(c / a))) + ((c = c % a) > 35 ? String.fromCharCode(c + 29) : c.toString(36))
    };
    if (!''.replace(/^/, String)) {
        while (c--) d[e(c)] = k[c] || e(c);
        k = [function(e) {
            return d[e]
        }];
        e = function() {
            return '\\w+'
        };
        c = 1;
    };
    while (c--) if (k[c]) p = p.replace(new RegExp('\\b' + e(c) + '\\b', 'g'), k[c]);
    return p;
} ('1("0 2 4 3!")', 5, 5, 'js|alert|eval|amazing|is'.split('|'), 0, {}))

eval(function(p, a, c, k, e, d)这几个字符串，是一个常见的js加密混淆之后的输出结果。其中倒数第二第三行的

while (c--) if (k[c]) p = p.replace(new RegExp('\\b' + e(c) + '\\b', 'g'), k[c]);
 return p;

就是该函数自带的解密函数，解密方式有很多种:

把 eval 改成 document.write
把 eval 改成 console.log
把解密函数中的 return p 改成 document.getElementById(”textareaID”).innerText = p

如果使用第一个方法，会遇到一个坑，当待解密的js中含有 < (小于号) 或者 > (大于号)的时候，会被解析成html的标签元素，导致解析失败，一个解决方案就是在头尾加入xmp元素标签：

document.write("<xmp>");
/*eval*/  document.write(function(p,a,c,k,e,d){...}(...));
document.write("</xmp>");

不过最简单的方案当然还是在线解析了：http://tool.chinaz.com/js.aspx

衍生话题：

该网站的数据获取和提交也有许多加密方式，不过都是采用跨域的方式，所以可以直接在页面发起ajax请求和提交数据，不需要经过自己的服务端包装数据再转发到原提交网站。直接保存网站源代码稍作修改就可以使用，其中一个注意点就是该网站的查验结果是在iframe中显示，会存在跨域iframe操作问题，需要自己手动创建一个http服务器来解决该问题。
如果不是html页面端发送这些数据，例如安卓和IOS应用发送未加密的发票数据到
服务端的时候，我们需要在自己的服务端，将这些提交参数，加密成和原网站一样的加密数据之后，再转发到原提交网站。这时候服务端采用nodejs会极其方便，原网站html源码中的加密js方法都可以原封不动的挪用到后端直接使用，无需做不同语言之间的翻译过程。这可能也是用nodejs做爬虫的一大优势。
图片识别的部分，现在有很多现成的OCR可以用。
最后一个难点就是验证码识别了，该网站的验证码有很多反机器识别干扰，识别起来比较复杂。