js解析(js2py的使用,主要针对爬虫中,js运行模拟,并直接加载)

js解析分为三步:

1.定位;2.分析;3.模拟重现。

具体如下:

1.定位js文件:可以直接进行搜索。

2.分析js代码:了解js基本语法,找到主要部分(加密等)。

3.模拟重现:(1)使用第三方模块进行加载,js2py、pyv8等。(2)纯python实现。

(1)关于第三方模块的使用

js2py,主要是一个js的翻译工具

首先创建js执行环境

context = js2py.EvalJs()

然后加载js文件

headers = {}

big_js = request.get(url(js文件url), headers)

js2py加载(执行)

context.execute(big_js)

(2)纯python实现需要分析代码,明白变量的js运算,通过python进行实现。

hashlib使用。哈希算法作为一个去重的算法,对于一个比较长的字符串,可以砍到很短,比如一些比较长的url存储,可以利用hashlib算法来存储。

创建哈希对象:

md5 = hashlib。md5()

向哈希对象添加需要做哈希运算的字符串

md5.update(data.encode()) #data = ' ',已经在前面定义。

获取字符串的哈希值

result = md5.hexdigest()

未完。。。


版权声明:本文为Single_minde原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。