环境:Python 3.11 使用组件:FlareSolverr、curl_cffi 目标: 获取受WAF保护的HTML文档类型资源。 获取受WAF保护的图片静态资源。 获取受WAF保护的HTML文档类型资源 一句话概括:使用FlareSolverr代理请求。 FlareSolverr提供了Windows、Linux上的可执行程序包与Docker镜…
匹配对象的子组 Match.group([group1, ...]) >>> m = re.match(r"(\w+) (\w+)", "Isaac Newton, physicist") >>> m.group(0) # The entire match 'Isaac Newton' >>> …
在解压一些来自日本作者的压缩包时,经常出现文件名乱码的情况,例如枹棃偪傖傫僆僔僆僉PSD。通常情况,我们修改解压缩软件的默认代码页语言为日语或自动检测即可解决。但在批量解压缩时,并不是所有压缩包代码页语言都是日语,所以只能设置为自动检测,但是很多时候自动检测也会失效。 本应使用Shift_Jis进行解码,而错用GBK解码,就会产生枹棃偪傖傫僆僔僆僉…
POST请求头中 Accept-Encoding : gzip, deflate, br 响应 Content-Encoding : br 如果python当前运行环境没有安装 brotli 或 brotlicffi 库,将导致不能正确解压响应数据,导致乱码。 安装任意一个之后立刻解决,见下图 httpx源码中 try: import brotli…