Poirot 是自动将字体文件(woff\woff2\ttf)映射为结果字典,主要用于中文字体反爬虫的破解,包括 css 字体映射和图片文字反爬虫.
实现的基础思路可见于字体反爬虫解决方案-自动化通过字体文件生成映射字典.
与 Mori 同属于爬虫工作的小工具.名字取自大侦探波洛(Hercule Poirot). 与 Mori 的脚本服务不同,这次从实际使用的角度考虑,采用了 web 服务的形式.
本篇记录了 Poirot 的开发中学习到的技术和踩到的坑。
主要包括:
- flask-websocket 的使用
- 进度条的实现