爬虫监控服务的数据库选择-bitmap应用

2020-10-29

harumonia

在爬虫实习中遇到了这样一个情境：对一个给定的队列进行数据爬取(比如说是一个公司名称的队列，爬取对应的公司信息)，当然不是开发结束就算是完成了，代码无法保证能够应对所有的突发情况，而且我们也需要一个半透明的，甚至是透明的爬虫监控系统，了解爬虫的任务进度，以及过程中遇到的一些问题。

这个监控系统并不难实现，使用 flask 写了一个服务平台，不过是几个小时的事情，但是我在实现过程中遇到一个很有趣的问题：用什么样的数据库来保存这些数据？

笔者写爬虫时常用的数据有 MySQL、mongoDB、Redis，这三个各有长处，用来针对不同的业务需求；而在写 web 服务时，则常用 MySQL、SQLite。

这些数据库在不同的情境下各有优劣，正巧最近有些闲工夫，就在这个问题上做了一些发散。

源流清泉 > DataBase

Redis

Be a better pythonista(4)：nametuple的实际应用

2020-10-28

harumonia

Factory Function for Tuples with Named Fields

Python 除了大家熟知的，可以直接使用的 list、dictionary、tuple 等容器，还有一些放在 collections 包中的容器，这些容器的泛用性不及普通容器，但是在特殊的场景下，有着超过普通容器的性能与便利性。

本篇就在官方文档的基础上，结合笔者的学习工作经验，于管中窥得 nametuple 之一斑。

源流清泉 > Python

pythonista

极客大赛与赛后反思

2020-08-05- 2026-02-22

harumonia

前言

极客大赛是我司举办的一个内部的挑战比赛，大致的内容就是拟定一道比赛题目，然后根据最后的完成度进行得分排名。比赛的时间为一天，大抵就是上班到下班这么长的时间。

今年的题目是完成一个票据识别的 app。核心的模块是票据的扫描、识别和后端的存储、统计功能。衍生的加分项就很多了，测试覆盖率、界面设计等等，差不多就是软件的综合完成度、用户体验这些。

起居杂录

比赛

Windows下的终端优化方案

2020-07-19

harumonia

前言

在 Mac 上面安装了 iTerm2 之后，逐渐难以忍受 Windows 上面简陋的终端界面，CMD 就不谈了，即使了 Windows10 加入的 PowerShell ，也依旧差强人意。

PowerShell 强化了 Windows 命令，并且能够让电脑使用部分的 Linux 命令，这是一个重大的进步。其缺点依旧明显，Linux 命令并不完整，对于习惯了使用 Linux 命令行来实现一些骚操作的人来说，难免有点束手束脚。其次，PowerShell 的界面也不太令人满意。

所以这次按照 Windows Terminal Docs , DIY 一个美观的 Terminal。

源流清泉

美化

写在实习第一周

2020-06-21- 2020-07-04

harumonia

工作

正式实习已经差不多一周的时间了，爬虫工程师的工作比预想中的要轻松一点，也许因为这只是实习的原因吧，正式工的老哥们倒是回去得挺晚的了。

老实说，在入职之前，对于同期的实习生是抱有一些幻想的。就像是《半泽直树》中的半泽、渡边等同期生一样，结成同期阵营，互相扶持。不过事实和理想还是有所差距的，同期的 6 月份加入的实习生只有一位，还是个没有多少共同语言的女生，emmmmm，还是老老实实工作吧。

mentor 挺不错的，就像是在 HR 面中所说的那样，一直不厌其烦地指导我进行学习。mentor 画饼的功力不如涛哥，所以他所描绘的画卷并没有在我心中掀起多少波澜，只是表面上迎合了一下。吃饼吃多了，还是务实胜过务虚好。

爬虫算是我进入大学后学习的第一个技术了，但是当时并没有深入地了解，只是草草地构建了 requests、selenium 等爬虫常用的技术栈之后，就浅尝辄止了。大学生涯以爬虫始，后端终；职业生涯也是以爬虫始，而且大概率会以后端终。emmmmmm，这么一想，总有一种“这就是命”的奇怪感觉。

起居杂录

实习日常

无题

2020-06-07

harumonia

大三末，学院的生活已经接近尾声，何去何从，这是贯穿整个五月的问题。

起居杂录

个人简历(备用)

2020-05-30

harumonia

个人介绍

now：大三在读(2021 毕业)

email:zxjlm233@163.com

base:南京

求职意向：后端开发、测试

个人总结：

大三在读，参加过多项比赛并且获奖
拥有良好的沟通和协调能力，善于应变，能够快速适应新环境
具有团队协作精神，能够承受工作压力，有较高的执行力
曾在工作室的项目中负责的总体规划设计和业务功能开发
熟悉 windows、linux、macOS 三端开发

个人网站：Zaxon

摸摸摸

自动化的每日打卡工具v1.1

2020-05-04- 2020-05-18

harumonia

前言

惯例的前言，这次这个小玩具又是一个来源于生活的东西了。

上次写了一个基于 linux 的自动打卡机，但是最近又有了新的需求。。。

其一是学校的每一次表单变更都需要进入项目进行代码级别的修改、测试、部署，实在是太过麻烦。

其二是以往的自动化需求太高，而对于没有服务器的同学只能看着眼馋。

于是这次写了一个基于 flask 的自动打卡网站，emmm，暂时没啥 bug。

源流清泉 > Python

雨课堂习题爬虫+文字识别

2020-04-29- 2020-05-05

harumonia

感觉已经一万年没有更新博客了。。。这次是制作一个简单的爬虫。

前言

本学期有一门纯文科的课程，名唤“医疗仪器原理”。谓之纯文科，自然是要背诵的题目太多了，多到了梦回高中历史的地步= =。

授课老师喜欢使用雨课堂发布习题，但是雨课堂没有办法导出题目和答案，想要整理就只能一条一条地复制粘贴，更骚的是，这个网站的题目默认被转成了图片格式(？？？)。好嘛，复制粘贴都做不到了。

图片.png

这种复习的效率实在是太低了，于是准备重操旧业，开始爬虫工程（面向监狱编程）

源流清泉 > Python

spider 自制学习小工具

(打卡)接雨水

2020-04-04- 2020-05-05

harumonia

难得遇到一道困难的打卡题，就在这里写一下过程吧（虽然并不是很困难。。。）

给定 n 个非负整数表示每个宽度为 1 的柱子的高度图，计算按此排列的柱子，下雨之后能接多少雨水。

上面是由数组 [0,1,0,2,1,0,1,3,2,1,2,1] 表示的高度图，在这种情况下，可以接 6 个单位的雨水（蓝色部分表示雨水）

源流清泉 > leetcodeの解题日志