前言

  CSDN的文章有很多非常好的,但是自己去复制的话又很麻烦,所以自己做一个基于Jsoup的Java爬虫的demo,可以通过用户名批量转化,也可以通过某一个文章的链接单章转化。

准备工作

CSDN网站爬取规则提取

使用CSS选择器进行规则的提取

文章列表块的提取

  • 文章标题链接:div.article-item-box>a
    • 有时候文章列表中会出现无效的404文章,在最后爬取时会自动忽略
  • 文章标题:

基础工具包