python 云雀文档爬虫

天问 4b2f257085 Update 'README.md' 3 months ago
yuque d839912a33 init 11 months ago
.gitignore d839912a33 init 11 months ago
README.md 4b2f257085 Update 'README.md' 3 months ago
gui.py d839912a33 init 11 months ago
main.py d839912a33 init 11 months ago
main.ui d839912a33 init 11 months ago

README.md

crawl_yunque

语雀爬虫 可以保存整个语雀知识库为Markdown格式 (包含完整目录结构和索引)

Usage

复制文档url,执行如下命令:

python main.py -url https://www.yuque.com/burpheart/phpaudit

源码分析

运行 main.py,获取url参数调用requests获取源码,查找如下网页源码:

<script nonce=wJM6HFxGFWlvqbg5UT1h>
(function() {
  window.appData = JSON.parse(decodeURIComponent("%7B%22me%22%3A%7B%xxxx7D"));
})();
</script>

可以发现,云雀将内容存储在window.appData中,我们只需要将其转换为json格式,即可获取到所有的文章内容。