README.md 852 B

crawl_yunque

语雀爬虫 可以保存整个语雀知识库为Markdown格式 (包含完整目录结构和索引)

Usage

复制文档url,执行如下命令:

python main.py -url https://www.yuque.com/burpheart/phpaudit

源码分析

运行 main.py,获取url参数调用requests获取源码,查找如下网页源码:

<script nonce=wJM6HFxGFWlvqbg5UT1h>
(function() {
  window.appData = JSON.parse(decodeURIComponent("%7B%22me%22%3A%7B%xxxx7D"));
})();
</script>

可以发现,云雀将内容存储在window.appData中,我们只需要将其转换为json格式,即可获取到所有的文章内容。