教学立方 课程爬虫

git@h5.yoqi.me 2bcb21334f add license 1 week ago
data c4914dd4ba go on 2 years ago
.gitattributes 6ea5d5af16 init 2 years ago
.gitignore 6ea5d5af16 init 2 years ago
LICENSE 2bcb21334f add license 1 week ago
README.md e004595001 Update 'README.md' 2 years ago
config_example.json c4914dd4ba go on 2 years ago
download.py 6ea5d5af16 init 2 years ago
requirements.txt bb4346e6ad add requirements.txt 2 years ago

README.md

教学立方课件爬虫

在线教学平台——教学立方的课件批量下载脚本,基于Python + ChromeDriver

使用方法

1. 配置环境(请参考其他教程)

  1. 安装对应版本的Python

  2. 安装对应版本的Python模块:Requests, Selenium(推荐使用Anaconda进行管理)

  3. 安装Chrome,并下载Chrome对应版本的WebDriver

提供一种安装ChromeDriver的简单方法:根据自己的Chrome版本,在镜像站点下载对应版本的ChromeDriver,与脚本放在同一目录即可。

2. 修改配置文件

修改文件 config.json ,填入用户名、密码等信息

关于如何修改配置文件,请参考”最简配置方案“一章
关于配置文件内各项参数的说明,请参考”配置文件说明“一章

最简配置方案

{
	"username": "your_username",
	"password": "your_password",
	"headless_mode": true,
	"download_all_ext": true,
	"download_all_courses": true,
	"ext_list": [],
	"ext_expel_list": [],
	"cid_list": []
}

your_usernameyour_password保留双引号)替换成你的手机号教学立方登录密码即可,其他参数无需修改。

请确保json文件格式正确,可参考提供的 config_example.json 进行配置。

配置文件说明

以下对 config.json 内各项参数进行简要说明:

参数名 类型 含义
username str 教学立方登录用户名(一般为手机号)
password str 教学立方登录密码
headless_mode bool 是否启用WebDriver的headless模式(运行时不显示界面)
download_all_ext bool 是否下载所有类型的文件
download_all_courses bool 是否下载所有课程的课件
ext_list list 下载文件的类型(如:pdf,docx,zip)
ext_expel_list list 排除文件的类型
cid_list list 需要下载的课程ID