bilibili 用户/视频/弹幕/评论爬虫,分析。

liuyuqi 55cc9dbd16 Merge branch 'develop' of lyq/crawl-bilibili into master 4 years ago
barrage 76b8988c41 完成视频和弹幕抓取 5 years ago
conf 3ae41c9091 go on 4 years ago
user 3ae41c9091 go on 4 years ago
utils 3ae41c9091 go on 4 years ago
video c444648ef5 Merge branch 'master' into develop 4 years ago
video_download c4eab4ae6e 增加 纪录片下载 4 years ago
.gitignore 5f766a6495 增加哔哩哔哩 视频下载功能 4 years ago
README.md c444648ef5 Merge branch 'master' into develop 4 years ago
requirements.txt 76b8988c41 完成视频和弹幕抓取 5 years ago
threads.py dc982a6fba init 5 years ago

README.md

crawl_bilibili

bilibili 爬虫,不需要实时数据,设置一分钟爬 6 次。一个月大概爬 25 万用户。由于时间跨度大,设置断点续爬功能。主要涉及:

用户公开数据(用户/性别/地区/注册时间/)

视频数据()

弹幕数据()

评论数据()

付费数据()

使用

启动数据库,这里启动一个 mysql 容器就好了。

docker volume create --name datadir
docker run --name my-mysql -v datadir:/var/lib/mysql -e MYSQL_ROOT_PASSWORD=123456 -p 3306:3306 -d daocloud.io/mysql:5.7.4
  • 抓取用户

    cd crawl_bilibili
    python user/get_user.py
    python user/get_face.py
    
  • 抓取视频

    python video/get_video.py
    
  • 抓取视频弹幕

    python barrage/get_barrage.py
    
  • 数据分析

更新历史

20190907 新增腾讯视频《都挺好》1-30集弹幕下载。