# video-subtitle-extract

无字幕文件的视频，字幕通过 opencv 图片识别方法抽取其中的文字，该项目包含python（视频处理），java（图片转文字）。

对视频中的字幕进行定位，

对视频中字幕通过 **自然语言识别** 功能**提取其中的字幕文字**。

## Usage

1. 把视频文件放到 videos 文件夹中。

2. 先执行 pre_do.py 文件，查看一下视频的帧速，视频尺寸等信息。

    ![](assets/BaiduHi_2020-2-18_11-14-28.png)

3. 通过上一步操作，修改 main.py 中的 参数，使得字幕图片被很好的截取。然后执行 main.py 会在 videos 文件夹中生成对视频分析后截取的字幕图片（10句合成一个图片，便于识别）。

    ![](assets/BaiduHi_2020-2-18_11-16-10.png)

4. 执行 MainFm.java 对上述图片进行批量文字识别（分别调用百度/搜狗等文字识别免费接口）。获得结果保存到 项目resxxx.txt 文件中。

    ![](assets/BaiduHi_2020-2-18_11-13-33.png)


## 注意

由于文字识别接口，可能识别错误。所以可以多执行几次，比较结果。

## 版权

mail: liuyuqi.gov@msn.cn