convert.java 1.1 KB

1234567891011121314151617181920212223242526272829
  1. package cwj.bbb;
  2. import java.io.*;
  3. import java.util.Collection;
  4. import org.apache.commons.io.FileUtils;
  5. /*
  6. * 批量把文本文档的GBK编码转化为UTF-8
  7. * 使用用commons-io.jar实现文件的读取和写入
  8. * */
  9. public class EncodeTest1 {
  10. public static void main(String[] args) throws IOException {
  11. String srcDirPath = "/home/cwjy1202/hadoop/旅游领域/旅游类测试文档/地方文化";
  12. // 转为UTF-8编码格式源码路径。这个路径可以若不存在,会自动建立。
  13. String utf8DirPath = "/home/cwjy1202/hadoop/旅游领域/旅游类测试文档/地方文化1";
  14. // 获取所有txt文件
  15. Collection<File> javaGbkFileCol = FileUtils.listFiles(new File(srcDirPath), new String[] { "txt" }, true);
  16. for (File javaGbkFile : javaGbkFileCol) {
  17. // UTF8格式文件路径
  18. String utf8FilePath = utf8DirPath + javaGbkFile.getAbsolutePath().substring(srcDirPath.length());
  19. // 使用GBK读取数据,然后用UTF-8写入数据
  20. FileUtils.writeLines(new File(utf8FilePath), "UTF-8", FileUtils.readLines(javaGbkFile, "GBK"));
  21. }
  22. }
  23. }