Browse Source

编码转换

liuyuqi-dellpc 7 years ago
parent
commit
1828e03604
1 changed files with 5 additions and 5 deletions
  1. 5 5
      readme.md

+ 5 - 5
readme.md

@@ -1,6 +1,6 @@
-到位的一个同学的问题。
-	在台湾某学术网站,下载中/英等学术性pdf,里面都是专业的中英文翻译。所以目的就是通过相关数据处理,提取所有pdf内容,对中英文文档进行对比。甚至可以通过机器学习,让机器更好的翻译,而不是人工对每篇文章都提供中英文文档。
+鍒颁綅鐨勪竴涓�悓瀛︾殑闂��銆�
+	鍦ㄥ彴婀炬煇瀛︽湳缃戠珯锛屼笅杞戒腑/鑻辩瓑瀛︽湳鎬�df锛岄噷闈㈤兘鏄�笓涓氱殑涓�嫳鏂囩炕璇戙€傛墍浠ョ洰鐨勫氨鏄�€氳繃鐩稿叧鏁版嵁澶勭悊锛屾彁鍙栨墍鏈塸df鍐呭�锛屽�涓�嫳鏂囨枃妗h繘琛屽�姣斻€傜敋鑷冲彲浠ラ€氳繃鏈哄櫒瀛︿範锛岃�鏈哄櫒鏇村ソ鐨勭炕璇戯紝鑰屼笉鏄�汉宸ュ�姣忕瘒鏂囩珷閮芥彁渚涗腑鑻辨枃鏂囨。銆�
 
 
-解决问题:
-1、部署爬虫,网站批量下载文档。
-2、批量读取所有pdf文档,对文档每一句进行划分,随机提取100条句子。
+瑙e喅闂��锛�
+1銆侀儴缃茬埇铏�紝缃戠珯鎵归噺涓嬭浇鏂囨。銆�
+2銆佹壒閲忚�鍙栨墍鏈塸df鏂囨。锛屽�鏂囨。姣忎竴鍙ヨ繘琛屽垝鍒嗭紝闅忔満鎻愬彇100鏉″彞瀛愩€�