__init__.py 1.5 KB

1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768
  1. """
  2. Hadoop Tools - Python 版本
  3. 提供现代化的 Hadoop 数据分析能力,包括:
  4. - HDFS 文件系统操作(多种后端支持)
  5. - MapReduce 作业执行(Hadoop Streaming 和 PySpark)
  6. - 统一的配置管理
  7. - 同步和异步 API
  8. - 丰富的错误处理和重试机制
  9. 模块结构:
  10. - config: 配置管理模块
  11. - hdfs_operations: HDFS 文件系统操作(现代化版本)
  12. - mapreduce: MapReduce 作业实现
  13. - wordcount_streaming: Hadoop Streaming 方式的词频统计
  14. - wordcount_spark: PySpark 方式的词频统计(现代化版本)
  15. - utils: 工具函数
  16. """
  17. from .config import (
  18. ConfigurationManager,
  19. HDFSConfig,
  20. SparkConfig,
  21. MapReduceConfig,
  22. GlobalConfig,
  23. BackendType,
  24. OutputFormat,
  25. InputFormat,
  26. get_config,
  27. load_config,
  28. )
  29. from .hdfs_operations import (
  30. HDFSOperations,
  31. BackendType,
  32. FileStatus,
  33. create_hdfs_client,
  34. )
  35. from .mapreduce.wordcount_streaming import WordCountStreaming
  36. from .mapreduce.wordcount_spark import (
  37. WordCountSpark,
  38. WordCountResult,
  39. OutputFormat,
  40. InputFormat,
  41. )
  42. __all__ = [
  43. # 配置管理
  44. 'ConfigurationManager',
  45. 'HDFSConfig',
  46. 'SparkConfig',
  47. 'MapReduceConfig',
  48. 'GlobalConfig',
  49. 'BackendType',
  50. 'OutputFormat',
  51. 'InputFormat',
  52. 'get_config',
  53. 'load_config',
  54. # HDFS 操作
  55. 'HDFSOperations',
  56. 'FileStatus',
  57. 'create_hdfs_client',
  58. # MapReduce
  59. 'WordCountStreaming',
  60. 'WordCountSpark',
  61. 'WordCountResult',
  62. ]
  63. __version__ = '0.2.0'