| 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768 |
- """
- Hadoop Tools - Python 版本
- 提供现代化的 Hadoop 数据分析能力,包括:
- - HDFS 文件系统操作(多种后端支持)
- - MapReduce 作业执行(Hadoop Streaming 和 PySpark)
- - 统一的配置管理
- - 同步和异步 API
- - 丰富的错误处理和重试机制
- 模块结构:
- - config: 配置管理模块
- - hdfs_operations: HDFS 文件系统操作(现代化版本)
- - mapreduce: MapReduce 作业实现
- - wordcount_streaming: Hadoop Streaming 方式的词频统计
- - wordcount_spark: PySpark 方式的词频统计(现代化版本)
- - utils: 工具函数
- """
- from .config import (
- ConfigurationManager,
- HDFSConfig,
- SparkConfig,
- MapReduceConfig,
- GlobalConfig,
- BackendType,
- OutputFormat,
- InputFormat,
- get_config,
- load_config,
- )
- from .hdfs_operations import (
- HDFSOperations,
- BackendType,
- FileStatus,
- create_hdfs_client,
- )
- from .mapreduce.wordcount_streaming import WordCountStreaming
- from .mapreduce.wordcount_spark import (
- WordCountSpark,
- WordCountResult,
- OutputFormat,
- InputFormat,
- )
- __all__ = [
- # 配置管理
- 'ConfigurationManager',
- 'HDFSConfig',
- 'SparkConfig',
- 'MapReduceConfig',
- 'GlobalConfig',
- 'BackendType',
- 'OutputFormat',
- 'InputFormat',
- 'get_config',
- 'load_config',
- # HDFS 操作
- 'HDFSOperations',
- 'FileStatus',
- 'create_hdfs_client',
- # MapReduce
- 'WordCountStreaming',
- 'WordCountSpark',
- 'WordCountResult',
- ]
- __version__ = '0.2.0'
|