lyq
/
hadoop-tools


			
				
					
						
						
							1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768
							"""
Hadoop Tools - Python 版本

提供现代化的 Hadoop 数据分析能力，包括：
- HDFS 文件系统操作（多种后端支持）
- MapReduce 作业执行（Hadoop Streaming 和 PySpark）
- 统一的配置管理
- 同步和异步 API
- 丰富的错误处理和重试机制

模块结构：
- config: 配置管理模块
- hdfs_operations: HDFS 文件系统操作（现代化版本）
- mapreduce: MapReduce 作业实现
  - wordcount_streaming: Hadoop Streaming 方式的词频统计
  - wordcount_spark: PySpark 方式的词频统计（现代化版本）
- utils: 工具函数
"""

from .config import (
    ConfigurationManager,
    HDFSConfig,
    SparkConfig,
    MapReduceConfig,
    GlobalConfig,
    BackendType,
    OutputFormat,
    InputFormat,
    get_config,
    load_config,
)
from .hdfs_operations import (
    HDFSOperations,
    BackendType,
    FileStatus,
    create_hdfs_client,
)
from .mapreduce.wordcount_streaming import WordCountStreaming
from .mapreduce.wordcount_spark import (
    WordCountSpark,
    WordCountResult,
    OutputFormat,
    InputFormat,
)

__all__ = [
    # 配置管理
    'ConfigurationManager',
    'HDFSConfig',
    'SparkConfig',
    'MapReduceConfig',
    'GlobalConfig',
    'BackendType',
    'OutputFormat',
    'InputFormat',
    'get_config',
    'load_config',
    # HDFS 操作
    'HDFSOperations',
    'FileStatus',
    'create_hdfs_client',
    # MapReduce
    'WordCountStreaming',
    'WordCountSpark',
    'WordCountResult',
]

__version__ = '0.2.0'