""" Hadoop Tools - Python 版本 提供现代化的 Hadoop 数据分析能力,包括: - HDFS 文件系统操作(多种后端支持) - MapReduce 作业执行(Hadoop Streaming 和 PySpark) - 统一的配置管理 - 同步和异步 API - 丰富的错误处理和重试机制 模块结构: - config: 配置管理模块 - hdfs_operations: HDFS 文件系统操作(现代化版本) - mapreduce: MapReduce 作业实现 - wordcount_streaming: Hadoop Streaming 方式的词频统计 - wordcount_spark: PySpark 方式的词频统计(现代化版本) - utils: 工具函数 """ from .config import ( ConfigurationManager, HDFSConfig, SparkConfig, MapReduceConfig, GlobalConfig, BackendType, OutputFormat, InputFormat, get_config, load_config, ) from .hdfs_operations import ( HDFSOperations, BackendType, FileStatus, create_hdfs_client, ) from .mapreduce.wordcount_streaming import WordCountStreaming from .mapreduce.wordcount_spark import ( WordCountSpark, WordCountResult, OutputFormat, InputFormat, ) __all__ = [ # 配置管理 'ConfigurationManager', 'HDFSConfig', 'SparkConfig', 'MapReduceConfig', 'GlobalConfig', 'BackendType', 'OutputFormat', 'InputFormat', 'get_config', 'load_config', # HDFS 操作 'HDFSOperations', 'FileStatus', 'create_hdfs_client', # MapReduce 'WordCountStreaming', 'WordCountSpark', 'WordCountResult', ] __version__ = '0.2.0'