返回项目列表

工具完成

Kenshi Wiki 数据爬取与清洗

对 Kenshi 游戏维基数据的系统性爬取、清洗与整理，构建结构化的游戏知识数据集。

Pythoncurl_cffiBeautifulSoupProxy

概述

对 Kenshi 游戏 Wiki 进行系统性数据采集，涵盖阵营（factions）、世界书（worldbook）等核心游戏数据。项目重点是爬虫的匿名性与数据清洗的完整性。

爬虫方案

匿名爬虫

实现了多层匿名保护：

层级	方案
指纹伪装	curl_cffi 模拟 Chrome 131 TLS 指纹
IP 隐藏	免费代理池自动轮换，支持 Tor 网络
行为模拟	2-5 秒智能延迟 + 30% 概率人类长延迟
失效恢复	自动检测并移除失效代理，自动重试

多轮爬取

采用渐进式策略：快速爬取 → 安全爬取 → 深度爬取 → 链接发现 → 补充爬取，确保数据覆盖完整。

数据清洗

清洗流程包括：

加载多轮爬取结果并合并
去重（基于页面标题与内容哈希）
清洗无效字段与格式统一
输出结构化的 JSON 数据集（all_factions.json、kenshi_worldbook.json 等）

输出成果

all_factions.json — 阵营结构化数据
kenshi_worldbook.json — 世界书条目
kenshi_full_data.json — 完整数据集
kenshi_clean_database/ — 清洗后的分类输出