概述
对 Kenshi 游戏 Wiki 进行系统性数据采集,涵盖阵营(factions)、世界书(worldbook)等核心游戏数据。项目重点是爬虫的匿名性与数据清洗的完整性。
爬虫方案
匿名爬虫
实现了多层匿名保护:
| 层级 | 方案 |
|---|---|
| 指纹伪装 | curl_cffi 模拟 Chrome 131 TLS 指纹 |
| IP 隐藏 | 免费代理池自动轮换,支持 Tor 网络 |
| 行为模拟 | 2-5 秒智能延迟 + 30% 概率人类长延迟 |
| 失效恢复 | 自动检测并移除失效代理,自动重试 |
多轮爬取
采用渐进式策略:快速爬取 → 安全爬取 → 深度爬取 → 链接发现 → 补充爬取,确保数据覆盖完整。
数据清洗
清洗流程包括:
- 加载多轮爬取结果并合并
- 去重(基于页面标题与内容哈希)
- 清洗无效字段与格式统一
- 输出结构化的 JSON 数据集(
all_factions.json、kenshi_worldbook.json等)
输出成果
all_factions.json— 阵营结构化数据kenshi_worldbook.json— 世界书条目kenshi_full_data.json— 完整数据集kenshi_clean_database/— 清洗后的分类输出