返回项目列表
工具完成

Kenshi Wiki 数据爬取与清洗

对 Kenshi 游戏维基数据的系统性爬取、清洗与整理,构建结构化的游戏知识数据集。

Pythoncurl_cffiBeautifulSoupProxy

概述

对 Kenshi 游戏 Wiki 进行系统性数据采集,涵盖阵营(factions)、世界书(worldbook)等核心游戏数据。项目重点是爬虫的匿名性与数据清洗的完整性。

爬虫方案

匿名爬虫

实现了多层匿名保护:

层级方案
指纹伪装curl_cffi 模拟 Chrome 131 TLS 指纹
IP 隐藏免费代理池自动轮换,支持 Tor 网络
行为模拟2-5 秒智能延迟 + 30% 概率人类长延迟
失效恢复自动检测并移除失效代理,自动重试

多轮爬取

采用渐进式策略:快速爬取 → 安全爬取 → 深度爬取 → 链接发现 → 补充爬取,确保数据覆盖完整。

数据清洗

清洗流程包括:

  • 加载多轮爬取结果并合并
  • 去重(基于页面标题与内容哈希)
  • 清洗无效字段与格式统一
  • 输出结构化的 JSON 数据集(all_factions.jsonkenshi_worldbook.json 等)

输出成果

  • all_factions.json — 阵营结构化数据
  • kenshi_worldbook.json — 世界书条目
  • kenshi_full_data.json — 完整数据集
  • kenshi_clean_database/ — 清洗后的分类输出