每周一个MCP：Skill Seekers

TL;DR

Skill Seekers 是一个自动化工具，可以将文档网站、GitHub 仓库和 PDF 文件快速转换为 Claude AI 技能，通过自动化冲突检测和AI增强技术，大幅减少手工整理和理解文档所需的时间（20-40 分钟内生成生产就绪的Claude技能）。

核心功能

文档爬取：支持任何文档网站，智能分类，识别多种编程语言，支持多种预设（Godot、React 等）。
PDF 支持：文本、代码、表格提取支持OCR功能，支持加密PDF解密处理。
GitHub 爬取：深层代码分析、API 提取、Issue和PR获取、文档与代码冲突检测。
多源统一爬取：文档、GitHub、PDF整合，自动检测文档与代码差异并生成清晰报告。
AI 增强：通过 Claude 提取最佳代码示例与关键概念，生成高质量技能说明文档，支持本地增强无需额外API成本。
性能优化：支持异步爬取、进度保存、智能缓存，大型文档处理能力（10K-40K+ 页）。
快速处理工作流：提供简单配置文件与交互模式快速创建技能，支持 CLI 脚本或 Claude MCP 服务自然语言交互操作。

使用场景

开发者：从文档和仓库生成技能并检测冲突。
游戏开发者：Godot、Unity等引擎帮助生成技能。
团队协作：将内部文档与代码整合为单一知识来源。
学习者：从多来源创建全面技能内容。
开源项目：分析仓库查找文档缺失或过时部分。

快速使用指南

目前支持在线文档、PDF、GitHub仓库三种类型的技能，可以通过下面的两种方式来生成对应的技能。

注意：要提供GITHUB_TOKEN，否则会容易触发github的api ratelimit。

方式一：Step by Step

克隆项目：git clone https://github.com/yusufkaraaslan/Skill_Seekers.git
搭建环境： uv python list uv python install 3.12 uv venv .venv --python 3.12 创建虚拟环境并安装依赖。
一键安装：运行 ./setup_mcp.sh 设置环境。
示例生成 React 技能：使用一个config json文件来包含相关的资源信息（文档，pdf，github仓库） a. 文档爬取：uv run python cli/doc_scraper.py --config configs/react.json
b. PDF 支持：增加 --pdf 参数支持表格及 OCR 提取。
c. GitHub 爬取：uv run python cli/github_scraper.py --repo facebook/react。
d. 多源整合爬取与冲突检测：uv run python cli/unified_scraper.py --config configs/myframework_unified.json。
打包并上传：uv run python cli/package_skill.py output/react/ 上传至 Claude AI 即完成技能创建。

case： Hugo 文档

1
uv run python cli/github_scraper.py --config configs/hugo.json

hugo.json如下：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
{
  "name": "hugo",
  "repo": "gohugoio/hugoDocs",
  "description": "Hogo Documentation",
  "github_token": "YOUR_GITHUB_TOKEN",
  "include_issues": true,
  "max_issues": 100,
  "include_changelog": true,
  "include_releases": true,
  "include_code": true,
  "file_patterns": [
    "content/**/*.md"
  ]
}

1
uv run python cli/package_skill.py output/hugo/

将在./output/hugo.zip中生成技能zip文件。把hugo.zip文件解压到.claude/skills目录下,重启claude code即可。

方式二：使用Claude Code来生成skill zip

克隆项目：git clone https://github.com/yusufkaraaslan/Skill_Seekers.git
搭建环境： uv python list uv python install 3.12 uv venv .venv --python 3.12 创建虚拟环境并安装依赖。
一键安装：运行 ./setup_mcp.sh 设置环境。
进入claude code，运行下面的prompt，claude code会帮助完成剩下的事情。

Prompt例子

在Skill-seekers目录下，打开claude code，键入下面的prompt cases:

case 1: 只有在线文档

1
Generate a claude-skills skill from https://docs.claude.com/en/docs/agents-and-tools/agent-skills/ and https://github.com/anthropics/claude-cookbooks/tree/main/skills

case 2：PDF文档和Github 仓库

1
2
3
4
5
6
为我的项目创建一个综合技能，结合：
- PDF 手册：./pdf/2510-ACE.pdf
- GitHub 仓库：suzgunmirac/dynamic-cheatsheet

配置名称：ace
合并模式：rule-based

case 3：在线文档，PDF文档和Github 仓库

1
2
3
4
5
6
7
为我的项目创建一个综合技能，结合：
- 在线文档：https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B 和 https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
- PDF 手册：./pdf/2510-tongyi-deepresearch-tech-report.pdf
- GitHub 仓库：Alibaba-NLP/DeepResearch

配置名称：tongyi_deepresearch
合并模式：rule-based

1
2
3
4
5
6
Generate a cc_infro skill from
- online doc：https://www.reddit.com/r/ClaudeAI/comments/1oivjvm/claude_code_is_a_beast_tips_from_6_months_of/
- GitHub repo：diet103/claude-code-infrastructure-showcase

config name：cc_infro
merge_mode：rule-based

总结

Skill Seekers 是一款高效强大的工具，适合开发者和开源爱好者快速从文档、代码和PDF生成高质量的 Claude AI 技能。

Skills Seeker 技术白皮书

1.0 引言：弥合知识与AI能力之间的鸿沟

在当今快节奏的开发周期中，代码实现与文档更新之间的滞后造成了关键的知识鸿沟。这一鸿沟催生了过时的AI助手、低效的团队入职流程和有缺陷的内部工具。开发团队面临的核心挑战在于：如何将海量的、分散的内部和外部技术文档——如框架文档、代码库、PDF手册——高效、准确地转化为AI可用的结构化知识。

传统上，手动创建和维护AI技能（Skills）是一个劳动密集型过程，不仅耗费巨大的时间成本，还极易引入人为错误。为应对这一挑战，我们推出了Skill Seeker，一个旨在彻底改变这一流程的创新自动化解决方案。通过该工具，您的团队能够从文档网站、GitHub仓库和PDF文件中自动提取、分析、增强并打包知识，在短短 20至40分钟内（而非数小时的手动工作）生成生产就绪（production-ready）的Claude AI技能。

本文档的目标是为软件开发人员和技术负责人提供一份关于Skill Seeker的深度技术剖析，详细阐述其系统架构、核心功能、革命性特性以及企业级应用的最佳实践。通过本文，您将全面了解如何利用Skill Seeker赋能团队，构建高质量、高时效性的定制化AI知识库。接下来，我们将首先探讨该工具背后的核心设计理念。

2.0 核心理念与架构：从数据抓取到智能封装

Skill Seeker的核心设计哲学超越了简单的数据抓取。它的目标是构建一个从多源信息输入到生成生产就绪的Claude AI技能的端到端自动化工作流，其核心信条包括了对代码的深度分析和对文档-代码冲突的自动检测。这一理念对于确保AI知识库的准确性、时效性和完整性具有重大的战略意义，它将繁琐的手动整理工作转变为一个可重复、可扩展的工程化流程，为后续的革命性功能奠定了基础。

该工具的架构围绕一个清晰的四阶段工作流构建，确保从原始数据到最终技能包的每一步都高效且智能。

第一阶段：智能抓取 (Scrape) 此阶段是整个流程的起点。Skill Seeker的抓取引擎能够从多种数据源提取原始数据，包括公开的文档网站、GitHub代码仓库以及本地或远程的PDF文件。它通过智能算法识别主要内容区域，过滤无关信息，为后续处理提供纯净、高质量的原始语料。
第二阶段：智能分类 (Categorize) 原始数据抓取完成后，系统进入智能分类阶段。它利用URL结构、页面标题和内容关键词等信息，自动将抓取到的海量内容组织成有逻辑、有意义的主题。例如，它能自动区分API参考、入门指南、高级教程等不同类别，为最终用户和AI模型创建一个清晰的知识结构。
第三阶段：AI深度增强 (Enhance) 这是将原始数据转化为高质量知识的关键步骤。Skill Seeker利用本地运行的Claude Code Max模型，对已分类的文档进行深度分析。AI会识别并提取出最具代表性的代码示例、总结核心概念和最佳实践，最终生成一个内容丰富、结构清晰的SKILL.md文件。这一过程无需任何外部API调用，兼顾了成本与效率。
第四阶段：自动化打包 (Package) 最后，系统会将AI增强后的SKILL.md文件、所有分类好的参考文档以及其他必要文件，自动打包成一个符合Claude平台标准的.zip技能包。这个技能包可以被直接上传至Claude，立即可用，极大地简化了部署流程。

这个四阶段架构构成了一个从原始信息到可用AI能力的无缝管道，其先进的设计确保了流程的自动化、智能化和可扩展性。下一章节将对每个功能模块进行更深入的技术剖析。

3.0 深度解析：多源数据抓取引擎

一个强大、灵活的数据抓取引擎是构建高质量技能的基石。Skill Seeker引擎的核心优势在于其卓越的多源适应性，能够无缝整合来自不同格式和平台的知识，为后续的分析、增强和冲突检测提供坚实、全面的数据基础。

3.1 文档网站抓取

Skill Seeker为通用文档网站提供了高度优化的抓取能力，其设计旨在实现速度与普适性的完美平衡。

llms.txt支持：此特性是性能提升的关键。当目标网站提供llms.txt或类似文件（一个为大型语言模型优化的站点地图）时，Skill Seeker能够优先使用它，从而将抓取速度提升高达10倍。它绕过了传统的页面爬取和链接发现过程，直接获取核心内容列表。
通用抓取器：在没有llms.txt的情况下，其通用抓取器依然能适用于任何文档网站。通过智能内容选择器和URL模式匹配，它能够精准地提取目标内容，过滤掉导航栏、页脚等无关元素。
智能分类与代码语言检测：在抓取过程中，工具会自动根据URL和内容对文档进行分类，并检测代码块所使用的编程语言（如Python, JavaScript等）。这些自动化功能极大地减少了手动配置的复杂性，使开发者能够快速上手。

3.2 PDF文档处理 (v1.2.0新增)

在v1.2.0版本中，Skill Seeker引入了强大的PDF处理模块，能够将静态的PDF文档转化为动态的AI知识。其关键功能包括：

基础与OCR文本提取：不仅能处理包含可选文本的普通PDF，还集成了光学字符识别（OCR）功能，可以从扫描版的PDF图像中提取文本。
表格与加密文件支持：能够精准提取PDF中的复杂表格，并支持处理受密码保护的加密文档，确保了对企业内部常见文档格式的兼容性。
并行处理与智能缓存：为了应对大型PDF文件，该模块采用了并行处理技术，可将处理速度提升3倍。同时，智能缓存系统使得在重新运行时，速度能够再提升50%，极大地优化了处理大型技术手册或报告时的效率。

3.3 GitHub仓库分析 (v2.0.0新增)

v2.0.0版本的核心升级是引入了对GitHub仓库的深度分析能力。这使得Skill Seeker能够直接从代码的“最终事实来源”中提取知识，而不仅仅依赖于文档。

提取内容技术实现简述对开发者的核心价值深度代码分析 AST解析（支持Python, JavaScript, TypeScript, Java, C++, Go等）与简单的文本匹配不同，AST解析构建了代码的结构化表示，使Skill Seeker能够理解函数、类和参数之间的真实语义关系，从而实现远比传统方法更精确的API提取。 API定义提取函数、类、方法及其参数和类型自动生成最准确、最新的API参考，彻底摆脱手动整理的繁琐工作。仓库元数据 README, 文件树, 语言分布等帮助开发者快速掌握项目的宏观结构、技术栈和核心信息。 Issues与PRs 抓取开放/关闭的Issues及标签深入了解项目的当前状态、常见问题和社区的开发动态。版本历史 CHANGELOG与Releases 自动追踪API的演进和变更历史，确保技能知识的时效性。

虽然这些独立的数据连接器已非常强大，但它们仅仅是铺垫。Skill Seeker的真正创新之处在于，它强制这些信源进行融合，以揭示软件质量面临的最关键威胁：文档与代码之间的脱节。

革命性功能：统一多源抓取与冲突检测

软件开发领域一个长期存在的痛点是：“文档与代码的脱节”。随着项目的快速迭代，文档往往滞后于代码的实际变更，导致信息孤岛和知识陈旧，最终严重影响开发效率和产品质量。Skill Seeker的统一多源抓取功能正是为了解决这一顽疾而设计的，它能够将文档、代码和PDF等多种信源整合为一个“单一事实来源 (Single Source of Truth)”。

在此基础上，Skill Seeker引入了其最具革命性的“冲突检测”机制。该机制能够自动对比来自文档的描述和来自代码的实际实现，并以清晰、可操作的方式报告它们之间的差异。

Skill Seeker能够自动识别以下四种核心冲突类型：

🔴 代码中缺失 (Missing in code)：高风险。文档中定义了某个API或功能，但在代码库中并未找到相应的实现。这可能意味着功能已被移除但文档未更新，或者是一个从未实现过的“幽灵功能”。
🟡 文档中缺失 (Missing in docs)：中等风险。代码中存在某个API或功能，但在文档中却找不到任何描述。这通常是新功能未及时文档化，会给新用户带来困惑。
⚠️ 签名不匹配 (Signature mismatch)：代码中函数或方法的参数、类型或返回值与文档中的描述不符。这是最常见的错误之一，极易导致API误用。
ℹ️ 描述不匹配 (Description mismatch)：文档中描述的功能目的（例如，“返回用户ID”）与其实际实现或代码注释（例如，代码实际返回一个完整的用户对象）存在偏差。

为了让开发者能够直观地定位问题，Skill Seeker会生成一份透明的并排对比报告。以下是一个“签名不匹配”冲突的示例：

1
2
3
Documentation says:

Code implementation:

这种报告方式让问题一目了然，开发者可以立即采取行动来修正文档或代码。

最终，冲突检测机制将文档从一个静态的产物转变为CI/CD流水线中一个动态的、可测试的组件，从而在团队中培养一种代码与其人机可读契约持续对齐的文化。在确保了数据源的准确性之后，下一步就是通过AI技术进一步提升内容的质量。

5.0 AI增强与性能优化

仅仅抓取和整合原始数据是不够的。这些数据虽然全面，但往往缺乏组织性、深度和易用性。本章节将揭示Skill Seeker如何通过先进的AI技术和精细的性能优化，将原始数据“精炼”成高质量、易于使用的知识，并确保整个过程高效、可靠。

5.1 AI驱动的内容增强

AI增强模块是Skill Seeker价值链中的关键一环，它负责将结构化的数据转化为富有洞察力的指南。

本地化处理：一个核心优势是，增强过程完全在本地使用Claude Code Max模型完成。这意味着用户无需支付任何API调用费用，同时保证了数据的私密性和处理速度。
质量飞跃：AI增强带来的效果是显著的。一个具体的例子是，该模块能够将一个仅有75行的基础模板SKILL.md文件，自动扩展成一个超过500行的综合性技术指南。这种数量级的提升背后是质的飞跃。
核心产出：经过AI增强的SKILL.md文件通常包含以下关键内容：
- 最佳代码示例：从文档中提取的最具实践价值和代表性的代码片段。
- 快速参考：为核心API和功能生成简洁明了的速查表。
- 关键概念：对领域内的核心术语和概念进行清晰的解释。
- 导航指南：为不同水平的用户（初学者、中级、高级）提供学习路径建议。

5.2 性能与可扩展性设计

为了处理从小型项目到企业级大规模知识库的各种场景，Skill Seeker在性能和可扩展性方面进行了深度优化。

最显著的性能提升来自于其双模式抓取引擎。下表对比了两种模式的性能指标：

模式性能表现内存占用推荐使用场景同步模式 (Sync) ~18 页/秒 ~120 MB 小型文档库 (< 100页)，或需要简单调试的场景。异步模式 (Async) ~55 页/秒 (快3倍) ~40 MB (少66%) 任何大型文档库 (500+页)，或在网络延迟较高的环境中。

除了异步模式，Skill Seeker还集成了另外两项关键的可靠性功能：

断点续传 (Checkpoint/Resume)：确保长时间抓取任务的进度永不丢失。对于耗时数小时的大规模抓取任务，该功能可以自动保存进度。如果任务被意外中断（包括用户按下Ctrl+C），用户可以使用–resume标志从上一个检查点继续，而无需从头开始，极大地保障了任务的稳健性。
智能缓存 (Caching System)：首次抓取的数据会被缓存下来。这意味着开发者可以反复调整分类规则、修改增强逻辑并快速重新构建技能，而无需每次都重新抓取数据，极大地提升了迭代效率。

在掌握了这些核心技术之后，我们可以进一步探索如何将其应用于更复杂的企业级场景，并遵循最佳实践来最大化其价值。

6.0 高级应用与最佳实践

本章节旨在为技术负责人和高级开发人员提供超越基础应用的指导。我们将重点介绍如何利用Skill Seeker处理企业级的复杂场景，并将其无缝集成到现代化的开发工作流中，从而最大化其生产力价值。

6.1 大规模文档处理策略

当面对一个拥有数万页（例如10K-40K页）的庞大知识库时，单体式的技能构建方式不再适用。Skill Seeker为此提供了一套系统性的处理策略。

首先，estimate_pages.py工具在规划阶段扮演着至关重要的角色。它可以在几分钟内快速扫描目标文档，预估总页数和抓取时间，帮助团队合理规划资源。

其次，对于超大规模文档，推荐采用router（路由/中心辐射型）分割策略。该策略的工作原理如下：

分解 (Decomposition)：将一个庞大的知识库（如Godot引擎文档）智能地分解为多个主题更专注的子技能（如godot-scripting、godot-2d、godot-physics等）。
并行处理 (Parallelization)：每个子技能可以独立、并行地进行抓取和构建，将原先可能需要数十小时的单线程任务，缩短到数小时内完成。
智能路由 (Intelligent Routing)：系统会自动创建一个中心的“路由技能”（Hub Skill）。当用户向AI提问时，这个中心技能会首先被激活，它的唯一职责是分析用户意图，然后将请求智能地分发给最相关的子技能进行处理。

这种策略带来了显著的好处：提升了抓取效率，并且通过创建更小、更专注的子技能，有效避免了AI模型的上下文稀释问题。这使得AI在特定领域（如物理或脚本）内的响应速度更快、准确性更高、相关性也更强，最终改善了终端用户体验。

6.2 与Claude Code的无缝集成 (MCP)

Skill Seeker与Claude Code的MCP (Model Context Protocol)服务器集成，为开发者提供了一种颠覆性的交互体验。通过将复杂的操作封装成自然语言指令，它极大地降低了工具的使用门槛。

以下是传统CLI方式与现代MCP方式的对比：

传统方式 (CLI):
MCP方式 (在Claude Code中):

MCP集成不仅是操作上的简化，更是一种战略性的提升。它使得非专家用户也能轻松创建和管理AI技能，让整个团队都能参与到AI知识库的共建中，从而将开发者的精��解放出来，更专注于高价值的创造性工作。

6.3 推荐工作流程

为了给不同需求的用户提供清晰的实践指南，我们总结了三种核心工作流：

首次完整流程 (约21-41分钟) 这是从零开始创建高质量技能的标准流程，包含了数据抓取、技能构建和本地AI增强的全过程。适用于初次为一个新框架或项目创建技能。
基于缓存的快速迭代 (约2-4分钟) 当您需要调整技能的结构或AI增强的逻辑时，此工作流最为高效。它会跳过耗时的抓取步骤，直接利用本地缓存的数据进行重新构建和增强，非常适合快速原型设计和优化。
基础构建流程 (约20-40分钟) 此流程仅包含抓取和构建步骤，不进行AI增强。适用于那些只需要基础文档索引，或者希望后续手动编写SKILL.md的场景。

这些高级功能与最佳实践将Skill Seeker从一个简单的工具提升为一个强大的知识工程平台。接下来，我们将提供一个快速上手指南，帮助您立即开始实践。

7.0 快速上手指南

本章节旨在提供一个清晰、可操作的步骤指南，帮助新用户在15-30分钟内完成首次环境设置，并成功创建您的第一个AI技能。

先决条件

在开始之前，请确保您的系统中已安装以下软件：

Python 3.10 或更高版本
Git

核心安装与设置

我们强烈推荐使用集成了MCP服务器的一键设置脚本，因为它提供了最流畅、最强大的用户体验。

克隆代码仓库打开您的终端，运行以下命令克隆项目到本地：
进入项目目录
执行一键设置脚本 (推荐) 此脚本会自动为您设置好虚拟环境、安装依赖项并配置MCP服务器。
(此脚本将配置MCP服务器，实现第6.2节中展示的强大的自然语言交互功能)

简单命令行示例

如果您更喜欢使用传统的命令行界面，以下命令将使用预设的React文档配置来生成一个技能，并启用免费的本地AI增强功能。

例子：使用React预设配置生成技能，并启用本地AI增强

1
python3 cli/doc_scraper.py --config configs/react.json --enhance-local

这个命令会使用React的预设配置来抓取文档并启用本地AI增强功能。更多配置选项和示例请参考Skill_Seekers的README.md文件。

上传技能到Claude

技能生成后（通常位于output/目录下，并打包为.zip文件），您可以通过以下方式上传到Claude平台：

自动上传：通过配置Anthropic API密钥，使用upload_skill.py脚本或在MCP中直接请求上传。
手动上传：访问Claude官网的技能管理页面，手动上传生成的.zip文件。

为了获得更详尽的指导，我们鼓励您参考官方仓库中的BULLETPROOF_QUICKSTART.md文档。它包含了从环境安装到首次技能创建的每一步详细说明。

结论：赋能开发者，重塑AI知识工程

Skill Seeker不仅是一个工具，更是对AI时代知识工程的一次重新思考。它的核心价值可以概括为四个关键词：自动化 (Automation)、准确性 (Accuracy)、效率 (Efficiency) 和可扩展性 (Scalability)。

通过自动化地整合多源知识并引入革命性的代码-文档冲突检测机制，Skill Seeker从根本上解决了知识陈旧和信息孤岛的难题。它极大地降低了创建和维护高质量AI技能的门槛，赋予了每一个开发团队构建和维护高度定制化、与业务代码同步的AI知识库的能力。

展望未来，Skill Seeker代表了向“AI知识工程”或“程序化知识管理”的重大转变。它不仅仅是一个工具，更是现代、AI增强型软件开发生命周期中的一个基础构件——在这个新范式中，知识本身被视为代码：可版本化、可测试，并能与最终事实来源自动同步。通过这类智能化的工具链，开发者得以从繁琐的知识工程中解放出来，从而将宝贵的精力更专注于业务逻辑的创新与实现。

Skill Seeker vs Context7

核心对比：Skill_Seekers 是"内部知识资产化"方案（一次性投入 20-40 分钟爬取和打包，适合公司级文档、专有系统、多源整合），Context7 是"开源生态实时同步"方案（无需配置，永远最新，适合主流框架快速迭代开发），两者互补而非竞争——前者管理内部知识库，后者处理外部依赖，可在同一提示中联合使用。1

结合使用的黄金策略

使用阶段	Skill_Seekers	Context7	最佳实践
项目启动	打包内部 API & 架构文档为 Skill	配置 Context7 MCP	同时启用两个知识源
日常开发	作为静态知识库查询	处理实时 API 调用（React/Django 等）	提示中混合使用：`use context7` + 加载 Skill
文档过时	发现冲突时重新生成 Skill	自动获取最新文档	Context7 弥补库更新，Skill_Seekers 保持内部一致性
团队协作	作为共享知识库版本控制	确保所有人用最新官方文档	一份 Skill + 一份 Context7，零混乱

未来发展方向

多源自适应编排：未来工具可能会自动判断"该用哪个源"——Context7 优先处理热门库，Skill_Seekers 接管内部/冷门库，减少手动选择 2
冲突检测云端化：Context7 可能集成 Skill_Seekers 的 AST 冲突检测能力，自动标记"官方文档说的与实际代码不符"1 3
企业级知识融合：Skill_Seekers 朝向更智能的多源合并——同时融合文档、代码、测试、PR 讨论，生成"真实意图"而非"文档承诺"3
实时 Skill 更新：结合两者思想，未来可能出现"动态 Skill"——Skill_Seekers 维护核心结构，但部分内容实时从 Context7 类服务注入，保持 Skill 常青1 2
Agent 路由层：在 Claude Code 中集成智能路由 Agent，自动选择和编排多个 Skill + Context7 + 实时数据源，用户仅需描述需求3

使用建议 在组织中构建三层上下文编排栈：

第 1 层：Context7（开源依赖的最新信息）
第 2 层：Skill_Seekers（内部系统知识库）
第 3 层：自定义 MCP 连接实时数据（配置、Schema、告警）

这样的分层能让 Claude 在面对复杂的混合技术栈时既有最新性，又有准确的内部上下文。4 2 1