每周一个MCP：抖音视频无水印提取MCP服务器

背景

该项目是一个名为 douyin-mcp-server 的开源工具，功能包括从抖音分享链接下载无水印视频、提取音频并使用 AI 语音识别转换为文本。项目特点如下： 🎵 获取抖音无水印视频下载链接 🎧 提取视频音频 📝 转换音频为文本内容 🧹 自动清理临时文件 🔧 支持自定义 API 和模型配置安装方式：支持 uvx（推荐）或 pip。公众号文章：https://mp.weixin.qq.com/s/EDRlIWSX5AKGECmjTPwqIg?scene=1

🎯 核心功能

详细解释这个抖音MCP服务器的功能和技术实现难点：这个MCP服务器实现了一个完整的抖音视频处理工作流：

1. 无水印视频链接解析

从抖音分享文本中提取原始链接
获取真实的无水印视频下载地址
解析视频元数据（标题、ID等）

2. 视频下载与处理

异步下载视频文件
提取音频轨道
音频转文本（语音识别）
自动清理临时文件

3. MCP工具集成

提供4个主要工具函数
支持异步操作和进度报告
资源管理和提示模板

🛠️ 主要技术难点

难点1: 抖音反爬机制绕过

1
2
3
4
# 模拟移动端请求头
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 17_2 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) EdgiOS/121.0.2277.107 Version/17.0 Mobile/15E148 Safari/604.1'
}

技术挑战：

抖音有复杂的反爬机制
需要模拟真实的移动端访问
分享链接会重定向多次

解决方案：

使用真实的移动端User-Agent
跟踪重定向获取真实视频ID
构造标准的视频页面URL

难点2: 动态数据解析

1
2
3
4
pattern = re.compile(
    pattern=r"window\._ROUTER_DATA\s*=\s*(.*?)</script>",
    flags=re.DOTALL,
)

技术挑战：

抖音页面使用JavaScript动态加载数据
数据结构复杂且可能变化
需要从HTML中提取JSON数据

解决方案：

使用正则表达式提取_ROUTER_DATA
处理多种页面类型（video/note）
解析嵌套JSON结构获取播放地址

难点3: 无水印链接获取

1
video_url = data["video"]["play_addr"]["url_list"][0].replace("playwm", "play")

技术挑战：

默认获取的是带水印链接
需要理解抖音的URL结构
确保链接有效性

解决方案：

识别水印标识符playwm
替换为play获取无水印版本
验证链接可访问性

难点4: 异步下载与进度跟踪

1
2
3
4
5
6
7
async def download_video(self, video_info: dict, ctx: Context) -> Path:
    # 异步下载并报告进度
    for chunk in response.iter_content(chunk_size=8192):
        if chunk:
            f.write(chunk)
            downloaded += len(chunk)
            await ctx.report_progress(downloaded, total_size)

技术挑战：

大文件下载需要流式处理
需要实时进度反馈
处理网络中断和错误

解决方案：

使用stream=True进行流式下载
分块处理避免内存溢出
集成MCP的进度报告机制

难点5: 音频提取和文本转换

1
2
3
4
5
6
7
def extract_audio(self, video_path: Path) -> Path:
    (
        ffmpeg
        .input(str(video_path))
        .output(str(audio_path), acodec='libmp3lame', q=0)
        .run(capture_stdout=True, capture_stderr=True, overwrite_output=True)
    )

技术挑战：

依赖外部FFmpeg工具
音频格式转换复杂
语音识别API集成

解决方案：

使用ffmpeg-python库封装操作
标准化音频格式（MP3）
集成SiliconFlow语音识别API

难点6: 资源管理和清理

1
2
3
4
5
def __del__(self):
    """清理临时目录"""
    import shutil
    if hasattr(self, 'temp_dir') and self.temp_dir.exists():
        shutil.rmtree(self.temp_dir, ignore_errors=True)

技术挑战：

大量临时文件需要管理
异常情况下的资源清理
跨平台文件操作

解决方案：

使用tempfile创建临时目录
实现析构函数自动清理
提供手动清理方法

🔧 技术架构亮点

1. MCP框架集成

使用FastMCP简化服务器开发
支持工具、资源和提示模板
自动处理异步和错误管理

2. 模块化设计

DouyinProcessor类封装核心逻辑
功能分离，易于测试和维护
支持配置化的API服务

3. 错误处理

多层次的异常捕获
友好的错误信息返回
资源泄漏防护

这个实现巧妙地解决了抖音反爬、动态数据解析、异步处理等多个技术难点，提供了一个完整的视频处理解决方案。