微软开源的 MarkItDown：一行命令搞定任意格式转 Markdown

原文来源：来源：

你有没有过这种经历——客户发来一份 Word 文档，你想提取里面的文字到笔记里，结果复制粘贴过来格式全乱。或者收到一份 PDF，想用 AI 处理一下，结果发现 AI 读不了 PDF 里的表格。

每次遇到这种事，不是去搜在线转换网站，就是装各种格式转换工具。

微软最近开源了一个工具，一行命令就把这事彻底解决了。

它叫 MarkItDown——把任意文件格式转成干净的 Markdown。

它到底能干什么？

一句话：你丢给它什么文件，它都给你吐出干净的 Markdown。

支持的格式包括：

基本上，你能想到的格式它都支持。

安装就一行：

pip install markitdown

命令行用：

markitdown 你的文件.pdf > 输出.md

Python 里用：

from markitdown import MarkItDown
md = MarkItDown()
result = md.convert("你的文件.pdf")
print(result.text_content)

MarkItDown 有两个能力，让它不只是"又一个转换工具"。

MarkItDown 现在有官方的 MCP Server（Model Context Protocol），可以直接接入 Claude Desktop 等支持 MCP 的 AI 客户端。

什么意思？你在跟 Claude 聊天的时候，可以直接让它读取并转换你本地的文件——不用你提前手动处理。

对话流程不中断，文件转换在后台自动完成。

以前的工作流：收到文件 → 手动转格式 → 粘贴到 AI 对话框 → 处理

现在的工作流：收到文件 → 直接告诉 AI "帮我处理这个文件" → 搞定

0.1.0 版本引入了第三方插件支持。比如 markitdown-ocr 插件，可以给 PDF、Word、PPT、Excel 里的嵌入图片加上 OCR 能力，用 LLM Vision 提取图片中的文字。

这意味着：哪怕你的 PDF 里有扫描件截图，它也能把文字抠出来。

能力	MarkItDown	pandoc	在线转换网站
安装方式	`pip install` 一行搞定	需要单独安装	不用装，但要上传文件
格式支持	PDF/Word/Excel/PPT/图片/音频/YouTube	文档互转为主	通常只支持一两种
AI 集成	MCP Server 直连 Claude 等 AI	无	无
插件扩展	支持第三方插件	有限	无
隐私	本地运行，文件不上传	本地运行	文件上传到第三方服务器

核心差异：MarkItDown 是为 AI 时代设计的转换工具。 它不只是转换格式，而是让 AI 能直接消费你的文件。

如果你满足以下任意一条，现在就该装：

一行命令的事：

pip install markitdown

装完你就知道，以前花在格式转换上的时间，全浪费了。