文档处理
低风险
PDF 处理
读取、提取、拆分、合并、旋转、水印、填写、OCR 或创建 PDF 文件,并验证页数与文本提取结果。
文件预览
1 个文件
SKILL.md
1.2 KB · 可预览
---
name: pdf
description: Read, extract, split, merge, rotate, watermark, fill, OCR, or create PDF files with verification of page counts and text extraction.
---
# PDF
Use this skill for any task where a PDF is the primary input or output.
## Workflow
1. Identify the PDF operation: read, extract, OCR, split, merge, rotate,
watermark, redact, fill forms, encrypt/decrypt, or create.
2. Preserve originals. Write outputs with explicit names.
3. Use the most reliable available tool:
- DeepSeek's file reader for basic text extraction from PDFs
- `pdftotext`, `pdfinfo`, `qpdf`, or `mutool` when installed
- Python libraries such as `pypdf`, `pdfplumber`, `PyMuPDF`, or
`reportlab` when available
- OCR tools only for scanned pages
4. For extraction, report page coverage and note when layout, tables, or OCR
quality may affect accuracy.
5. For generated or modified PDFs, verify page count, text extraction where
possible, and file size. For redaction, confirm removed text is not
extractable from the output.
Ask before installing dependencies or running OCR over large documents. Do not
represent a visually scanned PDF as fully accurate text unless OCR quality has
been checked.
SKILL.md
元数据
| name | |
|---|---|
| description | 读取、提取、拆分、合并、旋转、水印、填写、OCR 或创建 PDF 文件,并验证页数与文本提取结果。 |
当 PDF 是主要输入或输出时,使用此技能。
工作流程
- 确定 PDF 操作:读取、提取、OCR、拆分、合并、旋转、水印、遮盖、填写表单、加密/解密或创建。
- 保留原始文件。使用明确的名称写入输出。
- 使用最可靠的工具:
- DeepSeek 的文件读取器,用于从 PDF 中提取基本文本
- 已安装的
pdftotext、pdfinfo、qpdf或mutool - 可用的 Python 库,如
pypdf、pdfplumber、PyMuPDF或reportlab - OCR 工具仅用于扫描页面
- 对于提取,报告页面覆盖情况,并注意当版面、表格或 OCR 质量可能影响准确性时。
- 对于生成或修改的 PDF,验证页数、尽可能进行文本提取,并检查文件大小。对于遮盖,确认遮盖的文本无法从输出中提取。
安装依赖项或对大型文档运行 OCR 之前请先询问。除非已检查 OCR 质量,否则不要将视觉扫描的 PDF 表示为完全准确的文本。