社区
把一份乱糟糟的 PDF 变成干净 Excel,再顺手出一份分析报告 —— 用 Codex

活儿从来不是「把这份 PDF 转成表格」。那只是看得见的一半。真正要的是后面那个问题:哪个供应商花得最多、这几个月的趋势是涨是跌、哪几笔明显异常。一行行照着敲进 Excel,是最慢、最容易错、也最不该由人来干的那部分 —— 而它恰好可以整段交出去。用 Codex 这类会写代码的 agent,同一个会话里就能:读文档、生成一份干净的 Excel、再在上面把分析直接写出来。第一次大概 20-30 分钟,提示词调顺手之后更快。
能成的关键是:Codex 不只是跟你聊天 —— 它在本地沙箱里真的跑代码(Python、pandas、openpyxl),读你硬盘上的文件,再把一个真正的 .xlsx 写回你指定的文件夹。这一过程完全不需要你懂 Python,你只负责说清要哪些列、然后核对结果。
你能扔给它什么
源文件长什么样,没你想的那么要紧。常见几种:
- 带表格的电子版 PDF —— 银行对账单、发票、各种导出报表。文字可选中,抽取几乎无损。
- 扫描件 PDF,或者直接拍的一张表 —— 要先过一遍 OCR。干净的扫描件准确率不错,皱巴巴的报销小票就得多核对几眼。
- 一堆文件 —— 十二个月的月度对账单、一整个文件夹的 CSV。Codex 能挨个遍历,再把结果摞进同一张表。
- 别人已经做好的一张烂表 —— 合并单元格、合计行混在数据里、三行表头。把这种表清干净,往往比抽取本身更值。
实操步骤
前置: 装好 Codex CLI 或桌面端,源文件存在能指到的地方(比如 ~/Downloads/duizhang.pdf)。第一次大概 20-30 分钟。
Step 1 —— 抽成一张干净的表。 开 Codex 会话,别只说「转一下」,要把你想要的「形状」说死:
读 ~/Downloads/duizhang.pdf。把每一笔交易抽成一张表,列就要这几个:日期(YYYY-MM-DD)、摘要、类别、金额(纯数字、不要货币符号)。跳过小计行和表头行。先把前 10 行给我看,别急着写文件。
先让它把前几行给你看,是整套里最关键的一招 —— 你能在错位的一列或者错位的合计扩散到 400 行之前就抓住它。把列名一个个点明,能挡住 agent 自己瞎编一套字段。
Step 2 —— 核对抽取结果。 别跳这步。几个能拦下大部分错误的快检:
- 行数 —— 「你抽了多少行?」跟源文件粗数一下对一对。
- 合计 —— 「把金额列加总,跟 PDF 上印的合计对得上吗?」对不上,通常是合计行漏进了数据,或者跨页表格掉了一页。
- 抠两头 —— 拿首尾几行跟原文件肉眼对一遍。日期格式、负数(退款、红冲)是惯犯。
Step 3 —— 写成带格式的 Excel。 表对了之后:
把这张表写到 ~/Desktop/jiaoyi.xlsx。表头行加粗、冻结首行、金额列设成保留两位小数的货币格式、最底下加一行合计。
你拿到的是一个真正的电子表格 —— Excel、Numbers、WPS、腾讯文档都能直接打开 —— 不是一个你还得再清一遍的 CSV。
Step 4 —— 别停在表格,让它出分析。 这一步它才从「转换工具」变成别的东西。干净数据已经在会话里了,所以直接说:
现在分析这份数据。按类别汇总总额、金额前 5 的供应商、环比逐月趋势,再把任何超过中位数 2 倍的交易标出来。每一项单独放一个工作表,给「按类别支出」配一张柱状图,最后在第一个工作表里写一段 5 条要点的大白话总结。
回来的是一个带透视、带图表、带文字结论的工作簿 —— 也就是那份 PDF 一直挡在你和它之间的东西。哪个角度看着没用,就让它换一个;数据不动,动的只是问题。
变体
- 银行 / 信用卡账单 → 一张消费全景 —— 先给交易分类,再要月度合计和涨得最快的那几类
- 十二份月报 → 一条趋势 —— 把文件夹指给 Codex,让它摞起来加一列
月份,再把全年趋势画成图 - 一份问卷 CSV → 一张数字小结 —— 计数、百分比、按人群分的交叉表,导成一张干净的汇总工作表
- 报销拍照 / 扫描的表 → 电子版 —— 先过 OCR,核对要更狠(Step 2 在这里尤其重要),之后照常走
哪里不适合用它
- 任何要法律级精确的东西 —— 报税、过审的财务数字:agent 是又快又好的第一遍,不是最终拍板。一定回到源文件再核一遍。
- 数据是真的大 —— 几十万行往上,你要的是数据库和 SQL,不是电子表格
- 一份你这辈子每周都要重出的报表 —— 如果是真正周期性的,让 Codex 给你写一个小脚本反复跑,而不是每次重开一轮对话
- 版面本身就是意义的文档 —— 合同、带条件逻辑的表单;抽成一张表,恰好丢掉了那个有意义的部分
别信我们的,你自己试试
花 ¥10,看 Codex / Claude 真帮你做件事——把一件重复的活自动化、做个能用的小网页,或写个小工具,一个真任务绰绰有余。
3 天有效 · 含 2 张配图 · 一把 key,Claude 和 Codex 都能用
新文章第一时间发到你邮箱
新教程、实战笔记,偶尔聊聊产品更新。不发垃圾,随时退订。