Back to Blog

如何从图片中提取文字

· 2 min read

如果你有一张收据、发票、名片的照片,或一张满是文字的截图,几秒钟之内就能把里面的每一个字都取出来。不用一个字一个字地手动输入。不用安装复杂的软件。不用画模板。

这篇指南会告诉你如何用 NiceData 从图片中提取文字。NiceData 是把任何文档变成干净、结构化数据的最简单方式,提取出来的数据可以直接用在表格、数据库或者其他任何地方。

为什么要从图片里提取文字?

大多数团队每周都要花好几个小时,把那些早就存在于图片和 PDF 里的信息一个字一个字地重新打一遍。常见的例子:

  • 收据(用于报销)
  • 发票(来自供应商)
  • 名片(在活动上收到的)
  • 手写笔记(开会时记的)
  • 截图(来自邮件或网页)
  • 扫描的表单(客户填写的)
  • 白板的照片(头脑风暴之后)

人工处理又慢又容易出错。自动提取能让你在几秒钟内拿到一样的数据,可以直接放进表格或者发给你的财务软件。

如何用 NiceData 从图片中提取文字

只有三步。整个流程就这些。

第一步:上传图片

登录 NiceData,把图片拖进上传区。可以一次拖一份,也可以一次拖几百份。NiceData 支持 JPG、PNG、GIF、WebP、TIFF 格式的图片,如果你的扫描件是 PDF 格式,也可以。

不需要事先裁剪、旋转或者修整图片。手机拍的照片可以。稍微有点模糊的扫描件也可以。文字、表格、Logo 混在一起的页面也可以。

NiceData 文档页面,左右并排两个选项:左侧是文件拖放上传区域,Upload files 按钮被高亮标出;右侧是该项目专属的电子邮件地址,可用于发送附件。
NiceData 的上传页面。把文件拖进来,或者以邮件附件的形式发送过来。

第二步:让 NiceData 来读

上传一完成,NiceData 就开始读图片。它用 AI 识别图片里的每一个字、数字、日期和金额,并把这些信息整理成你真正能用的干净字段。

不需要在文字周围画框。不需要告诉它总金额在哪里,或者哪一行是日期。即使是它从没见过的文档,它也能自己搞清楚。

大多数图片在不到一分钟内就处理完了。

左侧是一张皱巴巴的纸质装箱单照片,右侧是 NiceData 提取出的数据,整齐地以 JSON 字段呈现,包括发货方地址、公司名称、联系方式、客服留言以及订单明细。
左边是装箱单的实拍照片,右边是 NiceData 从中提取的结构化字段。每一项数据都带着字段名,可以直接使用。

第三步:导出数据

提取完成后,你有几个选择:

  • 在 NiceData 仪表板里查看数据,把需要的部分复制出来。
  • 下载 CSV,用 Excel、Google 表格或 Numbers 打开。
  • 下载 Excel 文件,表头已经排好版,可以直接发给团队。
  • 下载 JSON,方便交给开发人员或者其他工具。
NiceData 的 Export 选项卡,已选中 Download by File 选项,列出了 packing_slip_43871.jpg 文件以及文件大小和时间,右侧的 Download 按钮被高亮标出。
Export 选项卡。一键下载单个文件、某段日期范围内的文件,或者整个项目的所有文件。

就这样。从手机里的一张照片到一份干净的表格,三步搞定。

如何控制提取的内容

默认情况下,NiceData 会读取它在你的图片里能找到的所有内容。如果你只需要某些字段,比如只要订单号和商品描述,可以直接用自然语言告诉它。

打开你项目的 Testing Playground,在文本框里输入你的指令(比如 “Only return order number and item descriptions.”),从那以后,你上传到该项目的每张图片,NiceData 都会按这个指令来处理。

NiceData 的 Packing Slips Template 页面。左侧是一张装箱单的照片,右侧是 Testing Playground 面板,Add Instructions 文本框中输入了 'Only return order number and item descriptions.',下方有 Auto Generate 和 Reset Changes 按钮。
Testing Playground。直接用自然语言描述你想要的数据组织方式。不需要写规则,不需要映射字段。

不用写规则。不用映射字段。不用正则表达式。只要描述你想要的结果,剩下的 NiceData 都会搞定。

为什么 NiceData 是最简单的方式

大多数号称能从图片里提取文字的工具,其实是让你来干活。你得为每种文档建模板。你得用几十个样本训练一个模型,它才会准。你得写规则去找特定字段,或者写代码去调 API,或者注册一个开发者账号,只为了读一张收据。

NiceData 把这些全跳过。你上传图片,NiceData 读取,你下载结果。没有什么要配置的,没有要维护的模板,没有要写的代码。

差别就在这里。其他工具是给大型技术团队做的。NiceData 是给所有手上有文档、又有截止日期的人做的。

你可以上传哪些文件类型

NiceData 能从所有常见的图片和文档格式中读取文字:

  • JPGJPEG(照片和扫描件)
  • PNG(截图和高质量图片)
  • GIF
  • WebP
  • TIFFTIF(扫描仪常用)
  • PDF(单页或多页)

如果你的数据已经是 Word 文档、Excel 文件或 CSV,也可以直接上传。NiceData 对所有格式都一视同仁。

如何导出提取出来的文字

NiceData 读完图片之后,你可以根据接下来要做什么,选择最合适的格式导出。

  • CSV 是想在电子表格里打开数据时的正确选择。每个字段变成一列,每个文档变成一行。
  • Excel 最适合要把文件分享给同事的情况。表头已经排好版,布局干净,可以直接用 Microsoft Excel 或 Google 表格打开。
  • JSON 是开发人员最喜欢的格式。如果你要把数据传给另一个工具、集成或者自定义应用,JSON 最好处理。
  • 从仪表板复制 是一次性任务最快的选项。在 NiceData 里打开文档,复制需要的字段,粘贴到你想要的地方。

你也可以混着用。同一份文档可以导成 CSV 给团队,导成 JSON 给开发人员,不需要多余的步骤。

NiceData 的电子表格预览,分两列显示从装箱单中提取的字段和数值,包含文档类型、订单号、订单日期、运输方式以及数十个订单行项目的属性。
电子表格视图把每个提取出来的字段铺成一行行的数据,可以直接在 Excel 或 Google 表格里打开。
NiceData 的全屏 JSON 预览,显示从装箱单中提取的数据,包含发货方、联系方式、客服留言等嵌套对象,以及包含 SKU、品牌、数量、描述和订阅详情的订单明细数组。
JSON 输出完整保留了文档的结构,包括嵌套的对象和数组,可以直接接入其他工具。

常见问题

可以免费试用吗?

可以。NiceData 提供 14 天免费试用,包含 25 页的提取额度。不需要信用卡。可以先用你自己的文档测试一下,再决定要不要订阅。

我需要会编程吗?

不需要。NiceData 是为从没写过一行代码的人设计的。整个流程都在浏览器里、通过友好的界面完成。如果你会把文件拖进文件夹,你就会用 NiceData。

文字提取的准确度怎么样?

根据我们的经验,非常准。NiceData 用现代 AI 来读取文字,所以处理打印文档、扫描件、照片、甚至大部分手写笔记都没问题。在任何语言的文档上准确度都能保持,包括发票和收据这种文字和数字混排的内容。

支持哪些语言?

任何语言。NiceData 可以读取中文、英语、法语、西班牙语、德语、意大利语、葡萄牙语、日语、韩语和其他几十种语言。你不需要告诉它文档是什么语言。它会自动识别。

能处理多页 PDF 吗?

可以。上传多页 PDF,NiceData 会读取每一页。每一页都会算作你月度套餐中的一页,所以一份 10 页的文档会消耗 10 页额度。

我的数据安全吗?

安全。文档在传输和存储时都会加密,并存储在隔离的项目文件夹中,只有你和你的团队可以访问。你也可以设置文档在 1 天、14 天、30 天、60 天或 90 天后自动删除。

Dace Willmott

Dace Willmott

Founder

NiceData aims to eliminate manual data entry from document workflows. We write about AI-powered document processing, data extraction best practices, and the tools that help teams move faster with cleaner data.