如何将纸质文档的照片转换为扫描文档?

我的扫描仪坏了! 我确实有一个很好的相机,所以我拍了一些我要扫描的文件的照片……但是它们看起来像纸张的照片,而不是扫描的文件:

  • 图像不平坦
  • 照明不均匀(页面变形时的阴影等)
  • 文本显然不会被处理成可复制粘贴的PDF文本。

它们根本不适合专业用途,但它们很接近。

我正在寻找能够完成上述任何一项或全部工作的一些事情(或方法),因此我可以从一些JPG文件转到整个事物的单个[可选]注释PDF,这是正确的格式(A4通常情况下)。

任何建议(没有出去购买新的扫描仪)?

有几种方法可以做到这一点。 虽然我所有建议的方法都有一个问题,但为什么不能真正压扁你的画面。 仍然需要更好的图片。

一种简单的方法是您尝试使用ScanTailor软件

 sudo apt-get install scantailor 

它会向您介绍优化照片的6个步骤。 在最后一步,您可以选择“均衡照明”选项,这将给您一个干净的外观!


就个人而言,我通常只使用GIMP 。 但是你需要一些基本技能来达到你的目标。

 sudo apt-get install gimp 
  1. 以想要的方式裁剪图片
  2. 使用Colors – > Curves选项以您想要的方式操作颜色输出…

调整颜色曲线以获得干净的输出。


另一个不错的小程序是gscan2pdf ,您还可以在其中加载照片并将其导出为PDF格式。 甚至还有一个指向GIMP的链接,因此您可以使用上述步骤改进照片

 sudo apt-get install gscan2pdf 

要从文档的相机照片生成可打印副本或PDF,我们必须手动转换很多,以获得类似于从扫描仪输出的图像。 大多数转换都可以使用Gimp完成。

  1. 尽量使原始源图像最佳

    • 选择明亮的光线以减少像素噪声,但是为了避免reflection,渗色或不均匀的光线散射,除非您有工作室闪光设备,否则不要使用闪光灯。
    • 如果可能,请选择从至少两侧(上下或左右)点亮光源
    • 使用远摄而不是广角镜头从较大距离拍摄照片。
    • 使用三脚架以避免晃动伪影。
    • 将相机指向与源表面正交的位置。
    • 包括与原始来源接壤的一些空间。
  2. 考虑去饱和度到灰度以获得更好的对比度并去除彩色像素伪像。

    在此处输入图像描述

  3. 调整亮度和对比度 ,使大概灰色背景为白色,黑色字母为黑色。

    • 这可以使用Gimp Colors> Levels工具快速完成,我们可以拖动黑点(左)和白点(右)或用颜色选择器选择黑/白点。

    在此处输入图像描述

    • 如果不删除文本的部分内容,可能无法删除弯角上的阴影(参见6.)
  4. 消除垫子变形?

    根据我们的照片镜头质量和我们使用的缩放级别,我们可能会有一些垫子伪影导致文档外边缘的弯曲。 有插件也可以删除这些工件但我们可能会发现选择相机的缩放级别更快,它们只是最小的。 裁剪后(5.)我们甚至不会再注意到它们。 因此,仅在我们的源图像在外部部分中具有许多直线的情况下才可能需要去除垫子伪像。

  5. 如果需要, 旋转裁剪透视变换图像。

    与扫描仪不同,我们的相机可能无法将光源与图像边界平行。 Gimp 旋转透视工具将为我们提供视觉反馈,以便能够旋转或调整图像的透视,直到文本行与页面平行。

    在此处输入图像描述
    透视工具在右侧

现在我们可以使用矩形选择工具选择文档源来裁剪文档内部的图像。

  1. 从相机镜头移除弯曲,折叠或晕影伪影中不需要的阴影

    • 这些阴影很难删除,没有插件或自动filter来帮助我们。
    • 理论上,我们可以将渐变填充覆盖到这些区域,但它可能不会导致预期的结果,因此可能不值得我们需要的时间。
    • 因此,最快捷的方法是简单地使用橡皮擦工具去除文本之外的所有丑陋阴影(我们应该备用)。

      在此处输入图像描述 擦除 – > 在此处输入图像描述

  2. 缩放图像?

    根据相机分辨率将图像放大到扫描仪图像尺寸只会增加文件大小,但对图像质量没有任何好处。 向下缩小将删除细节。 因此,我们不应该缩放图像,而是从打印机对话框调整打印尺寸(或者在8以下)。

  3. 生成PDF

    我们可以将我们现在手动恢复的图像导入LibreOffice( 插入>媒体

    • 定义其尺寸
    • 导出为PDF
    • 打印(对我来说,从LibreOffice打印导致所需的结果比其他任何东西都要多)。

如果您已拥有该文档的图像,只需将CamScanner应用程序下载到您的手机/平板电脑即可。 它将允许您导入图像,然后将执行建议的裁剪,并允许您展平以及调整颜色/对比度等。只需要一分钟。