2016 - 2024

感恩一路有你

如何使用C#读取PDF文件

浏览量:4916 时间:2024-01-31 09:59:33 作者:采采

在本篇文章中,我们将介绍如何使用C#语言来读取PDF文件。我们将包括读取PDF全部文本内容、读取指定区域的文本内容以及读取PDF中的图片。

下载并安装Spire.Pdf.dll类库

首先,你需要下载并安装Spire.Pdf.dll类库。你可以从安装路径下的Bin文件夹获取dll文件。然后,在你的项目中引用该dll文件。

读取PDF文件的全部文本内容

以下是一个示例代码,演示了如何使用C#读取PDF文件的全部文本内容:

using Spire.Pdf;
using System;
using ;
using System.Text;
namespace ExtractText_PDF
{
    class Program
    {
        static void Main(string[] args)
        {
            //实例化PdfDocument类对象,并加载PDF文档
            PdfDocument doc  new PdfDocument();
            doc.LoadFromFile("sample.pdf");
            //实例化一个StringBuilder对象
            StringBuilder content  new StringBuilder();
            //遍历文档所有PDF页面,提取文本
            foreach (PdfPageBase page in )
            {
                (page.ExtractText());
            }
            //将提取到的文本写为.txt格式并保存到本地路径
            String fileName  "获取文本.txt";
            File.WriteAllText(fileName, ());
            ("获取文本.txt");
        }
    }
}

读取PDF文件中的指定区域文本内容

以下是一个示例代码,演示了如何使用C#读取PDF文件中的指定区域文本内容:

using Spire.Pdf;
using ;
using System.Text;
using System.Drawing;
namespace ExtractText1_PDF
{
    class Program
    {
        static void Main(string[] args)
        {
            //创建PdfDocument类实例,并加载PDF文档
            PdfDocument pdf  new PdfDocument();
            pdf.LoadFromFile("sample.pdf");
            //获取PDF第一页
            PdfPageBase page  [0];
            //从第一页的指定矩形区域内提取文本
            string text  page.ExtractText(new RectangleF(50, 50, 500, 170));
            //保存文本到.txt文件,并打开文档
            StringBuilder sb  new StringBuilder();
            (text);
            File.WriteAllText("Extract.txt", ());
            ("Extract.txt");
        }
    }
}

读取PDF文件中的图片

以下是一个示例代码,演示了如何使用C#读取PDF文件中的图片:

using Spire.Pdf;
using ;
using System.Drawing;
namespace ExtractImages_PDF
{
    class Program
    {
        static void Main(string[] args)
        {
            //创建一个PdfDocument类对象,加载PDF测试文档
            PdfDocument doc  new PdfDocument();
            doc.LoadFromFile("sample.pdf");
            //声明List类对象
            Listlt;Imagegt; ListImage  new Listlt;Imagegt;();
            //遍历PDF文档所有页面
            for (int i  0; i lt; ; i  )
            {
                //获取文档所有页,并提取页面中的所有图片
                PdfPageBase page  [i];
                Image[] images  page.ExtractImages();
                if (images ! null  images.Length gt; 0)
                {
                    (images);
                }
            }
            //将获取到的图片保存到本地路径
            if ( gt; 0)
            {
                for (int i  0; i lt; ; i  )
                {
                    Image image  ListImage[i];
                    ("image"   (i   1).ToString()   ".png", );
                }
                //打开获取到的          

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。