如何使用C#读取PDF文件
浏览量:4916
时间:2024-01-31 09:59:33
作者:采采
在本篇文章中,我们将介绍如何使用C#语言来读取PDF文件。我们将包括读取PDF全部文本内容、读取指定区域的文本内容以及读取PDF中的图片。
下载并安装Spire.Pdf.dll类库
首先,你需要下载并安装Spire.Pdf.dll类库。你可以从安装路径下的Bin文件夹获取dll文件。然后,在你的项目中引用该dll文件。
读取PDF文件的全部文本内容
以下是一个示例代码,演示了如何使用C#读取PDF文件的全部文本内容:
using Spire.Pdf;
using System;
using ;
using System.Text;
namespace ExtractText_PDF
{
class Program
{
static void Main(string[] args)
{
//实例化PdfDocument类对象,并加载PDF文档
PdfDocument doc new PdfDocument();
doc.LoadFromFile("sample.pdf");
//实例化一个StringBuilder对象
StringBuilder content new StringBuilder();
//遍历文档所有PDF页面,提取文本
foreach (PdfPageBase page in )
{
(page.ExtractText());
}
//将提取到的文本写为.txt格式并保存到本地路径
String fileName "获取文本.txt";
File.WriteAllText(fileName, ());
("获取文本.txt");
}
}
}
读取PDF文件中的指定区域文本内容
以下是一个示例代码,演示了如何使用C#读取PDF文件中的指定区域文本内容:
using Spire.Pdf;
using ;
using System.Text;
using System.Drawing;
namespace ExtractText1_PDF
{
class Program
{
static void Main(string[] args)
{
//创建PdfDocument类实例,并加载PDF文档
PdfDocument pdf new PdfDocument();
pdf.LoadFromFile("sample.pdf");
//获取PDF第一页
PdfPageBase page [0];
//从第一页的指定矩形区域内提取文本
string text page.ExtractText(new RectangleF(50, 50, 500, 170));
//保存文本到.txt文件,并打开文档
StringBuilder sb new StringBuilder();
(text);
File.WriteAllText("Extract.txt", ());
("Extract.txt");
}
}
}
读取PDF文件中的图片
以下是一个示例代码,演示了如何使用C#读取PDF文件中的图片:
using Spire.Pdf;
using ;
using System.Drawing;
namespace ExtractImages_PDF
{
class Program
{
static void Main(string[] args)
{
//创建一个PdfDocument类对象,加载PDF测试文档
PdfDocument doc new PdfDocument();
doc.LoadFromFile("sample.pdf");
//声明List类对象
Listlt;Imagegt; ListImage new Listlt;Imagegt;();
//遍历PDF文档所有页面
for (int i 0; i lt; ; i )
{
//获取文档所有页,并提取页面中的所有图片
PdfPageBase page [i];
Image[] images page.ExtractImages();
if (images ! null images.Length gt; 0)
{
(images);
}
}
//将获取到的图片保存到本地路径
if ( gt; 0)
{
for (int i 0; i lt; ; i )
{
Image image ListImage[i];
("image" (i 1).ToString() ".png", );
}
//打开获取到的
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。
上一篇
制作包装盒的基本步骤
下一篇
插入附件的步骤及注意事项