Converter um ficheiro pdf para texto Em C# [fechado]

Preciso de converter um .pdf file to A.txt file (or .doutor, mas eu prefiro .txt).

Como posso fazer isto em C#?

Author: Justin, 2009-12-22

6 answers

Ghostscript poderia fazer o que você precisa. Abaixo está um comando para extrair texto de um ficheiro pdf para um ficheiro txt (pode executá-lo a partir de uma linha de comandos para testar se funciona para si):

gswin32c.exe -q -dNODISPLAY -dSAFER -dDELAYBIND -dWRITESYSTEMDICT -dSIMPLE -c save -f ps2ascii.ps "test.pdf" -c quit >"test.txt"

Assinale aqui: codeproject: Convert PDF para imagem usando a API do Ghostscript para mais detalhes sobre como usar o ghostscript com o C#

 3
Author: serge_gubenko, 2009-12-23 04:53:30
Tive a necessidade e usei este artigo para começar. http://www.codeproject.com/KB/string/pdf2text.aspx
 4
Author: Don, 2009-12-22 07:34:39
Como alternativa à solução do Don, encontrei o seguinte:

Extrair texto do PDF em C# (100%. Net)

 1
Author: Justin, 2011-02-11 04:23:32

O conceito de conversão de PDF para texto não é realmente direto para a frente e você não vai ver ninguém postando um código aqui que irá converter PDF para texto direto. Então a sua melhor aposta agora é usar uma biblioteca que faria o trabalho por você... um bom é PDFBox, você pode pesquisar no google. Provavelmente irá encontrá-lo escrito em java, mas felizmente poderá usar o IKVM para o converter para. Net...

 0
Author: Zaid Amir, 2009-12-22 07:12:00

Docótico.Pdf library can extract text from PDF files (formatted or not).

Aqui está um código de exemplo que mostra como extrair texto formatado de um arquivo PDF e salvá-lo para outro arquivo.

public static void ExtractFormattedText(string pdfFile, string textFile)
{
    using (PdfDocument doc = new PdfDocument(pdfFile))
    {
        string text = doc.GetTextWithFormatting();
        File.WriteAllText(textFile, text);
    }
}

Além disso, há uma amostra no nosso site que mostra outras opções para extracção de texto a partir de ficheiros PDF .

Disclaimer: eu trabalho para Bit Miracle, vendedor da biblioteca.
 0
Author: Bobrovsky, 2012-10-28 12:07:29
    public void PDF_TEXT()
    {
        richTextBox1.Text =  string.Empty;

        ReadPdfFile(@"C:\Myfile.pdf");  //read pdf file from location
    }


    public void ReadPdfFile(string fileName)
    {

 string strText = string.Empty;
 StringBuilder text = new StringBuilder();
   try
    {
    PdfReader reader = new PdfReader((string)fileName);
    if (File.Exists(fileName))
    {
    PdfReader pdfReader = new PdfReader(fileName);

   for (int page = 1; page <= pdfReader.NumberOfPages; page++)
      {

 ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();

 string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

          text.Append(currentText);

                }
                pdfReader.Close();
            }
        }
        catch (Exception ex)
        {
            MessageBox.Show(ex.Message);
        }
        richTextBox1.Text = text.ToString();

    }



    private void Save_TextFile_Click(object sender, EventArgs e)
    {
        SaveFileDialog sfd = new SaveFileDialog();

        DialogResult messageResult = MessageBox.Show("Save this file into Text?", "Text File", MessageBoxButtons.OKCancel);

        if (messageResult == DialogResult.Cancel)
        {

        }
        else
        {
            sfd.Title = "Save As Textfile";
            sfd.InitialDirectory = @"C:\";
            sfd.Filter = "TextDocuments|*.txt";


            if (sfd.ShowDialog() == DialogResult.OK)
            {
                if (richTextBox1.Text != "")
                {
                    richTextBox1.SaveFile(sfd.FileName, RichTextBoxStreamType.PlainText);
                    richTextBox1.Text = "";
                    MessageBox.Show("Text Saved Succesfully", "Text File");

                }
                else
                {
                    MessageBox.Show("Please Upload Your Pdf", "Text File",
                    MessageBoxButtons.OKCancel, MessageBoxIcon.Asterisk);
                }

            }

        }

    }
 0
Author: shuvo sarker, 2015-09-03 07:53:53