If-Koubou

Bagaimana Saya Dapat Menyalin Teks dari PDF sambil Melestarikan Pemformatan?

Bagaimana Saya Dapat Menyalin Teks dari PDF sambil Melestarikan Pemformatan? (Bagaimana caranya)

PDF, format dokumen di mana-mana, sangat bagus untuk berbagi dokumen sambil menjaga font, gambar, dan tata letak umum di seluruh platform. Apakah ada cara mudah, bagaimanapun, untuk mempertahankan format yang sangat ketika menyalin dan menempelkan teks dari dokumen?

Sesi Tanya & Jawab hari ini hadir untuk memberi kami hak milik SuperUser-sub divisi Stack Exchange, pengelompokan situs web Q & A berbasis komunitas.

Pertanyaan

Pembaca SuperUser Colen sedang mencari cara untuk mengekstrak teks dari PDF sambil mempertahankan pemformatannya:

Ketika saya menyalin teks dari file PDF dan menjadi editor teks, itu akhirnya hancur dalam berbagai cara. Format seperti huruf tebal dan huruf miring hilang; jeda baris lunak dalam paragraf teks diubah menjadi garis keras; setrip untuk memecahkan kata lebih dari dua baris dipertahankan bahkan ketika mereka tidak seharusnya; dan tanda kutip tunggal dan ganda diganti dengan? tanda-tanda.

Idealnya, saya ingin dapat menyalin teks dari PDF dan memformat dikonversi ke kode HTML, "kutipan pintar" dikonversi ke "dan", dan jeda baris dilakukan dengan benar. Apakah ada cara untuk melakukan ini?

Apakah ada cara cepat dan mudah bagi Colen (dan kita semua) untuk mendapatkan teks tanpa mengorbankan pemformatan?

Jawabannya

Penyumbang SuperUser Frabjous menawarkan solusi yang dikombinasikan dengan kehati-hatian:

Pertama, Anda harus memahami apa itu PDF. PDF dirancang untuk meniru halaman yang dicetak, dan mereka dirancang hanya sebagai format output, bukan format input. PDF pada dasarnya adalah peta yang berisi lokasi karakter yang tepat (masing-masing huruf atau tanda baca, dll.) atau gambar. Dalam banyak kasus, PDF bahkan tidak menyimpan informasi tentang di mana satu kata berakhir dan yang lain dimulai, apalagi hal-hal seperti jeda lunak vs jeda keras untuk akhir paragraf.

(Beberapa PDF baru-baru ini menyimpan beberapa informasi tentang hal ini, tetapi itu adalah teknologi baru, dan Anda akan beruntung menemukan PDF seperti itu. Bahkan jika Anda melakukannya, penampil PDF Anda mungkin tidak mengetahuinya.)

Bagaimanapun, terserah perangkat lunak Anda untuk mengimplementasikan semacam "kecerdasan buatan" untuk mengekstrak hanya dari lokasi karakter individu apa kata, apa paragraf, dan sebagainya. Perangkat lunak yang berbeda akan melakukan ini lebih baik daripada yang lain, dan itu juga akan tergantung pada bagaimana PDF dibuat. Dalam hal apapun, Anda tidak boleh mengharapkan hasil yang sempurna. Memiliki output PDF tidak sama dengan memiliki dokumen sumber. Jauh lebih baik untuk mencoba mendapatkan itu jika Anda bisa.

Solusi standar untuk masalah Anda adalah menggunakan Adobe Acrobat Professional (yang mahal, bukan pembaca gratis) untuk mengonversi PDF ke HTML. Bahkan itu tidak akan mendapatkan hasil yang sempurna.

Ada perangkat lunak gratis yang dapat digunakan untuk mengekstrak teks dari PDF dengan beberapa format utuh, tetapi sekali lagi, jangan berharap hasil yang sempurna. Lihat, mis., Kaliber (yang dapat dikonversi ke format RTF), pdftohtml / pdfreflow, atau pengolah kata AbiWord (dengan semua plugin impor / ekspor diaktifkan). Ada juga plugin impor PDF untuk OpenOffice.

Tapi tolong jangan berharap kesempurnaan dengan hasil-hasil ini. Anda akan melawan arus di sini. PDF saja tidak dimaksudkan sebagai format masukan yang dapat diedit.

Jika Anda mengalami kesulitan memutuskan alat mana untuk memulai, Calibre adalah pisau tentara Swiss yang benar. Anda juga dapat menggunakannya untuk mengonversi file PDF untuk digunakan pada pembaca ebook Anda dan mengatur perpustakaan ebook / dokumen Anda.

Memiliki sesuatu untuk ditambahkan ke penjelasan? Bicaralah di komentar. Ingin membaca lebih banyak jawaban dari pengguna Stack Exchange yang paham teknologi lainnya? Lihat diskusi lengkap di sini.