Anda dapat dengan mudah mengkonversi file PDF ke teks yang dapat diedit di Linux menggunakan alat baris perintah "pdftotext". Namun, jika ada gambar dalam file PDF asli, mereka tidak diekstraksi. Untuk mengekstrak gambar dari file PDF, Anda dapat menggunakan alat baris perintah lain yang disebut "pdfimages".
CATATAN: Saat kami mengatakan untuk mengetik sesuatu di artikel ini dan ada kutipan di sekitar teks, JANGAN ketik tanda kutip, kecuali kami menentukan sebaliknya.
Alat "pdfimages" adalah bagian dari paket poppler-utils. Anda dapat memeriksa untuk melihat apakah itu diinstal pada sistem Anda dan menginstalnya jika perlu menggunakan langkah-langkah yang dijelaskan dalam artikel ini.
Untuk mengekstrak gambar dari file PDF menggunakan pdfimages, tekan "Ctrl + Alt + T" untuk membuka jendela Terminal. Ketik perintah berikut pada prompt.
pdfimages /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image
CATATAN: Untuk semua perintah yang ditampilkan dalam artikel ini, ganti jalur pertama dalam perintah dan nama file PDF ke jalur dan nama file untuk file PDF asli Anda. Jalur kedua harus menjadi jalur ke folder akar di mana Anda ingin menyimpan gambar yang diekstraksi. Kata "gambar" di ujung jalur kedua mewakili apa pun yang Anda inginkan untuk mengawali nama file Anda. Nama file gambar diberi nomor secara otomatis (000, 001, 002, 003, dll.). Jika Anda ingin menambahkan teks ke awal setiap gambar, masukkan teks itu di akhir jalur kedua. Dalam contoh kita, setiap nama file gambar akan dimulai dengan "gambar", seperti gambar-001.ppm, gambar-002.ppm, dll. Sebuah tanda pisah ditambahkan antara teks yang Anda tentukan dan nomornya.
Format gambar default adalah PPM (pixmap portabel) untuk gambar non-monokrom, atau PBM (bitmap portabel) untuk gambar monokrom. Format ini dirancang agar mudah dipertukarkan antar platform.
CATATAN: Anda mungkin mendapatkan dua file gambar untuk setiap gambar dalam file PDF Anda. Gambar kedua untuk setiap gambar kosong, jadi, Anda dapat mengetahui gambar mana yang berisi gambar dari file tersebut oleh thumbnail pada file di File Manager.
Untuk membuat file gambar .jpg, tambahkan opsi "-j" ke perintah, seperti yang ditunjukkan di bawah ini.
pdfimages -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image
CATATAN: Anda juga dapat mengubah output default ke PNG menggunakan opsi "-png" atau TIFF menggunakan opsi "-tiff".
File gambar utama untuk setiap gambar disimpan sebagai file .jpg. Gambar kosong kedua masih berupa file .ppm atau .pbm.
Jika Anda hanya ingin mengonversi gambar pada dan setelah halaman tertentu, gunakan opsi "-f" dengan angka untuk menunjukkan halaman pertama yang akan dikonversi, seperti yang ditunjukkan pada contoh perintah di bawah ini.
pdfimages -f 2 -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image
CATATAN: Kami menggabungkan opsi "-j" dengan opsi "-f" sehingga kami akan mendapatkan gambar .jpg dan melakukan hal yang sama dengan opsi "-l" yang disebutkan di bawah ini juga.
Untuk mengonversi semua gambar sebelum dan pada halaman tertentu, gunakan opsi "-l" (huruf kecil "L", bukan angka "1") dengan angka untuk menunjukkan halaman terakhir yang akan dikonversi, seperti ditunjukkan di bawah ini.
pdfimages-l 1 -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image
CATATAN: Anda dapat menggunakan opsi “-f” dan “-l” secara bersamaan untuk mengonversi gambar dalam rentang halaman tertentu di tengah dokumen Anda.
Jika ada kata sandi pemilik pada file PDF, gunakan opsi "-opw" dan kata sandi dalam tanda kutip tunggal, seperti yang ditunjukkan di bawah ini. Jika kata sandi pada file PDF adalah kata sandi pengguna, gunakan opsi "-upw" sebagai ganti kata sandi.
CATATAN: Pastikan ada tanda kutip tunggal di sekitar kata sandi Anda dalam perintah.
pdfimages -opw 'password' -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image
Untuk informasi lebih lanjut tentang menggunakan perintah pdfimages, ketik "pdfimages" pada prompt di jendela Terminal dan tekan "Enter". Penggunaan perintah ditampilkan dengan daftar opsi yang tersedia untuk digunakan dalam perintah.