7
ответов

Добавление информации OCR в PDF

У меня хорошее качество сканирования документа; такое сканирование в формате PDF. Как я могу добавить информацию ocr в pdf, чтобы она стала доступной для поиска? Под поиском я имею в виду, что цель заключается в том, что при просмотре ...
вопрос задан: 13.01.2020
5
ответов

Как можно мгновенно извлечь текст из области экрана, используя инструменты OCR?

В Ubuntu 12.10, если я наберу gnome-screenshot -a | Выходные данные tesseract, которые он возвращает: ** Сообщение: невозможно использовать встроенный интерфейс снимков экрана GNOME Shell, прибегая к резервному X11. Как я могу выбрать ...
вопрос задан: 10.03.2020
5
ответов

Как мне отредактировать текст в отсканированном формате .jpeg?

Мне нужно загрузить отсканированное изображение в виде документа PDF. После сканирования документа у меня есть .jpeg с небольшим текстом, который я хочу отредактировать перед преобразованием в PDF для загрузки. Я никогда не делал этого ...
вопрос задан: 22.02.2020
4
ответа

Как превратить PDF в PDF с возможностью поиска по тексту?

У меня есть несколько отсканированных документов в формате PDF, и я хочу иметь возможность искать их. Как я могу это сделать? По сути, я должен OCR PDF, а затем смешать извлеченный текст обратно в новый PDF. Я имею ...
вопрос задан: 13.04.2017
3
ответа

пакетное преобразование тессеракта

Я пытаюсь распознать книгу, используя tesseract, но я не хочу печатать каждую отдельную страницу, поскольку это книга объемом около 1000 страниц. Как бы это сделать, я попробовал тессеракт * .tif *, который дает мне это ...
вопрос задан: 07.03.2020
3
ответа

Каков идеальный шрифт для OCR?

У кого-либо есть опыт с различными шрифтами для OCR? Я генерирую идентификатор, затем пытаясь просканировать его с tesseract. В данный момент я - просто T&E'n различные шрифты, но это кажется симпатичным...
вопрос задан: 25.11.2008
2
ответа

Оптическое распознавание символов для LibreOffice

У меня есть бумажный документ. Есть еще страницы, содержащие таблицу с 3 столбцами (текущий номер, имя и оценка). Я отсканировал его и получил 16 JPEG-документов. Каждый JPEG это отсканированная страница. Теперь мне нужно ...
вопрос задан: 27.03.2020
2
ответа

Abbyy прекрасный читатель, как приложение для Ubuntu 13.04

У меня много изображений, и я хочу отсканировать эти изображения и получить вывод в виде файла MS Word, который можно редактировать позже. Для Windows у меня есть Abbyy, отличный читатель. Но я не хочу возвращаться к ...
вопрос задан: 18.03.2020
2
ответа

управление документами частных пользователей

Я ищу систему управления документами, которая поддерживает: может ли массовое сканирование документов автоматическое распознавание отсканированных данных хранения данных на моем локальном HD / внешнем сервере по моему выбору автоматического резервного коп
вопрос задан: 05.03.2020
2
ответа

Ошибка при установке GOCR

Когда я попытался установить GOCR на Ubuntu Linux 11.10, в терминале я получил следующее считывание: ??????????: ~ $ cd gocr-0.48; сделать установку ./configure проверка для gcc ... gcc проверка для компилятора C ...
вопрос задан: 11.01.2020
2
ответа

Как получить блок текста с той же координатой оси X [Google Cloud Vision API]

Поэтому я пытаюсь реализовать персональный проект в Android, где вы можете сканировать различные чеки из торговых центров. Я хочу придумать модуль, который немного помогает при ручном вводе пользователей ...
вопрос задан: 06.03.2019
2
ответа

Как конвертировать обведенные числа в числа? (① к 1)

Я хотел бы преобразовать числа из строки, которую я получаю после распознавания текста, по японскому тексту. Например, когда я извлекаю дату: 日 年 ⑫ 月 ①③ 日, я хочу преобразовать ее в: 31 年 12 月 13 日 ...
вопрос задан: 21.02.2019
2
ответа

Я хочу извлечь информацию из таблицы из данных OCR

Я хочу извлечь информацию таблицы из данных OCR, у меня есть необработанный текст, и это текст. Я попробовал pytesseract, но не смог найти фактическую реализацию. Вот изображение: https: //drive.google.com/open? Id = ...
вопрос задан: 20.01.2019
2
ответа

OCR с интерфейсом Тессеракта

Как вы OCR файл TIFF, используя интерфейс Тессеракт в C #? В настоящее время я знаю только, как это сделать, используя исполняемый файл.
вопрос задан: 27.10.2017
2
ответа

преобразование DJVU в PDF проблемы с этим кодом, сохраняющим OCR

Я хочу конвертировать DJVU в PDF, сохраняя при этом OCR. На этой странице описано, как это сделать, но я получаю пустой HTML-файл. В / home / steven / Documents / djvu2pdf / 1 /, djvu2hocr -p 1 Intro.djvu дает мне: ...
вопрос задан: 13.04.2017
2
ответа

pdfbeads будет выводить только одну страницу

Следуя инструкциям на этой странице, я беру документ djvu, проверяю его на наличие признаков повреждения, открывая его в djvulibre, и он проверяется нормально. Скопируйте его в мою папку тестирования и переименуйте его ...
вопрос задан: 13.04.2017
2
ответа

& ldquo; sh: 1: невозможно открыть /tmp/pdfsandwich4e375e.html: такого файла нет & rdquo; при использовании pdfsandwitch [закрыто]

Я попытался добавить текстовый слой к некоторым файлам PDF, чтобы сделать их доступными для поиска. Эта техника объясняется в немецкой вики Ubuntu: http://wiki.ubuntuusers.de/pdfsandwich. После установки ...
вопрос задан: 13.04.2017
2
ответа

Преобразование рукописного журнала данных в Excel [закрыто]

Мне нужно было ввести множество рукописных данных в Excel, и мне было интересно, есть ли более простой способ сделать это, чем вводить все данные вручную в Excel. Какие-либо предложения?
вопрос задан: 23.05.2016
2
ответа

Почему после обновления до 14.04 в Gscan2pdf не работают движки OCR?

Я недавно обновился до Ubuntu 14.04, но OCR в gscan2pdf перестал работать. Я использую последнюю версию gscan2pdf (1.2.4) как с Tesseract, так и с Cuneiform. При загрузке PDF документов в ...
вопрос задан: 25.04.2014
1
ответ

Установите GimageReader в Kubuntu - мой последний шаг избавления от Windows

Надеюсь, у вас все хорошо. Я был без Windows в течение почти двух недель. И я даже не использую Wine, чтобы использовать программное обеспечение Windows. Сначала я установил Ubuntu, затем перешел на Kubuntu [мне нравится ...
вопрос задан: 18.05.2020
1
ответ

ASCII художественный генератор с OCR

Какая программа может превратить изображение в ASCII-арт, а также заменить любой текст реальным текстом на OCR. Например, для преобразования комиксов в ASCII-арт.
вопрос задан: 12.05.2020
1
ответ

Как улучшить производительность тессеракта?

По общему мнению, tesseract превосходен. Однако мои результаты мрачны. Мне нужно конвертировать (цифровой, а не из книги) текст, который у меня есть только в виде PNG. Например: 2 3 академика 1 1711 2 ...
вопрос задан: 07.05.2020
1
ответ

pdfsandwich - как не менять цвет страницы

Я использую pdfsandwich, но он меняет цвет страниц с цветного на черно-белый. Поскольку у меня есть документ с множеством цветных картинок, как я могу избежать этого?
вопрос задан: 26.04.2020
1
ответ

Не удается отсканировать из Gscan2PDF 13.10 или OCR с Tesseract

У меня небольшие проблемы с одним из моих любимых компонентов программного обеспечения с открытым исходным кодом. Я установил Gscan2PDF (1.0.4) из Центра программного обеспечения на мою 13.10 64-битную машину (чистая установка с 13 ....
вопрос задан: 21.04.2020
1
ответ

Идентификация телеканала с использованием программирования на Linux C

Мне нужно разработать приложение, которое будет определять название канала, который в настоящее время работает на телевидении. Я использую устройство захвата видео Easy CaP для передачи видео с телевизионной приставки ...
вопрос задан: 07.04.2020
1
ответ

Как подстановить тессеракт?

Я хочу, чтобы tesseract конвертировал все файлы в папке. Я не хочу объединять файлы каким-либо образом, поскольку у меня возникают проблемы с такими программами, как hocr2pdf и pdfbeads, которые объединяют более одного файла одновременно. ...
вопрос задан: 08.03.2020
1
ответ

Как мне создать многостраничный сэндвич pdf с hocr2pdf?

Я использовал tesseract для создания специального html для использования с hocr2pdf, начиная с muti-page tif. Я попытался использовать hoc2pdf для создания «сэндвич-PDF» (изображение + слой скрытого текста). Hocr2pdf производит ...
вопрос задан: 06.03.2020
1
ответ

Существует ли программное обеспечение для оптического распознавания символов для многофункционального принтера HP Laserjet Pro MFP M130A?

Существует ли какое-либо программное обеспечение для оптического распознавания текста для многофункционального принтера HP Laserjet Pro MFP M130A? Как я могу установить его? Я использую Ubuntu 18.04.
вопрос задан: 30.04.2019
1
ответ

OCR на двоичном изображении

У меня есть двоичное текстовое изображение, похожее на черно-белый текст - кошка, я хочу выполнить OCR для таких изображений Они содержат не более одного слова. Я пробовал тессеракт и облачное видение Google, но ...
вопрос задан: 22.03.2019
1
ответ

Преобразование изображения TIFF в скрипте Python - OCR с использованием Tesseract

Я хочу преобразовать файл изображения TIFF в текстовый документ. Мой код работает, как я ожидал, для преобразования изображений в формате TIFF с обычным шрифтом, но он не работает для шрифта на французском языке. Мой файл изображения TIFF содержит текст.
вопрос задан: 20.01.2017