Subject: Подготовка текста для создания памяти в Традосе gen. У меня возникла следующая проблема. Был получен пдф, в нем текст в две колонки - английский и русский. Необходимо создать на основе текста память в Традосе.Я его конвертнул через solid documents, что позволило избежать наличия неотображаемых символов между словами внутри предложения. Однако в некоторых случаях неотображаемые символы все же разбивают предложения. Знаю, что есть специальные программы, которые позволяют удалять теги и др. Есть ли возможность как-либо решить данную проблему с использованием таких программ? Может быть, Вы подскажите, изначально конвертер получше, что избавиться изначлаьно от этой проблемы? Кроме того, я в ворде не нашел возможности "найти и заменить" все такие символы -- символы, разбивающие текст на отдельные абзацы (не табуляция). Спасибо |
разрывы строк что ли? автозамена - Больше - Специальный. Меняете последовательно "мягкий перенос", "разрыв колонки", "разрыв раздела" на пустоту. Затем меняете "разрыв строки" на пробел и в конце меняете два пробела на один. После замен выделяете весь ьтекст и по вкладкам находите: Главная - Шрифт - Интервал - ставите значения 100%, Обчный, Нет. Для начала хватит... |
кстати, одно время была проблема, что после солида старый традос вообще не хотел с файлом работать. я ФР-8 пользую, чего и вам желаю. |
я делаю так: 1) find => special => paragraph mark (ставите 2 paragraph marks) - replace with \ - делете repalce по всему тексту (почему этот знак ?- потому что он практически не встречается в обычных текстах) 2) find => special => paragraph mark (ставите 1 paragraph mark) - replace with пробел 3) find \, replace with paragraph mark (ставите 2 paragraph marks) В итоге у вас ненужные разрывы строки удаляются, а абзацы восстанавливаются |
Знак абзаца-то зачем грохать? Как раз этот знак самый полезный и распространенный в обычных текстах. Это знак, который получается в Ворде при нажатии кнопки Ентер. Если их все на пробелы поменять, весь текст получится одним абзацем |
или я туплю |
о)) работает вроде... спасибо, Рудут, я действительно ступил |
вы уже поняли, что работает, но для недоверчивых я поясню: 1 paragraph mark это и есть тот значок, который создает ненужный разрыв строки, а настоящий параграф образовывается 2-мя знаками paragraph mark. Мы их бережно убираем под знак \ (первый шаг), чтобы случайно не снести, а после удаления разрывов (второй шаг) возвращаем обратно (третий шаг). В большом тексте количество абзацев несоизмеримо меньше, чем разрывов строки. |
Большое спасибо за Ваши советы!!! Как есть, Обязательно посмотрю ФР8 |
Как есть, А ФР8 не дает такого результата при конвертировании, когда каждая строка в пдф окончивается на Ентер? Просто я не очень в этих прогах разбираюсь - вот нашел Солид и рад млин бесконечно))) ибо ентеры только редко не в том месте. |
вообще, опыт показывает, что прогонять пдф-ки лучше не через Solid Converter, а через Fine Reader. |
ну бывает, особенно если пдф - это плохой скан. но это тоже можно все автозаменой делать. главное - включить эти непечатные значки, чтобы видно их было. я когда такое задание делал, то распознавал отдельно по языкам. То есть средставми Файн Ридера (там можно выделить область распознавания) выделяю только левый столбец, причесываю, сохраняю, потом распознаю второй столбец отдельно. и уже из двух файлов делаю память. |
Как есть, Понятное дело. При использовании любого конвертера нужно текст на разных языках раздельно распознавать. Или нужно ли??? Вот я сейчас распознал файл в качестве тестового задания через Солид -- закон об ОоО - файл содержит две колонки, на англ и рус., объем 100 страниц. Файл -- не скан, а конверта из ворда в пдф. В соответствии с Вашим комментом выполняю: В результате, что мы имеем: 1) две колонки конвертированы на 100% - текст в обеих колонках без каких-либо "ва342п!!" как это бывает при конвертации через адоб про 10 (пользовался им), то есть без факапов русская и английская колонки. Вывод: |
*у меня тоже документы после солида традос 2009 не хочет обрабатывать* - так у меня и Транзит их не проглатывал, пока Fine Reader не установил, теперь хоть таких вопиющих разрывов нет. |
а что, солид как-то иначе позволяет одну колонку распознать? я не говорю, что надо без вариантов, я говорю, целесообразно. при выделении отельной области на каждой странице гораздо меньше потом ошибок, как например случайное распознание текста из разных колонок в одну строку. *если я удалю разрывы всякие, то текст уплывет* Естественно. вы же сразу обе колонки распознаете, ясно, что поплывет. |
*Как есть* - а я все время хочу прочитать "Азиз", типа имени :) |
называйте, кому как нравится)) мне это не принципиально |
если не жуть какой конфиденцильный текст, скиньте ваш пдф на shootsandladders2012@yandex.ru и включайте секундомер |
Как есть, Так я ведь тоже про целессобразность. Я просто пытаюсь понять, нужно ли в ФР8 каждую колонку на каждой странице распознавать??? Если да, то это 200 отдельных операций в ФР8 против 1 операции в Солиде. При этом, ошибки в Солиде отсутствуют - вообще нет никаких ошибок ни в одной из колонок (учитывая, что это конверт из ворда в пдф). Ранее конвертировал ужасный документ с тегами на каждой строке через Солид и у меня этот файл обрабатывала дежа х2, а вот конверты самого традоса или адоба не ела, причем, как я помню, конверт девятки сама девятка тоже не хотела обрабатывать. |
AsIs, а правильно-то как? все давно хочу спросить, "как есть" ведь было бы "as it is" :) |
16.08.2012 15:36 ну начальству-то позволительно не знать, чо |
зачем тогда топ был нужен, если нет никаких проблем? реклама солида что ли? в общем, дело ваше =) Buick-s, что в голову первое пришло, то и написал. "as is" - это "как есть" в условиях поставки термин применяется |
Азиз как есть, У меня вот сейчас вот дока в работе нет, задание отвалилось, просто оно может привалиться обратно через какое-то время, либо может появиться другое аналогичное. В качестве тестового задания я указал файл (конверт из ворда в пдф закона об ооо). На почту Вам выслал, секундомер включил! Вы только не конвертьте его, пожалуйста, если придется отдельно каждую колонку на каждой странице. P.S. |
в адресе не ошиблись? мдреный он у меня. что-то пока нет |
мне тоже кажется it не нужно))) Топ был про проблемы со знаками абзаца. Вы просто упомянули про то, что ФР8 лучше Солида. Меня это заинтересовало, вот я и решил уточнить. Рекламы Солида никакой нет, с солидщиками не работаю. |
16.08.2012 15:40 ничо не понялО начальство, чо не знать ... |
Andrew052, я имел в виду разговорно-бытовой жанр-с http://forum.wordreference.com/showthread.php?t=2402211&langid=1http://www.dict.cc/?s=to+leave+sth+as+it+is8 |
вот я засек сам. в 17-20 начал, сейчас 17-31. Правда я сделал не 100, а 50 страниц только английского. ну пусть умножим вдвое= 22 минуты на язык. еше 22 на русский. за 44 минуты 100 страниц. Ну пусть за час. Но это будет чистый текст без разрывов и прочего. Гляньте, я вам отправил. И сравните с Солидом: там в нем даже не переносы стоят, а просто дефисами слова разорваны. то есть это надо все короткие тире удалять что ли? А если нужный дефис удалится вместе с ненужными? И потом у вас на каждой странице по 10 разрывов колонок и разделов. Колкнки распозналесь как текстовые колонки, а не табличные, поэтому одним махом отделить русскую часть от английской не получится. В общем, никому ничего не навязываю, но просто еще раз убедился, насколько этот метод практичнее. |
Азиз как есть, Я вот Вам как раз письмо и написал в тему. Очень жалко ваше время. Я дискуссию затеял на абсолютно другую тему. Просто Вы упомянул ФР8 и мне, как человеку в поиску лучшего на сег день софта, сразу стало интересно. |
да нет, не напрасно вовсе. мне ж тоже надо понимать ситуацию. может на самом деле Солид соорудили супер-пуперный, а я как болван устаревую технологию использую. не поймите неправильно, я не для того, чтобы вам или еще кому что-то доказывать. чисто для себя, так что жалеть нечего. я действительно начал позже и потратил чуть больше 10 минут, так как все-таки основную работу никто не отменял. так что считаю опыт не напрасным (во всяком случае для себя) |
На Ваш посто в 17 37 отвечаю: Я тоже ведь никому ничего не навязываю. Просто я вот до этого поста абсолютно понимал логику рассуждений, а потом что-то перестал. Вам нравится ФР8? Супер. Я его тоже залью завтра и протестирую. Но никак не могу согласиться не с одним комментом из поста. Просто из спортивного интереса: 1) зачем считать минуты????? можно просто нажать кнопку в Солиде (я действительно не работаю на Солид). Просто конвертируешь и получаешь готовый файл. Я ж Вам его скинул уже готовый - там ничего не нужно делать с ним - он БЕЗ КАКИХ-ЛИБО ОШИБОК И ПОЛНОСТЬЮ ГОТОВ. То есть, вывод - 1) процесс конвертации занимает несколько часов во ФР8 против нажатия кнопки в Солиде, Как Вы можете в таком случае убедиться в практичности ФР8????? Просто если дискуссия была заведена, зачем писать то, что не является верным??? Все по чесноку? |
К тому же, колонки распознались как текстовые в Солиде? А что в ФР8 они распознались, как табличные? |
К тому же, одним махом выделить русский или английский текст в соответствующей колонке нельзя. А в ФР8 можно? |
если выделять поле распознавания на каждой странице, то "да, можно" на оба последние вопроса |
** Я ж Вам его скинул уже готовый - там ничего не нужно делать ** И что с ним дальше делать? Как вы из него собираетесь делать память? Вон я в соседней ветки скрины выложил. Какой вариант удобнее? |
**Вы говорите - там просто дефисы стоят, а не переносы. В конверте Солида тоже стоят просто дефисы, а не переносы. ** Как раз ФР8 делает нормальные "мягкие переносы". Слово "там" относится к вашему файлу |