DictionaryForumContacts

 Andrew052

1 2 all

link 16.08.2012 11:10 
Subject: Подготовка текста для создания памяти в Традосе gen.
У меня возникла следующая проблема. Был получен пдф, в нем текст в две колонки - английский и русский. Необходимо создать на основе текста память в Традосе.

Я его конвертнул через solid documents, что позволило избежать наличия неотображаемых символов между словами внутри предложения. Однако в некоторых случаях неотображаемые символы все же разбивают предложения.

Знаю, что есть специальные программы, которые позволяют удалять теги и др. Есть ли возможность как-либо решить данную проблему с использованием таких программ?

Может быть, Вы подскажите, изначально конвертер получше, что избавиться изначлаьно от этой проблемы?

Кроме того, я в ворде не нашел возможности "найти и заменить" все такие символы -- символы, разбивающие текст на отдельные абзацы (не табуляция).

Спасибо

 AsIs

link 16.08.2012 11:15 
разрывы строк что ли? автозамена - Больше - Специальный. Меняете последовательно "мягкий перенос", "разрыв колонки", "разрыв раздела" на пустоту. Затем меняете "разрыв строки" на пробел и в конце меняете два пробела на один. После замен выделяете весь ьтекст и по вкладкам находите: Главная - Шрифт - Интервал - ставите значения 100%, Обчный, Нет.
Для начала хватит...

 AsIs

link 16.08.2012 11:17 
кстати, одно время была проблема, что после солида старый традос вообще не хотел с файлом работать. я ФР-8 пользую, чего и вам желаю.

 Рудут

link 16.08.2012 11:22 
я делаю так:
1) find => special => paragraph mark (ставите 2 paragraph marks) - replace with \ - делете repalce по всему тексту (почему этот знак ?- потому что он практически не встречается в обычных текстах)
2) find => special => paragraph mark (ставите 1 paragraph mark) - replace with пробел
3) find \, replace with paragraph mark (ставите 2 paragraph marks)

В итоге у вас ненужные разрывы строки удаляются, а абзацы восстанавливаются

 AsIs

link 16.08.2012 11:26 
Знак абзаца-то зачем грохать? Как раз этот знак самый полезный и распространенный в обычных текстах. Это знак, который получается в Ворде при нажатии кнопки Ентер. Если их все на пробелы поменять, весь текст получится одним абзацем

 AsIs

link 16.08.2012 11:27 
или я туплю

 AsIs

link 16.08.2012 11:30 
о)) работает вроде... спасибо, Рудут, я действительно ступил

 Рудут

link 16.08.2012 11:38 
вы уже поняли, что работает, но для недоверчивых я поясню: 1 paragraph mark это и есть тот значок, который создает ненужный разрыв строки, а настоящий параграф образовывается 2-мя знаками paragraph mark.
Мы их бережно убираем под знак \ (первый шаг), чтобы случайно не снести, а после удаления разрывов (второй шаг) возвращаем обратно (третий шаг). В большом тексте количество абзацев несоизмеримо меньше, чем разрывов строки.

 Andrew052

link 16.08.2012 11:48 
Большое спасибо за Ваши советы!!!

Как есть,
у меня тоже документы после солида традос 2009 не хочет обрабатывать, а вот в отношении 2011 не знаю - не тестировал, в то время как дежа х2 обрабатывает ок.

Обязательно посмотрю ФР8

 Andrew052

link 16.08.2012 11:52 
Как есть,

А ФР8 не дает такого результата при конвертировании, когда каждая строка в пдф окончивается на Ентер? Просто я не очень в этих прогах разбираюсь - вот нашел Солид и рад млин бесконечно))) ибо ентеры только редко не в том месте.

 Buick-s

link 16.08.2012 11:56 
вообще, опыт показывает, что прогонять пдф-ки лучше не через Solid Converter, а через Fine Reader.

 AsIs

link 16.08.2012 11:59 
ну бывает, особенно если пдф - это плохой скан. но это тоже можно все автозаменой делать. главное - включить эти непечатные значки, чтобы видно их было. я когда такое задание делал, то распознавал отдельно по языкам. То есть средставми Файн Ридера (там можно выделить область распознавания) выделяю только левый столбец, причесываю, сохраняю, потом распознаю второй столбец отдельно. и уже из двух файлов делаю память.

 Andrew052

link 16.08.2012 12:18 
Как есть,

Понятное дело. При использовании любого конвертера нужно текст на разных языках раздельно распознавать. Или нужно ли???

Вот я сейчас распознал файл в качестве тестового задания через Солид -- закон об ОоО - файл содержит две колонки, на англ и рус., объем 100 страниц. Файл -- не скан, а конверта из ворда в пдф.

В соответствии с Вашим комментом выполняю:
"мягкий перенос", "разрыв колонки", "разрыв раздела" на пустоту. Затем меняете "разрыв строки" на пробел и в конце меняете два пробела на один."

В результате, что мы имеем:

1) две колонки конвертированы на 100% - текст в обеих колонках без каких-либо "ва342п!!" как это бывает при конвертации через адоб про 10 (пользовался им), то есть без факапов русская и английская колонки.
2)нет необходимости заниматься конвертацией отдельно колонки каждой страницы - т.к. страниц 100, а выделить я могу только одну колонку на одной страницы - больше выделять мне адоб Про 10 не позволяет.
3) очень легко руками нажать shift+лев мышка вверху колонки, shift+лев мышка внезу колонки, копировать в буфер, вставить в отдельный файл, сделать 2 таких файла.
4) обработать для получения памяти.

Вывод:
1)ФР8 (при условии, что нужно будет конвертировать отдельную колонку отдельно) -- это ппц, а Солид -- рулез.
2) Ваша методика, Как есть, не работает на моем файле - если я удалю разрывы всякие, то текст уплывет...
3) Единственная проблема - невозможность заливки файла в традос для перевода, однако если файл конвертируется для дальнейшей разбивки по двум файлам по двум языкам то работает ок.

 Buick-s

link 16.08.2012 12:28 
*у меня тоже документы после солида традос 2009 не хочет обрабатывать* - так у меня и Транзит их не проглатывал, пока Fine Reader не установил, теперь хоть таких вопиющих разрывов нет.

 AsIs

link 16.08.2012 12:29 
а что, солид как-то иначе позволяет одну колонку распознать?
я не говорю, что надо без вариантов, я говорю, целесообразно. при выделении отельной области на каждой странице гораздо меньше потом ошибок, как например случайное распознание текста из разных колонок в одну строку.
*если я удалю разрывы всякие, то текст уплывет* Естественно. вы же сразу обе колонки распознаете, ясно, что поплывет.

 Buick-s

link 16.08.2012 12:30 
*Как есть* - а я все время хочу прочитать "Азиз", типа имени :)

 AsIs

link 16.08.2012 12:31 
называйте, кому как нравится)) мне это не принципиально

 AsIs

link 16.08.2012 12:34 
если не жуть какой конфиденцильный текст, скиньте ваш пдф на shootsandladders2012@yandex.ru и включайте секундомер

 Andrew052

link 16.08.2012 12:35 
Как есть,

Так я ведь тоже про целессобразность. Я просто пытаюсь понять, нужно ли в ФР8 каждую колонку на каждой странице распознавать??? Если да, то это 200 отдельных операций в ФР8 против 1 операции в Солиде. При этом, ошибки в Солиде отсутствуют - вообще нет никаких ошибок ни в одной из колонок (учитывая, что это конверт из ворда в пдф).

Ранее конвертировал ужасный документ с тегами на каждой строке через Солид и у меня этот файл обрабатывала дежа х2, а вот конверты самого традоса или адоба не ела, причем, как я помню, конверт девятки сама девятка тоже не хотела обрабатывать.

 Buick-s

link 16.08.2012 12:36 
AsIs, а правильно-то как? все давно хочу спросить, "как есть" ведь было бы "as it is" :)

 _Ann_

link 16.08.2012 12:40 
16.08.2012 15:36
ну начальству-то позволительно не знать, чо

 AsIs

link 16.08.2012 12:43 
зачем тогда топ был нужен, если нет никаких проблем? реклама солида что ли? в общем, дело ваше =)
Buick-s, что в голову первое пришло, то и написал. "as is" - это "как есть" в условиях поставки термин применяется

 Andrew052

link 16.08.2012 12:45 
Азиз как есть,

У меня вот сейчас вот дока в работе нет, задание отвалилось, просто оно может привалиться обратно через какое-то время, либо может появиться другое аналогичное.

В качестве тестового задания я указал файл (конверт из ворда в пдф закона об ооо). На почту Вам выслал, секундомер включил! Вы только не конвертьте его, пожалуйста, если придется отдельно каждую колонку на каждой странице.

P.S.
Возможно, нужно было подчеркнуть, что в данном файле текст может быть выделен в самом пдф - это не скан - просто хочется работать в вордовском конверте, чтобы избежать возможных неожиданностей в форме тегов, всяких невидностей и прочей дребедени. (Опять же, повторюсь, Солидом распознавал сложные файлы с полным отсутствием "вао4234"1").

 AsIs

link 16.08.2012 12:47 
в адресе не ошиблись? мдреный он у меня. что-то пока нет

 Andrew052

link 16.08.2012 12:47 
мне тоже кажется it не нужно)))

Топ был про проблемы со знаками абзаца.

Вы просто упомянули про то, что ФР8 лучше Солида. Меня это заинтересовало, вот я и решил уточнить.

Рекламы Солида никакой нет, с солидщиками не работаю.

 Buick-s

link 16.08.2012 12:50 
16.08.2012 15:40
ничо не понялО начальство, чо не знать ...

 Buick-s

link 16.08.2012 12:53 
Andrew052, я имел в виду разговорно-бытовой жанр-с
http://forum.wordreference.com/showthread.php?t=2402211&langid=1http://www.dict.cc/?s=to+leave+sth+as+it+is8

 AsIs

link 16.08.2012 14:37 
вот я засек сам. в 17-20 начал, сейчас 17-31. Правда я сделал не 100, а 50 страниц только английского. ну пусть умножим вдвое= 22 минуты на язык. еше 22 на русский. за 44 минуты 100 страниц. Ну пусть за час. Но это будет чистый текст без разрывов и прочего. Гляньте, я вам отправил. И сравните с Солидом: там в нем даже не переносы стоят, а просто дефисами слова разорваны. то есть это надо все короткие тире удалять что ли? А если нужный дефис удалится вместе с ненужными? И потом у вас на каждой странице по 10 разрывов колонок и разделов. Колкнки распозналесь как текстовые колонки, а не табличные, поэтому одним махом отделить русскую часть от английской не получится. В общем, никому ничего не навязываю, но просто еще раз убедился, насколько этот метод практичнее.

 Andrew052

link 16.08.2012 14:46 
Азиз как есть,

Я вот Вам как раз письмо и написал в тему. Очень жалко ваше время. Я дискуссию затеял на абсолютно другую тему. Просто Вы упомянул ФР8 и мне, как человеку в поиску лучшего на сег день софта, сразу стало интересно.

 AsIs

link 16.08.2012 14:52 
да нет, не напрасно вовсе. мне ж тоже надо понимать ситуацию. может на самом деле Солид соорудили супер-пуперный, а я как болван устаревую технологию использую. не поймите неправильно, я не для того, чтобы вам или еще кому что-то доказывать. чисто для себя, так что жалеть нечего. я действительно начал позже и потратил чуть больше 10 минут, так как все-таки основную работу никто не отменял. так что считаю опыт не напрасным (во всяком случае для себя)

 Andrew052

link 16.08.2012 14:56 
На Ваш посто в 17 37 отвечаю:

Я тоже ведь никому ничего не навязываю. Просто я вот до этого поста абсолютно понимал логику рассуждений, а потом что-то перестал.

Вам нравится ФР8? Супер. Я его тоже залью завтра и протестирую.

Но никак не могу согласиться не с одним комментом из поста. Просто из спортивного интереса:

1) зачем считать минуты????? можно просто нажать кнопку в Солиде (я действительно не работаю на Солид). Просто конвертируешь и получаешь готовый файл. Я ж Вам его скинул уже готовый - там ничего не нужно делать с ним - он БЕЗ КАКИХ-ЛИБО ОШИБОК И ПОЛНОСТЬЮ ГОТОВ.
2) По поводу процесса "как сделать из конвертированного ворда два отдельных файла для согласования в кошках". Я ж написал - нужно нажать shift+левая мышь и shift+левая мышь в начале и конце колонок сначала на английском, нажимая при этом кнтрлси с открытым буфером обмена, затем вставить в новый файл. Сделать так по обоим языкам.
3) Вопрос этого топа - как убрать знаки абзаца. Обсудили - делать три секунды.
4) Дефисы - я создал отдельный топ -- как их убрать я действительно не знаю. Вы говорите - там просто дефисы стоят, а не переносы. В конверте Солида тоже стоят просто дефисы, а не переносы. Я не знаю вообще, что такое ПРОСТО ПЕРЕНОСЫ, если это не дефисы...

То есть, вывод - 1) процесс конвертации занимает несколько часов во ФР8 против нажатия кнопки в Солиде,
2) то же самое все получается... Никаких различий.

Как Вы можете в таком случае убедиться в практичности ФР8?????

Просто если дискуссия была заведена, зачем писать то, что не является верным???

Все по чесноку?

 Andrew052

link 16.08.2012 15:06 
К тому же, колонки распознались как текстовые в Солиде? А что в ФР8 они распознались, как табличные?

 Andrew052

link 16.08.2012 15:07 
К тому же, одним махом выделить русский или английский текст в соответствующей колонке нельзя. А в ФР8 можно?

 AsIs

link 16.08.2012 15:28 
если выделять поле распознавания на каждой странице, то "да, можно" на оба последние вопроса

 AsIs

link 16.08.2012 15:30 
** Я ж Вам его скинул уже готовый - там ничего не нужно делать **
И что с ним дальше делать? Как вы из него собираетесь делать память? Вон я в соседней ветки скрины выложил. Какой вариант удобнее?

 AsIs

link 16.08.2012 15:32 
**Вы говорите - там просто дефисы стоят, а не переносы. В конверте Солида тоже стоят просто дефисы, а не переносы. **

Как раз ФР8 делает нормальные "мягкие переносы". Слово "там" относится к вашему файлу

Get short URL | Pages 1 2 all