Здравствуйте.
Имеется большое количество файлов (протоколы врачей) в формате docx и doc
Структура внутри простая, ненужная картинка эмблема, заголовок и текст, размер 1-2 страницы
Сохраняли давно поэтому есть и doc (Word 2003-XP) и docx(Word 2007+)
Можно использововать MS Office или LibreOffice
Задача вгрузить тексты в базу данных. Минимум получается 2 поля путь+имя файла и сам текст со всеми переносами, пробелами, табами (нумерации и спец разметки там нет)
Покопался тут и погуглил, все темы в основном старые и мало подробностей.
Получается алгоритм такой
1. Перебор в цикле и ли рекурсией папок подпапок с файлами.
2. Запуск/открытие Офиса с подачей в него очередного файла.
3. Получение текста из активного документа.
4. сохранение в базу (разбор и исправление огрех, вопрос не стоит, это второй этап)
пункт 3. не смог найти как реализовать.
Подскажите пожалуйста, кто знает.