HTML - построить DOM. XMLRead не хочет читать.

Общие вопросы программирования, алгоритмы и т.п.

Модератор: Модераторы

HTML - построить DOM. XMLRead не хочет читать.

Сообщение vitaly_l » 19.02.2016 14:09:38

Всем привет,
нужно прочитать HTML и построить DOM.
XMLRead - не может или не хочет или не предназначен.

:?: Какой модуль подключить, чтобы построить DOM, HTML-файла ?
(чтобы там можно было к элементам обращаться как в TXMLDocument, типа: FindNode, NodeValue, TextContent etc.)
Спасибо.


.
Аватара пользователя
vitaly_l
долгожитель
 
Сообщения: 3333
Зарегистрирован: 31.01.2012 16:41:41

Re: HTML - построить DOM. XMLRead не хочет читать.

Сообщение Sharfik » 19.02.2016 14:30:51

Аватара пользователя
Sharfik
энтузиаст
 
Сообщения: 791
Зарегистрирован: 20.07.2013 01:04:30

Re: HTML - построить DOM. XMLRead не хочет читать.

Сообщение vitaly_l » 19.02.2016 14:33:59

Sharfik писал(а):http://wiki.freepascal.org/TXMLDocument не годится?

Я о нём писал, по ИДЕЕ он должен это делать, т.к. XML и HTML - практически одно и тоже (в понимании построения DOM).
Но TXMLDocument - не читает HTML, жалуется на ошибки. Поэтому решил спросить.

Добавлено спустя 2 минуты 3 секунды:
TIpHtmlPanel - тоже не все ноды показывает/ищет.


.
Аватара пользователя
vitaly_l
долгожитель
 
Сообщения: 3333
Зарегистрирован: 31.01.2012 16:41:41

Re: HTML - построить DOM. XMLRead не хочет читать.

Сообщение pupsik » 19.02.2016 16:24:48

vitaly_l То что в лазаре с хтмл работает может простые страницы парсить... Если сильно не ошибаюсь: данный момент "всплывал" на анг. форуме. Есть и другие инструменты для парсинга.
pupsik
энтузиаст
 
Сообщения: 1154
Зарегистрирован: 20.08.2014 16:20:13

Re: HTML - построить DOM. XMLRead не хочет читать.

Сообщение vitaly_l » 19.02.2016 20:58:03

pupsik писал(а):То что в лазаре с хтмл работает может простые страницы парсить... Если сильно не ошибаюсь: данный момент "всплывал" на анг. форуме. Есть и другие инструменты для парсинга.

Да, я знаю. На PHP - могу. Но Лазарус позволяет сделать более оптималный вариант "на все случаи жизни". Поэтому и нужен.
В общем если кто сталкивался, подскажите прлиииииз. Спасибо.
Аватара пользователя
vitaly_l
долгожитель
 
Сообщения: 3333
Зарегистрирован: 31.01.2012 16:41:41

Re: HTML - построить DOM. XMLRead не хочет читать.

Сообщение pupsik » 19.02.2016 21:43:06

инструменты - компоненты, а не ПХП или иное :)
"на все случаи жизни"
:mrgreen: Уж проще: под необходимую задачу.
pupsik
энтузиаст
 
Сообщения: 1154
Зарегистрирован: 20.08.2014 16:20:13

Re: HTML - построить DOM. XMLRead не хочет читать.

Сообщение vitaly_l » 19.02.2016 21:49:34

pupsik писал(а):проще: под необходимую задачу.

Возможно Вы правы.
pupsik писал(а):инструменты - компоненты, а не ПХП или иное

Может это то что мне нужно? Какие инструменты - компоненты?
Аватара пользователя
vitaly_l
долгожитель
 
Сообщения: 3333
Зарегистрирован: 31.01.2012 16:41:41

Re: HTML - построить DOM. XMLRead не хочет читать.

Сообщение pupsik » 20.02.2016 00:32:24

Какие инструменты - компоненты?
уже писали на форуме о парсинге...
п.с.
HTML - свалка всего. XML - имеет структуру. Т.е. ваша задача не ясна (для меня). Поэтому кто его знает что вам посоветовать. Единственное что ясно: вы хотите привести в удобочитаемый, для вас, вариант. А вот зачем.. Может ссылки стащить, может.... вам проще браузер использовать (для жабы).
pupsik
энтузиаст
 
Сообщения: 1154
Зарегистрирован: 20.08.2014 16:20:13

Re: HTML - построить DOM. XMLRead не хочет читать.

Сообщение resident » 20.02.2016 13:23:08

vitaly_l писал(а):нужно прочитать HTML и построить DOM

Это невозможно, т.к. в HTML возможен (причем по стандарту) беспредел, который будет считаться невалидным/некорректным документом XML.
resident
энтузиаст
 
Сообщения: 605
Зарегистрирован: 13.03.2013 16:58:51

Re: HTML - построить DOM. XMLRead не хочет читать.

Сообщение Sergei I. Gorelkin » 20.02.2016 13:43:42

Во-первых есть модуль sax_html
Во-вторых, html можно превратить в xml с помощью утилит типа htmltidy.
Аватара пользователя
Sergei I. Gorelkin
энтузиаст
 
Сообщения: 1405
Зарегистрирован: 24.07.2005 14:40:41
Откуда: Зеленоград

Re: HTML - построить DOM. XMLRead не хочет читать.

Сообщение vitaly_l » 20.02.2016 13:51:15

resident писал(а):Это невозможно, т.к. в HTML возможен (причем по стандарту) беспредел, который будет считаться невалидным/некорректным документом XML.

Ага, это примерно, то, что я "искал", точнее хотел получить информацию. Спасибо добрый resident.
Sergei I. Gorelkin писал(а):Во-первых есть модуль sax_html
Во-вторых, html можно превратить в xml с помощью утилит типа htmltidy.

Это скорее всего искомое! Ура! Спасибо БОЛЬШОЕ, наидобрейший Sergei I. Gorelkin.

Всем хорошего настроения!

.
Аватара пользователя
vitaly_l
долгожитель
 
Сообщения: 3333
Зарегистрирован: 31.01.2012 16:41:41


Вернуться в Общее

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 6

Рейтинг@Mail.ru
cron