Страница 1 из 1

HTML - построить DOM. XMLRead не хочет читать.

СообщениеДобавлено: 19.02.2016 14:09:38
vitaly_l
Всем привет,
нужно прочитать HTML и построить DOM.
XMLRead - не может или не хочет или не предназначен.

:?: Какой модуль подключить, чтобы построить DOM, HTML-файла ?
(чтобы там можно было к элементам обращаться как в TXMLDocument, типа: FindNode, NodeValue, TextContent etc.)
Спасибо.


.

Re: HTML - построить DOM. XMLRead не хочет читать.

СообщениеДобавлено: 19.02.2016 14:30:51
Sharfik

Re: HTML - построить DOM. XMLRead не хочет читать.

СообщениеДобавлено: 19.02.2016 14:33:59
vitaly_l
Sharfik писал(а):http://wiki.freepascal.org/TXMLDocument не годится?

Я о нём писал, по ИДЕЕ он должен это делать, т.к. XML и HTML - практически одно и тоже (в понимании построения DOM).
Но TXMLDocument - не читает HTML, жалуется на ошибки. Поэтому решил спросить.

Добавлено спустя 2 минуты 3 секунды:
TIpHtmlPanel - тоже не все ноды показывает/ищет.


.

Re: HTML - построить DOM. XMLRead не хочет читать.

СообщениеДобавлено: 19.02.2016 16:24:48
pupsik
vitaly_l То что в лазаре с хтмл работает может простые страницы парсить... Если сильно не ошибаюсь: данный момент "всплывал" на анг. форуме. Есть и другие инструменты для парсинга.

Re: HTML - построить DOM. XMLRead не хочет читать.

СообщениеДобавлено: 19.02.2016 20:58:03
vitaly_l
pupsik писал(а):То что в лазаре с хтмл работает может простые страницы парсить... Если сильно не ошибаюсь: данный момент "всплывал" на анг. форуме. Есть и другие инструменты для парсинга.

Да, я знаю. На PHP - могу. Но Лазарус позволяет сделать более оптималный вариант "на все случаи жизни". Поэтому и нужен.
В общем если кто сталкивался, подскажите прлиииииз. Спасибо.

Re: HTML - построить DOM. XMLRead не хочет читать.

СообщениеДобавлено: 19.02.2016 21:43:06
pupsik
инструменты - компоненты, а не ПХП или иное :)
"на все случаи жизни"
:mrgreen: Уж проще: под необходимую задачу.

Re: HTML - построить DOM. XMLRead не хочет читать.

СообщениеДобавлено: 19.02.2016 21:49:34
vitaly_l
pupsik писал(а):проще: под необходимую задачу.

Возможно Вы правы.
pupsik писал(а):инструменты - компоненты, а не ПХП или иное

Может это то что мне нужно? Какие инструменты - компоненты?

Re: HTML - построить DOM. XMLRead не хочет читать.

СообщениеДобавлено: 20.02.2016 00:32:24
pupsik
Какие инструменты - компоненты?
уже писали на форуме о парсинге...
п.с.
HTML - свалка всего. XML - имеет структуру. Т.е. ваша задача не ясна (для меня). Поэтому кто его знает что вам посоветовать. Единственное что ясно: вы хотите привести в удобочитаемый, для вас, вариант. А вот зачем.. Может ссылки стащить, может.... вам проще браузер использовать (для жабы).

Re: HTML - построить DOM. XMLRead не хочет читать.

СообщениеДобавлено: 20.02.2016 13:23:08
resident
vitaly_l писал(а):нужно прочитать HTML и построить DOM

Это невозможно, т.к. в HTML возможен (причем по стандарту) беспредел, который будет считаться невалидным/некорректным документом XML.

Re: HTML - построить DOM. XMLRead не хочет читать.

СообщениеДобавлено: 20.02.2016 13:43:42
Sergei I. Gorelkin
Во-первых есть модуль sax_html
Во-вторых, html можно превратить в xml с помощью утилит типа htmltidy.

Re: HTML - построить DOM. XMLRead не хочет читать.

СообщениеДобавлено: 20.02.2016 13:51:15
vitaly_l
resident писал(а):Это невозможно, т.к. в HTML возможен (причем по стандарту) беспредел, который будет считаться невалидным/некорректным документом XML.

Ага, это примерно, то, что я "искал", точнее хотел получить информацию. Спасибо добрый resident.
Sergei I. Gorelkin писал(а):Во-первых есть модуль sax_html
Во-вторых, html можно превратить в xml с помощью утилит типа htmltidy.

Это скорее всего искомое! Ура! Спасибо БОЛЬШОЕ, наидобрейший Sergei I. Gorelkin.

Всем хорошего настроения!

.