RSS    

   Реферат: Разработка программных средств конвертирования HTML-текстов в семантические сети

Эта конструкция обеспечивает уникальное в пределах документа имя начала определенного фрагмента HTML-текста. При этом текст, заключенный между тегами <A> и </A>, как правило, задает семантически значимое наименование заголовка.

Для ссылок на помеченные таким образом части Интернет - документа используются конструкции следующего вида:

1)   <A href=«#Метка»>Текст</A> - Задает локальную ссылку на часть документа, начинающуюся с указанной метки

2)   <A href=«URL»>Текст</A> - Задает глобальную ссылку на документ в сети, однозначно идентифицируемый с помощью URL (Unified Resource Locator) – Интернет – адрес: имя домена, уточненное названием протокола и собственное имя документа, включая путь к нему в пределах данного домена.

Важными конструкциями HTML также являются таблицы с богатыми возможностями многоуровневых заголовков и формы, с помощью которых в язык введены средства обеспечения диалога с читателями Интернет - документов. Базисными конструкциями форм являются редактируемые текстовые поля, элементы выбора, различные кнопки и т.д.

Пример создания таблицы:

<TABLE>

    <TR>

         <TD> столбец1, строка1 </TD><TD> столбец2, строка1 </TD>

     </TR>

     <TR>

          <TD> столбец1, строка2 </TD><TD> столбец2, строка2 </TD>

      </TR>

Простейший пример создания формы:

<FORM METHOD=”POST” …>

   <P> Вы можете ввести в поле одну строку

   <INPUT NAME=”entry”>

   </P> Для обработки результатов ввода нажмите кнопку

   <INPUT TYPE=”submit” VALUE=”Принять запрос”>

   </P>

</FORM>

Еще одна важная конструкция – это фреймы (frames). С их помощью можно разделить документ на части и представлять их в отдельных, неперекрывающихся областях экрана. Такое представление информации характерно для многооконных приложений.

Кроме этого имеются и другие конструкции разметки Интернет – документов. Среди этих конструкций надо отметить более четкое разделение между структурой документа и его представлением за счет использования таблиц стилей, скриптов, поддерживающих, в частности, создание динамических страниц, новый механизм интеграции текстовых и графических ссылок, исполняемый на стороне клиента и стандартизацию механизма подключения к HTML-документам базисных медиаобъектов и приложений.

Что такое фреймы

Термин фрейм был предложен в 70-е годы для обозначения структуры знаний для восприятия пространственных сцен. Фрейм – это абстрактный образ для представления некоего стереотипа восприятия. Фреймом также называется и формализованная модель для отображения образа.

Различают:

-            фреймы-образцы (прототипы) – хранятся в базе данных

-            фреймы-экземпляры – создаются для отображения реальных фактических ситуаций на основе поступающих данных

-            фреймы-структуры – используются для обозначения объектов и понятий

-            фреймы-роли

-            фреймы-сценарии

-            фреймы-ситуации

Обычно структура фрейма представляется как список свойств:

(ИМЯ ФРЕЙМА:

(имя 1-го слота: значение 1-го слота),

(имя 2-го слота: значение 2-го слота),

--------------------------

(имя N-го слота: значение N-го слота)

В качестве значения слота может выступать имя другого фрейма, так образуется сеть фреймов.

Существует несколько способов получения слотом значений во фрейме-экземпляре:

-            по умолчанию от фрейма-образца (значение default)

-            через наследование свойств от фрейма, указанного в слоте АКО (a kind of)

-            по формуле, указанной в слоте

-            через присоединенную процедуру

-            явно из диалога с пользователем

-            из базы данных.

Возможности представления знаний на базе языка HTML

Рассмотрим, каким образом HTML-документ может быть представлен в виде семантической сети. Нам необходимо выделить те конструкции языка, которые могут быть полезными для решения этой задачи.

Прежде всего, к числу таких конструкций относятся теги типа <TITLE>, <META…> и <A…>. Первый тег важен для фиксации семантики всего HTML – документа, так как текст, заключенный между тегами <TITLE> и </TITLE> чаще всего отражает его назначение или содержание.

Теги типа <META…> вводят имена атрибутов и их значения с помощью параметров name=”…” и content=”…”, а ссылки и якоря фиксируют отношения между частями одного документа или между отдельными документами.

Теги типа <META…> явно вводят семантику значений атрибутов, одинаково интерпретируемых броузерами за счет ключевых слов, которые могут быть значениями параметра name.

Теги типа <A…> фиксируют лишь факт наличия отношения между ссылкой и ее якорем. В некоторых случаях этому отношению можно «приписать» имя SeeAlso (смотри также), в других случаях – ConsistOf, PartOf или иное подходящее имя, но семантика данной конструкции имплицитна, а встроенная интерпретация ее связана лишь с переходом по ссылке и визуализацией начала соответствующего фрагмента документа или загрузкой нового документа для просмотра.

Другими полезными конструкциями являются заголовки разделов и подразделов (тексты между тегами <Hi> и </Hi>), списки, таблицы и другие элементы языка.

Но в целом, выделение значимых для семантической интерпретации конструкций является экспертной задачей, решаемой каждый раз автором соответствующей Интернет - публикации по-своему. Но существуют определенные стереотипы. Например, на страницах Интернет – магазинов каталоги товаров в большинстве случаев представляются таблицами или списками, либо «зашиты» в чувствительные для щелчка мыши графические объекты. Это характерно и для индексов на сайтах машин поиска.

Рассмотрим в качестве примера страницу официального сайта компании Microsystems LTD, расположенную в сети по адресу http://www.analyst.ru. На этой странице располагается по информация по программе TextAnalyst 2.0. Экранная форма этой страницы показана на рисунке.

Фрагмент соответствующего HTML – текста представлен ниже:

<html>

<head>

---------------------------------

<meta name="KEYWORDS" content="Microsystems, TextAnalyst, text mining, knowledge discovery, textmining, e-commerce, classification, semantic analysis, neuro networks, natural linguistc, text processing, Микросистемы, анализ текстов, база знаний, документооборот, классификация, семантический анализ, нейронные сети, натуральные языки, текст процессор">

<meta name="GENERATOR" content="Microsoft FrontPage 4.0">

<meta name="ProgId" content="FrontPage.Editor.Document">

<title>Microsystems, Ltd</title>

<link rel="stylesheet" type="text/css" href="style.css">

</head>

-----------------------------------------------

<body topmargin="0" leftmargin="0">

<table border="0" cellspacing="0" cellpadding="0">

    <tr>

   <td valign="top" width="239"><a href="/index.php?lang=eng"><img

border="0" src="/images/top_logo.gif"></a></td>

   <td valign="top" align="left">

     <table border="0" cellspacing="0" cellpadding="0">

              <tr><td width="100%"><img border="0" src="/images/top_up.gif">

              </td></tr>

              <tr> <td width="100%">

   <table border="0"  cellspacing="0" cellpadding="0" width="100%"

bgcolor="#001395" height="23">

                  <tr><td width="100%">

-------------------------------------

                      </table>

                      </td></tr>

                    </table>

                            <!-- end menu -->

----------------------------------------------

        <!-- start menu here -->

             <table border="0" cellspacing="0" cellpadding="0" width="100%">

        <tr> <td width="241" valign="top" align="left">

       <table border="0" width="100%" cellspacing="0" cellpadding="0">

              <tr><td width="100%">

             <p>&nbsp;</p>

Страницы: 1, 2, 3, 4


Новости


Быстрый поиск

Группа вКонтакте: новости

Пока нет

Новости в Twitter и Facebook

                   

Новости

© 2010.