RSS    

   Реферат: Разработка программных средств конвертирования HTML-текстов в семантические сети

        <p align="center">                

  <img border="0" src="/images/10thyear_s.gif" width="210" height="52">

         </p>

                </td></tr>

              <tr><td width="100%" valign="top" align="left">

                <!-- left menu-->

         <table border="0" width="218">

        <tr><td width="210" bgcolor="#DDDDDD" valign="top" align="left">

                      <p align="right"><b>Products</b></td>

                  </tr>

 <tr onmouseout="this.style.backgroundColor='transparent'"

onmouseover="this.style.backgroundColor='#6B8ADE'">

                              <td width="210" align="right">

  <a href="/index.php?lang=eng&dir=content/products/&id=body&left=

content/products/menu.txt        " target="_self">

  <span style="color: #000000; text-decoration: none">

            TextAnalyst SDK</span></a>

     </td></tr>

<tr><td width="210" align="right">

<p align="right"><img border="0" src="/images/bd14580_.gif" width="12"

height="12">

TextAnalyst</p>

</td></tr>

<tr onmouseout="this.style.backgroundColor='transparent'"

onmouseover="this.style.backgroundColor='#6B8ADE'">

<td width="210" align="right">

<a href="/index.php?lang=eng&dir=content/products/&id=

tref&left=content/products/menu.txt

" target="_self">

<span style="color: #000000; text-decoration: none">

Text Referent</span></a>

</td></tr>

<!-- end left menu-->

----------------------------------------

            </table>

  <!-- end here -->

                     </td>

                     <!-- free space -->

                     <td valign="top" align="left">

                     &nbsp;&nbsp;&nbsp;&nbsp;

                     </td>

                     <!-- end free space -->

                               

          <td valign="top" align="left" width=100% >

          <!-- content started here -->

           <table border="0" cellspacing="6" cellpadding="0">

           <tr> <td width="100%" valign="top" align="left">

<head>

<meta name="DESCRIPTION" content="TextAnalyst - personal text mining system">

<meta name="KEYWORDS" content="TextAnalyst, personal, text mining">

<title>TextAnalyst</title>

</head>

<div align="left">

  <table border="0" align="left" cellspacing="4" cellpadding="3">

    <tr> <td valign="top" align="center" width="250">

        <p align="center">&nbsp;</p>

        <p align="center"><a href="cgi-bin/stat/loadfile.pl?file=ta_rus">

        <img border="0" src="images/downloads.gif"></a></p>

        <p align="center">Получите бесплатную версию

        TextAnalyst</p>

        <table border="0">

          <tr><td width="100%" bgcolor="#008000">

              <p align="center" class="menu">

              <font color="#FFFFFF">Системные требования</font></td> </tr>

          <tr><td width="100%">Intel-based PC</td> </tr>

          <tr> <td width="100%">Windows 9X, NT, 2000, Me</td> </tr>

          <tr> <td width="100%" bgcolor="#C0C0C0">

              <p align="center" class="menu">

       <font color="#FFFFFF">Технические характеристики</font></td>/tr>

          <tr><td width="100%" valign="top" align="left">

              <ul>

    <li>&nbsp;Средняя скорость анализа текста около 1Мбайт/мин (при использовании Pentium-II).</li>

    <li>Максимальный объем анализируемой подборки  не ограничен и зависит от объема ресурсов компьютера и настройки TextAnalyst.</li>

     <li>Собственный объем TextAnalyst не превышает 5Мб.</li>

     <li>Форматы обрабатываемых файлов:</li>

     <li>*.txt (ANSI, DOS), *.rtf</li>

     <li>Экспорт информации  в форматы: *.txt,

       *.csw (электронные таблицы).</li>

              </ul> </td></tr>

        </table>

-----------------------------------

      <h1 align="center">

      <img border="0" src="../../images/octopus_shaden.gif" align="left" width="99" height="112">TextAnalyst 2.0&nbsp;</h1>

        <p align="center"><b>персональная система автоматического анализа текста&nbsp;</b></p>

        <p>TextAnalyst разработан в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов, и предоставляет пользователю следующие основные возможности:&nbsp;</p>

        <ul>

          <li>анализа содержания текста с автоматическим формированием семантической сети с гиперссылками - получения смыслового портрета текста в терминах основных понятий и их смысловых связей;&nbsp;</li>

          <li>анализа содержания текста с автоматическим формированием тематического древа с гиперссылками - выявления семантической структуры текста в виде иерархии тем и подтем;&nbsp;</li>

          <li>смыслового поиска с учетом скрытых смысловых связей слов запроса со словами текста;&nbsp;</li>

          <li>автоматического реферирования текста - формирования его смыслового портрета в терминах наиболее информативных фраз;&nbsp;</li>

          <li>кластеризации информации - анализа распределения материала текстов по тематическим классам;</li>

          <li>автоматической индексации текста с преобразованием в гипертекст;&nbsp;</li>

          <li>ранжирования всех видов информации о семантике текста по «степени значимости» с возможностью варьирования детальности ее исследования;&nbsp;</li>

          <li>автоматического/автоматизированного формирования полнотекстовой базы знаний с гипертекстовой структурой и возможностями ассоциативного доступа к информации;&nbsp;</li>

        </ul>

        <p align="center"><b>Не пугайтесь обилия возможностей!</b></p>

        <p align="center"><i>Работа с TextAnalyst покажется Вам неожиданно простой и приятной, а его аналитические способности сэкономят массу полезного времени...

        </i></p></td> </tr>

  </table></div></td> </tr>

            </table>

----------------------------------

</body>

</html>

Сравнив приведенные экранную форму и HTML-текст, видим, что семантически значимыми элементами данного документа являются:

-        ключевые слова, относящиеся к данному документу: Microsystems, TextAnalyst, text mining, knowledge discovery, textmining, e-commerce, classification, semantic analysis, neuro networks, natural linguistc, text processing, Микросистемы, анализ текстов, база знаний, документооборот, классификация, семантический анализ, нейронные сети, натуральные языки, текст процессор (тег <META>);

-        все меню организованы в виде таблиц (тег <TABLE>), в ячейках которых (тег <TD>) расположены ссылки (тег <A href …>), с помощью которых можно перейти к другой интересующей информации. Например, можно получить информацию о продуктах данной компании, выбрав их название из левого меню.

-        текст описания возможностей программы TextAnalyst организован в виде списка (тег <li>).

Т.о. можно видеть, семантически значимые характеристики документа могут быть разбросаны по разным частям документа или по разным документам. Это сильно затрудняет семантический анализ Интернет – документов.

Решение этой проблемы в настоящее время связано с использованием двух подходов. Первый подход предполагает, что семантическая разметка документа выполняется вручную его автором на основе специальных метатегов, а второй подход связан с автоматическим или полуавтоматическим преобразованием исходного текста в специальное семантическое представление. Целесообразно конвертировать HTML-тест в более удобную форму представления для дальнейшей обработки.

Страницы: 1, 2, 3, 4


Новости


Быстрый поиск

Группа вКонтакте: новости

Пока нет

Новости в Twitter и Facebook

                   

Новости

© 2010.