ОСОБЕННОСТИ РАБОТЫ С ИНТЕРНЕТ-РЕСУРСАМИ — Управление информацией и знаниями в компании

    ОСОБЕННОСТИ РАБОТЫ С ИНТЕРНЕТ-РЕСУРСАМИ

    Глобальная сеть Интернет обладает огромным потенциалом, который специалисты компании Google оценивают в 1 трлн веб-страниц. Структура Интернета такова, что пользователь может воспользоваться веб-ресурсами, адрес которых ему известен, или поисковыми системами для поиска неизвестных ему веб-сайтов. По сути, единственным средством доступа к деловым ресурсам Интернета являются поисковые системы. Задача эффективной работы с ресурсами Интернета во многом определяется эффективностью поиска информации.

    Поиском информации в Интернете занимаются поисковые машины и каталоги. Задача поисковых систем — опознать веб-страницы с помощью поиска по ключевым словам в базе данных, которая состоит из индексов и ссылок на веб-страницы.

    Каталоги представляют собой иерархически организованную тематическую структуру, в которую в отличие от поисковых машин информация заносится по инициативе пользователей. Добавляемая страница должна быть жестко привязана к принятым в каталоге категориям. Каталоги не столь популярны у пользователей, как поисковые машины, поскольку представленный объем информации в несколько десятков тысяч раз меньше, а также из-за трудностей в навигации по разделам. Практически каждый из 700 каталогов, представленных в Интернете, предлагает собственное видение структуры разделов и рубрик. Неоспоримым преимуществом каталогов перед поисковыми машинами является более высокая эффективность результатов поиска, поскольку веб-сайты выбираются из соответствующих разделов.

    Поисковые системы состоят из трех основных частей.

    В каждой поисковой системе работает собственный слайдер; каждая система индексирует страницы своим особым способом, и приоритеты при поиске по индексам тоже различны. Поэтому запрос по ключевым словам или выражениям в разных поисковых системах обычно дает разные результаты.

    Программа поиска отыскивает страницы, которые соответствуют формальным требованиям запроса. Для того чтобы определить последовательность, в которой отобранные страницы будут представлены пользователю, применяется, как правило, уникальный для каждой поисковой системы алгоритм ранжирования. В интересах пользователя документы, наиболее соответствующие потребностям пользователя, должны быть помещены первыми в списке. Различные поисковые системы используют свои алгоритмы ранжирования. Основными принципами определения соответствия документов запросу являются следующие:

    ведет с других страниц, зарегистрированных в базе поисковика.

    Поисковые машины оказывают услуги пользователям бесплатно.

    Между тем поиск информации в Интернете является большим бизнесом, в котором участвует около 2 тыс. поисковиков, поскольку проблема поиска актуальна не столько для пользователей, сколько для создателей веб-сайтов, заинтересованных в привлечении внимания пользователей Интернета. Для огромного количества интернет- магазинов, веб-сайтов других коммерческих компаний поисковые машины становятся практически единственным инструментом привлечения пользователей. Таким образом, поиск информации в Интернете становится эффективным инструментом рекламы по привлечению новых клиентов. Динамика темпов роста рынка рекламы по средствам массовой информации отображена на рис. 5.3.

    Российский рынок интернет-рекламы в 2008 г. вырос на 55%, до 14,7 млрд руб., в том числе: сегмент контекстной рекламы (тематические ссылки в результатах поиска и на профильных ресурсах) вырос на 61%, до 8,9 млрд руб.; сегмент медийной рекламы (баннеры, «всплывающие окна» и другие форматы) за год вырос на 45%, до 5,8 млрд руб.1

    На мировой арене поиска лидирующую позицию занимает компания Google, основанная в 1998 г., штат сотрудников составляет более 10 тыс., предлагает около 160 бесплатных сервисов на 114 языках мира. Другими крупными игроками являются компании Yahool и Microsoft.

    Поисковые машины должны находить компромисс между удовлетворением результатами поиска пользователей и рекламодателей. Однако говорить об эффективном поиске в Интернете невозможно. Эффективность работы поисковых машин ограничивается тремя существенными факторами.

    1. Топология Интернета такова, что поисковые машины могут просматривать не больше ‘/3 всех сайтов в Интернете.

    Рис. 5.3. Темпы роста рынка рекламы в СМИ, 2008 г.

    Источник: Radio/Magazines/TVs: «Grown up digital» by Don Tapscott, 2009, McGraw-Hill. P. 30.

    См.: Соболев С. Российский рынок интернет-рекламы продолжил рост в 2009 году//Коммерсантъ. — 2009. — № 26.

    В 2000 г. специалисты компаний Alta Vista, IBM и Compaq исследовали ресурсы и ссылки во Всемирной паутине[1]. Просмотрев с помощью поисковых средств AltaVista свыше 600 млн веб-страниц и 1,5 млрд ссылок, размещенных на этих страницах, они пришли к выводу, что исследуемое пространство состоит из следующих компонентов:

    Исследования показали, что при увеличении общего объема информационных ресурсов Интернета установленные отношения компонентов остаются прежними. Проведенный анализ позволяет сделать вывод о том, что информационное пространство Интернета является достаточно сложным и неоднородным. К отдельным ресурсам Интернета поисковые машины не имеют доступа. Для индексирования поисковым машинам доступны веб-страницы, составляющие центральное ядро, т.е. не более 30% всех веб-страниц.

    Первые полнотекстовые информационно-поисковые системы (Full Retrieval System) появились в 1960-х гг. Назначением этих систем был поиск в библиотечных каталогах, архивах, массивах документов, таких как статьи, нормативные акты, рефераты, диссертации, монографии. Первоначально информационно-поисковые системы применялись преимущественно в библиотечном деле и в системах научно-технической информации.

    В начале 1970-х гг. уже коммерческие компьютерные службы начали предоставлять возможность интерактивного поиска в тематических базах данных. Некоторые из тех служб существуют и сегодня — основанная в 1965 г. система Dialog обеспечивает своим клиентам доступ к 900 базам данных и является одной из наиболее эффективных информационных служб.

    Одними из наиболее важных показателей эффективности информационных систем, содержащих текстовую информацию, являются семантические показатели. Семантические показатели основаны на оценке релевантности между документами и запросами.

    При описании технологии обработки информации в Интернете часто употребляется термин «релевантность». Очевидно, что этот термин применительно к оценке эффективности поиска в деловых ресурсах Интернета использовать нельзя. Определение релевантности предполагает, что группа экспертов просматривает весь массив (в данном случае — массив деловых ресурсов Интернета) и определяет, какие из документов, хранящихся в массиве, релевантны запросу. Учитывая объем деловых ресурсов Интернета — в середине 2008 г. он превысил 1 трлн веб-страниц, — просмотр такого массива технически нереализуем. Под полнотой выдачи сведений из деловых ресурсов Интернета следует понимать произведение средней доли просматриваемых сайтов в поисковых системах на среднюю долю «видимой» части сайта в деловых ресурсах Интернета.

    Таким образом, средняя полнота выдачи документов из информационных ресурсов Интернета поисковыми машинами П^ может быть выражена формулой

    где П! — средняя доля просматриваемых сайтов; П2 — средняя доля «видимой» части сайта.

    Проведенные ранее исследования показали, что полнота в вербальных информационно-поисковых системах (поисковых системах Интернета) не может быть выше 50%.

    Указанная полнота поиска в ресурсах Интернета была бы 50%, если бы просматривался весь массив информации, находящейся на сайтах. Это максимальное значение необходимо корректировать на долю просмотра веб-страниц поисковыми машинами. Учитывая, что, по данным исследований компетентных в этой области организаций, лучшие поисковые системы Интернета просматривают не более 30% веб-сайтов и при этом на каждом сайте просматривают только «видимую» часть (1—5% объема сайтов), полнота поиска в Интернете с помощью поисковых систем составит менее 1%. Отсутствие публикаций, посвященных результатам количественного анализа характеристик поиска информации в Интернете по полноте выдаваемой информации и информационному шуму, вводит потребителя в заблуждение. Потребитель, как правило, не представляет, что объем невыданной, но удовлетворяющей потребителя информации на два порядка превышает объем выданной. Если вы получили в ответе на запрос 10 документов, вы должны знать, что 990 документов, удовлетворяющих условиям запросов, остались невыданными. Эти оценки представляются даже завышенными, так как половина документов в Интернете — на английском языке, а остальные документы — на языках других народов мира.

    Анализ содержимого профессиональных баз за последние 15 лет показывает неуклонный рост доли текстовой информации в общем объеме информации профессиональных баз. Если в 1985 г. доля текстовой информации составляла 47%, то в 2000 г. — уже 84%. Представляется, что основная информация в Интернете также является текстовой. Эти обстоятельства позволяют сделать вывод о том, что подходы к оценке эффективности поиска в документальных системах в полной мере распространяются и на профессиональные базы, и на информационные ресурсы Интернета.

    С появлением и развитием вычислительной техники в разных странах начались исследования, связанные с оценкой возможности выявить автоматически смысл из текста. Эти исследования велись в рамках направления, получившего название «машинный перевод», и в рамках направлений по автоматизированной обработке, если входной поток сообщений включал произвольные тексты. В 1975 г. известный специалист в области компьютерной лингвистики профессор Г. Г. Белоногов сформулировал концепцию фразеологического машинного перевода текстов, которую опубликовал в предисловии к книге Д.А. Жукова «Мы переводчики»[2]. Главным тезисом этой концепции является утверждение, что при переводе текстов в качестве основных единиц смысла следует рассматривать не отдельные слова, а фразеологические сочетания, выражающие понятия, отношения между понятиями и типовые ситуации. Отдельные слова также могут использоваться, но во вторую очередь. Целью передачи информации с помощью текста, как пишет Г. Г. Белоногов[3], является не столько исчерпывающее описание мыслительных образов его автора, сколько инициация процесса порождения соответствующих мыслительных образов у читателей. Поэтому текст не столько «выражает», сколько стимулирует и «намекает», и значительная часть его содержания оказывается «между строк».

    Воссоздание в сознании читателей мыслительных образов, подобных мыслительным образам автора текста, осуществляется постепенно, путем восприятия предложения за предложением и «монтажа» возникающих при этом частичных образов в целостный мыслительный образ, соответствующий содержанию текста. Теоретические положения лингвистики, компьютерной лингвистики и многолетние эксперименты, проведенные на реальных текстах, неопровержимо доказывают истинность таких выводов.

    Единственно верное заключение, которое можно сделать, рассматривая процесс коммуникации между источником и потребителем информации с позиций теоретических положений лингвистики и компьютерной лингвистики, состоит в том, что без участия человека выявить смысл из произвольного текста невозможно.

    Реализовать эффективный поиск автоматически на современном этапе развития Интернета невозможно.

    Усилия разработчиков поисковых систем направлены в первую очередь на обслуживание интересов рекламодателей, а степень удовлетворения пользователей оценивается по количеству найденных веб-страниц. При поиске на естественном языке по двум-трем словам поисковая машина, как правило, выдает количество ссылок, превосходящее возможности пользователя ознакомиться со всеми найденными веб-документами в какой-либо разумный срок.

    При работе с поисковыми машинами Интернета необходимо учитывать, что верхние позиции в результатах поиска занимают, как правило, веб-сайты, которые подвергаются так называемой раскрутке. Однако веб-сайты государственных структур, образовательных и статистических ресурсов не подвергаются раскрутке и оказываются на /7-х страницах в результатах поиска поисковых машин. Таким образом, поисковые машины в основном ориентированы на то, чтобы находить веб-ресурсы коммерческих компаний.

    В тех случаях, когда это возможно, предпочтительнее использовать специализированные поисковые машины. Например, для поиска научных статей, докладов:

    Для поиска информации по компаниям:

    Наиболее важным аспектом классификации деловых информационных ресурсов Интернета является содержание информации. Деловая информация, необходимая в предпринимательской деятельности, по этому критерию может быть разделена на следующие группы.

    По данным ОЭСР[4], свыше 80% компаний, входящих в ОЭСР, применяют Глобальную сеть, в том числе от 40 до 80% имеют вебсайт в Интернете, 75—58% используют банковские услуги, до 30% приобретают товары и услуги, до 20% получают заказы от клиентов через Интернет.

    В Интернете широко представлена справочная информация: списки веб-сайтов компаний, отобранных по определенному принципу; телефонно-адресный справочник «Желтые страницы» с возможностью поиска информации по названию фирмы и виду деятельности; телефонные справочники городов РФ, стран СНГ и Балтии.

    К коммерческим информационным ресурсам в Интернете необходимо относить многочисленные бесплатные сервисы, такие как поиск, электронная почта, программы мгновенного обмена сообщениями, блоги и др. В большинстве случаев эти сервисы получают доход от демонстрации рекламных сообщений пользователям.

    Интенсивное развитие И КТ и формирование глобального информационного общества обусловливают появление дополнительных факторов, которые необходимо учитывать при работе с открытыми ресурсами Интернета.

    Авторское право

    Основная проблема в распространении свободного доступа к ресурсам заключается в требовании соблюдения авторских прав. В международной практике авторы все чаще используют так называемую открытую лицензию, для того чтобы создать условия для свободного доступа к их материалам. Некоммерческая организация Creative Commons (http://creativecommons.org/) предоставляет авторам возможность передать общественности некоторые из своих прав на основе выбранного типа лицензии, предусматривающей условия использования авторских материалов.

    Поиск информации/доступ

    Свободный (открытый) обмен знаниями в Интернете обеспечивается доступом к ресурсам. В 2008 г. количество веб-страниц в Интернете оценивалось в 1 трлн, и выделить из этого огромного информационного массива ресурсы, содержащие сведения, обладающие высокой ценностью, становится сложной задачей для пользователей. Пользователи зачастую не знают о существовании специализированных инструментов поиска, информационных ресурсов и обращаются в основном к тем ресурсам, которые лежат на поверхности.

    Многократное дублирование

    Современный уровень развития ИКТ позволяет быстро и практически без затрат копировать и распространять информацию, что приводит к ее многократному дублированию и избыточности в информационных системах. По оценкам специалистов, объем накапливаемых знаний удваивается каждые два—три года, информационный поток нарастает, но на его фоне степень удовлетворения информационных потребностей пользователей снижается. Опасность этого явления заключается в том, что пользователи могут не получить доступ к источникам, содержащим новые сведения или знания.

    Качество информационных ресурсов

    Вопрос качества открытых ресурсов остается дискуссионным. Создаваемые информационные ресурсы по требованию современного века информации не успевают пройти той обработки, которой подвергаются печатные издания. Часто пользователи не могут достоверно установить авторство того или иного материала. В отдельных информационных системах пользователи могут оценивать качество материалов, присваивая им соответствующий ранг и оставляя комментарии. Пользователи должны самостоятельно оценивать качество предлагаемых в открытом доступе материалов.

    Пользователи, не обладающие необходимыми квалификацией и опытом, порой не догадываются о тех возможностях, которые им предоставляет Интернет. Информационные компетенции позволят пользователям наиболее эффективным путем получить необходимую информацию в Интернете и использовать ее в своей деятельности.

    ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ И ИНТЕРНЕТ-РЕСУРСЫ
    ИНТЕРНЕТ-РЕСУРСЫ
    Н5. Поведение потребителей-мужчин и женщин в процессе использования СМ и интернет-ресурсов при планировании путешествия не различается.
    Интернет-ресурсы, связанные с противодействием коррупции
    Интернет-ресурсы
    Интернет-ресурсы
    Интернет-ресурсы
    Интернет-ресурсы
    Интернет-ресурсы
    Интернет-ресурсы
    ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ И ИНТЕРНЕТ-РЕСУРСЫ
    ИНТЕРНЕТ-РЕСУРСЫ
    Н5. Поведение потребителей-мужчин и женщин в процессе использования СМ и интернет-ресурсов при планировании путешествия не различается.
    Интернет-ресурсы, связанные с противодействием коррупции
    Интернет-ресурсы
    Интернет-ресурсы
    Интернет-ресурсы
    Интернет-ресурсы
    Интернет-ресурсы
    Интернет-ресурсы

    Источник

    ОСОБЕННОСТИ РАБОТЫ С ИНТЕРНЕТ-РЕСУРСАМИ — Управление информацией и знаниями в компании

    Поделиться:
    Нет комментариев

      Добавить комментарий

      Ваш e-mail не будет опубликован. Все поля обязательны для заполнения.

      ×
      Рекомендуем посмотреть
      Cогласие на обработку своих персональных данных Политика конфиденциальности Договор публичной оферты