Сделай Сам Свою Работу на 5

Модели жизненного цикла ПО





Вопрос 1.

Информация, данные, знания.

Хотя информация это основополагающее понятие науки информатики, но четкого её определения не существует.

Informatio (лат) – сведения об окружающем мире, которые уменьшают энтропию, т.е имеющуюся степень неопределённости, неполноты знаний.

Данные – форма представления информации

Знания – система данных; данные + правила обработки этих данных.

Информационные революции.

В истории развития цивилизации произошло несколько информационных революций— преобразований общественных отношений из-за кардинальных изменений в сфере обработки информации. Следствием подобных преобразований являлось приобретение человеческим обществом нового качества.

Первая революция связана с изобретением письменности, что привело к гигантскому качественному и количественному скачку. Появилась возможность передачи знаний от поколения к поколению.

Вторая (середина XVI в.) вызвана изобретением книгопечатания, которое радикально изменило индустриальное общество, культуру, организацию деятельности.

Третья (конец XIX в.) обусловлена изобретением электричества, благодаря которому появились телеграф, телефон, радио, позволяющие оперативно передавать и накапливать информацию в любом объеме.



Четвертая (70-е гг. XX в.) связана с изобретением микропроцессорной технологии и появлением персонального компьютера. На микропроцессорах и интегральных схемах создаются компьютеры, компьютерные сети, системы передачи данных (информационные коммуникации). Этот период характеризуют три фундаментальные инновации:

• переход от механических и электрических средств преобразования информации к
электронным;

• миниатюризация всех узлов, устройств, приборов, машин;

• создание программно-управляемых устройств и процессов.

Сегодня мы переживаем пятую информационную революцию, связанную с формированием и развитием трансграничных глобальных информационно-телекоммуникационных сетей, охватывающих все страны и континенты, проникающих в каждый дом и воздействующих одновременно и на каждого человека в отдельности, и на огромные массы людей.
Наиболее яркий пример такого явления и результат пятой революции - Интернет. Суть этой революции заключается в интеграции в едином информационном пространстве по всему миру программно-технических средств, средств связи и телекоммуникаций, информационных запасов или запасов знаний как единой информационной телекоммуникационной инфраструктуры, в которой активно действуют юридические и физические лица, органы государственной власти и местного самоуправления. В итоге неимоверно возрастают скорости и объемы обрабатываемой информации, появляются новые уникальные возможности производства, передачи и распространения информации, поиска и получения информации, новые виды традиционной деятельности в этих сетях.



Современное информационное общество.

Современное общество характеризуется резким ростом объемов информации, циркулирующей во всех сферах человеческой деятельности. Это привело к информатизации общества.
Под информатизацией общества понимают организованный социально-экономический и научно-технический процесс создания оптимальных условий для удовлетворения информационных потребностей и реализации прав физических и юридических лиц на основе формирования и использования информационных ресурсов - документов в различной форме представления.
Целью информатизации является создание информационного общества, когда большинство людей занято производством, хранением, переработкой и реализацией информации. Для решения этой задачи возникают новые направления в научной и практической деятельности членов общества. Так возникла информатика и информационные технологии.
Характерными чертами информационного общества являются:



1. решена проблема информационного кризиса, когда устранено противоречие между информационной лавиной и информационным голодом;

2. обеспечен приоритет информации перед другими ресурсами;

3. главная форма развития общества - информационная экономика;

4. в основу общества закладывается автоматизированная генерация, хранение, обработка и использование знаний с помощью новейшей информационной техники и технологии;

5. информационные технологии приобретают глобальный характер, охватывая все сферы социальной деятельности человека;

6. формируется информационное единство всей человеческой цивилизации;

7. с помощью средств информатики реализован свободный доступ каждого человека к информационным ресурсам всей цивилизации;

8. реализованы гуманистические принципы управления обществом и воздействия на окружающую среду.

Помимо перечисленных положительных результатов процесса информатизации общества, возможны и негативные тенденции, сопровождающие этот процесс:

1. все большее влияние приобретают средства массовой информации;

2. информационные технологии могут разрушить частную жизнь человека;

3. существенное значение приобретает проблема качественного отбора достоверной информации;

4. некоторые люди испытывают сложности адаптации к информационному обществу.

В настоящий момент ближе всех стран к информационному обществу находятся США, Япония, Англия, страны Западной Европы.

Вопрос 2.

Система.

Элемент – структурная единица

Структура – строение, составные элементы и связи между ними.

Система – совокупность объектов (элементов) вместе и связи между ними, рассматриваемых как единое целое.

Под социально – экономической системой будем понимать сложную вероятностную (случайную) динамическую (меняющуюся во времени) систему, охватывающую процессы производства, обмена, распределения и потребления материальных и других благ.

Исследуемое множество объектов можно считать системой, если выявлены следующие 4 признака:

- целостность системы, т.е принципиальная несводимость свойств системы к сумме свойств, составляющих её элементов.

- наличие цели и критерия исследования данного множества элементов.

- наличие более крупной внешней системы (среды).

- возможность выделения в данной системе взаимосвязанных частей (подсистем).

Подсистема это не любая часть системы, а та, которая сама является системой более мелкого уровня.

Свойства сложной системы:

- эмерджентность – проявление в наиболее яркой форме целостности системы, это есть результат возникновения между элементами системы синергетических связей, которые обеспечивают увеличения общего эффекта до величины большей, чем сумма эффектов элементов системы действующих отдельно.

- массовый характер экономических явлений и процессов, т.е выявить экономические закономерности можно только путём массовых наблюдений (статистика)

- невозможность изолировать протекающих в экономической системе явления и процессы от окружающей среды.

ИНФОРМАЦИОННАЯ СИСТЕМА [information system] — система, элементами которой являются не материальные объекты, а те или иные виды данных (информации), которые взаимодействуют и преобразуются в процессе ее функционирования. Напр., планирование и управление предприятием — И. с. В целом система управления экономикой страны — тоже И. с. огромных размеров.

АВТОМАТИЗИРОВАННАЯ СИСТЕМА УПРАВЛЕНИЯ (АСУ) [automated, automatized control system (ACS), computerized control system, management information system (MIS)] — система управления, в которой применяются современные электронные средства обработки данных и экономико-математические методы для решения основных задач управления производственно-хозяйственной деятельностью. Это человеко-машинная система: в ней ряд операций и действий передается для исполнения машинам и другим устройствам (особенно это относится к т. н. рутинным, повторяющимся, стандартным операциям и расчетам), но главное решение всегда остается за человеком. Этим АСУ отличаются от автоматических систем, т. е. таких технических устройств, которые действуют самостоятельно по установленной для них программе, без вмешательства человека.

АСУ подразделяются прежде всего на два класса: автоматизированные системы организационного управления и автоматизированные системы управления технологическими процессами (последние часто бывают автоматическими, первые ими принципиально быть не могут).

Традиционно термин АСУ закрепился за первым из названных классов. Отличие АСУ от обычной (неавтоматизированной), но также использующей компьютерные системы управления схематично показано на рис. А. 1, а, б

Стрелками обозначены потоки информации. В первом случае (а) компьютер используется для решения отдельных задач управления (напр., для выполнения плановых расчетов, результаты которых рассматриваются органом управления и либо принимаются, либо отвергаются). При этом необходимые данные собираются специально для решения каждой задачи и вводятся в компьютер, а потом за ненадобностью уничтожаются.

Во втором случае (б) существенная часть информации от объекта управления собирается непосредственно компьютерным центром (в том числе по каналам связи). При этом нет необходимости каждый раз вводить в компьютер все данные: часть из них (цены, нормативы и т. п.) хранится в компьютере. Из него выработанные задания поступают, с одной стороны, в орган управления, а с другой (обычно через контрольное звено) — к объекту управления. В свою очередь информация, поступающая от объекта управления, влияет на принимаемые решения, т. е. здесь используется кибернетический принцип обратной связи. Это — АСУ.

Принято рассматривать каждую АСУ одновременно в двух аспектах: с точки зрения ее функций (что и как она делает) и с точки зрения ее схемы, т. е. с помощью каких средств и методов эти функции реализуются. Соответственно АСУ подразделяют на две группы подсистем — функциональные и обеспечивающие

Создание АСУ на действующем экономическом объекте (в фирме, на предприятии, в банке и т. д.) — обычно длительный процесс. Отдельные подсистемы АСУ проектируются и вводятся в действие последовательными очередями, в состав функций включаются также все новые и новые задачи; при этом АСУ органически “вписывается” в систему управления. Обычно первые очереди АСУ ограничиваются решением чисто информационных задач. В дальнейшем их функции усложняются, включая использование оптимизационных расчетов, элементов оптимального управления. Степень участия АСУ в процессах управления может быть весьма различной, вплоть до самостоятельной выдачи компьютером (на основе получаемых им данных) оперативных управляющих команд. Поскольку внедрение АСУ требует приспособления документации для машинной обработки, создаются унифицированные системы документации, а также классификаторы технико-экономической информации и т. д.

Экономическая эффективность АСУ определяется прежде всего ростом эффективности самого производства в результате лучшей загрузки оборудования, повышения ритмичности, сокращения незавершенного производства и других материальных запасов, сокращения издержек, повышения качества продукции, расширения спроса на нее.

Экономическая информационная система (ЭИС)— это совокупность внутренних и внешних потоков прямой и обратной информационной связи экономического объекта, методов, средств, специалистов, участвующих в процессе обработки информации и разработке управленческих решений.

 

Вопрос 5. Классификация ЭИС по степени функциональности: локальные, многофункциональные, полнофункциональные. Корпоративные интегрированные ИС. ИС класса ERP.

Третий признак – по степени функциональности (интегрированности компонентов): локальные ЭИС (АРМ – автоматизированное рабочее место), многофункциональные (малые интегрированные и средне интегрированные), полнофункциональные (крупные интегрированные ЭИС).

Полнофункциональные ЭИС - это чаще всего корпоративные ИС, представляющие собой набор функциональных подсистем, построенных в едином технологическом ключе, объединенных в единой базе данных и работающих на единой аппаратно – программной платформе. Такая система является многопользовательской и функционирует в распределенной вычислительной сети.

Фактически стандартом таких систем является стандарт ERP системы. Enterprise Resource Planning – система планирования ресурсов.

Развитие стандартов систем управления ресурсами.

 

Система MRP Material Resource Planning – управление запасами и ресурсам, микро логистическая система. В этой системе определяется что и сколько ПП хочет произвести, составляется производственное расписание. 1950 – 1960.
MRP 2 + управление финансами и моделирование бизнес процессами всех уровней.
ERP Система обеспечивает рациональное распределение ресурсов для достижения целей ПП: расширенное планирование материальных потоков, маркетинга, продаж, проектов, управления финансами и персоналом. (современное состояние)

 

Структура ЭИС. Функциональные и обеспечивающие подсистемы.

 

СТРУКТУРА ЭИС

В процессе декомпозиции компонентов ЭИС выделяют: функциональные и обеспечивающие части. Функциональные – ряд подсистем которые зависят от особеностей той или иной ЭИС. Эти подсистемы разделяются по определенному признаку (функциональному или структурному) и объединяют в себе соответствующие комплексы задач управления. Обеспечивающая часть ЭИС состоит: информационного, программного, математического, технического, правового, лингвистического, эргономического и метрологических частей. В состав информационного обеспечения входит внемашиная и внутримашинное обеспечение. (внемашиное обеспечение составляет: классификаторы технико-экономической информации, нормативно справочная информация, методические материалы организации и использования перечисленных компонентов. Внутримашиное инф обеспечение – информационная база и СУБД (СУБД - совокупность программных и лингвистических средств общего или специального назначения, обеспечивающих управление созданием и использованием баз данных), программное обеспечение – совокупность программ реализующих цели и задачи ЭИС) В состав программных средств: общесистемные, прикладное обеспечение, инструктивно – методические материалы п применению средств программного обеспечения. Математическое обеспечение включает: совокупность методов решения задач управления, моделей, алгоритмов обработки информации. Техническое обеспечение включает весь комплекс технических средств обеспечивающих работу системы т.е. технические средства сбора, регистрации, передачи, обработки, отображения, размножения информации. Организационно- методическое обеспечение представляет совокупность документов определяющих организационную структуру документа и систем автоматизации для выполнения конкретно автоматизируемых функций. Правовое обеспечение включает систему нормативно – правовых документов которые должны четко определять права и обязаности специалистов в условиях функционирования ЭИС, а также комплекс документов регламентирующих порядок хранения и защиты информации, правил ревизии данных, обеспечение юридической подлиности совершаемых операций. Лингвистическое обеспечение представляет совокупность языков средств для формализации естественного языка. Эргономическое обеспечение совокупность методов и средств для создания оптимальных условий деятельности человека при разработки ЭИС. Метрологическое обеспечение – метрологические средства и инструкции по их применению.


 

Вопрос 20.

Поиск информации - задача, которую человечество решает уже многие столетия. По мере роста объема информационных ресурсов, потенциально доступных одному человеку (например, посетителю библиотеки), были выработаны все более изощренные и совершенные поисковые средства и приемы, позволяющие найти необходимый документ.

 

Все найденные за много лет средства и приемы поиска информации доступны и эффективны и при поиске информации в Интернет.

 

Рассмотрим общую схему: АВТОР создает ДОКУМЕНТ. У ПОЛЬЗОВАТЕЛЯ возникает ИНФОРМАЦИОННАЯ ПОТРЕБНОСТЬ. Эта информационная потребность часто (как правило) даже не может быть точно выражена словами, и выражается только в оценке просматриваемых документов - подходит или не подходит. В теории информационного поиска вместо слова "подходит" используют термин "ПЕРТИНЕНТНЫЙ ДОКУМЕНТ", а вместо "не подходит" - "не пертинентный". Слово "пертинентный" происходит от английского "pertinent", что значит "относящийся к делу, подходящий по сути". Субъективно понимаемая цель информационного поиска - найти все пертинентные и только пертинентные документы (мы хотим найти "только то, что хотим, и ничего больше").

 

Эта цель – идеальна и пока недостижима. Мы часто в состоянии оценить пертинентность документа только в сравнении с другими документами. Для того, чтобы было с чем сравнивать, необходимо некоторое количество непертинентных документов. Эти документы называются - "ШУМ". Слишком большой шум затрудняет выделение пертинентных документов, слишком малый - не дает уверенности в том, что найдено достаточное количество пертинентных документов. Практика показывает, что когда количество непертинентных документов лежит в интервале от 10% до 30%, ищущий чувствует себя комфортно, не теряясь в море шума и считая, что количество найденных документов - удовлетворительно.

 

Когда документов много, используется информационно-поисковая система (ИПС). В этом случае информационная потребность должна быть выражена средствами, которые "понимает" ИПС - должен быть сформулирован ЗАПРОС.

 

Запрос редко может точно выразить информационную потребность. Однако многие ИПС по причинам, описанным ниже, не могут определить, соответствует ли тот или иной документ запросу. Для решения этой задачи был введен синтетический критерий - степень соответствия документа запросу, который называется РЕЛЕВАНТНОСТЬЮ. Релевантный документ может оказаться непертинентным и наоборот.

 

Виды информационно поисковых систем

 

Информационно-поисковые системы (ИПС) Интернет, при всем их внешнем разнообразии, также попадают в один из этих классов. Поэтому, прежде чем знакомиться с этими ИПС, рассмотрим абстрактные алфавитные (словарные), систематические и предметные ИПС. Для этого дадим определение некоторым терминами из теории информационного поиска.

 

Классификационные информационно-поисковые системы. В классификационных ИПС используется иерархическая (древовидная) организация информации, которая называется КЛАССИФИКАТОРОМ. Разделы классификатора называются РУБРИКАМИ. Библиотечный аналог классификационной ИПС - систематический каталог. Классификатор разрабатывается и совершенствуется коллективом авторов. Затем его использует другой коллектив специалистов, называемых СИСТЕМАТИЗАТОРАМИ. Систематизаторы, зная классификатор, читают документы и приписывают им классификационные индексы, указывающие, каким разделам классификатора эти документы соответствую.

 

Предметная ИПС Web-кольца. Предметная ИПС с точки зрения пользователя устроена наиболее просто. Ищи название нужного предмета своего интереса (предметом может быть и нечто невещественное, например, индийская музыка), а с названием связаны списки соответствующих ресурсов Интернет. Это было бы особенно удобно, если полный перечень предметов невелик.

 

Словарные ИПС. Культурные проблемы, связанные с использованием классификационных ИПС, привели к созданию ИПС словарного типа, с обобщенным англоязычным названием search engines. Основная идея словарной ИПС - создать словарь из слов, встречающихся в документах Интернет, в котором при каждом слове будет храниться список документов, из которых взято данное слово.

 

Теория информационного поиска предполагает два основных алгоритма работы словарных ИПС: с использованием ключевых слов и с использованием дескрипторов. В первом случае, для оценки содержимого документа используются только те слова, которые в нем встречаются, и по запросу ИПС сопоставляет слова из запроса со словами документа, определяя по количеству, расположению, весу слов из запроса в документе его релевантность. Все работающие ИПС по историческим причинам используют этот алгоритм, в различных модификациях.

 

При работе с дескрипторами индексируемые документы переводятся на некоторый дексрипторный информационный язык. Дескрипторный информационный язык, как и любой другой язык, состоит из алфавита (символов), слов, средств выражения парадигматических и синтагматических отношений между словами. Парадигматика предусматривает выявление скрытых в естественном языке лексико– семантических отношений между понятиями. В рамках парадигматических отношений можно рассматривать, например, синонимию, омонимию. Синтагматика исследует такие отношения между словами, которые позволяют объединять их в словосочетания и предложения. Синтагматика включает правила построения слов из элементов алфавита (кодирование лексических единиц), правила построения предложений (текстов) из лексических единиц (грамматика).

 

То есть, запрос пользователя переводится в дескрипторы и обрабатывается ИПС уже в этой форме. Такой подход более затратен по вычислительным ресурсам но и потенциально более продуктивен, так как позволяет отказаться от критерия релевантности и работать непосредственно с пертинентностью документов.

 

Ранжирование результатов поиска. Словарные ИПС способны выдавать списки документов, содержащие миллионы ссылок. Даже просто просмотреть такие списки невозможно, да и не нужно. Было бы удобно иметь возможность задать формальные критерии (хотя бы относительной) важности (с точки зрения пертинентности) документов с тем, чтобы наиболее важные документы попадали бы в начало списка. Существующие ИПС делают это, исходя из критерия релевантности, и в настоящее время все ИПС уделяют основное внимание именно алгоритму определения релевантности для ранжирования полученных ссылок. Наиболее часто используемыми критериями при ранжировании в ИПС являются:

 

наличие слов из запроса в документе, их количество, близость к началу документа, близость к друг другу;

наличие слов из запроса в заголовках и подзаголовках документов (заголовки должны быть специально отформатированы);

Количество ссылок на данный документ с других документов;

«рекспектабельность» ссылающихся документов

Современные проблемы поисковых систем

 

Все основные технологические проблемы Интернет технологий, которые мы сейчас видим и зачастую ощущаем на себе, имеют своей причиной то, что когда эти технологии разрабатывались никто из разработчиков (по их собственным высказываниям) не представлял себе, что Интернет станет глобальной информационной средой. Все это полностью относится и к поисковым системам.

 

Архитектура. Современная поисковая система имеет трехуровневую архитектуру:

 

crawler (сборщик) – осуществляет сканирование Интернет ресурсов в поисках изменений на страницах;

indexer (индексатор) – индексирует ресурсы, строит базы данных по ключевым словам, хранит эти базы данных в виде, удобном для поиска по ним;

gateway (шлюз) – осуществляет прием запросов от пользователей и выдачу им информации из базы данных

В современных ИПС вся поисковая информации, вплоть до копий исходных документов, хранится в самой ИПС. Это было обусловлено ненадежностью ранних каналов связи и компьютерного оборудования. Это давало возможность пользователю ИПС фактически независимо от доступности документа ознакомиться с ним. Сейчас это ведет к том, что ИПС вынуждены наращивать свою вычислительную мощность пропорционально росту количества документов в Сети, то есть экспоненциально. Так, в Google сейчас работает более 100 компьютеров – серверов.

 

В современных ИПС Crawler самостоятельно сканирует Сеть в поисках новых документов. В условиях количества документов измеряемого в сотнях тысяч такой способ позволял быстро наполнить базу ИПС и соответственно представить там максимальное количество документов. Сейчас скорость появления и обновляние документов такова, что ни одна ИПС не охватывает более 30-35% документов в Сети. Более того, все изменения и перемещения документов попадают в базу ИПС со значительным опозданием (до 4 недель), то есть найти актуальную информацию через ИПС в Сети невозможно.

 

Алгоритмы поиска и ранжирования. То есть, Основной проблемой современных поисковых систем является то, что из-за фактически устаревшей архитектуры они не могут обеспечить качественный поиск информации.

 

Дело в том, что средняя длина поисковых запросов мала – 2-3 слова. Естественно, построить качественную пертинентную выборку из миллиарда документов по такому «слепку информации» просто невозможно. Естественным выходом здесь является сохранение контекста запросов пользователя, их истории, предпочтений. Но это не представляется возможным сделать на стороне сервера (т.к. он перегружен).

 

Далее, как видно, из критериев ранжирования, реальный критерий пертинентности документа – наличие слов из запроса - не так сильно влияет на его ранжирование в результатах поиска. С другой стороны, использование синтетических критериев дает возможность манипулирования результатами вычислений ранга страницы, путем оптимизации документов, с чем и борются все ИПС. Такая ситуация ведет к снижению качества поиска, поскольку потенциально более пертинентные документы неминуемо оттесняются своими «оптимизированными» конкурентами в конец списка. Наверно, многие сталкивались с тем, что реально полезные ресурсы в поисковиках находятся на второй – третьей страницы выдачи поискового запроса.

 

Изначально в Интернете вся информация была представлена в HTML, причем без таблиц, картинок и рисунков. Все эти вещи появились в Сети позже. Естественно, что алгоритмы ИПС ориентированы именно на текст. Сейчас объем мультимедийного наполнения (таблицы, базы данных, рисунки, музыка, видео) по объему уже превышает объем текстов. А найти информационную сводку или (тем более!) нужный музыкальный фрагмент, не зная его дополнительных параметров (автор, тема) – просто невозможно.

 

Резюмируя, существующая архитектура обеспечивает работоспособность поисковой системы в условиях низкой скорости и ненадежности каналов связи, низкой вычислительной мощности клиентского оборудования, не очень больших объемов (сотни тысяч, миллионы) документов, что было актуально в 90-х годах ХХ века. Сейчас все эти предпосылки устарели, высокоскоростные и надежные каналы связи стали обычным явлением, в несколько десятков раз выросла вычислительная мощность клиентских компьютеров, но и число документов в Сети выросло в десятки тысяч раз, приближаясь к 5 миллиардам. Следовательно, необходима иная архитектура, реализующая эти требования.

 

Основными моментами новой архитектуры ИПС, на взгляд автора, должны стать:

 

Переход к распределенной модели вычислений;

Переход от модели «один поиск на всех» к модели персонального поиска;

Переход от критериев релевантности к критерию пертинентности;

Переход от поиска только текстовой информации к распознаванию и поиску мультимедийной информации

В общем, решения пп. 1, 2 достаточно просты технически и организационно, но решения пп. 3 и 4 требуют нового теоретического подхода к поиску информации. Для реализации этого подхода применена теория пространства понятий.

 

Введение в теорию пространства понятий

 

Постановка задачи

 

Целью данной работы является выработка теоретического подхода к математическому анализу смысла понятий как объектов окружающего мира и, с определенным уровнем абстракции, выражаемых в человеческих языках, путем их систематизации в многомерном пространстве ( Пространстве понятий) и разработка математического аппарата преобразования (действия над) понятиями - алгебры понятий.

 

Для современной технологии поиска необходима такая модель представления информации, которая позволит распознавать хранимые в ней знания без использования человеческого интеллекта или артефактных алгоритмов (таких как нейронные сети). Здесь уместно провести аналогию между растровым и векторным способом хранении графических изображений, то есть если из содержимого растрового файла нельзя однозначно сказать, как построено хранимое изображение, то из векторного формата способ построения очевиден.

 

Практически вся информация, хранимая человечеством сейчас представлена именно в «растровом» формате. Исключение составляют различные структурированные массивы информации и алгоритмы, но опять же, информация, зафиксированная в них скорее похожа улов в сети с ячейками размером метр на метр, то есть в нее попадаются только самые общие описания и правила. Очевидно, что такой подход дает слишком абстрактные модели и их применение в реальном мире невозможно без вмешательства человеческого интеллекта.

 

Следовательно, необходимо найти такой способ описание знаний, который бы был, по существу «векторным» форматом представления информации. Это и составляет собой суть теории пространства понятий.

 

Другими словами, основная идея состоит в том, чтобы применять не только существующую модель описания знаний, базирующуюся на ассоциациях, но и модель, базирующуюся на определении точного положения понятия в некоей системе координат. Автор доказывает, что для каждого понятия, ассоциированного с каким-либо объектом окружающего мира, существует не только определение через ассоциации («кресло похоже на диван, но диван больше, на нем можно лежать»), но и определение, как некоторой области некоего «пространства понятий». Следовательно, существует и возможность построения однозначного соответствия (отражения) между неким лингвистическим выражением, описывающим некоторый предмет, свойство или действие в окружающей реальности, и областью многомерного пространства понятий N{x1,x2,…, xn}, где Xn n ∞– примеры координатных осей (размерностей) данного пространства. Тогда становится возможным описание отношений между понятиями реального мира как расстояний, через уравнения алгебры понятий, в основе которых лежит векторная алгебра, построение карты пространства понятий и дальнейшего изучения его топологии.

 

В настоящее время преобладает иной подход, когда используются различные суррогатные заменители расстояния – «семантические связи», и т.д. , как правило, отражающие иерархические и сетевые соотношения между понятиями. «Близость», «отдаленность» в этих контекстах являются абстрактными величинами, они не дают возможности численного измерения ( а значит и точной оценки) расстояния только для понятийно близких вещей (белый и черный, теплый и холодный). А насколько далеки друг от друга понятия «черный» и «холодный»? Это расстояние больше, чем между «шершавый» и «синий»? А какие вещи понятийно ближе друг к другу – кресло и бутылка или компьютер и кружка?

 

Идея пространства понятий ни в коем случае не отменяет иерархических, конструктивных и прочих взаимосвязей, но дополняет их, делая их исчислимыми. Например, можно достаточно долго описывать положение листа на дереве, передвигаясь к нему от ствола, по веткам и веточкам. Его гораздо проще можно найти, задав абсолютные полярные координаты: горизонтальное и вертикальное направление, длину вектора от осевой линии ствола у земли. Вместо достаточно объемного описания путешествия по дереву, мы получаем 3 (!)числа.

 

Основные определения

 

Пространство понятий – набор из N одномерных пространств, каждое из которых содержит в себе определенный ранжируемый признак объекта. Понятие – область пространства понятий (подпространство), соответствующая какому-то объекту в реальном мире. Действие – вид области в пространстве понятий - вектор, соответствующий процессу, производимому над объектом в реальном мире и изменяющее координаты объекта в ПП. В общем случае действие – это тоже подпространтсво. Модификатор – область в пространстве понятий, соответствующий эпитету в реальном языке (прилагательное – Модификатор существительного). Корректор – вектор - в пространстве понятий, соответствующий эпитету в реальном языке (наречие - Корректор глагола). Домен – именованная многомерная область (подпространство) в пространстве понятий, которая объединяет понятия в группы по иерархическим признакам. (понятие «стул» в домене «Мебель», Нож в домене «кухонное оборудование»). Иерархические отношения между понятиями регулируются доменами. Домены имеют внутреннюю структуру пространства понятий. По сути, это «разрезы» пространства понятий по определенным признакам.

 

Пространство понятий. Развернутая и свернутая форма представления

 

Если принять, что все существующие понятия окружающего мира, описанные в развитых человеческих языках, отражаются в многомерное пространство понятий N (Notion – понятие), то любое понятие, будь то существительное, глагол, прилагательное, или иная часть речи, несущая определенный смысл, может быть отражено как Entity (существительное, прилагательное, noun, adjective) N{{x1,x1’},{x2,x2’},…, |{xn,xn’}|}, где N - n-мерная область в n-мерном пространстве, где n ∞, а x1…n – измерения (оси координат) данного пространства.

 

Глагол, Наречие (Verb, adverb) erb {|x1-x1’|,|x2-x2’|,…, |xn-xn’|}, где Verb – вектор в n-мерном пространстве.

 

В общем случае, действия (глаголы) также могут быть описаны как области пространства понятий, каковыми они на самом деле и являются. Разделение область – векторы сделаны для удобства понимания теории и проведения расчетов.

 

Разрешенные области и действия

 

Если операция над понятием вида: i+1= i + j где i+1, i - произвольные области понятий, а j - произвольный вектор, истинна, то есть после выполнения некоего действия над понятием, мы получаем новое известное понятие, то данное действия с понятием является разрешенным, так как в реальном мире оно соответствует некоей реальной операции над реальным объектом, приводящей к реальному результату.

 

Если ложна, то данное сочетание является еще неописанным в пространстве понятий, "белым пятном". Ложность выражения не означает неосуществимости данной операции, но дает ресурс для поиска новых решений, открытий и изобретений. Возможно, раньше никто не задумывался о возможности такой операции и такого результата.

 

Построение поисковой системы с позиций теории пространства понятий

 

Пертинентный поиск

 

Для решения проблемы перехода к пертинентности, предлагается использовать для описания страниц дескрипторный язык вместо ключевых слов. Дескриптор – одно или несколько слов данного языка (синонимов), характеризующих данное понятие. Здесь дескриптор соответствует понятию. Данное переименование принято из целей соответствия принятой лингвистической терминологии.

 

С точки зрения теории понятий дескриптор – вектор, d{x1,x2,xi,...xn}, где x1,x2,xi, - инверсные расстояния до соответствующих осей координат пространства понятий, или, другими словами, это веса, притягивающие данный дескриптор к тому или иному разделу иерархического каталога тематических областей поиска. То есть, для реализации задачи пертинентного поиска, необходимо искать те документы которые лежат в той же области пространства понятий, что и запрос.

 

Поиск в мультимедийном окружении

 

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.