Модель сервера базы данных

Предыдущая 2 3 4 5 6 7 8910 11 12 13 14 15 16 17 Следующая

Развитием PDA-модели стала модель сервера базы данных. Ее сердцевиной является механизм хранимых процедур. В отличие от PDA-модели, определенные для конкретной предметной области информационной системы события, правила и процедуры, описанные средствами языка SQL, хранятся вместе с данными на сервере системы и на нем же выполняются. Иначе говоря, прикладной компонент полностью размещается и выполняется на сервере системы. Схематично DBS-модель приведена на рис. 2.5.

Рис. 5.5 Модель сервера базы данных (DBS-модель)

На клиентских установках в DBS-модели размещается только интерфейсный компонент (компонент представления), что существенно снижает требования к вычислительной установке клиента. Пользователь через интерфейс системы на клиентской установке направляет на сервер базы данных только лишь вызовы необходимых процедур, запросов и других функций по обработке данных. Все затратные операции по доступу и обработке данных выполняются на сервере и клиенту направляются лишь результаты обработки, а не наборы данных, как в RDA-модели. Этим обеспечивается существенное снижение трафика сети в DBS-модели по сравнению с RDA -моделью.

Следует заметить, что на сервере системы выполняются процедуры прикладных задач одновременно всех пользователей системы. В результате резко возрастают требования к вычислительной установке сервера, причем как к объему дискового пространства и оперативной памяти, так и к быстродействию. Это основной недостаток DBS-модели.

К достоинствам же DBS-модели, помимо разгрузки сети, относится и более активная роль сервера сети, размещение, хранение и выполнение на нем механизма событий, правил и процедур, возможность более адекватно и эффективно "настраивать" распределенную информационную систему на все нюансы предметной области.

Также более надежно обеспечивается согласованность состояния и изменения данных и, вследствие этого, повышается надежность хранения и обработки данных, эффективно координируется коллективная работа пользователей с общими данными.

Модель сервера приложений

Чтобы разнести требования к вычислительным ресурсам сервера в отношении быстродействия и памяти по разным вычислительным установкам, используется модель сервера приложений.

Суть AS-модели заключается в переносе прикладного компонента информационной системы на специализированный в отношении повышенных ресурсов по быстродействию дополнительный сервер системы. Схема AS-модели приведена на рис. 5.6

Рис. 5.6. Модель сервера приложений (AS-модель)

Как и в DBS-модели, на клиентских установках располагается только интерфейсная часть системы, т. е. компонент представления. Однако вызовы функций обработки данных направляются на сервер приложений, где эти функции совместно выполняются для всех пользователей системы. За выполнением низкоуровневых операций по доступу и изменению данных сервер приложений, как в RDA-модели, обращается к SQL-серверу, направляя ему вызовы SQL-процедур, и получая, соответственно, от него наборы данных.

Как известно, последовательная совокупность операций над данными (SQL-инструкций), имеющая отдельное смысловое значение, называется транзакцией.

В этом отношении сервер приложений управляет формированием транзакций, которые выполняет SQL-сервер. Поэтому программный компонент СУБД, инсталлируемый на сервере приложений, еще называют монитором обработки транзакций (Transaction Processing Monitors - TRM), или просто монитором транзакций.

AS-модель, сохраняя сильные стороны DBS-модели, позволяет оптимально построить вычислительную схему информационной системы, однако, как и в случае RDA-модели, повышает трафик сети.

В практических случаях используются смешанные модели, когда простейшие прикладные функции и обеспечение ограничений целостности данных поддерживаются хранимыми на сервере процедурами (DBS-модель), а более сложные функции предметной области (так называемые правила бизнеса) реализуются прикладными программами на клиентских установках (RDA-модель) или на сервере приложений (AS-модель).

Информационные хранилища

Хранение и накопление информации вызвано многократным ее использованием, применением условно-постоянной, справочной и других видов информации, необходимостью комплектации первичных данных до их обработки.

Назначение технологического процесса накопления данных состоит в создании, хранении и поддержании в актуальном состоянии информационного фонда, необходимого для выполнения функциональных задач системы управления. Хранение и накопление информации осуществляется в информационных базах в виде информационных массивов, где данные располагаются по установленному в процессе проектирования порядку.

С хранением и накоплением непосредственно связан поиск данных, т. е. выборка нужных данных из хранимой информации, включая поиск информации, подлежащей корректировке или замене. Процедура поиска информации выполняется автоматически на основе составленного пользователем или ПЭВМ запроса на нужную информацию.

Указанные функции, выполняемые в процессе накопления данных, реализуются по алгоритмам, разработанным на основе соответствующих математических моделей.

Процесс накопления данных состоит из ряда основных процедур, таких, как выбор хранимых данных, хранение данных, их актуализация и извлечение.

Информационный фонд систем управления должен формироваться на основе принципов необходимой полноты и минимальной избыточности хранимой информации. Эти принципы реализуются процедурой выбора хранимых данных, в процессе выполнения которой производится анализ циркулирующих в системе данных и на основе их группировки на входные, промежуточные и выходные определяется состав хранимых данных. Входные данные - это данные, получаемые из первичной информации и создающие информационный образ предметной области. Они подлежат хранению в первую очередь. Промежуточные данные - это данные, формирующиеся из других данных при алгоритмических преобразованиях. Как правило, они не хранятся, но накладывают ограничения на емкость оперативной памяти компьютера. Выходные данные являются результатом обработки первичных (входных) данных по соответствующей модели, они входят е состав управляющего информационного потока своего уровня и подлежат хранению в определенном временном интервале. Вообще, данные имеют свой жизненный цикл существования, который фактически и отображается в процедурах процесса накопления.

Процедура хранения состоит в том, чтобы сформировать и поддерживать структуру хранения данных в памяти ЭВМ. Современные структуры хранения данных должны быть независимы от программ, использующих эти данные, и реализовывать вышеуказанные принципы (полнота и минимальная избыточность). Такие структуры получили название баз данных. Осуществление процедур создания структуры хранения (базы данных), актуализации, извлечения и удаления данных производится с помощью специальных программ, называемых системами управления базами данных.

В процессе накопления данных важной процедурой является их актуализация. Под актуализацией понимается поддержание хранимых данных на уровне, соответствующем информационным потребностям решаемых задач в системе, где организована информационная технология. Актуализация данных осуществляется с помощью операций добавления новых данных к уже хранимым, корректировки (изменения значений или элементов структур) данных и их уничтожения, если данные устарели и уже не могут быть использованы при решении функциональных задач системы.

Процедура извлечения данных из базы необходима для пересылки требуемых данных либо для преобразования, либо для отображения, либо для передачи по вычислительной сети.

При выполнении процедур актуализации и извлечения обязательно выполняются операции поиска данных по заданным признакам и их сортировки, состоящие в изменении порядка расположения данных при хранении или извлечении.

На логическом уровне все процедуры процесса накопления должны быть формализованы, что отображается в математических и алгоритмических моделях этих процедур.

Модель накопления данных формализует описание информационной базы, которая в компьютерном виде представляется базой данных.

Процесс перехода от информационного (смыслового) уровня к физическому описывается трехуровневой системой моделей представления информационной базы: концептуальной, логической и физической схем.

Концептуальная схема информационной базы описывает информационное содержание предметной области, т.е. какая и в каком объеме информация должна накапливаться при реализации информационной технологии.

Логическая схема информационной базы должна формализовано описать ее структуру и взаимосвязь элементов информации. При этом могут быть использованы различные подходы: реляционный, иерархический, сетевой. Выбор подхода определяет и систему управления базой данных, которая, в свою очередь, определяет физическую модель данных - физическую схему информационной базы, описывающую методы размещения данных и доступа к ним на машинных (физических) носителях информации. Модель данных - формализованное описание информационных структур и операций над ними.

Информационные хранилища

Распределенная обработка данных обязательно предполагает наличие банков и баз данных. Однако база данных — это не место, куда просто складывают данные: ими нужно пользоваться, актуализировать, изменять форматы и связи и совершать множество других действий. Если бессистемно наполнять базу информацией, то через некоторое время ею невозможно будет пользоваться — времени на поиск нужных данных будет уходить все больше и больше, пространство базы переполнится. В связи с этим данные необходимо «очищать» и структурировать, а для эффективной работы с ними требуются системы управления работой баз данных (Data Base Management System — DBMS). Индустрия создания баз данных и СУБД берет свое начало в 1960-е гг. и к настоящему времени достаточно развита, однако термин «хранилище данных» в современном понимании его появился относительно недавно. Идея хранилищ данных оказалось востребованной, так как во многих видах государственной, деловой, научной, социальной деятельности необходимы тематически объединенные и исторически очищенные совокупности данных. При этом постоянно возрастала потребность в более дешевых, точных и структурированных данных, а также большей оперативности получения, обработки и интегрирования данных.

К концу 1980-х гг., когда была в полной мере осознана необходимость интеграции корпоративной информации и надлежащего управления этой информацией, появились технические возможности доя создания соответствующих систем, которые первоначально были названы «хранилищами информации» (Information Warehouse). Лишь в 1990-е гг., с выходом книги Билла Инмона, хранилища получили свое нынешнее наименование «хранилища данных» (Data Warehouse — DW).

Инмон определил хранилища данных как предметно-ориентированные, интегрированные, неизменные, поддерживающие хронологию наборы данных, организованные для целей поддержки управления, призванные выступать в роли единого и единственного источника истины, обеспечивающего менеджеров и аналитиков достоверной информацией, необходимой для оперативного анализа и принятия решений.

В основе концепции хранилищ данных лежат три основополагающие идеи:

1) интеграция ранее разъединенных детализированных данных (исторические архивы, данные из традиционных систем

обработки документов, разрозненных баз, данных, данные из внешних источников) в едином хранилище данных;

2) тематическое и временное структурирование, согласование и агрегирование;

3) разделение наборов данных, используемых для операционной (производственной) обработки, и наборов данных, применяемых для решения задач анализа.

Данные, помещаемые в хранилище, должны отвечать определенным требованиям: предметной ориентированности, интегрированности, поддержки хронологии и неизменяемости

Таблица Требования к данным, помещаемым в хранилище

Требование	Характеристика
Предметная ориентированность	Все данные о некоторой сущности (бизнес-объекте) из некоторой предметной области собираются из множества различных источников, очищаются, согласовываются, дополняются, агрегируются и представляются в единой, удобной для их использования в бизнес-анализе форме
Интегрированность	Все данные о разных бизнес-объектах взаимно согласованы и хранятся в едином общекорпоративном хранилище
Поддержка хронологии	Данные хронологически структурированы и отражают историю за период времени, достаточный для выполнения задач бизнес-анализа, прогнозирования и подготовки принятия решения
Неизменяемость	Исходные (исторические) данные, после того как они были согласованы, верифицированы и внесены в общекорпоративное хранилище, остаются неизменными и используются исключительно в режиме чтения

Хранилище данных выполняет множество функций, но его основное предназначение — предоставление точной информации в кратчайшие сроки и с минимумом затрат. Для успешного же продвижения Web-среды электронного бизнеса требуется, чтобы доступ к информации был недорогим и не занимал много времени.

Понятие «хранилище данных» в первоначальном понимании было основано на понятии «распределенной витрины данных» (Distributed Data Mart — DDM). Вследствие этого в классическом исполнении хранилище данных было прежде всего репозиторием (сквозной базой данных) информации предприятия. Среда хранилища была предназначена только для чтения и состояла из детальных и агрегированных данных, которые полностью очищены и интегрированы. Кроме того, в репозитории хранится обширная и детальная история данных на уровне транзакций. С точки зрения архитектурного решения такое хранилище данных реализует свои функции через подмножество зависимых витрин данных.

Достоинствами архитектуры классического хранилища данных являются:

- непротиворечивость информации;

- один набор процессов извлечения и бизнес-логики использования;

- общая семантика;

- централизованная, управляемая среда;

- легко создаваемые по шаблонам и наполняемые витрины данных;

- единый репозиторий метаданных;

- многообразие механизмов обработки и представления данных.

К недостаткам можно отнести большие затраты по реализации, высокую ресурсоемкость в масштабе всего предприятия, потребность в сложных сервисных системах, рискованный сценарий развития, когда все данные и метаданные находятся в одном репозитории и в неблагоприятном случае могут быть потеряны.

Рис. Хранилище данных, реализующее свои функции через подмножество зависимых витрин данных

Кроме этого, при фильтрации и рафинировании «сырых» данных для такого хранилища обычно теряется очень много информации, которая может быть чрезвычайно полезной при бизнес-анализе. В связи с этим возникло понимание того, что хранилище, помимо механизмов извлечения данных (On-Line Transactional Processing — OLTP), репозитория и витрин, должно иметь соответствующее пространство для организации «сырых» данных и их многомерного анализа в режиме реального времени OLAP.

На сегодняшний день существует два основных подхода к архитектуре хранилищ данных. Это так называемые корпоративная информационная фабрика Инмона и хранилище данных с архитектурой шины Кимболла.

Работа корпоративной информационной фабрики (Corporate Information Factory — CIF) начинается со скоординированного извлечения данных из источников. После этого загружается реляционная база данных, содержащая соответствующие очищенные и согласованные («атомарные») данные. Получившееся нормализованное хранилище используется для того, чтобы наполнить информацией дополнительные репозитории презентационных данных, т.е. данных, подготовленных для анализа. Эти репозитории, в частности, включают в себя специализированные хранилища для изучения и добычи данных на базе применения технологий извлечения полезной информации из «сырых данных» (Data Mining — DM). После этого основной и, в случае необходимости, дополнительные репозитории используются для формирования витрин данных. При таком сценарии конечные витрины данных создаются для обслуживания бизнес-отделов или для реализации бизнес-функций и используют пространственную модель для структурирования суммарных данных. Атомарные данные остаются доступными через нормализованное хранилище данных. Очевидно, что структура атомарных и суммарных данных при таком подходе существенно различается.

Рис. Корпоративная информационная фабрика Инмона

Рис. Хранилище данных с архитектурой шины Кимболла

Таким образом, можно назвать следующие отличительные характеристики подхода Инмона к архитектуре корпоративных информационных хранилищ данных:

- использование реляционной модели организации атомарных данных и пространственной — для организации суммарных данных;

- итеративный или «спиральный» подход при создании больших хранилищ данных, т.е. «строительство» не сразу, а по частям. Это позволяет вносить изменения в небольшие блоки данных или программных кодов и избавляет от необходимости перепрограммировать значительные объемы данных. То же самое можно сказать и о потенциальных ошибках: они также будут локализованы в пределах сравнительно небольшого массива без риска испортить все данные хранилища разом;

- организация атомарных данных, что обеспечивает высокую степень детальности интегрированных данных и соответственно предоставляет корпорациям широкие возможности для манипулирования ими и изменения формата и способа представления данных по мере необходимости;

- рассмотрение хранилища данных в качестве концептуально и физически целостного объекта, а не механической коллекции разрозненных витрин данных.

Альтернативным подходом к архитектуре хранилищ данных является подход Кимболла — хранилище с архитектурой шины (Data Warehouse Bus — DWB). В этой модели первичные данные преобразуются в информацию, пригодную для использования, на этапе подготовки данных. При этом обязательно принимаются во внимание требования к скорости обработки информации и качеству данных. Как и в модели Инмона, подготовка данных начинается со скоординированного извлечения данных из источников. Ряд операций совершается централизованно, например поддержание и хранение общих справочных данных, другие действия могут быть распределенными — в зависимости от поступившего запроса.

Область представления пространственно структурирована, при этом она может быть централизованной или распределенной. Пространственная модель хранилища данных содержит ту же атомарную информацию, что и нормализованная модель Инмона, но информация структурирована по-другому, чтобы облегчить ее использование и выполнение запросов. Эта модель включает в себя как атомарные данные, так и обобщающую информацию (агрегаты в связанных таблицах или многомерных кубах) в соответствии с требованиями производительности или пространственного распределения данных с заданным уровнем декомпозиции агрегатов. В связи с этим запросы в процессе выполнения обращаются к все более низкому уровню детализации без дополнительного перепрограммирования со стороны пользователей или разработчиков приложения.

В отличие от CIF-подхода Инмона, здесь пространственные модели строятся для обслуживания динамичных бизнес-процессов (которые, в свою очередь, связаны с бизнес-показателями или бизнес-событиями), а не статичных бизнес-отделов. Например, нее данные, которые должны быть доступны для общекорпоративного использования, вносятся в пространственное хранилище данных только один раз, в отличие от CIF-подхода, в котором их пришлось бы трижды копировать в витрины данных разных отделов. После того как в хранилище появляется информация об основных бизнес-процессах, консолидированные пространственные модели могут выдавать их перекрестные характеристики. Матрица корпоративного хранилища данных с архитектурой шины с коммутацией, построенной по технологии «звезда», выявляет и усиливает связи между текущими количественными и качественными показателями бизнес-процессов (фактами) и их описательными атрибутами (метриками).

В качестве оригинальных особенностей подхода Кимболла можно отметить: использование двухуровневой архитектуры, которая включает в себя стадию подготовки данных, недоступную для конечных пользователей, и хранилище данных с архитектурой шины как таковое. В состав последнего входят несколько витрин атомарных данных, несколько витрин агрегированных данных и персональная витрина данных, но оно не содержит одного физически целостного или централизованного хранилища данных — это дает гибкость при использовании данных и пространственной модели организации данных с архитектурой «звезда» (Star Scheme).

Таким образом, хранилище данных с архитектурой шины обладает следующими характеристиками:

- является пространственным;

- включает в себя как данные о транзакциях, так и суммарные данные;

- содержит витрины данных, посвященные только одной предметной области или имеющие только одну таблицу фактов (Fact Table);

- может содержать множество витрин данных в пределах одной базы данных, отражающих показатели бизнес-процессов.

Хранилище данных Кимболла не является единым физическим репозиторием (в отличие от подхода Инмона). Это виртуальное хранилище — коллекция витрин данных, каждая из которых имеет архитектуру типа «звезда».

На рис. показана схема типизированного корпоративного хранилища данных. Вопросы его проектирования, выбора архитектуры, реализации в том или ином виде (CIF или ВЦИ) — это серьезный проект корпоративного масштаба, охватывающий все отделы и обслуживающий нужды всех пользователей корпорации.

Рис. Схема типизированного корпоративного хранилища данных

5. Цели, задачи и структура АИС при реализацииинформационной технологии.

Предыдущая 2 3 4 5 6 7 8910 11 12 13 14 15 16 17 Следующая

Не нашли, что искали? Воспользуйтесь поиском по сайту: