глоссарий


Поиск в руководстве по статистике Интернета


Вращение представления данных (в пространстве 3 Вт).

Изменение точки обзора диаграммы рассеяния 3W (например, графики) простой , спектральный или пространственный ) может быть эффективной исследовательской техникой, поскольку она позволяет вам видеть мягкие модели, если вы не смотрите на «облака» точек под правильным углом (см. анимацию ниже).


Вращение графика 3W позволяет вам искать наилучшее положение «точки обзора» графика.

Для получения дополнительной информации см. Вращение представления данных (в пространстве 3 Вт) и Избранные приемы графического анализа ,

Ожидаемый средний край. Если в макете ANOVA отсутствует пропущенный подкласс с предиктором качества, субпопуляция субпопуляции - это ожидаемый средний край , который является наилучшим линейным оценщиком с минимальной деформацией для системы средней границы (см. Milliken and Johnson, 1986). Тесты дифференцирования ожидаемых средних предельных значений основывались на том факте, что они не зависят от выбора метода кодирования для переменных, встречающихся в системе, в качестве предикторов качества (например, с использованием модели с сигма-пределами или параметризованной модели ) и выбора детальной формы обратного обратного для матрица эксперимента, используемая при разрешении нормального нормального. Поэтому, вообще говоря, тесты линейных комбинаций ожидаемых средних предельных значений не зависят от конфигурации системы.

Дополнительную информацию можно найти в соответствии с условиями предсказатель качества , матрица эксперимента , модель с сигма-ограничениями , сверхпараметрическая модель , невидимая обратная матрица как и в разделе Общие линейные модели и Общие регрессионные модели ,

ODBC. ODBC ( Open DataBase Connectivity ) - это стандарт доступа к базам данных, представленный Microsoft, который обеспечивает доступ к широкому спектру баз данных (например, MS Access, Oracle) и делает запросы по языку. SQL ,

Радиальное отклонение. Числовое значение в радиальных нейронах, на которое умножается квадратное расстояние между вектором весов и входным вектором. Уровень активации нейронов, определяемый таким образом, является входным функция активации , Посмотри на эти нейронные сети ,

Стандартное отклонение Стандартное отклонение (этот термин впервые был использован Пирсоном в 1894 году) является наиболее часто используемым показателем волатильности. Стандартное отклонение в популяции рассчитывается по формуле:

= [ (Х-μ) 2 / N] 1/2

где:
μ означает среднее по населению
N - численность населения.
Оценка стандартного отклонения от испытания рассчитывается по формуле:

s = [ (Х-хт) 2 / п-1] 2.1

где:
xr означает среднее от попытки
n означает много попыток.

Смотрите также Описательная статистика - Введение ,

Отклонение. Для оценки качества посадки возвышенная линейная модель Статистика отклонений обычно рассчитывается. Определяет следующую формулу:

Отклонение = -2 * (Лм - Лс)

где Lm - логарифм самой высокой надежности для рассматриваемой модели, а Ls - логарифмическая вероятность надежности для насыщенной модели, то есть наиболее зонированной модели для выбранной модели. график и функционировать больше , Вычислительные подробности можно найти в книге Agresti (1996).

Смотрите также описание модуля Поднятые линейные и нелинейные модели ,

В гостях Кук. Это мера воздействия данного дела на Rwnanie регрессия , Показывает разницу между обозначенными значениями коэффициенты B и значения, рассчитанные, когда дело было снято с лица. Все расстояния должны быть в одном ряду. Если это не так, то можно предположить, что данный случай (случаи) оказал существенное влияние на нагрузку коэффициента регрессии.

Дополнительную информацию можно найти под следующими заголовками: стандартизированные остатки , от Махаланобиса и остальные удалены ,

Евклидово расстояние. Это просто геометрическое расстояние в многомерном пространстве. Он рассчитывается следующим образом:

расстояние (x, y) = {Si (xi - yi) 2} 1/2

Отметим, что евклидовы расстояния (и их квадраты) рассчитываются на основе необработанных данных, а не на основе стандартизированных данных. Более подробную информацию о расстоянии Евклидова и других мерах расстояния можно найти в описании меры расстояния во введении к Анализ куплю ,

Вдали от Махаланобиса. О независимых переменных (встречающихся в уравнении регрессия ) можно стирать таким образом, чтобы они расстегивали многомерное пространство, в котором каждое наблюдение (измерение) представляет собой одну точку. Таким образом, вы также можете установить средние значения всех независимых переменных в этом пространстве. Эту «среднюю точку» иногда называют центром распределения. Расстояние от Махаланобиса - это расстояние заданной точки измерения (данного наблюдения) от центра в многомерном пространстве, определяемом коррелированными независимыми переменными (если независимые переменные не коррелированы, то расстояние Махаланобиса идентично расстоянию Евклидова). Эта мера может быть индикатором, позволяющим определить, можно ли классифицировать данное наблюдение как odstajcych ,

Дополнительную информацию можно найти под следующими заголовками: стандартизированный отдых , убрал остальное и готовить ,

Расстояние до города (Манхэттен). Мера расстояния между двумя векторами, определяемая как разность различий во всех измерениях. Эта мера обычно дает результаты, аналогичные расстоянию евклидова, но эффект одиночного (в одном измерении) большого odstajcych если нет квадратного подъема.

Посмотри на эти анализ покупки ,

Отдаленные наблюдения. Отдаленные наблюдения (по определению) необычны и редки. Это точки данных, которые не совпадают с распределением других данных. Это может отражать реальное свойство рассматриваемого явления (переменной) или другие аномалии, которые не следует включать в моделирование.

Из-за способа, которым линия регрессии определяется в анализе множественная регрессия (в частности, оно основано на минимизации не суммы обычных расстояний, а суммы квадратов расстояния между точками от линии), наблюдения за выбросами оказывают большое влияние на коэффициент направленности линии регрессии и, следовательно, на значение коэффициента корреляции. Даже одно отклонение может серьезно изменить коэффициент направления линии регрессии и коэффициент корреляции .

Отметим, как было показано на анимации ниже, что одно наблюдение выброса может значительно повлиять на высокое значение коэффициента корреляции, которое в противном случае (без этого наблюдения выброса ) было бы близко к нулю. В результате очевидно, что не следует делать никаких существенных претензий на основании значения коэффициента корреляции (т.е. рекомендуется просматривать соответствующую диаграмму рассеяния ).

Отметим, что если количество выборок относительно мало, то рассмотрение или неучтение отдельных наблюдений, которые не так очевидны, как случай, показанный в предыдущем примере, также могут оказать большое влияние на наклон линии регрессии (и коэффициент корреляции). Это иллюстрируется следующим примером, в котором неопределенные точки называются «выбросами», хотя их можно рассматривать как экстремальные наблюдения .

Обычно мы считаем, что выбросы будут представлять собой случайный случай, который мы хотели бы контролировать. Излишне говорить, что наблюдаемые выбросы могут не только искусственно увеличить значение коэффициента корреляции , но и уменьшить значение «законной» корреляции.

Дополнительная информация: эллипс зоны доверия. ,

Дистанционные наблюдения (рамка графика). «Значительно» значения, отделенные от центра распределения, называются смещениями или экстремальный Если вы соответствуете определенным условиям ниже.

В диаграммах за кадром значения данных считаются выбросами, если выполняется условие:

значение точки данных> RG + WO * (RG - RD)
или
значение точки данных <RD - WO * (RG - RD)

где
RG - это величина значения кадра (например, средняя + стандартная ошибка или 75% процентиль),
RD - нижнее значение кадра (например, среднее - без стандарта или процентиль 25%),
WO - коэффициент для наблюдений за выбросами.

Диапазоны выбросов и значений показаны ниже. экстремальный на примере "классика" рамка графика (для получения дополнительной информации см. Tukey, 1977).

Обратный документальный фильм. Частота обратных документов является полезным индикатором, используемым в добыча текста одновременно выражать частоту совы или фразы в наборе документов и их семантические свойства, то есть частоту встречаемости в конкретных документах в наборе.

Обратите внимание, что в наборе текстовых документов мы установили номера ( wf ) каждого слова или фразы в отдельных документах. Исследователя может интересовать относительная частота всей коллекции ( df ) для разных братьев и сестер, например, в какой части документов появится данное слово. Например, слово «найти» часто встречается во многих документах, а «программное обеспечение» - в некоторых из них. Это связано с тем, что слово «найти» используется во многих контекстах, а слово «программное обеспечение» будет появляться в документах, связанных с компьютерами. Обычно используется индикатор частоты обратного документа, который предоставляет информацию о семантической специфике совы (часто документов) и количестве экземпляров в конкретном документе ( а это индекс совы и документа):

В приведенной выше формуле (см. Manning and Schtze, 2002) N - это общее количество документов, dfi часто является документальным для i-го слова (количество документов, в которых оно было написано). Как видите, индекс зависит от частоты слова («уменьшается» функцией журнала) и веса, чем меньше, тем чаще встречается данное слово во всем наборе (если слово присутствует в каждом документе, dfi = N и индикатор idf = 0 ), и получение максимального значения, когда слово точно появляется в одном документе. Легко видеть, как индикатор idf отражает как часто встречающееся слово, так и связь со значением отдельных документов (и, следовательно, их деление на категории), которые учитываются при анализе.

Для получения дополнительной информации см. Manning and Schtze (2002).

Тип реверса g2. Обратный тип g2 обратные обращения прямоугольная матрица A , равная равенству:

AA`A = А

и

A`AA` = А

Обратный тип g2 используется для нахождения нормальных решений в случае общей линейной модели. Дальнейшие подробности можно найти в описании GLM и в соответствии с условиями своеобразная матрица , обратно матрица ,

Предсказательное картирование. что использование многомерный анализ соответствия Вы можете выполнить эквивалентность множественная регрессия анализ качественных данных путем ввода дополнительных столбцов в матрицу кодирования (см. Доски бурта ). Например, у нас есть матрица кодирования, которая содержит различные показатели качества, связанные со здоровьем, связанные с поведением (например, курит ли человек, занимается спортом и т. Д.). Мы могли бы добавить два столбца, содержащих информацию о том, был ли человек болен или нет в течение последнего года (то есть я мог бы добавить один столбец Chorowa и другие столбцы, а не Ill , и ввести ноль и один, указывающие на здоровье каждого человека). Если при простом анализе соответствия кодовых матриц мы добавим эти столбцы в качестве дополнительных столбцов в этом анализе, то (1) сводная статистика качество представление (ср. Введение в анализ корреспонденции ) для этих столбцов будет сказано, насколько хорошо мы можем объяснить заболевание как функцию от оставшихся переменных в матрице кода, и (2) изображение точек, представляющих столбцы в конечной системе координат, будет указывать характер (например, направление) взаимосвязи между столбцами в матрице кода и точками столбцы, обозначающие заболевание. Техника t (добавление дополнительных точек к многомерному анализу соответствия ) также называется прогнозным отображением .

Огльная АНОВА / МАНОВА. Целью дисперсионного анализа ( ANOVA ) является проверка значимости различий между средними значениями путем сравнения (т.е. анализа) дисперсии. Чтобы быть точным, разделив дисперсию на различные значения rda (связанные с эффектами, возникающими в рассматриваемой схеме), мы имеем возможность сравнить дисперсию, соответствующую разнице между группами (или обработкам) вариации внутри групп. Предполагая гипотезу истинного нуля (которая отражает отсутствие средних различий между группами или методами лечения в популяции), мы можем ожидать, что дисперсия, оцененная на основе внутригрупповой изменчивости, будет приблизительно равна дисперсии, оцененной на основе межгрупповой изменчивости.

Подробное объяснение можно найти в разделе ANOVA / MANOVA ,

Общая линейная модель. Общая линейная модель представляет собой схему модели линейной регрессии , позволяющую тестировать эффекты (1) для обоих предсказатель качества а также для предикторов непрерывного характера и (2) как в случае систем, содержащих много зависимых переменных, так и систем с одной переменной зависимостью.

Обсуждение общей проблемы линейной модели можно найти во введении к Общие линейные модели (GLM) ,

Окно Бартлетта. В анализе временной ряд Окно Бартлетта - это преобразованное скользящее среднее, используемое для компенсации значения периодограммы. В окне Бартлетта (Bartlett, 1950) веса рассчитываются как:

wj = 1- (j / p) (для j = 0, ..., p),
wj = wj (для j 0)

где p = (m-1) / 2 и m - ширина скользящего (скользящего) среднего окна, число которого должно быть нечетным.

Эта функция взвешивания назначит наибольший вес наблюдения, выровненный в середине окна, и постепенно уменьшит вес значений, которые находятся дальше от центра.

Смотрите также Спектральный анализ. Основные обозначения и правила ,

Окно Даниэллы (равные веса). В анализе временных рядов окно Даниэллы (Daniell 1946) представляет собой преобразование взвешенной скользящей средней, используемой для компенсации значения периодограммы. Это простое преобразование (равные веса) скользящего среднего, то есть каждое значение спектральной плотности вычисляется как среднее значение / месяц предыдущих и следующих значений периодограммы. Мы также заметили, что в модуле временных рядов веса стандартизированы для суммирования до 1.

Посмотри на эти Спектральный анализ. Основные обозначения и правила ,

Окно Хэмминга. В анализе временной ряд окно Хэмминга - это преобразованное скользящее среднее, используемое для компенсации значения периодограммы. В окне Хемминга (по имени Р. У. Хэмминга) или в окне Тьюки-Хемминга (Blackman and Tukey, 1958) для каждой частоты вес для средневзвешенного значения скользящей периодограммы рассчитывается как:

WJ = 0,54 + 0,46 * что-то ( * j / p) (для j = 0, ..., p)
wj = wj (для j 0)

где р = (м-1) / 2 .

Эта функция взвешивания назначит наибольший вес наблюдения, выровненный в середине окна, и постепенно уменьшит вес значений, которые находятся дальше от центра.

Дополнительную информацию также можно найти в разделе Спектральный анализ. Основные обозначения и правила в главе Анализ временных рядов ,

Окно Парзен. В анализе временной ряд Окно Parzen - это преобразованное скользящее среднее, используемое для компенсации значения периодограммы. В окне Parzen (Flame, 1961) для каждой частоты вес для средневзвешенного скользящего значения периодограммы рассчитывается как:

wj = 1-6 * (j / p) 2 + 6 * (j / p) 3 (для j = 0 ... p / 2),
wj = 2 * (1-j / p) 3 (для j = p / 2 + 1 ... p),
wj = wj (для j 0)

где р = (м-1) / 2 .

Эта функция взвешивания назначит наибольший вес наблюдения, выровненный в середине окна, и постепенно уменьшит вес значений, которые находятся дальше от центра.

Дополнительная информация: Спектральный анализ. Основные обозначения и правила ,

нейронные сети Окно Парзена - это альтернативное название метода ядерного приближения, используемого в вероятностные нейронные сети и в сети, реализующие регрессии бликов (Parzen, 1962).

Окно Тьюки. В анализе временной ряд Окно Тьюки - это преобразованное скользящее среднее, используемое для компенсации значения периодограммы. В случае окна Тьюки (Blackman and Tukey, 1958) или Тьюки-Ханнинга (названного в честь Джулиуса фон Ханны), для каждой частоты вес для средневзвешенного значения скользящей периодограммы вычисляется как:

wj = 0,5 + 0,5 * cos ( * j / p) (для j = 0, ..., p)
wj = wj (для j 0)

где р = (м-1) / 2х .

Эта функция взвешивания назначит наибольший вес наблюдения, выровненный в середине окна, и постепенно уменьшит вес значений, которые находятся дальше от центра.

См. Спектральный анализ. Основные обозначения и правила ,

OLAP (онлайн-аналитическая обработка) и FASMI. Термин « оперативная аналитическая обработка» ( OLAP ) или « Быстрый анализ совместно используемой многомерной информации» (FASMI ) относится к технологии, которая позволяет пользователям многомерных баз данных в интерактивном режиме генерировать описательные или сравнительные наборы («сечения») и другие аналитические запросы. ,

Дополнительную информацию можно найти в описании Аналитическая обработка в режиме онлайн (OLAP) и хранилище данных в главе Методы добычи данных (data mining) ,

OLE DB. OLE DB ( Object Linking and Embedded Database ) - это стандарт, введенный компаниями Microsoft для доступа к базам данных, который обеспечивает доступ к широкому спектру баз данных (например, MS Access, Oracle). Архитектура OLE DB обеспечивает универсальную интеграцию данных из корпоративных систем, от мэйнфреймов до ПК независимо от типа данных. OLE DB обеспечивает более общий и более эффективный доступ к данным, чем старый стандарт ODBC - обеспечивает доступ к большему количеству типов данных и основывается на технологии компонентной объектной модели (COM).

Масштабируемое программное обеспечение. Программное обеспечение (например, системы управления базами данных, такие как MS SQL Server или Oracle), которое можно расширять для удовлетворения растущих потребностей без изменения его архитектуры. Например, масштабируемый компьютер может быть расширен за счет новых заданий без необходимости вносить изменения в его базовую структуру. Примером не масштабируемой архитектуры является сохранение файлов в каталогах DOS - в этом случае добавление файлов в конечном итоге приведет к разделению каталога на подкаталоги. Смотрите также интегрированные системы.

Программное обеспечение для групповой работы. Программное обеспечение, позволяющее взаимодействовать группе пользователей с использованием компьютерной сети. Такое программное обеспечение может включать в себя инструменты для обмена информацией (например, по электронной почте), групповой работы с документами, общего анализа, создания отчетов, планирования. Документы могут содержать текст, диаграммы, рисунки и другие носители информации (например, мультимедиа).



& copy Copyright StatSoft, Inc., 1984-2011
STATISTICA является торговой маркой StatSoft, Inc.