Как исправить систематическую ошибку – Сайт, где вы сможете решить свои вопросы

1) Кислотно-основного титриметрического определения уксусной кислоты в уксусной эссенции;

2) Гравиметрического определения хроматов в электролите для хромирования.

Абсолютная погрешность аналитических
весов 0,1мг

Абсолютная погрешность (ошибка)

∆x=x_i—x_ист.X_i-измеренное
значениеX_ист-истинное
значение ( если истинное значение не
известно – берется среднее)

Абсолютная погрешность не может ясно
охарактеризовать точность измерения,
так как она не связана с измеренным
значением.

Относительная погрешность (ошибка)

·100%

Систематические погрешности (ошибки)– возникают при действии постоянных
причин, их можно выявить устранить или
учесть изменяются по постоянно
действующему закону .

Инструментальные погрешности–связанные с инструментами для измерения
аналитического сигнала (весы, посуда)
уменьшить можно периодической проверкой
аналитических приборов. Обычно составляют
небольшую долю .
Методические ошибки–
обусловлены методом анализа (например
погрешности пробоотбора и пробоподготовки.)
вносят основной вклад в общую погрешность.
Реактивные– связаны с чистотой
используемых реактивов.
Оперативные ошибки –зависят
от правильности и точности выполнения
аналитических операций (например,
недостаточное или излишнее промывание
или прокаливания осадков, недостаточное
тщательное перемещение осадка из одной
посуды в другую, неправильный способ
выливания раствора из пипетки и т.д.)
Индивидуальные ошибки(личные) – это результат некоторых
физических недостатков экспериментатора,
которые мешают ему правильно проводить
известные операции.

Способы выявления систематических
погрешностей

1)варьирование величин пробы

Увеличив размер в кратное число раз
можно обнаружить по изменению найденного
содержания постоянную систематическую
погрешность

2)способ «введено найдено»

Добавить точно известное количество
компонента в той же форме, в которой
находится аналитический объект. Введенная
добавка проводится через все стадии
анализа. Если на конечной стадии
определяется добавка с точностью, то
систематической ошибки нет.

3) сравнение результата анализа с
результатом, полученным другим независимым
методом

4)анализ стандартного образца

Проведение всех стадий анализа, на
стадии обработки сравнивается с
паспортом, если все совпадает , то
систематической ошибки нет.

Типы погрешностей

Погрешности известной природы, могут
быть рассчитаны и учтены введение
соответствующей поправки
Погрешности известной природы, значение
которых может быть оценены в ходе
химического анализа

Релятивизация — способ устранения
систематической погрешности, когда в
идентичных условиях проводят отдельные
аналитические операции таким образом,
что происходит нивелирование
систематической ошибки

Погрешность невыясненной природы,
значение который неизвестно, их сложно
выявить и устранить , используют прием
рандомизации

Рандомизация – переведение систематической
ошибки в разряд случайной

Случайные ошибки– обрабатываются
по правилам матемтической статистики,
связаны с влиянием неконтролируемых
параметров, непредвиденны и неучтимы.

Промахи– грубые ошибки, сильно
искажающие результаты анализа (ошибки
при расчётах, неправильный отчёт по
шкале, проливание раствора или просыпание
осадка). Результат с промахом отбрасывается
при выводе среднего значения.

6. Случайные
ошибки. Метрологические характеристики,
отражающие случайные ошибки. Оценка и
критерии воспроизводимости и правильности.
Рассмотрите на примере титриметрического
комплексонометрического определения
меди (II).

Случайные ошибки–отражают
неопределенность результата , присущую
любому измерению, обрабатываются по
правилам матемтической статистики,
связаны с влиянием неконтролируемых
параметров, непредвиденны и неучтимы.

Причины таких погрешностей:

Изменение температуры во время измерения,
ослабление внимания при работе, случайные
потери, загрязнение, использование
разной посуды, весов и тд.

метрологические характеристики:

Правильность— характеризует степень
близости измеренного результата
некоторой величины к её истинному
значению

Воспроизводимость— характеризует
степень близости друг к другу единичный
определений (рассеяние единичных
результатов относительно среднего
значения

Точность— собирательная характеристика
метода или методики , включающая их
правильность и воспроизводимость .

Чувствительность— величина,
определяемая минимальным количеством
вещества, которое можно обнаружить
данным методом

Чувствительность – собирательное
понятие , включающее три характеристики:

1)Коэффициент чувствительности

коэффициент чувствительности sхарактеризует отклик аналитического
сигналаyна содержание
компонентаc,s-
это значение первой производной
градуировочной функции при определенном
содержании компонента, для прямолинейных
градуировочных графиковs– это тангенс угла наклона прямойy=Sc+b

чем больше s, тем меньшие
количества компонента можно обнаружить
, используя один и тот же аналитический
сигнал, чем большеs, тем
точнее можно определить одно и то же
количество вещества

2)предел обнаружения С_minнаименьшее содержание при котором по
данной методике можно обнаружить
присутствие компонента с заданной
доверительной вероятностью, относится
к области качественного анализа и
определяет минимальное содержание
компонента

3)нижняя граница определяемого содержания
С_н

В количественном анализе обычно приводят
интервал определяемых содержаний-
область значений определяемых содержаний,
предусмотренная данной методикой и
ограниченная нижней и верхней границами.

Верхняя граница С_внаибольшее
значение количества или концентрации
компонента, определяемое по данной
методике.

нижняя граница С_н-наименьшее
содержание компонента , определяемое
по данной методике . З нижнюю границу
обычно принимают то минимальное
количество или концентрацию, которые
можно определить с относительным
стандартным отклонением Ϭ_r≤0,33

Оценка и критерии воспроизводимости

1)Среднее арифметическое

2)Отклонение

d_i=x_i—

3)Медиана— тот единичный результат
, относительно которого число результатов
с большими и меньшими значениями
одинаковое, если количество значений
нечетное, то медиана совпадает с
центральным результатом ранжированной
выборки , если количество значений
четное, то медиана есть среднее
арифметическое между двумя центральными
значениями ранжированной выборки

4)среднее отклонение-среднее
арифметическое единичных отклонений,
без учет знака

5)Дисперсия

Ϭ²илиs²

Ϭ²=
еслиn>10

Ϭ²=
еслиn≤10

6)стандартное отклонениеϬ_x=

7)Относительное стандартное отклонение
Ϭ_r=

Титриметрическое комплексонометрическое
определения меди (II).

Выполнение определениея

1)Титрование исследуемого раствора
стандартным раствором ЭДТА

2)расчет граммового содержания меди

Ход анализа:Титрование исследуемого
раствора стандартным раствором ЭДТА.
Анализируемый раствор помещают в мерную
колбу на 100 мл, довдят водой до метки,
тщательно перемешивают. В коническую
колбу дл титрования берут аликвоту,
добавляют индикатор мурексид на кончике
шпателя и титруют раствором ЭДТА сначала
до грязно-розового цвета, натем добавляют
несколько капель 10%-ного раствора аммиака
до появления изумрудной или желтой
окраски раствора и дотитровывают
раствором ЭДТА до перехода окраски в
фиолетовую.

Формула для расчета граммового содержания
меди:

m_Cu,г=C(ЭДТА)·_ЭДТА·K_ЭДТА·M_экв(Cu)·P·10^-3

Формула для расчета процентного
содержания меди:

ω_Cu=·100%

Возможные причины возникновения
случайных ошибокв комплексонометрическом
титровании меди возникают в процессе
измерения объемов: неточное доведение
до метки мерной колбы, использование
разных пипеток, потеря титранта (капнуло
мимо), использование непромытой посуды.
Так же могут возникать ошибки из-за
неточного определения перехода окраски
, но эти ошибки будут относиться к
категории систематических индивидуальных
ошибок.

7. Гравиметрическое
определение бария в минерале альстонит:
этапы определения, возможные формулы
осадителей, осаждаемой и гравиметрической
формы, механизм образования осадка,
возможные варианты загрязнения осадка,
приемы повышения чистоты осадка,
погрешности определения. Условия
аналитического выделения осадков бария.

Минерал альстонит минерал, безводный
двойной карбонат бария и кальция
BaCa(CO₃)₂

Этапы определения:

1)взятие навески и её растворение

2)расчет количества осадителя

3)приготовление раствора осадителя

4)осаждение

5)фильтрование и промывание

6)высушивание и прокаливание осадка

7)взвешивание осадка, расчёт содержания
бария

Для количественного определения бария
его осаждают в виде сульфата BaSO₄
(осаждаемая форма)

BaCO₃+H₂SO₄=
BaSO₄+H₂CO₃

В качестве осадителя, посташика
сульфат-ионов используют серную кислоту
H₂SO₄(осадитель)

После прокаливания осадка его формула
не меняется и остается так же в виде
сульфата бария BaSO₄
(гравиметрическая форма)

Механизм образования осадка:

В процессе образования осадка различают
три стадии :

1)образование зародышей кристаллов

2)рост кристаллов

3)объединение (агрегация) хаотично
ориентированных кристаллов

Насыщение=>пересыщение=>ПКИ>ПР=>
образование мельчайших зародышей
кристаллов

Осаждение происходит при определенной
степени пересыщения раствора

P==s-растворимость,-относительное
пересыщение,Q-концентрация
кристаллизующегося вещества в растворе

Центром кристалла может служить твердая
частица этого вещества или любая другая
твердая частица, которую мы вносим в
раствор, твердые частицы могут изначально
присутствовать в растворе как примесь.

Если осаждение происходи из разбавленных
растворов, то появление осадка занимает
время-индукцинный период.

В процессе добавления каждой новой
порции осадителя происходит мгновенное
пересыщение раствора, зародыши растут
быстро за счет окружающих их ионов, как
только зародыш дотиг определенного
размера выпадает осадок

Рост кристаллов идет параллельно 1-ой
стадии, происходит за счет диффузии
ионов к поверхности растущего кристалла.

Число и размер частиц осадка (дисперсность
системы кол-во в единицы объёма) зависит
от соотношения скоростей 1-ой и 2-ой
стадий

V₁— скорость образования
зародышейV₂-скорость
роста кристаллов

V₁>>V₂-мелкодисперсный
осадокV₁<<V₂-крупнокристаллический
осадок

Лимитирующую стадию определяет скорость
осаждения и концентрации ионов

При медленном осаждении лимитирующей
стадией является кристаллизация ,
частица окружена однородным слоем
осаждаемый ионов в результате получается
кристалл правильной форм

При высокой концентрации ионов
лимитирующей стадией становится диффузия
, образуются кристаллы не правильной
формы с большой площадью поверхности

Следует отметить, что на скорость
процесса кристаллизации влияет
,
влияниеразлично на скорость образования
зародышей и на скорость роста кристаллов

В случае образования зародышей
V₁=k·(экспоненциальный
закон

В случае роста кристаллов V₂=k·

При высокой степени
образуются
мелкодисперсные осадки, при уменьшении,
образуются крупнокристаллические
осадки

Агрегация происходит в гетерогенной
системе, в значительной степени
определяется числом центров кристаллизации.

Чем больше центров кристаллизации , тем
в меньшей степени они укрупняются на
второй стадии , тем хуже структура и тем
выше дисперсность осадков.

К аналитическим свойствам осадка
относятся: растворимость, чистота,
фильтруемость.

Лучшими свойствами обладают
крупнокристаллические осадки.

Загрязнение осадков

В гарвиметрическом определении часто
возникают ошибки , вызванные переходом
осадка в раствор или веществ из раствора
в осадок-соосождение

Соосаждение происходит в процессе
образования осадка

Отрицательная роль : загрязнение осадка

Положительная роль :используется для
концентрирования микропримесей

Существует три типа соосаждения:

1)Адсорбция- соосаждение примесей на
поверхности уже сформированного осадка,
происходит в результате нескомпенсированности
зарядов внутри и на поверхности.

Характеризуется ярко выраженной
избирательность, преимущественно
адсорбируются те ионы, которые входят
в структуру осадка, противоионы-примеси

Адсорбция противоионов подчиняется
правилам Панета-Фаянса-Гана

А)при одинаковых концентрациях
адсорбируются многозарядные ионы

Б)при одинаковых зарядах адсорбируются
те, концентрация которых выше

В)при одинаковых концентрациях и
зарядах-те, которые образуют с ионами
решетки менее растворимое соединение

Г)в кислой среде соосаждение ионов
уменьшается в следствии конкурентной
адсорбции H₃O⁺

Количество адсорбируемой примеси
зависит от величины поверхности осадка,
концентрации адсорбируемой примеси и
температуры ( с ↑ поверхности и ↑
концентрации- адсорбция ↑; с ↑ температуры
адсорбция ↓)

2)Окклюзия- загрязнение осадка в результате
захвата примеси внутрь растущего
кристалла, происходит в процессе
формирования осадка.

Различают 2-х видов: абсорбционная и
механическая

Механическа- случайный захват частиц
маточного раствора внутрь твердой фазы
вследствие нарушения механической
структуры

Характерна при выделении аморфных
осадков.

Окклюзированные примеси равномерно
распределены внутри, но не принимают
участие в построении решетки кристалла.

Адсорбционная-возникает при быстром
росте кристалла, когда ионы на поверхности
обратают кристаллизованным веществом.
Протекает вследствии адсорбции примесей
по микротрещинам кристаллической
структуры.

Окклюзия подчиняется тем же правилам,
что и адсорбция

Общие правила понижения окклюзии–замедление процесса выделения твердой
фазы-осаждение при малом пересыщении
, работают с разбавленными растворами
, осадитель добавляют по каплям, при
постоянном перемешивании.

3)изоморфное соосаждение характерно
для изоморфно кристаллизующегося
веществ, которые могут образовывать
смешанные кристаллы, примесь участвует
в построении кристаллической решетки,
наблюдается лишь в тех случаях, когда
вещества сходны по химическим свойствам
или ионы имеют одинаковые кч и радиус.

Совместное осаждение-выделение в твердую
фазу нескольких веществ, для которых в
услових осаждения достигнуты величины
их K_s^t

Последовательное осаждение- веделение
примеси на поверхности уже сформированного
осадка

Приемы и методы повышения чистоты
осадка

Зависят от типа соосаждения

1)адсорбционные примеси хорошо удаляются
промыванием осадка, более эффективно
многократное промывание малыми порциями

Выбор промывочной жидкости:

Не увеличивает растворимость осадка и
не ухудшает его фильтруемость, водой
промывают осадки с k~10^-11/-12,
не подвергаемых пептизации, кристаллические
осадки с конст, растворимости 10^-9/-11промывают разбавленным раствором
осадителя, аморфные осадки промывают
разбавленными растворами электролитов
коагуляторов, чтобы избежать пептизации

Промывние кристаллических осадков
проводят холодной промывочной жидкостью,
чтоб не увеличивать растворимость,
аморфные наоборот горячими

2)окклюзированные примеси , для избавления
от них:

Для кристаллических осадков-старение

Для аморфных-переосаждение

Погрешность гравиметрического
метода анализа

Общая погрешность анализа

Ϭ²=
+

-погрешность
пробоотбораm-число пробn-число параллельных
определений

-погрешность
измерений

Результат находится по формуле

P,%=·100%

Методическая ошибка, обусловлена
неколичественным выпадением осадка,
её устранить нельзя

Q_об=s-растворимость осадка
г/100мл воды,-объём
фильтрата,—
масса гравиметрической формы

Случайные ошибки

Относительное стандартное отклонение

-дисперсия
массы гравиметрической формы

-масса
гравиметрической формы

Ϭ_a₁-погрешность
взвешивания тары

Ϭ_a₂-погрешность
взвешивания тары с навеской

==0,0003
г Ϭ_a₁= Ϭ_a₂=0,0002г

Суммарная ошибка

n-число проб

m-число измерений

-погрешность
прибора

-погрешность
измерения

8. Гравиметрическое
определение алюминия в каолине: этапы
определения, возможные формулы осадителей,
осаждаемой и гравиметрической формы,
механизм образования осадка, возможные
варианты загрязнения осадка, приемы
повышения чистоты осадка, погрешности
определения. Преимущества органических
осадителей. Условия аналитического
выделения осадков алюминия.

Механизм образования осадка:

В процессе образования осадка различают
три стадии :

1)образование зародышей кристаллов

2)рост кристаллов

3)объединение (агрегация) хаотично
ориентированных кристаллов

Насыщение=>пересыщение=>ПКИ>ПР=>
образование мельчайших зародышей
кристаллов

Осаждение происходит при определенной
степени пересыщения раствора

P==s-растворимость,-относительное
пересыщение,Q-концентрация
кристаллизующегося вещества в растворе

Если осаждение происходи из разбавленных
растворов, то появление осадка занимает
время-индукцинный период.

V₁— скорость образования
зародышейV₂-скорость
роста кристаллов

V₁>>V₂-мелкодисперсный
осадокV₁<<V₂-крупнокристаллический
осадок

Лимитирующую стадию определяет скорость
осаждения и концентрации ионов

В случае образования зародышей
V₁=k·(экспоненциальный
закон

В случае роста кристаллов V₂=k·

К аналитическим свойствам осадка
относятся: растворимость, чистота,
фильтруемость.

Лучшими свойствами обладают
крупнокристаллические осадки.

Загрязнение осадков

Соосаждение происходит в процессе
образования осадка

Отрицательная роль : загрязнение осадка

Положительная роль :используется для
концентрирования микропримесей

Существует три типа соосаждения:

Адсорбция противоионов подчиняется
правилам Панета-Фаянса-Гана

А)при одинаковых концентрациях
адсорбируются многозарядные ионы

Б)при одинаковых зарядах адсорбируются
те, концентрация которых выше

В)при одинаковых концентрациях и
зарядах-те, которые образуют с ионами
решетки менее растворимое соединение

Г)в кислой среде соосаждение ионов
уменьшается в следствии конкурентной
адсорбции H₃O⁺

Различают 2-х видов: абсорбционная и
механическая

Характерна при выделении аморфных
осадков.

Окклюзия подчиняется тем же правилам,
что и адсорбция

Последовательное осаждение- веделение
примеси на поверхности уже сформированного
осадка

Приемы и методы повышения чистоты
осадка

Зависят от типа соосаждения

Выбор промывочной жидкости:

2)окклюзированные примеси , для избавления
от них:

Для кристаллических осадков-старение

Для аморфных-переосаждение

Погрешность гравиметрического
метода анализа

Общая погрешность анализа

Ϭ²=
+

-погрешность
пробоотбораm-число пробn-число параллельных
определений

-погрешность
измерений

Результат находится по формуле

P,%=·100%

Методическая ошибка, обусловлена
неколичественным выпадением осадка,
её устранить нельзя

Q_об=s-растворимость осадка
г/100мл воды,-объём
фильтрата,—
масса гравиметрической формы

Случайные ошибки

Относительное стандартное отклонение

-дисперсия
массы гравиметрической формы

-масса
гравиметрической формы

Ϭ_a₁-погрешность
взвешивания тары

Ϭ_a₂-погрешность
взвешивания тары с навеской

==0,0003
г Ϭ_a₁= Ϭ_a₂=0,0002г

Суммарная ошибка

n-число проб

m-число измерений

-погрешность
прибора

-погрешность
измерения

9. Гравиметрическое
определение железа в руде: этапы
определения, возможные формулы осадителя,
осаждаемой и гравиметрической формулы,
механизм образования коллоидной частицы,
процессы, приводящие к образованию
осадка, возможные варианты загрязнения
осадка, приемы повышения чистоты осадка,
погрешности. Условия аналитического
выделения осадков железа.

Гравиметрическое определение железа(III)
основано на его осаждении в виде
гидроксида железа(III)Fe(OH)₃.
Трехвалентное железо осаждают раствором
аммиака, осаждаемой формой являетсяFe(OH)₃.
Реакция:Fe(NO₃)₃+3NH₃·H₂O=Fe(OH)₃+3NH₄NO₃.
При прокаливании гидроксид железа(III)
превращается в оксид железа(III),
который является гравиметрической
формой:Fe(OH)₃=(t°)Fe₂O₃+3H₂O.

Этапы определения:1) взятие навески
и ее растворение; 2) приготовление
раствора осадителя; 3) осаждение; 4)
фильтрование и промывание осадка; 5)
высушивание и прокаливание; 6) взвешивание
осадка, расчет содержания железа.

Расчет ведут по формулам

ω_Fe₂_O₃=
,
ω_Fe
=

Механизм образования коллоидной
частицы:

Fe(NO₃)₃+3NH₄OH(изб.)=Fe(OH)₃↓+3NH₄NO₃

{[Fe(OH)₃]_m
· nOH^—
·(n-x)NH₄⁺}^-x
·xNH₄⁺

агрегат плотный слой
диффузный слой Мицелла

Ядро

Коллоидная частица

Вещество в коллоидной системе имеет
большую развитую поверхность и
нескомпенсированный заряд на границе
разлела фаз. Существование
нескомпенсированного силового поля
ведет к адсорбции из раствора молекул
или ионов. Если коллоидная система
возникла в результате проведения
химической реакции осаждения, то частицы
адсорбируют в первую очередь те ионы,
которые могут достраивать кристаллическую
решетку. Адсорбированные ионы сообщают
частице «+» или «-« заряд. Слой
адсорбированных ионов на ядре – это
первичный адсорбционный слой. Заряд,
созданный таким слоем, достаточно высок
и обуславливает электростатическое
взаимодействие с иоами противоположного
знака. В результате образуется слой
противоионов, который выравнивает заряд
первичного слоя. Слой противоионов
имеет диффузный характер. Часть
противоионов, прочно связанных с
первичным слоем – это плотный слой,
остальные противоионы составляют
диффузный слой.

Образование осадкапроисходит
тогда, когда раствор становится
пересыщенным, т.е. [A+]^m[B-]ⁿ>K_s(ПКИ>ПР). Образование осадков связано
с процессом укрупнения частиц, с
образованием кристаллической решетки
вещества. Этот процесс определяется
числом центров кристаллизации: чем
больше центров, тем в меньшей степени
они укрупняются и тем хуже структура и
выше дисперсность осадка.

Возможные варианты загрязнения:
1)Путем адсорбции ( для конкретного
примера хлорид-ионов на поверхности
осадка); 2)Окклюзия; 3)Изоморфное
соосаждение; 4) Совместное осаждение;
5) Последующее осаждение.

Приемы повышения чистоты осадка:
1) Адсорбированные на поверхности примеси
хорошо удаляются при промывании осадков
на фильтре при помощи промывных жидкостей,
т.к. примеси переходят в промывную
жидкость и уходят через поры фильтра.
Эффективно многократное промывание
небольшими порциями промывной жидкости.
Промывную жидкость выбирают максимально
тщательно, чтобы не увеличивать
растворимость осадка и не ухудшать его
фильтрацию. Кристаллические осадки
промывают холодными промывными
жидкостями, чтобы не увеличить
растворимость осадка, а аморфные –
наоборот горячими. Водой промывают
осадки с низкими константами растворимости
(ниже 10^-11-10^-12), а также те,
которые не подвергаются пептизации.
Если константа растворимости осадка
10^-9-10^-11и он кристаллический,
то его промывают разбавленным раствором
осадителя. Аморфные осадки промывают
разбавленными растворами
электролитов-коагулянтов (солиNH₄⁺),
чтобы избежать пептизации(в опыте с
железом осадок промывали растворомNH₄NO₃).
Повышение температуры также способствует
уменьшению адсорбции (на конкретном
примере горячий раствор, содержащий
10% аммиак разбавляют горячей водой для
уменьшения адсорбции хлорид-ионов на
поверхности осадка). 2) Для очищения
окклюдированных примесей в случае
кристаллических осадков используют
старение, в случае аморфных осадков –
переосаждение.Степень окклюзии в
процессе осаждения можно уменьшить
медленным добавлением осадителя по
каплям, при перемешивании.

Погрешности:

1) Общая погрешность анализа σ²=,
где σ_пр²– погрешность
пробоотбора, σ_изм²–
погрешность измерения,m– число проб,n– число
параллельных определений.

2) Методическая ошибка O_обO_об=
—,
гдеs– растворимость
осадка, г/100 мл воды;V_ф– объем фильтрата и промывных вод,
мл;m_гр– масса
полученного осадка, г.

3) Относительное стандартное отклонение
=, гдеσ_{гр –}дисперсия
массы гравиметрической формы;m_гр– масса гравиметрической формы; σ_a– дисперсия массы исходной навески;a– масса исходной навески;p– процентное содержание вещества в
исследуемой пробе;n–число
измерений.

4) Погрешность взвешивания тары σ_a₁и тары с навескойσ_a₂σ_a₁=σ_a₂=0,0002
г, σ_гр== 0,0003 г. 5) Относительное стандартное
отклонение с учетом стадий пробоотбора
и пробоподготовки=, гдеn– число проб;m– число параллельных измерений; σ_пр²– погрешность пробоотбора; σ_изм²– погрешность измерения.

Fe(OH)₃– типичный пример осадка в аморфном
состоянии, легко дающий коллоидный
раствор.

Условия его осаждения следующие:

1)осаждение проводят из горячего раствора
анализируемого вещества горячим
раствором осадителя при перемешивании;

2)осаждение проводят из достаточно
концентрированного исследуемого
раствора концентрированным раствором
осадителя с последующим разбавлением(при
разбавлении устанавливается адсорбционное
равновесие, часть адсорбированных ионов
переходи в раствор, и осадок становится
более чистым); 3)осаждение проводят в
присутствии подходящего
электролита-коагулятора;

4)аморфные осадки почти не требуют
времени для созревания, их необходимо
фильтровать сразу после разбавления
раствора. Аморфные осадки нельзя
оставлять более, чем на несколько минут,
т.к. сильное уплотнение их затрудняет
последующее отмывание примесей, а также
при стоянии увеличивается количество
примесей, адсорбированных поверхностью
осадка.

10. Гравиметрическое определение никеля
в нихромовом сплаве: этапы определения,
возможные формулы осадителей, осаждаемой
и гравиметрической формулы, механизм
образования осадка, возможные варианты
загрязнения осадка, приемы повышения
чистоты осадка, погрешности. Условия
аналитического выделения осадков
никеля.

Гравиметрическое определение никеля
в нихромовом сплаве основано на его
осаждении в виде диметилглиоксимата
никеля Ni(HDMG)₂.
Никель осаждают 1 %-ным спиртовым раствором
диметикглиоксимаH₂DMG,
осаждаемой формой являетсяNi(HDMG)₂.
Реакция:Ni²⁺+2H₂DMG=Ni(HDMG)₂+2H⁺.
После высушивания осадка остается сухойNi(HDMG)₂,
который является гравиметрической
формой.

Этапы определения:1) взятие навески
и ее растворение; 2) приготовление
раствора осадителя; 3) осаждение; 4)
фильтрование и промывание осадка; 5)
высушивание; 6) взвешивание осадка,
расчет содержания никеля.

Расчет ведут по формуле ω_Ni=

Механизм образования осадка:в
процессе образования осадка различают
3 параллельных процесса: 1) образование
зародышей кристалла (центров
кристаллизации); 2) рост кристаллов; 3)
объединение (агрегация) хаотично
ориентированных мелких кристаллов. В
начальный момент происходит насыщение
раствора, а затем его пересыщение. В
момент определенной пересыщенности
раствора, начинается выпадение
осадка.Центром кристалла может служить
твердая частица этого вещества или
любая другая твердая частица, которую
мы вносим в раствор, твердые частицы
могут изначально присутствовать в
растворе как примесь.

Если осаждение происходит из разбавленных
растворов, то появление осадка занимает
время-индукционный период.

В процессе добавления каждой новой
порции осадителя происходит мгновенное
пересыщение раствора, зародыши растут
быстро за счет окружающих их ионов, как
только зародыш достиг определенного
размера выпадает осадок.

Число и размер частиц осадка (дисперсность
системы кол-во в единицы объёма) зависит
от соотношения скоростей 1-ой и 2-ой
стадий (V₁— скорость
образования зародышей,V₂-скорость
роста кристаллов):V₁>>V₂-мелкодисперсный
осадок,V₁<<V₂-крупнокристаллический
осадок. Какая из стадий будет лимитировать
определяет скорость осаждения и
концентрации ионов. При медленном
осаждении лимитирующей стадией является
кристаллизация, частица окружена
однородным слоем осаждаемых ионов в
результате получается кристалл правильной
формы. При высокой концентрации ионов
лимитирующей стадией становится
диффузия, образуются кристаллы
неправильной формы с большой площадью
поверхности. Следует отметить, что на
скорость процесса кристаллизации влияет,
влияниеразлично на скорость образования
зародышей и на скорость роста кристаллов.
При высокой степениобразуются
мелкодисперсные осадки, при уменьшенииобразуются крупнокристаллические
осадки. Агрегация происходит в гетерогенной
системе, в значительной степени
определяется числом центров
кристаллизации.Чем больше центров
кристаллизации, тем в меньшей степени
они укрупняются на второй стадии, тем
хуже структура и тем выше дисперсность
осадков.

К аналитическим свойствам осадка
относятся: растворимость, чистота,
фильтруемость.Лучшими свойствами
обладают крупнокристаллические осадки.

Возможные варианты загрязнения: 1)
Путем адсорбции ( для конкретного примера
хлорид-ионов на поверхности осадка); 2)
Окклюзия; 3) Изоморфное соосаждение; 4)
Совместное осаждение; 5) Последующее
осаждение.

Приемы повышения чистоты осадка:
1) Адсорбированные на поверхности примеси
хорошо удаляются при промывании осадков
на фильтре при помощи промывных жидкостей,
т.к. примеси переходят в промывную
жидкость и уходят через поры фильтра.
Эффективно многократное промывание
небольшими порциями промывной жидкости.
Промывную жидкость выбирают максимально
тщательно, чтобы не увеличивать
растворимость осадка и не ухудшать его
фильтрацию. Кристаллические осадки
промывают холодными промывными
жидкостями, чтобы не увеличить
растворимость осадка, а аморфные –
наоборот горячими. Водой промывают
осадки с низкими константами растворимости
(ниже 10^-11-10^-12), а также те,
которые не подвергаются пептизации.
Если константа растворимости осадка
10^-9-10^-11и он кристаллический,
то его промывают разбавленным раствором
осадителя. Аморфные осадки промывают
разбавленными растворами
электролитов-коагулянтов (солиNH₄⁺),
чтобы избежать пептизации (в опыте с
железом осадок промывали растворомNH₄NO₃).
Повышение температуры также способствует
уменьшению адсорбции (на конкретном
примере горячий раствор, содержащий
10% аммиак разбавляют горячей водой для
уменьшения адсорбции хлорид-ионов на
поверхности осадка). 2) Для очищения
окклюдированных примесей в случае
кристаллических осадков используют
старение, в случае аморфных осадков –
переосаждение.Степень окклюзии в
процессе осаждения можно уменьшить
медленным добавлением осадителя по
каплям, при перемешивании.

Погрешности:1) Общая погрешность
анализа σ²=,
где σ_пр²– погрешность
пробоотбора, σ_изм²–
погрешность измерения,m– число проб,n– число
параллельных определений.

4) Погрешность взвешивания тары σ_a₁и тары с навескойσ_a₂σ_a₁=σ_a₂=0,0002
г, σ_гр== 0,0003 г.

5) Относительное стандартное отклонение
с учетом стадий пробоотбора и
пробоподготовки
=, гдеn– число проб;m– число параллельных измерений; σ_пр²– погрешность пробоотбора; σ_изм²– погрешность измерения.

Ni(HDMG)₂– кристаллический осадок.

Условия его осаждения следующие:

1) осаждение ведут из достаточно
разбавленного исследуемого раствора
разбавленным раствором осадителя
(концентрации исследуемого раствора и
раствора осадителя должны быть примерно
одинаковыми);

2) раствор осадителя прибавляют медленно,
по каплям, при постоянном перемешивании
стеклянной палочкой (это предотвращает
явление окклюзии);

3) осаждение ведут из подогретого
исследуемого раствора горячим раствором
осадителя (для предотвращения пептизации);

4) к раствору прибавляют вещества,
способствующие повышению растворимости
осадка (увеличивают Iраствора), а затем понижают его
растворимость путем прибавления избытка
осадителя;

5) осадок оставляют на «созревание».

11. Гравиметрическое определение меди:
этапы определения, возможные формулы
осадителей, осаждаемой и гравиметрической
формулы, механизм образования осадка,
возможные варианты загрязнения осадка,
приемы повышения чистоты осадка,
погрешности. Преимущества органических
осадителей. Условия выделения осадков.

При гравиметрическом определении меди
медь из раствора осаждают различными
осадителями: 1) раствор аммиака осаждает
из нагретого раствора осадок Cu(OH)₂;
2) Тиокарбонат калияK₂CS₃осаждает из нагретого раствора осадокCuS, который сушат при
100-110;
3) В виде оксалата медь осаждается в
присутствиеCH₃COOH;
4) При определении меди в виде
тетророданомеркуриатамедиCu[Hg(SCN)₄]
медь осаждают из нагретого до кипения
раствора содержащего серную или азотную
кислоту, действиемK₂[Hg(SCN)₄].
Метод рекомендован для определения
меди в медных рудах; 5) Соль Рейнеке
(тетрароданодиаминохромат аммония)
NH₄[Cr(NH₃)₂(SCN)₄]
является избирательным реагентом для
определения меди в присутствие многих
посторонних ионов. Осаждение проводят
как в кислом, так и в аммиачном растворе
в виде [Cu(NH₃)₄][Cr(NH₃)₂(SCN)₄]₂после предварительного восстановления
меди до одновалентного состояния
оловом(II). Для осаждения меди используются
также различные органические реагенты:
1) 8- оксихинолин осаждает медь в
уксуснокислом, аммиачном и щелочном
растворах при pH=5.33 — 14.55. Осадок, высушенный
при 105-110°С, соответствует составу
Cu(C₉H₆ON)₂; 2) Медь осаждается
спиртовым раствором β-бензоиноксима в
слабощелочной среде в виде хлопьевидного
зеленого осадка составаCu(C₆H₅CHOCNOC₆H₅)₂.
Осадок высушивают при 105-110;

3) Салицилальдиоксим осаждает Cu (II) в
виде внутрикомплексного соединения
Cu(C₇H₆O₂N)₂в
уксуснокислой среде, среде ацетатного
буфера или ацетата аммония; 4) При действии
купферона наCu(II)
образуется купферонат меди (II)
с формулой Cu(C₆H₅N(NO)O)₂;
5) При действии глицина на медь образуется
кристаллический осадок глицината меди
(II)Cu(NH₂CH₂COO)₂.

Рассмотрим гравиметрическое определение
меди на примере осаждения ее
глицином.Реакция:CuO+2NH₂CH₂COOH=Cu(NH₂CH₂COO)₂+H₂O_Вданном случае глицинNH₂CH₂COOHявляется
осадителем, глицинат меди (II)Cu(NH₂CH₂COO)₂– осаждаемой формой. При высушивании
получается гравиметрическая форма
сухогоCu(NH₂CH₂COO)₂.

Этапы определения:1) взятие навески
и её растворение;2) приготовление раствора
осадителя;3) осаждение;4) фильтрование
и промывание;5) высушивание осадка;6)
взвешивание осадка, расчёт содержания
меди.

Механизм образования осадка:в
процессе образования осадка различают
3 параллельных процесса: 1) образование
зародышей кристалла (центров
кристаллизации); 2) рост кристаллов; 3)
объединение (агрегация) хаотично
ориентированных мелких кристаллов. В
начальный момент происходит насыщение
раствора, а затем его пересыщение. В
момент определенной пересыщенности
раствора, начинается выпадение осадка.
Центром кристалла может служить твердая
частица этого вещества или любая другая
твердая частица, которую мы вносим в
раствор, твердые частицы могут изначально
присутствовать в растворе как примесь.

Возможные варианты загрязнения: 1)
Путем адсорбции ( для конкретного примера
хлорид-ионов на поверхности осадка); 2)
Окклюзия; 3) Изоморфное соосаждение; 4)
Совместное осаждение; 5) Последующее
осаждение.

Приемы повышения чистоты осадка:
1) Адсорбированные на поверхности примеси
хорошо удаляются при промывании осадков
на фильтре при помощи промывных жидкостей,
т.к. примеси переходят в промывную
жидкость и уходят через поры фильтра.
Эффективно многократное промывание
небольшими порциями промывной жидкости.
Промывную жидкость выбирают максимально
тщательно, чтобы не увеличивать
растворимость осадка и не ухудшать его
фильтрацию. Кристаллические осадки
промывают холодными промывными
жидкостями, чтобы не увеличить
растворимость осадка, а аморфные –
наоборот горячими. Водой промывают
осадки с низкими константами растворимости
(ниже 10^-11-10^-12), а также те,
которые не подвергаются пептизации.
Если константа растворимости осадка
10^-9-10^-11и он кристаллический,
то его промывают разбавленным раствором
осадителя. Аморфные осадки промывают
разбавленными растворами
электролитов-коагулянтов (солиNH₄⁺),
чтобы избежать пептизации (в опыте с
железом осадок промывали растворомNH₄NO₃).
Повышение температуры также способствует
уменьшению адсорбции (на конкретном
примере горячий раствор, содержащий
10% аммиак разбавляют горячей водой для
уменьшения адсорбции хлорид-ионов на
поверхности осадка). 2) Для очищения
окклюдированных примесей в случае
кристаллических осадков используют
старение, в случае аморфных осадков –
переосаждение.Степень окклюзии в
процессе осаждения можно уменьшить
медленным добавлением осадителя по
каплям, при перемешивании.

Погрешности:1) Общая погрешность
анализа σ²=,
где σ_пр²– погрешность
пробоотбора, σ_изм²–
погрешность измерения,m– число проб,n– число
параллельных определений

4) Погрешность взвешивания тары σ_a₁и тары с навескойσ_a₂σ_a₁=σ_a₂=0,0002
г, σ_гр== 0,0003 г.

Преимущества органических осадителей:

1. Пользуясь органическими осадителями,
можно осаждать и разделять различные
элементы из очень сложных смесей.
Например, при помощи диметилглиоксима
возможно количественное осаждение
катионов никеля в присутствии многих
других катионов.

2. Осадки, получающиеся с органическими
осадителями, хорошо отфильтровываются
и промываются (например, осадки комплексных
соединений катионов, содержащих в
качестве лигандов пиридин или другие
органические соединения). Это дает
возможность легко отмывать от осадков
примеси, содержащиеся в анализируемом
растворе.

3. Осадки, получающиеся при действии на
катионы или анионы органических
осадителей, отличаются большим
молекулярным весом. Вследствие этого
точность анализа повышается. Например,
определение магния, алюминия и других
катионов проводится с большой точностью
осаждением их в виде оксихинолятов,
обладающих большим молекулярным весом.

4. В составе осадков, являющихся
соединениями неорганических веществ
с органическими компонентами, обычно
содержится мало соосаждающихся пиримесей.

Cu(NH₂CH₂COO)₂– кристаллический осадок, поэтому

условия его выделения следующие:

5) осадок оставляют на «созревание».

12. Гравиметрическое определение
кремния в силикатных породах: этапы
определения, возможные формулы осадителя,
осаждаемой и гравиметрической формулы,
механизм образования коллоидной частицы,
процессы, приводящие к образованию
осадка, возможные варианты загрязнения
осадка, приемы повышения чистоты осадка,
погрешности. Классификация коллоидных
систем. Условия аналитического выделения
кремнекислоты.

При гравиметрическом определении
кремния растворимый силикат натрия
Na₂SiO₃,
полученный в результате сплавления не
разлагаемой кремниевой кислоты с содойNa₂CO₃,
обрабатывается сильной кислотойHCl.
Реакция:Na₂SiO₃+2HCl=H₂SiO₃↓+2NaCl.
Осадителем в данном случае являетсяHCl, осаждаемой формой –H₂SiO₃.
При высушивании и прокаливании получается
гравиметрическая формаSiO₂.

Этапы определения:1) взятие навески
и ее растворение; 2) приготовление
раствора осадителя; 3) осаждение; 4)
фильтрование и промывание осадка; 5)
высушивание и прокаливание осадка;; 6)
взвешивание осадка, расчет содержания
кремния.

Механизм образования коллоидной
частицы: Вещество в коллоидной системе
имеет большую развитую поверхность и
нескомпенсированный заряд на границе
разлела фаз. Существование
нескомпенсированного силового поля
ведет к адсорбции из раствора молекул
или ионов. Если коллоидная система
возникла в результате проведения
химической реакции осаждения, то частицы
адсорбируют в первую очередь те ионы,
которые могут достраивать кристаллическую
решетку. Адсорбированные ионы сообщают
частице “+» или “-“ заряд. Слой
адсорбированных ионов на ядре – это
первичный адсорбционный слой. Заряд,
созданный таким слоем, достаточно высок
и обуславливает электростатическое
взаимодействие с иоами противоположного
знака. В результате образуется слой
противоионов, который выравнивает заряд
первичного слоя. Слой противоионов
имеет диффузный характер. Часть
противоионов, прочно связанных с
первичным слоем – это плотный слой,
остальные противоионы составляют
диффузный слой.

Возможные варианты загрязнения:1)
Путем адсорбции ( для конкретного примера
хлорид-ионов на поверхности осадка); 2)
Окклюзия; 3) Изоморфное соосаждение; 4)
Совместное осаждение; 5) Последующее
осаждение.

Приемы повышения чистоты осадка:
1) Адсорбированные на поверхности примеси
хорошо удаляются при промывании осадков
на фильтре при помощи промывных жидкостей,
т.к. примеси переходят в промывную
жидкость и уходят через поры фильтра.
Эффективно многократное промывание
небольшими порциями промывной жидкости.
Промывную жидкость выбирают максимально
тщательно, чтобы не увеличивать
растворимость осадка и не ухудшать его
фильтрацию. Кристаллические осадки
промывают холодными промывными
жидкостями, чтобы не увеличить
растворимость осадка, а аморфные –
наоборот горячими. Водой промывают
осадки с низкими константами растворимости
(ниже 10^-11-10^-12), а также те,
которые не подвергаются пептизации.
Если константа растворимости осадка
10^-9-10^-11и он кристаллический,
то его промывают разбавленным раствором
осадителя. Аморфные осадки промывают
разбавленными растворами
электролитов-коагулянтов (солиNH₄⁺),
чтобы избежать пептизации (в опыте с
железом осадок промывали растворомNH₄NO₃).
Повышение температуры также способствует
уменьшению адсорбции (на конкретном
примере горячий раствор, содержащий
10% аммиак разбавляют горячей водой для
уменьшения адсорбции хлорид-ионов на
поверхности осадка). 2) Для очищения
окклюдированных примесей в случае
кристаллических осадков используют
старение, в случае аморфных осадков –
переосаждение.Степень окклюзии в
процессе осаждения можно уменьшить
медленным добавлением осадителя по
каплям, при перемешивании.

Погрешности:

4) Погрешность взвешивания тары σ_a₁и тары с навескойσ_a₂σ_a₁=σ_a₂=0,0002
г, σ_гр== 0,0003 г.

Классификация коллоидных систем. В
зависимости от характера межмолекулярных
сил, которые действуют на границе раздела
фаз коллоидные растворы делят на
лиофильные и лиофобные. Вокруг лиофильной
частицы располагается прочная сольватная
оболочка. В этих оболочках молекулы
ориентированы определенным образом и
образуют более или менее правильные
структуры. Вокруг лиофобной частицы
раствора также имеются сольватные
оболочки, но они непрочные и не предохраняют
молекулы от слипания.

H₂SiO₃– аморфный осадок, поэтому

условия его осаждения следующие:

Если вы устраняете систематическую ошибку модели, то уже слишком поздно

Введение

Машинное обучение — это технологический прорыв, случающийся раз в поколение. Однако с ростом его популярности основной проблемой становятся систематические ошибки алгоритма. Если модели ML не обучаются на репрезентативных данных, у них могут развиться серьёзные систематические ошибки, оказывающие существенный вред недостаточно представленным группам и приводящие к созданию неэффективных продуктов. Мы изучили массив данных CoNLL-2003, являющийся стандартом для создания алгоритмов распознавания именованных сущностей в тексте, и выяснили, что в данных присутствует серьёзный перекос в сторону мужских имён. При помощи наших технологии мы смогли компенсировать эту систематическую ошибку:

Мы обогатили данные, чтобы выявить сокрытые систематические ошибки
Дополнили массив данных недостаточно представленными примерами, чтобы компенсировать гендерный перекос

Модель, обученная на нашем расширенном массиве данных CoNLL-2003, характеризуется снижением систематической ошибки и повышенной точностью, и это показывает, что систематическую ошибку можно устранить без каких-либо изменений в модели. Мы выложили в open source наши аннотации Named Entity Recognition для исходного массива данных CoNLL-2003, а также его улучшенную версию, скачать их можно здесь.

Систематическая ошибка алгоритма: слабое место ИИ

Сегодня тысячи инженеров и исследователей создают системы, самостоятельно обучающиеся тому, как достигать существенных прорывов — повышать безопасность на дорогах при помощи беспилотных автомобилей, лечить болезни оптимизированными ИИ процедурами, бороться с изменением климата при помощи управления энергопотреблением.

Однако сила самообучающихся систем является и их слабостью. Так как фундаментом всех процессов машинного обучения являются данные, обучение на несовершенных данных может привести к искажённым результатам.

ИИ-системы имеют большие полномочия, поэтому они могут наносить существенный ущерб. Недавние протесты против полицейской жестокости, приведшей к смертям Джорджа Флойда, Бреонны Тейлор, Филандо Кастиле, Сандры Блэнд и многих других, является важным напоминанием о систематическом неравенстве в нашем обществе, которое не должны усугублять ИИ-системы. Но нам известны многочисленные примеры (закрепляющие гендерные стереотипы результаты поиска картинок, дискриминация чёрных подсудимых в системах управления данными нарушителей и ошибочная идентификация цветных людей системами распознавания лиц), показывающие, что предстоит пройти долгий путь, прежде чем проблема систематических ошибок ИИ будет решена.

Распространённость ошибок вызвана лёгкостью их внесения. Например, они проникают в «золотые стандарты» моделей и массивов данных в open source, ставшие фундаментом огромного объёма работы в сфере ML. Массив данных для определения эмоционального настроя текста word2vec, используемый в построении моделей других языков, искажён по этнической принадлежности, а word embeddings — способ сопоставления слов и значений алгоритмом ML — содержит сильно искажённые допущения о занятиях, с которыми ассоциируются женщины.

Проблема (и, как минимум, часть её решения) лежит в данных. Чтобы проиллюстрировать это, мы провели эксперимент с одним из самых популярных массивов данных для построения систем распознавания именованных сущностей в тексте: CoNLL-2003.

Что такое «распознавание именованных сущностей»?

Распознавание именованных сущностей (Named-Entity Recognition, NER) — один из фундаментальных камней моделей естественных языков, без него были бы невозможны онлайн-поиск, извлечение информации и анализ эмоционального настроя текста.

Миссия нашей компании заключается в ускорении разработки ИИ. Естественный язык — одна из основных сфер наших интересов. Наш продукт Scale Text содержит NER, заключающееся в аннотировании текста согласно заданному списку меток. На практике, среди прочего, это может помочь крупным розничным сетям анализировать онлайн-обсуждение их продуктов.

Многие модели NER обучаются и подвергаются бенчмаркам на CoNLL-2003 — массиве данных из примерно 20 тысяч предложений новостных статей Reuters, аннотированных такими атрибутами, как «PERSON», «LOCATION» и «ORGANIZATION».

Нам захотелось изучить эти данные на наличие систематических ошибок. Для этого мы воспользовались своим конвейером разметки, чтобы категоризировать все имена в массиве данных, размечая их как мужские, женские или гендерно-нейтральные, исходя из традиционного использования имён.

При этом мы выявили существенную разницу. Мужские имена упоминались почти в пять раз чаще женских, и менее 2% имён были гендерно-нейтральными:

Это вызвано тем, что по социальным причинам новостные статьи в основном содержат мужские имена. Однако из-за этого модель NER, обученная на таких данных, лучше будет справляться с выбором мужских имён, чем женских. Например, поисковые движки используют модели NER для классификации имён в поисковых запросах, чтобы выдавать более точные результаты. Но если внедрить модель NER с перекосом, то поисковый движок хуже будет идентифицировать женские имена по сравнению с мужскими, и именно подобная малозаметная распространённая систематическая ошибка может проникнуть во многие системы реального мира.

Новый эксперимент по снижению систематической ошибки

Чтобы проиллюстрировать это, мы обучили модель NER для изучения того, как этот гендерный перекос повлияет на её точность. Был создан алгоритм извлечения имён, выбирающий метки PERSON при помощи популярной NLP-библиотеки spaCy, и на подмножестве данных CoNLL была обучена модель. Затем мы протестировали модель на новых именах из тестовых данных, не присутствовавших в данных обучения, и обнаружили, что модель с вероятностью на 5% больше пропустит новое женское имя, чем новое мужское имя, а это серьёзное расхождение в точности:

Мы наблюдали схожие результаты, когда применили модель к шаблону «NAME is a person», подставив 100 самых популярных мужских и женских имён на каждый год переписи населения США. Результаты работы модели оказались значительно хуже для женских имён во все года переписи:

Критически важно то, что наличие перекоса в данных обучения приводит к смещению ошибок в сторону недостаточно представленных категорий. Эксперимент с переписями демонстрирует это и другим образом: точность модели существенно деградирует после 1997 года (точки отсечения статей Reuters в массиве данных CoNLL), потому что массив данных больше не является репрезентативным отображением популярности имён каждого последующего года.

Модели обучаются соответствовать трендам данных, на которых они обучены. Нельзя ожидать их хорошей точности в случаях, когда они видели лишь малое количество примеров.

Если вы исправляете систематическую ошибку модели, то уже слишком поздно

Как же это исправить?

Один из способов — попробовать устранить систематическую ошибку модели, например, выполнив постобработку модели или добавив целевую функцию для смягчения перекоса, оставив определение подробностей самой модели.

Но это не лучший подход по множеству причин:

Справедливость — это очень сложная проблема, и мы не можем ждать, что алгоритм решит её сам. Исследование показало, что обучение алгоритма на одинаковый уровень точности для всех подмножеств населения не обеспечит справедливости и нанесёт вред обучению модели.
Добавление новых целевых функций может навредить точности модели, приводя к негативному побочному эффекту. Вместо этого лучше обеспечить простоту алгоритма и сбалансированность данных, что повысит точность модели и позволит избежать негативных эффектов.
Неразумно ожидать, что модель покажет хорошие результаты в случаях, примеров которых она видела очень мало. Наилучший способ обеспечения хороших результатов заключается в повышении разнообразия данных.
Попытки устранения систематической ошибки при помощи инженерных техник — это дорогой и длительный процесс. Гораздо дешевле и проще изначально обучать модели на данных без перекосов, освободив ресурсы инженеров для работы над реализацией.

Данные — это лишь одна часть проблемы систематических ошибок. Однако эта часть фундаментальна и влияет на всё, что идёт после неё. Именно поэтому мы считаем, что данные содержат ключ к частичному решению, обеспечивая потенциальные систематические улучшения в исходных материалах. Если вы не размечаете критические классы (например, гендер или этническую принадлежность) явным образом, то невозможно сделать так, чтобы эти классы не были источником систематической ошибки.

Такая ситуация контринтуитивна. Кажется, что если нам нужно построить модель, не зависящую от чувствительных характеристик наподобие гендера, возраста или этнической принадлежности, то лучше исключить эти свойства из данных обучения, чтобы модель не могла их учитывать.

Однако принцип «справедливости, реализуемой через неведение» на самом деле усугубляет проблему. Модели ML превосходно справляются с выводом заключений из признаков, они не прекращают делать этого, если мы не разметили эти признаки явным образом. Систематические ошибки просто остаются невыявленными, из-за чего их сложнее устранить.

Единственный надёжный способ решения проблемы заключается в разметке большего количества данных, чтобы сбалансировать распределение имён. Мы использовали отдельную модель ML для идентификации предложений в корпусах Reuters и Brown, с большой вероятностью содержащих женские имена, а затем разметили эти предложения в нашем конвейере NER, чтобы дополнить CoNLL.

Получившийся массив данных, который мы назвали CoNLL-Balanced, содержит на 400 с лишним больше женских имён. После повторного обучения на нём модели NER мы обнаружили, что алгоритм больше не имеет систематической ошибки, приводящей к снижению показателей при распознавании женских имён:

Кроме того, модель улучшила показатели и при распознавании мужских имён.

Это стало впечатляющей демонстрацией важности данных. Благодаря устранению перекоса в исходном материале нам не пришлось вносить никаких изменений в нашу модель ML, что позволило сэкономить на времени разработки. И мы достигли этого без негативного влияния на точность модели; на самом деле, она даже слегка увеличилась.

Чтобы позволить сообществу разработчиков развивать нашу работу и устранять гендерный перекос в моделях, построенных на основе CoNLL-2003, мы выложили на наш веб-сайте дополненный массив данных в open source, в том числе и добавив гендерную информацию.

Сообщество разработчиков ИИ/ML имеет проблемы с культурными различиями, но мы испытываем умеренный оптимизм от этих результатов. Они намекают на то, что мы, возможно, сможем предложить техническое решение насущной социальной проблемы, если займёмся проблемой сразу же, выявим сокрытые систематические ошибки и улучшим точность модели для всех.

Сейчас мы изучаем, как этот подход можно применить к ещё одному критичному атрибуту — этнической принадлежности — чтобы придумать, как создать надёжную систему для устранения перекоса в массивах данных, распространяющегося и на другие охраняемые от дискриминации категории населения.

Кроме того, это показывает, почему наша компания уделяет так много внимания качеству данных. Если нельзя доказать, что данные точны, сбалансированы и лишены систематических ошибок, то нет гарантии того, что создаваемые на их основе модели будут безопасными и точными. А без этого мы не сможем создавать качественно новых ИИ-технологий, идущих на пользу всем людям.

Благодарности

Упоминаемый в этом посте массив данных CoNLL 2003 — это тестовый набор Reuters-21578, Distribution 1.0, доступный для скачивания на странице проекта исходного эксперимента 2003 года: https://www.clips.uantwerpen.be/conll2003/ner/.

Источник

Если вы устраняете систематическую ошибку модели, то уже слишком поздно

Время на прочтение
7 мин

Количество просмотров 5.5K

Введение

Мы обогатили данные, чтобы выявить сокрытые систематические ошибки
Дополнили массив данных недостаточно представленными примерами, чтобы компенсировать гендерный перекос

Систематическая ошибка алгоритма: слабое место ИИ

Что такое «распознавание именованных сущностей»?

Новый эксперимент по снижению систематической ошибки

Если вы исправляете систематическую ошибку модели, то уже слишком поздно

Как же это исправить?

Но это не лучший подход по множеству причин:

Справедливость — это очень сложная проблема, и мы не можем ждать, что алгоритм решит её сам. Исследование показало, что обучение алгоритма на одинаковый уровень точности для всех подмножеств населения не обеспечит справедливости и нанесёт вред обучению модели.
Добавление новых целевых функций может навредить точности модели, приводя к негативному побочному эффекту. Вместо этого лучше обеспечить простоту алгоритма и сбалансированность данных, что повысит точность модели и позволит избежать негативных эффектов.
Неразумно ожидать, что модель покажет хорошие результаты в случаях, примеров которых она видела очень мало. Наилучший способ обеспечения хороших результатов заключается в повышении разнообразия данных.
Попытки устранения систематической ошибки при помощи инженерных техник — это дорогой и длительный процесс. Гораздо дешевле и проще изначально обучать модели на данных без перекосов, освободив ресурсы инженеров для работы над реализацией.

Кроме того, модель улучшила показатели и при распознавании мужских имён.

Благодарности

Источник

Для учёта и устранения систематических погрешностей применяют методы, которые условно можно разбить на две группы: теоретические и экспериментальные способы.

1. Теоретические способы возможны, когда может быть получено аналитическое выражение для искомой погрешности на основании априорной информации.

2. Экспериментальные способы также предполагают наличие априорной информации, но лишь качественного характера. Для получения количественной оценки необходимо проведение дополнительных исследований.

Для устранения систематических погрешностей применяются следующие методы:

1. Постоянные систематические погрешности.

а) Метод замещения – осуществляется путем замены измеряемой величины известной величиной так, чтобы в состоянии и действии средства измерений не происходило изменений;

б) Метод противопоставления.

Измерения выполняются с двумя наблюдениями, проводимыми так, чтобы причина постоянной погрешности оказывала разные, но известные по закономерности воздействия на результаты наблюдений.

в) Метод компенсации погрешности по знаку.

Измерения также проводятся дважды так, чтобы постоянная систематическая погрешность входила в результат измерения с разными знаками. За результат измерения принимается среднее значение двух измерений.

2. Прогрессирующие систематические погрешности.

а) Метод симметричных наблюдений.

Измерения производят с несколькими наблюдениями, проводимыми через равные интервалы времени, затем обрабатывают результаты, вычисляют среднее арифметическое симметрично расположенных наблюдений. Теоретически эти средние значения должны быть равны. Эти данные позволяют контролировать ход эксперимента, а также устранять систематические погрешности.

б) Метод рандомизации.

Этот метод основан на переводе систематических погрешностей в случайные. При этом измерение некоторой физической величины проводят рядом однотипных приборов с дальнейшей статистической обработкой полученных результатов. Уменьшение систематической погрешности достигается и при изменении случайным образом методики и условий проведения измерений. При определёнии значений систематической погрешности, результаты измерений исправляют, то есть вносят либо поправку, или поправочный множитель, но исправленные результаты обязательно содержат не исключенные остатки систематических погрешностей (НСП)

Источник

Research article
Open Access
Published: 21 November 2011

Dario Boffelli²,
Joseph Dhahbi²,
David IK Martin²,
Meromit Singer³ &
…
Lior Pachter^1,3,4

BMC Bioinformatics

volume 12, Article number: 451 (2011)
Cite this article

24k Accesses
167 Citations
7 Altmetric
Metrics details

Abstract

Background

A feature common to all DNA sequencing technologies is the presence of base-call errors in the sequenced reads. The implications of such errors are application specific, ranging from minor informatics nuisances to major problems affecting biological inferences. Recently developed “next-gen” sequencing technologies have greatly reduced the cost of sequencing, but have been shown to be more error prone than previous technologies. Both position specific (depending on the location in the read) and sequence specific (depending on the sequence in the read) errors have been identified in Illumina and Life Technology sequencing platforms. We describe a new type of systematic error that manifests as statistically unlikely accumulations of errors at specific genome (or transcriptome) locations.

Results

We characterize and describe systematic errors using overlapping paired reads from high-coverage data. We show that such errors occur in approximately 1 in 1000 base pairs, and that they are highly replicable across experiments. We identify motifs that are frequent at systematic error sites, and describe a classifier that distinguishes heterozygous sites from systematic error. Our classifier is designed to accommodate data from experiments in which the allele frequencies at heterozygous sites are not necessarily 0.5 (such as in the case of RNA-Seq), and can be used with single-end datasets.

Conclusions

Systematic errors can easily be mistaken for heterozygous sites in individuals, or for SNPs in population analyses. Systematic errors are particularly problematic in low coverage experiments, or in estimates of allele-specific expression from RNA-Seq data. Our characterization of systematic error has allowed us to develop a program, called SysCall, for identifying and correcting such errors. We conclude that correction of systematic errors is important to consider in the design and interpretation of high-throughput sequencing experiments.

Background

The technological advances that have produced “the third phase of human genomics”: sequencing of individual genomes and the determination of rare variants across populations by enabling whole genome sequencing at low cost [1], are accompanied by higher error rates [2, 3]. Improved statistical methods that accommodate these high error rates are needed in the calling of heterozygous sites from low coverage data [1]. The design of effective statistical methods requires precise characterization of error in high-throughput sequence data. Previous work has examined the behavior of individual base-call errors in sequence reads [3–5]. In this paper we discuss a previously undescribed phenomenon in sequence data where these base-call errors aggregate at specific genomic locations across multiple sequence reads. We focus on Illumina technology, although we have observed systematic error on other platforms and return to this in the Discussion.

We begin by describing the types of sequencing error that have been previously characterized, and their relationship to the systematic error we have discovered. The likelihood of a base-call error occurring at any particular location in a sequence read is influenced by several parameters. It is known that base-call errors are more likely towards the ends of reads and that surrounding sequence motifs influence error frequencies [3–5]. For example, errors are more likely at positions preceded by GG or following a number of GGC motifs [5], but regardless of the preceding motif, errors become more likely towards the end of reads [3]. However, we have found that errors at some genomic positions appear with greater frequency than can be explained by these effects, and we refer to this as systematic error. Systematic error manifests as many individual base-call errors from separate sequence reads occurring at the same genomic position (Figure 1). Thus, a systematic error comprises many individual base-call errors (from different reads) that fall at the same genomic location.

Figure 1

Types of errors. A screenshot from the IGV browser [21] showing three types of error in reads from an Illumina sequencing experiment: (1) A random error likely due to the fact that the position is close to the end of the read. (2) Random error likely due to sequence specific error- in this case a sequence of Cs are probably inducing errors at the end of the low complexity repeat. (3) Systematic error: although it is likely that the GGT sequence motif and the GGC motifs before it created phasing problems leading to the errors, the extent of error is not explained by a random error model. In this case, all the base calls in one direction are wrong as revealed by the 11 overlapping mate-pairs. In particular, all differences from the reference genome are base-call errors, verified by the mate-pair reads, which do not differ from the reference. Given the background error rate, the probability of observing 11 error-pairs at a single location, given that 11 mate-pair reads overlap the location, is 1.5 × 10^-26. Moreover, given the presence of such errors at a single location, the probability that all of the errors occur on the same strand (i.e., on the forward mate pair) is

1024

=0.00098. Note that the IGV browser made an incorrect SNP call at the systematic error site (colored bar in top panel).

Full size image

These errors have the potential to be especially troublesome because they can confound methods that identify errors based on their sparsity among reads. For example, we show systematic errors affect current SNP (Single-Nucleotide Polymorphism) calling methods, where the first step involves computing the posterior probability for a SNP at every site based on relative nucleotide counts [6]. Although filters based on the depth of reads are frequently applied (mostly to screen for indels, copy number variants, or other structural variation) [7, 8], most existing approaches will not identify systematic errors, or distinguish them from true SNPs. Similarly, the detection of RNA editing sites in RNA-Seq data is complicated by systematic error, because an accumulation of errors at a transcriptome site can appear to be an edit event when compared with a reference genome that may have been sequenced using another technology [9].

In this paper we present a thorough characterization of systematic errors using Illumina short-read sequencing data that is optimized for the detection of errors because of high coverage and high numbers of paired-end reads in which the paired reads overlapped. We show that systematic errors must be accounted for when annotating heterozygous alleles, and that although improved base calling software can correct a small number of systematic errors, it is not sufficient by itself. We present an efficient statistical algorithm for the detection of systematic error and use it to show that systematic errors are present in other datasets, including an RNA-Seq dataset, a viral reference genome and new Illumina HiSeq 2000 data from the 1000 genomes project.

Results and Discussion

To investigate the types of errors present in whole-genome Illumina high throughput sequencing data, we conducted a paired-end methyl-Seq experiment on a male human individual with read length of 76 bp (Methods). A methyl-Seq experiment is ideal for investigating systematic error because the experiment results in high average coverage due to the fact that only sites cut by the restriction enzyme are assayed. The reads were mapped with Bowtie [10] allowing up to two mismatches. Our experiment spanned 29,827,077 genomic locations at an average coverage of 35.4. Due to the small fragment size in methyl-Seq experiments many of the mate-pair reads overlapped, providing for each such location two base calls sequenced from the same DNA molecule (Figure 1) albeit from different directions. We made use of this to distinguish between base-call errors and true heterozygosity calls in the following manner: each pair of bases originating from a single mate-pair and sequencing the same position was denoted a reference-pair if both calls agreed with the reference genome, a SNP-pair if both calls disagreed with the reference genome and agreed among themselves, and an error-pair if one of the calls agreed with the reference genome but the other did not. A SNP-pair could consist of two base-call errors, in the case that both of the paired reads had an error at the same location, but the probability of such an event was low and we ignored such cases in this study.

Because we focused on overlapping mate-pairs, we report all results in terms of pairs. For example, when stating coverage we state the number of pairs overlapping a site (the coverage of the systematic error location in Figure 1 is 11), and when we state a location has 40% errors it means that of the pairs overlapping the location 40% were error-pairs. In our experiment 3,985,926 genomic locations were covered by both reads of some mate-pair but we restricted our analysis to the 2,226,445 of these locations with a coverage depth of at least 10. These 2,226,445 genomic locations where covered by a total of 85,782,923 base-call pairs, 223,957 of which were error-pairs.

Extent of systematic error

We found many locations at which there seemed to be an accumulation of errors. To test the extent of this phenomenon we computed the expected number of locations with each possible proportion of error. Let c₁₀, …, c_j, …, c₅₆₅ be the number of locations with coverage j in our data (

∑

c
j

=
2
,
226
,
445
), and
p
:
=

#
e
r
r
o
r
–
p
a
i
r
s

#
p
a
i
r
s

=
0
.
002611
be the probability of sequencing error. Let B_ibe a random variable for the number of locations from c₁₀, …, c_j, …, c₅₆₅ with proportion of errors i, and let B_ijbe a random variable for the number of locations with coverage j and proportion of error i. We computed the expected number of locations to have each proportion of errors i as

[

]

∑

[

i
j

]

∑

i
j

(

1
–
p

)

(

j
–

i
j

)

where k_ijis the number of errors for coverage j that results in proportion of error i. Figure 2 shows a log-scale histogram of the expected and observed counts for these different error-proportions. The observed counts in the higher frequencies of errors are larger than the expected counts, indicating that there are more locations than expected that have a high frequency of base-call errors. We called such locations systematic errors, and set out to determine the characteristics of these locations, with the goal of lowering the false-positive rates in calling heterozygous sites.

Figure 2

Proportion of base call errors across genomic sites. The observed (blue) number of locations with high base-call error frequencies significantly exceeds the expected amount (red).

Full size image

For further characterization, we annotated a set of locations in which the number of error-pairs was significantly higher than expected, given the observed frequency of error. Setting p = 0.002611 as in the previous section, we compute a p- value for a given location with i errors and n coverage as
p
(
K
≥
i
|
n
)
=

∑

k
=
i

(
k
n

)

p
k

(
1
−
p
)

(
n
−
k
)

, where K is a random variable indicating the number of errors at a location. Of the 2,226,445 locations with coverage of at least 10, 2,116 locations were annotated as systematic errors, using a Bonferroni correction for a 0.05 significance level. We used a Bonferroni correction because it ensures that the probability of even one false-positive is ≤ 0.05, resulting in a set that is low in false-positives, and therefore suitable for characterizing the nature of systematic error. We note that this calculation yielded a lower bound on the frequency of systematic errors in our dataset of approximately 1 in 1000 bp.

Characterizing systematic errors

Having annotated the set of 2,116 systematic errors, we looked for characteristic features that could be identified in any high throughput sequencing experiment. Of the 2,116 sites we have determined as systematic errors, 953 had all base-call errors on the forward read and 1,062 had all base-call errors on the reverse read (an example is seen in Figure 1). We conclude from this that in systematic errors the base-call errors tend to appear on just one of the sequencing directions (forward or reverse). This tendency was noticed in [7], where the directionality on which errors occurred was used to filter false-positives from the set of heterozygous sites annotated. A possible explanation for this phenomenon is that the sequencing of some motifs, which are different on the opposite strands, have higher probability than others for base-call errors, resulting in systematic errors. This is consistent with the known overlap in absorption spectra of the G and T channels identified by a single laser in Illumina sequencing.

We therefore tested whether there are significant motifs surrounding systematic errors by generating a sequence logo [11, 12] for the reference sequences around the systematic errors (Figure 3). Interestingly, we found that the first base upstream of the systematic error has greater information regarding the presence of a systematic error than the base at which the error is present. We found that the large majority of systematic errors are preceded by a G, and that two G bases followed by a T at the error site is by far the most common and characteristic sequence at systematic error locations. Although the GGT motif is a strong characteristic of systematic errors, an analysis restricted to GGT sites (estimating the expected error rate by that observed at GGT s, see Methods) showed that 660 sites, out of all 61,779 GGT sites, have a significant accumulation of errors. This shows that systematic errors are not accounted for by this motif alone.

Figure 3

Sequence motifs at systematic error sites. (a) The motif around systematic errors reveals a strong enrichment for instances preceded by an occurrence of GG and for the error to occur at locations where the reference genome is T. (b) Categorized by the nucleotide at the error location. The number of systematic errors in each subset is denoted by n.

Full size image

To gain insight into the types of sequencing errors present at systematic errors we computed the frequencies of the different base substitutions in both systematic errors and throughout the entire dataset (Figure 4). We witnessed an extremely strong tendency for the T > G error compared to all others. Our results show that there is a higher substitution rate to G s than to the other nucleotides and that the substitution rate to A or T is considerably lower than the substitution rate to C. With respect to the reference bases at which systematic errors occur, there is a stronger tendency of error at A or T than at C or G. We divided the systematic error locations based on the reference base at which the error occurred, and tested for motifs in each of the four sets (Figure 3.b). We concluded that the strongest motif at systematic errors is that of GGT where the error is at the T, resulting in an incorrect base call of G.

Figure 4

Base substitutions of systematic errors. Frequency of different base substitutions in (a) all errors (b) systematic errors.

Full size image

To test whether the quality scores at the locations of systematic errors account for the extent of base-call errors observed, we computed a p-value for each location given its specific quality scores: Given n (ordered) quality scores let K_ibe a random variable for the number of errors at locations 1 to i, and let X_ibe an indicator variable for whether there was an error or not at location i. We then have that

(

=
k

)

=
P

(

=
1

)

(

n
–
1

=
k
–
1

)

+
P

(

=
0

)

(

n
–
1

=
k

)

and can use dynamic programming to compute the p-value for each location in O(n²) time. Of the 2,226,445 positions with read count of at least 10, 268 had a significant accumulation of error under a Bonferroni correction for a significance level of 0.05 (the probability of even one false-positive is less than 0.05). It is interesting that significant positions were found, given that in general throughout the experiment the quality scores tend to predict a higher error rate than that observed (

#
e
r
r
o
r
–
p
a
i
r
s

#
p
a
i
r
s

=0.002611 while the quality scores predict an error-pair frequency of 0.00416).

The characteristics of systematic errors, occurring mostly at GGT motifs where the error that occurs is a T > G substitution, implies that the errors could be a result of the sequencing technology, which makes it hard to distinguish between a GGG and a GGT instance. It is the base-calling algorithm that makes such distinctions, given the images output from the Illumina machine. We asked whether systematic errors could be accounted for by base-callers that utilize sophisticated statistical techniques to reduce error. To test this we compared the systematic errors present in a dataset base-called by Bustard (Illumina’s base-caller) to those present in the same dataset when base-called by naiveBayesCall [13], to our knowledge the most accurate base-calling algorithm available. We used for this the dataset that was used in [13] from the phiX174 virus (Methods). We found 59 systematic errors in the Bustard called dataset and 40 systematic errors in the naiveBayesCall dataset, amounting to a systematic error rate of 1 in 91 bp and 1 in 135 bp respectively. We believe the higher frequency of systematic errors is due to the phiX174 genome being richer than human in GGT motifs (data not shown) and to the high sequencing coverage (see Conclusions section). These results show that while systematic error can be reduced with more sophisticated base calling, it is a persistent problem at a significant level even when using state of the art methods.

To test replicability of the locations at which systematic errors occur, we conducted a second methyl-Seq experiment on the same individual (Methods). The error frequency in this second experiment was determined as p=

#
e
r
r
o
r
–
p
a
i
r
s

#
p
a
i
r
s

=0.00162 and of the 2,419,666 locations with coverage of at least 10 pair-calls, 3,272 locations were annotated as systematic errors using a Bonferroni correction of 0.05. From the 2,160,736 positions with at least 10 pair-calls in both of the experiments, 1,916 and 2,519 were annotated as systematic errors in the first and second experiments, respectively, and of those 1,279 locations were annotated as systematic errors in both experiments. This shows that while there is some variability in the locations determined as systematic errors, locations at which systematic errors occur are highly replicable (the expected number of systematic errors to be called at the same locations is 2). We tested whether the significant overlap of the locations at which systematic errors were detected was due to GGT motifs being more prone for systematic errors than other motifs. Of the 61,779 GGT sites that were overlapped by at least 10 pair-calls in each experiment, 1,596 and 2,080 locations were annotated as systematic errors in the first and second experiments, respectively, and of these 1,095 locations were annotated as systematic errors in both experiments (the expected number of systematic errors to be called at the same locations when restricting to GGT positions is 54). The lists of systematic errors for both experiments are available at: http://bio.math.berkeley.edu/SysCall/systematic_error_lists/.

Identification and correction of systematic errors

The main concern regarding systematic errors is that they may be incorrectly annotated as heterozygous sites in an individual or as rare variants in a population. Fortunately, in systematic error the extent of error at a location usually does not result in an equal ratio of reference to non-matching reference calls, making it easier for methods that expect such a ratio to identify these sites as non-SNPs. Nonetheless, SAMtools [6] identified 12 of the 2,116 systematic errors in our methyl-Seq dataset as SNPs (three of these are annotated as SNPs in dbSNP130), and in the SNP-calling procedure for the 1000 genomes project a filtering step based on directionality of sequencing was used to account for systematic errors (supplementary material of [7]). Systematic error may pose an even greater difficulty in population studies, where allele ratios are not expected to be 1:1. This difficulty also arises in RNA-Seq experiments in which variants are annotated alongside expression levels [14]. Systematic error may also affect RNA-Seq experiments in the bias it can introduce in coverage at systematic error sites. Such bias can in turn affect expression level estimates [15].

To account for this we have designed SysCall – a classifier which given a list of potential heterozygous sites and the reads from an Illumina experiment classifies each location as a systematic error or a heterozygous site (Figure 5). Our classifier uses logistic regression to combine the different characteristics of systematic errors and make predictions (Methods). Importantly, SysCall does not assume that the experiment preformed is paired-end or that the expected frequency of variant observations is half, making it applicable to the different types of high throughput experiments discussed.

Figure 5

Using SysCall to distinguish heterozygous sites from systematic errors. SysCall takes as input a list of genomic locations indicating candidate heterozygous sites and the reads sequenced from the experiment (in SAM format), and divides the initial candidate list into two lists: a list of heterozygous sites and a list of systematic errors, printing next to each site its posterior probability of being a true heterozygous site.

Full size image

Assessing SysCall’s performance

In order to test SysCall’s performance we annotated a set of locations in our methyl-Seq dataset that would be candidates for heterozygous sites (where a significant amount of the base-calls differ from the reference) and for which using the overlap between paired reads we could call as systematic errors or heterozygous sites with high certainty. We used the same sets of locations that were annotated for training SysCall (Methods): a “SNPs” set consisting of 491 locations and a “Systematic errors” set consisting of 338 locations. From each mate-pair one of the reads was chosen at random to simulate a non-overlapping (and non paired-end) dataset.

As a first test of our classification algorithm we ran 100 iterations in which we generated training and test sets by randomly dividing the “SNPs” and “Systematic errors” sets into halves (from each of the “SNPs” halves 169 instances were randomly selected in order to have the same number of systematic errors and SNPs in the training and test sets). In each iteration we generated a feature matrix for the training and test sets, learned the coefficients of the logistic regression classifier from the training set, and classified the instances of the test set, recording the percentage of instances that were classified correctly (as either systematic errors or heterozygous sites). The distribution of the percentage of instances classified correctly from the 100 iterations had a mean of 99.0% and a standard deviation of 0.005.

A strong characteristic of systematic errors is that the differences from the reference have a strong bias to occur on either the forward or reverse direction. We tested the ability to classify locations using the same logistic regression classifier but using only the directionality bias feature: u_l= (q_{l 1}– q_{l 2}). When running 100 iterations of training and testing as before using this classifier, the distribution of the percentage of instances classified correctly had a mean of 72.1% and a standard deviation of 0.021. Therefore, a significant amount of precision is gained when making use of all six features in the classification process. This is mostly due to an increase in the recall rate of the classifier, where SNPs that are annotated as systematic errors when using only the directionality bias criterion are recognized as SNPs when making use of all features.

A main purpose when designing SysCall was to be able to distinguish systematic errors from heterozygous sites in datasets of lower coverage than that available to us (35.4×). To evaluate SysCall’s performance on different coverage depths, we simulated experiments of lower coverage by randomly sampling a given percentage from the initial set of reads. For each of 20%, 40%, 60% and 80% (resulting in coverage of 7×, 14×, 21×, and 28× respectively), we ran 100 iterations where in each iteration we randomly chose the given percentage from our reads, refined our set of locations to those with at least one base-call differing from the reference and proceed as in the previous test: divide the locations into a training and test set (the number of instances in each being half of the smaller sized set), compute features, train, classify, and record the percentage of instances classified correctly. The results for these tests, together with the results for the same tests when using only the directionality bias feature for classification are shown in Figure 6. SysCall’s classifications are highly accurate at all of the coverage rates tested, and the improvement relative to using only the directionality bias is negatively correlated with the mean coverage rate, as expected.

Figure 6

SysCall accurately distinguishes heterozygous sites from systematic errors. Proportion of correctly classified instances at different sequencing coverages for SysCall (grey) and for a logistic regression classifier that uses only the feature of directionality difference in error frequency (white).

Full size image

To assess SysCall’s ability to detect false-positives in SNP calls from Illumina datasets, we analyzed the GAII sequencing data available for NA18507, chromosome 21 [16]. SAMtools called 61,867 SNPs in the dataset and SysCall partitioned those locations into a set of 61,390 SNPs and 477 systematic errors. As a “gold standard” dataset we used the SNP calls for individual NA18507 available from the HapMap project [17]. From the set of SNPs called by SAMtools 11,984 (19.37%) were present in the “gold standard” dataset. Of the 61,390 SNPs called by SysCall 11,973 (19.50%) were in the “gold standard” set. Of the 477 systematic errors 11 (2.3%) were in the “gold standard” set. Our results show that SysCall helps clean the set of SNPs called by SAMtools from false-positives. We note that in this analysis half of the reads, in expectation, are expected to differ from the reference. When searching for variants in experiments where this is not the case (such as RNA-Seq, methyl-Seq, rare variant detection etc.) it is easier to mistake systematic errors for true variants and in such cases we expect SysCall’s contribution will be even greater.

Presence of systematic errors in other datasets

In order to verify that systematic errors are not specific for the methyl-Seq procedure we looked for evidence of systematic errors in other high throughput datasets. We believe systematic error will be extremely important to correct for in RNA-Seq experiments, in which one attempts to annotate both heterozygous sites and expression levels to derive allele specific expression estimates. We therefore looked for systematic errors in the RNA-Seq dataset from Ambion Human Brain Reference by Illumina (accession SRA012427), on chromosome 1. Since this dataset did not contain overlapping paired reads we could not annotate error-pairs. Instead, we used directionality bias of the base-calls different from the reference to annotate systematic error. We could do so because the coverage in this dataset is high (at transcripts that are highly expressed). For each of the 857,570 locations covered by at least 10 forward and 10 reverse reads we conducted a chi-square test, testing for association between occurrence of mismatches and directionality of sequencing. Under a Bonferroni correction for a 0.05 significance level, we found 991 systematic errors. Thus we have approximately 1 in 1000 sites that are shown to be systematic errors. The method used here, using directionality bias, is statistically weaker than the method with which we identified systematic errors from the methyl-Seq experiment, where we used overlapping mate-pairs to identify base-call errors. The fact that the frequency of identified systematic errors in the RNA-Seq dataset is as high as in the methyl-Seq dataset implies that there are more systematic errors present in the RNA-Seq data than in the methyl-Seq data; this could be due to this dataset being produced by an older version of Illumina’s GA.

We also looked at newer Illumina data generated by the HiSeq 2000 machines as part of the 1000 genomes project [7]. We analyzed exome data from chromosome 1 (accession ERX01220). We aligned reads to the reference genome with Bowtie and refined our analysis to the 848,742 sites that were covered by at least 10 reads in each direction. When conducting the same statistical test as for the RNA-Seq data, only 2 sites were determined as statistically significant with respect to the differences from the reference being present on one of the sequencing directions. However, testing for directionality bias of mismatches in this way has little power, and many strong systematic errors are missed by this method (Figure 7). This results in many locations that are not detected by this method as systematic errors but would be wrongly annotated as heterozygous sites due to their characteristics. We therefore annotated a set of candidate heterozygous sites as those locations with at least 10% of the base-calls being different from the reference sequence and with at least 5 differences from the reference, resulting in a set of 1,712 locations. Running SysCall on this set, 316 locations were classified as systematic errors. When annotating SNPs in the 1000 genomes project a filtering step was applied, detailed in sections 5.1.1 and 5.2.1 of the supplementary information of [7], designed specifically to filter out locations in which the base-calls different from the reference are not evenly distributed between the forward oriented and reverse oriented reads. The filtering step applied in [7] to avoid calling systematic errors as SNPs can decrease the number of false-positive SNP calls, but relies on having a sufficient number of reads from each strand and makes use only of the strand-specific characteristic of systematic errors. As we have shown, distinguishing between systematic errors and heterozygous sites can be greatly improved by taking additional evidence into account.

Figure 7

Systematic errors in HiSeq data. A screenshot from the IGV browser [21] showing two systematic errors in the HiSeq dataset analyzed. These locations are not statistically significant under a chi-squared test for directionality bias (after correcting for multiple hypotheses), demonstrating the weakness of this test.

Full size image

Conclusions

We have identified systematic error in Illumina sequence that is prevalent in different types of datasets, and that does not appear to be easily correctible during base-calling. This systematic error has significant implications for SNP calling, especially at low coverage [18]. Moreover, while increasing the extent of coverage enables the detection of rare variants in population studies and low expression rates in transcriptome studies, it also reveals locations of weaker systematic errors (locations at which there is a small accumulation of base-call errors). Thus, the problem of distinguishing systematic error from true heterozygous sites persists regardless of the extent of coverage. We detected this type of error, and could thoroughly characterize it, thanks to a dataset with overlapping paired-end reads and with very high coverage. Making use of our characterization we have designed and implemented a classifier to correct for systematic errors at much lower coverage depths and with no need for paired-end reads. We have shown that by using the different characteristics in the prediction process we gain a significant increase in performance over using directionality bias alone.

Although we have provided a preliminary characterization of systematic error, with further work and additional data it may be possible to better identify sequences associated with error. In particular, it should be possible to identify and characterize systematic error resulting from other sequencing technologies. Although such a comprehensive assessment is beyond the scope of this study, we have looked at RNA-Seq SOLiD data from [19] and have identified statistically significant systematic error. At the same time, we believe that as sequencing technology improves systematic errors should decrease, and we have observed this to be the case based on the Illumina samples we have investigated. Sequence from two years ago shows higher systematic error rates than recently sequenced data. Nevertheless, we believe that systematic error is a continuing characteristic of Illumina sequence.

Methods

methyl-Seq experiments

The human sample was collected with IRB approval from the Children’s Hospital and Research Center, Oakland. The approval was granted for a single subject to draw blood for the purpose of examining his methylome and transcriptome, with the understanding that the subject is fully aware of the implications of collecting and analyzing personal genetic data. Immediately after phlebotomy, leukocytes were isolated by Ficoll centrifugation. B cells were isolated from the leukocyte fraction with an indirect magnetic labeling system for the isolation of untouched B cells which yields highly pure B cell preparations (Miltenyi). DNA was extracted by standard methods, and digested overnight with HpaII (NEB). HpaII cuts the sequence CCGG; methylation of the central cytosine on one or both strands protects the sequence from digestion with HpaII [20]. HpaII fragments 50-300 bp in length were isolated on an agarose gel. A paired-end sequencing library was constructed with the standard Illumina kit, and sequenced on an Illumina GAIIX to collect reads of 76 bases, resulting in 15,598,990 read pairs. Read pairs that did not terminate at CCGG restriction sites were removed, leaving 14,205,350 read pairs. The reads were mapped to the human reference genome (hg18) using Bowtie [10] as single end reads allowing 3 mismatches and requiring that the alignments be unique. Those that did not align were removed and the remaining reads were mapped again, this time as paired end reads with a mismatch limit of 2. The higher mismatch limit of 3 was used in the initial alignment step to avoid having reads with more base-call errors preferentially pass the uniqueness requirement. This produced 6,939,310 aligned read pairs mapped to 313,789 distinct locations. The same procedure was followed for the second methyl-Seq experiment from monocyte DNA. The experiment generated 14,432,723 read pairs, of which 7,265,035 were ultimately mapped to 274,230 distinct locations.

Annotating systematic errors at GGT sites

The error rate in our dataset at GGT sites was computed as

G
G
T

#
e
r
r
o
r
–
p
a
i
r
s

a
t

G
G
T

#
a
l
l

p
a
i
r
s

a
t

G
G
T

=0.0194. We tested whether there are specific GGT locations at which there is a significant excess of errors by computing a p-value for each GGT site, given the number of error-pairs and coverage at the location, using p_GGT, and using a Bonferroni correction of 0.05. The number of significant locations remained substantial at 660, out of 61,779 GGT sites considered.

Annotating systematic errors in the phiX174

To test the influence different base callers have on the extent to which systematic errors are present in a dataset we looked for systematic errors in the non-paired reads reported in [13]. In [13], several sets of base-called reads were obtained from one run of sequencing of the phiX174 genome, each using a different base calling method to process the images generated by the sequencing machine. In this work we compared two base calling methods: Bustard, which is Illumina’s base-caller, and naiveBayesCall, presented in [13]. The sequencing run generated 74,686 non-paired reads, resulting in an extremely high coverage dataset for the 5,386 bp long genome.

We mapped the reads from each method to the virus genome using Bowtie, obtaining 382.2× coverage for the Bustard called reads and 394.2× coverage for the naiveBayesCall called reads. Since phiX174 is only 5,386 bp long and has been thoroughly studied for heterozygous sites due to its use as a sequencing control, we excluded the five known SNP sites from our analysis, and at the remaining sites called all base-calls that were different from the reference as base-call errors. We computed the probability of a base-call error for each dataset of mapped reads by p=

b
a
s
e
–
c
a
l
l

e
r
r
o
r
s

b
a
s
e

c
a
l
l
s

, and identified locations with a significant accumulation of errors by computing a p-value for every given location with i errors and coverage n as previously described in the text, using a Bonferroni correction for a 0.05 significance level. We used the frequency of base-call errors in the Bustard called reads of 0.0029 as the error probability for both datasets, since this was the higher of the two frequencies.

We found 59 systematic errors in the Bustard called dataset and 40 systematic errors in the naiveBayesCall dataset, amounting to a systematic error rate of 1 in 91 bp and 1 in 135 bp respectively. When restricting to cases in which more than 10% of the base-calls had errors we found 15 systematic errors for Bustard and 10 systematic errors for naiveBayesCall, 7 of which were at the same sites.

SysCall’s design and implementation

In this section we describe SysCall, a logistic regression classifier designed to distinguish heterozygous sites from systematic errors, based on the characteristics of systematic errors we have discussed. We will begin with describing the features used in SysCall’s model, continue with how the model parameters were learned, and end with a description of the prediction procedure given a new dataset. Importantly, the special features of the methyl-Seq dataset (overlap of paired-reads and deep coverage) were used only for the first two stages. There is no need for the dataset on which SysCall is used to have such features. As we show in Figure 6, SysCall preforms well on a single-end dataset of 7x.

Model features

We have chosen features to be used in SysCall based on our findings regarding the characteristics of systematic errors. Given a dataset and a location, l, SysCall annotates a vector of features, x_l, as follows: First a sequencing direction is chosen (forward or reverse) as the direction with the larger proportion of base-calls that differ from the reference. SysCall only considers sites at which there is at least one base-call that differs from the reference. Let q_{l 1}and q_{l 2}be that proportion for the chosen and not chosen directions respectively. For example, for the location annotated as a SNP in Figure 1, we would choose the forward direction and have q₁ = 1 and q₂ = 0. Let b_ibe the nucleotide that is i places from l in the chosen direction and let w_ibe the vector of quality scores at the location i places from l, attained from the reads overlapping that location. A feature vector is then annotated for l as:

(

–
2

–
1

l
1

–

l
2

l
1

(

)

where PT(w₀, w₁) is the paired t-test result on the two vectors w₀ and w₁. This paired t-test feature is computed due to our observation that the quality scores at systematic error locations tend to be lower relative to the quality scores at their neighboring sites (Figure 8), and this can help distinguish them from true heterozygous sites. As an example, for the location annotated as a SNP in Figure 1 the feature vector is (G, G, T, 1, 1, -5.56).

Figure 8

The paired t -test statistic helps distinguish true SNPs from systematic errors. The paired t-test (PT(w₀, w₁)) was computed for the “SNPs” and “Systematic errors” sets used for training SysCall. The histogram of paired t-test for the “SNPs” set (red) is centered around 0 (mean: 0.0024, std: 2.035), indicating that the quality scores at those locations were similar to their neighboring quality scores. The histogram of the “Systematic errors” set (blue) formed an almost disjoint distribution (mean: -10.505, std: 3.919).

Full size image

Parameter estimation

We learned parameters for SysCall using training sets constructed from our methyl-Seq dataset. In that dataset, due to both overlap of paired-reads and high coverage, it was possible to determine many sites with high certainty as either heterozygous sites or systematic errors. We annotated a list of locations that would be candidates for heterozygous sites (where a significant amount of the base-calls differ from the reference) and which we could call as systematic errors or heterozygous sites with high certainty. Of the 905 locations in our dataset with coverage of at least 40 (paired-calls) and at which 10-90% of the base-calls on the forward strand differed from the reference we annotated two sets: (1) “SNPs” – the 491 locations at which all differences from the reference were SNP-pairs. (2) “Systematic errors” – the 338 locations at which all differences from the reference were error-pairs. From each mate-pair one of the reads was chosen at random to simulate a non-overlapping (or non paired-end) dataset. Also, 338 locations were chosen at random for the “SNPs” set to ensure the predictions were feature-based only. A feature matrix was built for these 676 locations (the training set), and the parameters for a logistic regression model were computed by maximum likelihood estimation using R. Note that when assessing SysCall’s performance the data on which the classifier was trained was different from that used to asses its performance (in each iteration only half of this dataset was used for training).

At different depths of coverage the different features may be indicative to different extents. For example, at high sequencing depths the paired t-test statistic and the frequency of error on each direction may have a more significant effect than at lower sequencing depths, where the sequence motif is more informative. To account for this we simulated experiments of lower coverage by randomly sampling a given percentage from the initial set of reads. For each of 20%, 40%, 60% and 80% (resulting in coverage of 7x, 14x, 21x, and 28x respectively), we randomly chose the given percentage from our reads, refined our set of locations to those with at least one base-call differing from the reference and proceeded as before to construct a different training set for every coverage.

Prediction procedure

SysCall takes as input a list of genomic locations and a sequencing dataset. For n given locations, SysCall constructs an n × 7 feature matrix, M, where M_i,*= (1, x_i), x_ibeing the feature vector for location i. Then, SysCall computes the mean coverage for the given dataset and uses the model parameters learned from the training set with coverage closest to that observed, β, to compute the vector of posterior probabilities as

1
+

–

for i = 1, …, n. Using a threshold of 0.5 on the posterior probability, SysCall partitions the locations into “true heterozygous sites” (p_i≥ 0.5) and “systematic errors” (p_i< 0.5) and prints out two files accordingly, along with the posterior probability assigned to each location. In the case of multiple mappings of reads, each mapping of a read is considered by SysCall, independently of other mappings.

SysCall is implemented in R. The running time for classification is instantaneous, and the running time for feature assembly depends on the number of sequenced reads in the experiment and the number of locations considered, currently taking 10 seconds per 100,000 reads when classifying 900 locations, and is trivially parallelizable. SysCall is available at http://bio.math.berkeley.edu/SysCall/.

References

Nielsen R: Genomics: In search of rare human variants. Nature 2010, 467(7319):1050–1051. 10.1038/4671050a

Article
CAS
PubMed

Google Scholar
Hoff K: The effect of sequencing errors on metagenomic gene prediction. BMC Genomics 2009, 10: 520+. 10.1186/1471-2164-10-520

Article
PubMed Central
PubMed

Google Scholar
Dohm JC, Lottaz C, Borodina T, Himmelbauer H: Substantial biases in ultra-short read data sets from high-throughput DNA sequencing. Nucleic Acids Research 2008, 36(16):e105. 10.1093/nar/gkn425

Article
PubMed Central
PubMed

Google Scholar
Taub M, Bravo H, Irizarry R: Overcoming bias and systematic errors in next generation sequencing data. Genome Medicine 2010, 2: 87. 10.1186/gm208

Article
PubMed Central
PubMed

Google Scholar
Nakamura K, Oshima T, Morimoto T, Ikeda S, Yoshikawa H, Shiwa Y, Ishikawa S, Linak MC, Hirai A, Takahashi H, Altaf-Ul-Amin M, Ogasawara N, Kanaya S: Sequence-specific error profile of Illumina sequencers. Nucleic acids research 2011, 39(13):e90. 10.1093/nar/gkr344

Article
PubMed Central
CAS
PubMed

Google Scholar
Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R, 1000 Genome Project Data Processing Subgroup: The Sequence Alignment/Map format and SAMtools. Bioinformatics 2009, 25(16):2078–2079. 10.1093/bioinformatics/btp352

Article
PubMed Central
PubMed

Google Scholar
1000 Genomes Project Consortium: A map of human genome variation from population-scale sequencing. Nature 2010, 467(7319):1061–1073. 10.1038/nature09534

Article

Google Scholar
Wang J, Wang W, Li R, Li Y, Tian G, Goodman L, Fan W, Zhang J, Li J, Zhang J, Guo Y, Feng B, Li H, Lu Y, Fang X, Liang H, Du Z, Li D, Zhao Y, Hu Y, Yang Z, Zheng H, Hellmann I, Inouye M, Pool J, Yi X, Zhao J, Duan J, Zhou Y, Qin J, et al.: The diploid genome sequence of an Asian individual. Nature 2008, 456(7218):60–65. 10.1038/nature07484

Article
PubMed Central
CAS
PubMed

Google Scholar
Li M, Wang IX, Li Y, Bruzel A, Richards AL, Toung JM, Cheung VG: Widespread RNA and DNA Sequence Differences in the Human Transcriptome. Science 2011, 333(6038):53–58. 10.1126/science.1207018

Article
PubMed Central
CAS
PubMed

Google Scholar
Langmead B, Trapnell C, Pop M, Salzberg S: Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology 2009, 10(3):R25+.

Article
PubMed Central
PubMed

Google Scholar
Crooks GE, Hon G, Chandonia JMM, Brenner SE: WebLogo: a sequence logo generator. Genome Research 2004, 14(6):1188–1190. 10.1101/gr.849004

Article
PubMed Central
CAS
PubMed

Google Scholar
Schneider TD, Stephens RM: Sequence logos: a new way to display consensus sequences. Nucleic Acids Research 1990, 18(20):6097–6100. 10.1093/nar/18.20.6097

Article
PubMed Central
CAS
PubMed

Google Scholar
Kao WC, Song Y: naiveBayesCall: An Efficient Model-Based Base-Calling Algorithm for High-Throughput Sequencing. In Research in Computational Molecular Biology, Volume 6044 of Lecture Notes in Computer Science. Berger B, Berlin, Heidelberg: Springer Berlin/Heidelberg; 2010:233–247.

Google Scholar
Zhang K, Li JB, Gao Y, Egli D, Xie B, Deng J, Li Z, Lee JH, Aach J, Leproust EM, Eggan K, Church GM: Digital RNA allelotyping reveals tissue-specific and allele-specific gene expression in human. Nature Methods 2009, 6(8):613–618. 10.1038/nmeth.1357

Article
PubMed Central
CAS
PubMed

Google Scholar
Trapnell C, Williams B, Pertea G, Mortazavi AGK, van Baren M, Salzberg S, Wold B, Pachter L: Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nature Biotechnology 2010, 28: 511–515. 10.1038/nbt.1621

Article
PubMed Central
CAS
PubMed

Google Scholar
Illumina Tru Resources Data Sets[http://www.illumina.com/truseq/tru_resources/datasets.ilmn]
International HapMap Project[http://hapmap.ncbi.nlm.nih.gov/downloads/genotypes/latest/]
Malhis N, Jones S: High quality SNP calling using Illumina data at shallow coverage. Bioinformatics 2010, 26: 1029–1035. 10.1093/bioinformatics/btq092

Article
CAS
PubMed

Google Scholar
Roberts A, Trapnell C, Donaghey J, Rinn J, Pachter L: Improving RNA-Seq expression estimates by correcting for fragment bias. Genome Biology 2011, 12: R22. 10.1186/gb-2011-12-3-r22

Article
PubMed Central
CAS
PubMed

Google Scholar
Harland RM: Inheritance of DNA methylation in microinjected eggs of Xenopus laevis. Proc Natl Acad Sci USA 1982, 79(7):2323–2327. 10.1073/pnas.79.7.2323

Article
PubMed Central
CAS
PubMed

Google Scholar
Robinson JT, Thorvaldsdottir H, Winckler W, Guttman M, Lander ES, Getz G, Mesirov JP: Integrative genomics viewer. Nat Biotech 2011, 29: 24–26. 10.1038/nbt.1754

Article
CAS

Google Scholar

Download references

Acknowledgements

We thank Professor Yun Song and Dr. Wei-Chun Kao from UC Berkeley for the phiX174 dataset and the associated naiveBayesCall output. Dario Boffelli was partially funded by NIH grant HL084474, David Martin by NIH grant ES016581, and Meromit Singer and Lior Pachter by NIH grant 1R01HG006129-01.

Author information

Authors and Affiliations

Department of Mathematics, University of California, Berkeley, 970 Evans Hall #3840, Berkeley, CA, 94720, USA

Frazer Meacham & Lior Pachter
Children’s Hospital Oakland Research Institute, 5700 Martin Luther King Jr Way, Oakland, CA, 94609, USA

Dario Boffelli, Joseph Dhahbi & David IK Martin
Computer Science Division, University of California, Berkeley, 387 Soda Hall, Berkeley, CA, 94720, USA

Meromit Singer & Lior Pachter
Department of Molecular & Cell Biology, University of California, Berkeley, 142 LSA #3200, Berkeley, CA, 94720

Lior Pachter

Authors

Frazer Meacham

You can also search for this author in
PubMed Google Scholar
Dario Boffelli

You can also search for this author in
PubMed Google Scholar
Joseph Dhahbi

You can also search for this author in
PubMed Google Scholar
David IK Martin

You can also search for this author in
PubMed Google Scholar
Meromit Singer

You can also search for this author in
PubMed Google Scholar
Lior Pachter

You can also search for this author in
PubMed Google Scholar

Corresponding authors

Correspondence to
Meromit Singer or Lior Pachter.

Additional information

Authors’ contributions

FM, MS and LP formulated the problem of searching for systematic errors by studying discordant read pairs and designed a research plan. FM and MS conducted the research. DB, JD and DM performed the sequencing and contributed the datasets analyzed, and FM, MS and LP wrote the manuscript. All authors read and approved the final manuscript.

Authors’ original submitted files for images

Rights and permissions

Open Access
This article is published under license to BioMed Central Ltd. This is an Open Access article is distributed under the terms of the Creative Commons Attribution License (
https://creativecommons.org/licenses/by/2.0
), which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.

Reprints and Permissions

About this article

Cite this article

Meacham, F., Boffelli, D., Dhahbi, J. et al. Identification and correction of systematic error in high-throughput sequence data.
BMC Bioinformatics 12, 451 (2011). https://doi.org/10.1186/1471-2105-12-451

Download citation

Received: 25 May 2011
Accepted: 21 November 2011
Published: 21 November 2011
DOI: https://doi.org/10.1186/1471-2105-12-451

Keywords

Systematic Error
Coverage Depth
Read Pair
Directionality Bias
Heterozygous Site

Источник

Исключение систематических погрешностей

Выше было подчеркнуто, что систематические ошибки могут вызвать смещение результатов измерений. Наибольшую опасность в этом отношении представляют систематические ошибки, которые остаются незамеченными, Подозреваемый. Это была не случайная ошибка, а систематическая ошибка, которая стала причиной ложных научных выводов, установления ложных физических законов и неудовлетворительного проектирования измерительных приборов и дефектных изделий. Методы устранения и учета систематических ошибок можно разделить на четыре основные группы: 1.

Устранение причины ошибок перед началом измерения (предотвращение ошибок). 2. Замена, компенсация ошибок знаком, контраст, устранение ошибок процесса измерения симметричным наблюдением (исключение ошибок экспериментом). 3. Внесение известных исправлений в результаты измерений (устранение ошибок расчета). 4. Оцените границы систематических ошибок, если они не могут быть исключены.

Пневматический прибор надежен, он оборудован с измеряя соплом малого размера, его можно установить в труднодоступные места, он может легко получить сумму и разницу сигналов.
Людмила Фирмаль

Устранение причин ошибок перед измерением Этот метод устранения систематических ошибок является наиболее разумным, поскольку он устраняет необходимость устранения ошибок в процессе измерения и расчета результатов с учетом поправок. Другими словами, устранение источника ошибок значительно упрощает и ускоряет процесс измерения. Устраняя причину ошибки, необходимо понимать как ее прямое устранение (например, удаление источника тепла), так и защиту измерительного прибора и объекта измерения от воздействия этих причин.

Причины ошибок прибора, характерные для данного экземпляра прибора, могут быть устранены во время калибровки или ремонта перед началом измерения, и необходимость устанавливается во время проверки. Таким образом, вы можете сделать вывод, что прибор должен быть проверен до начала измерения (один, серия или в течение определенного периода времени). Выполнимость вопроса ремонта или наладки определяется по результатам проверки. Причину ошибок из-за неправильной установки часто можно устранить до начала измерения. Устранить температурные эффекты.

Так называемые термостаты широко используются для предотвращения температурных ошибок. Это гарантирует определенную температуру окружающей среды с определенным допуском. Термостат большой комнаты (мастерская, лаборатория), маленькой комнаты (комната, комната), измеритель Цельные или отдельные детали (резистивные катушки, нормальные элементы, свободный конец термопары, стабилизатор частоты кристалла и т. Д.) В зависимости от жестких требований температурных условий используются разные методы контроля температуры. Прежде всего, нужно вызвать естественный термостат.

Другими словами, изоляция поддерживает определенную температуру в комнате. Примером такого термостата является часть помещения Всесоюзного ордена профсоюза Красного флага в Институте метрологии. Д. И. Ленинградский Менделеев (ВНИИМ). Эти объекты находятся в центре здания и имеют огромные капитальные стены. Вокруг них большой коридор, образованный вторым рядом капитальных стен, за которым следуют лаборатория и кабинет с самыми большими наружными стенами. Это окно имеет тройной кадр. Аккумулятор радиатора размещается вдоль наружной стены.

Благодаря устройству этого здания центральная комната поддерживается постоянной температуры. Небольшие колебания температуры происходят очень медленно. Во многих случаях подвалы используются для создания комнаты с термостатическим управлением, но это накладывает много требований (таких как недостаток влаги). Чем глубже подвал, тем ниже степень, необходимая для поддержания постоянной естественной температуры и ее искусственного поддержания. Затопление Земли также используется для небольшого контроля температуры.

По этой причине свободные концы термопар и отправная точка медных проводов от них часто размещаются в небольших коробках, расположенных на земле под полом здания. Поддержание необходимого уровня температуры, естественно, не всегда возможно. Чаще полагайтесь на искусственное поддержание температуры — нагревание или охлаждение. При наличии электрической сети нагревательное устройство не вызывает серьезных проблем. Выполнение контролируемого охлаждения намного сложнее.

Поэтому, если позволяет измерительное оборудование, выбирается стабильный уровень температуры, чтобы исключить необходимость охлаждения и использовать только нагреватели. Температура стабильна на уровне 30-40 ° С или выше. В небольших количествах используются не только воздушные термостаты, но и жидкости, которые окружают измерительное устройство или объект измерения водой, маслом или другими жидкостями. Это значительно снижает температурные колебания и облегчает поддержание постоянного уровня.

Это, вообще говоря, способы устранения несоответствия температуры между измерительным прибором и средой, окружающей объект, что является одним из наиболее опасных источников ошибок. Сегодня термостаты часто заменяются кондиционерами. Во время кондиционирования поддерживается не только температура на требуемом уровне, но и другие параметры окружающего воздуха, особенно влажность. Термостаты и кондиционеры обеспечивают отличную защиту от прямого воздействия тепла.

Однако неправильное расположение нагревателя в термостате или в помещении, контролируемом термостатом, и отсутствие устройства (такого как смеситель), которое равномерно распределяет тепло по объему, само по себе может привести к ошибкам. Во многих современных измерительных приборах источник тепла находится в корпусе. Например, потребляемая мощность многих электронных измерительных устройств может достигать 1 кВт или более. Такие устройства обычно прогреваются на некоторое время, прежде чем проводить измерения. Устранение эффектов магнитного поля.

Эффекты магнитных полей не всегда легко обнаружить. Степень влияния поля на значения измерений различных приборов также различна. Рассмотрим меры, принятые для устранения воздействия магнитных полей. Поскольку магнитное поле Земли низкое, значительный риск удара возникает только в устройствах, которые характеризуются повышенной чувствительностью. Единственным средством защиты устройства от воздействия магнитного поля Земли является устройство с закрытым непрерывным экраном из магнитомягкого материала.

Линии магнитного поля перемещаются вокруг экранированного пространства, а небольшие зазоры в магнитной цепи экрана (неточная подгонка соединений компонентов) могут значительно снизить эффективность экрана. В настоящее время экран от воздействия магнитного поля Земли и экран от магнитного поля, образованного постоянным током и переменным током, распространяются. Этому способствовало изобретение магнитомягких сплавов (таких как пермаллой) с большой начальной проницаемостью и низкой коэрцитивной силой.

Устройства с магнитным экранированием имеют нежелательные явления даже при использовании пермаллоя. Если вы измените конфигурацию линий внешнего магнитного поля, экран также повлияет на конфигурацию линии внутреннего ( действия ) магнитного поля и, в некоторых случаях, на показания прибора. Помните, что экран не идеален и внешнее магнитное поле может воздействовать на экранированное измерительное устройство. Стандарты (такие как ГОСТ 1845-59) установили различные категории защиты от воздействия внешних магнитных полей. Экранирование от высокочастотных электромагнитных полей немного проще.

В этом случае возможно и наиболее целесообразно использовать материалы с высокой проводимостью. Этот эффект достигается вихревыми токами и создаваемым ими обратным электромагнитным полем. Кроме того, такие экраны защищают механизм от электрических полей. Удалить вредные вибрации и тремор. Эти эффекты устраняются амортизацией инструмента и его компонентов. В зависимости от частоты этих вибраций и чувствительности прибора к этим воздействиям для амортизации используются различные типы поглотителей вибрации.

Например, Оттепель резиновая в сочетании с различными видами упругих подвесок (струны, пружины) Устранение других видов вредных воздействий. Влияние таких факторов, как изменение атмосферного давления простыми средствами, не может быть исключено. Если соблюдение определенных требований является обязательным, следует использовать камеру давления с регулируемым давлением. Как правило, эти камеры могут контролировать влажность и температуру одновременно. Регулировка давления в помещении во время кондиционирования требует принудительной герметизации помещения, что делает установку очень сложной.

Устранить систематические ошибки в процессе измерения Устранение систематических ошибок в процессе измерения является эффективным способом устранения многих вредных воздействий. Нет необходимости в специальных установках или устройствах. Как правило, эти или их методы измерения могут не только устранить ошибки, возникающие в результате воздействия, но и оценить их степень. Исключением из этого метода являются в основном ошибки оборудования, ошибки установки и ошибки от внешних воздействий.

Некоторые постоянные ошибки субъективного характера могут быть устранены только в процессе измерения путем повторных измерений несколькими людьми. Особенности метода устранения ошибок процесса измерения, рассмотренные ниже, в основном применяются к измерению стабильных параметров и являются ленивыми, потому что он требует повторных измерений. Метод замены. Это один из самых распространенных способов устранения ошибок. Дело в том, что измеряемый объект заменяется известной мерой. Это в то же время это было в то же время Я сам.

Давайте рассмотрим некоторые из наиболее типичных примеров использования альтернативных методов. Точное взвешивание часто выполняется с использованием следующего жирного метода: Поместите взвешенную массу на одну чашу весов. Весы уравновешиваются путем применения другой нагрузки (негигроскопичной, неиспаряющейся и т. Д.), Например, некоторой нагрузки, которая не изменяется во время измерения. Когда равновесие достигнуто, взвешенная масса удаляется, и вес помещается на место до достижения равновесия.

Общий вес весов, необходимый для восстановления равновесия, соответствует значению взвешенного веса. Поэтому можно сделать исключение из результатов взвешивания ошибок, вызванных неоднородностями баланса. Этот метод был усовершенствован Д. И. Менделеевым. Все взвешивания прикреплены к чаше весов для взвешивания, а весы уравновешены любой нагрузкой. Затем поместите груз на чашку, в которую он был помещен, и удалите часть веса, чтобы восстановить равновесие. Общая масса полученных весов соответствует значению взвешенной массы.

Этот вариант метода замены не только устраняет ошибки из несбалансированного баланса, но также сохраняет неизменной чувствительность при взвешивании различных масс. Степень чувствительности рычажной шкалы зависит от нагрузки. В результате только одна нагрузка может обеспечить постоянную чувствительность. В настоящее время лабораторные весы, построенные по этому принципу, производятся в Советском Союзе и за рубежом и используются для снятия гирь с помощью рычага с внешним управлением и для подсчета значения массы взятых гирь.

Он оснащен. Методы замены широко используются при измерении электрических параметров — сопротивления, емкости и индуктивности. Процедура измерения в основном такая же, как и во время взвешивания. Объект, электрическое сопротивление, индуктивность или емкость которого подлежат измерению, содержится в той или иной измерительной цепи. В большинстве случаев метод нулевого баланса (мост, компенсация и т. Д.) Используется для выполнения электрического баланса цепи. После балансировки переменные значения измерения включаются вместо объекта измерения без изменения схемы.

Сопротивление накопителя, емкость, индуктивность. Переменный конденсатор или индуктивность. Изменяя свою стоимость, они достигают восстановления цепного равновесия. В этом случае метод замены устраняет остаточные дисбалансы в мостовой схеме, влияние магнитных и электрических полей на цепь, взаимное влияние отдельных элементов цепи, а также утечки и другие паразитные явления. Другим примером является определение характеристик источника света путем сравнения его со стандартной лампой накаливания с использованием фотометра.

Фотометр наблюдает за двумя смежными белыми полями (визуально или с использованием фотоэлементов), одно из которых освещается исследуемым источником света, а другое освещается так называемой лампой сравнения. Отрегулируйте оба поля, чтобы иметь одинаковое освещение. Затем вместо исследуемого источника света будет установлена примерная лампа, и будет достигнуто равномерное восстановление освещенности обоих полей фотометра без изменения настройки лампы сравнения. В этом случае альтернативный способ исключает влияние изменения степени поглощения света в обоих оптических каналах фотометра.

Приведенный выше пример не исчерпывает возможности использования метода замещения для устранения многих ошибок, возникающих во время измерения. Метод исправления знаковых ошибок. Способ устранения этой ошибки состоит в том, что измерение выполняется дважды. Поэтому ошибка, которая изначально неизвестна по размеру, включена в результат с обратным знаком. Ошибки исключаются при расчете среднего значения.

В алгебраической форме это может быть выражено как: Пусть X1 и x2 — результаты двух измерений. A — Систематическая ошибка, природа которой известна. Важность неизвестна. Ся — это безошибочное значение измерения. тогда X1 = xl + b Xa = xd-A. Среднее значение — = * + * = (Xd + D) + (x, -D) X 2 2 Чтобы повысить точность результата и оценить его уровень, выполняется серия повторных измерений, и все ошибки с положительным знаком равны одинаковому количеству отрицательных ошибок, чтобы устранить указанную ошибку. Так что должно быть выполнено четное количество измерений. Этот метод ограничен.

Используется для исключения только тех ошибок, в которых источник имеет указанное действие. Типичным примером компенсации является устранение ошибок, вызванных воздействием магнитного поля Земли. Этот метод применяется. Известно (или предполагается), что показания могут быть подвержены ошибкам под воздействием магнитного поля Земли при использовании приборов для измерений. (VI. ) Первое измерение может быть выполнено, когда прибор находится в любом положении.

Перед выполнением второго измерения поверните прибор на 180 ° в горизонтальной плоскости. В первом случае магнитное поле Земли, добавленное к магнитному полю прибора, вызывает положительную ошибку, и если оно поворачивается на 180 °, магнитное поле Земли оказывает противоположный эффект, вызывая отрицательную ошибку, равную начальной величине. Дальнейшее внимание может быть уделено применению метода для исправления ошибки знака, чтобы устранить ошибки, вызванные воздействием магнитных полей различного происхождения. Имейте в виду, что поле от источника неоднородно, даже если не очень близко.

Часть измерительного прибора, которая воздействует на магнитное поле, может быть размещена в другом месте. Ошибка, вызванная влиянием магнитного поля, в этом случае меняет не только знак, но и размер. Кроме того, внешнее магнитное поле может меняться со временем. Описанный метод, безусловно, полезен для обнаружения воздействия магнитных полей на измерительный прибор. Повторяя его, вы также можете проверить, являются ли эти эффекты постоянными и стабильными.

Использование метода, который исправляет ошибки знака, устраняет ошибки, вызванные явлениями гистерезиса (такими как магнитный гистерезис в ферромагнитных материалах и механический гистерезис в упругих материалах). Контрастный метод. Этот метод очень похож на исправление ошибок знака. Это связано с тем, что, поскольку измерение выполняется дважды, причина первой ошибки измерения будет отрицательно влиять на результат второго измерения. Примером является взвешивание равновесного равновесия (метод, предложенный Гауссом для устранения ошибок из-за остаточной неравномерности).

Единицей светового потока является люмен, равный световому потоку, излучаемому точечным источником под твердым углом 1 СР со светимостью 1 кд.
Людмила Фирмаль

При первом взвешивании масса x, помещенная в одну чашку весов, уравновешивается весом общей массы pi, помещенной в другую чашку. тогда Где 1g 11 — фактическое соотношение плеч. Взвешенная масса затем переносится в чашку, в которую помещается вес, и масса переносится в чашку, где размещается вес. Поскольку отношение плеч 4 A не совсем равно 1, баланс нарушается, и для баланса массы x необходимо использовать общую массу вес Ig. (U1.3) Разделив уравнение (V1.2) на уравнение (V1.3), получаем x = Или ГП и если немного отличается друг от друга Это уравнение и уравнение (U1.1) совпадают.

Однако уравнение (U1.1), полученное путем исправления ошибки со знаком, точно отражает суть исключения ошибки. В этом случае формула является приблизительной. Сравнивая оба метода с формулой, вы можете увидеть, что метод исправления ошибок включает в себя ошибку, которая удаляется как термин (алгебраически), а не как коэффициент. Особенностью противоположного метода является то, что фактическая пропорция плеча может быть определена.

Следовательно, умножение уравнений (VI.2) и (Y1.3) в примере взвешивания по Гауссу дает: Основной областью применения метода оппозиции является устранение ошибок при сравнении измерений с измерениями примерно равных значений. Методы контрастирования используются, например, в равновеликих мостах для измерения параметров электрических цепей, главным образом при измерении электрического сопротивления постоянному току. Пример. Сопротивление x измеряется с использованием равного плеча моста, где каждый рычаг r2 и r3 (см. Гл. X на рисунке 34) равен 1000 Ом.

Мостовое равновесие было достигнуто при r = 1000,4 Ом. После изменения положения x и r равновесие достигалось при Г1 = 1000.2 Ом. x-D-4 + 2 a1 , 3 Ом. Определите фактическую пропорцию плеча 1000.4-1000.2 = г, 2 1000, 2 Симметричный метод наблюдения. Симметричные методы наблюдения используются для устранения прогрессивных ошибок, которые являются линейными функциями времени (или другой величины). Такую функцию можно нарисовать в виде графика (рисунок 14).

Время нанесено на абсциссу, В зависимости от прогрессивной ошибки и характеристик измерительного прибора, прогрессивная ошибка может увеличиваться с момента первого измерения. После этого это происходит по всем вторым, третьим и последующим измерениям. Уже включает прогрессив Греховность. Симметричные методы наблюдения состоят в том, что измерения производятся непрерывно через равные промежутки времени. При обработке используйте свойства результата любых двух наблюдений. Симметричная относительная средняя точка интервала наблюдения.

Это свойство Ошибка, полученная в результате пары симметричных наблюдений, равна ошибке, соответствующей средней точке интервала. Например, было проведено 5 измерений. Началось в то время, когда ошибка была T1 1 (см. Рисунок 14). Легко показать, что = ^ y- * = m. Количество измерений Может быть. тогда ch-n x + 14 2 2 2 Три измерения (минимальное количество измерений) и нулевая начальная ошибка упрощают расчет. Если начальная неоднородность постепенно увеличивается, рассмотрим пример применения симметричного метода наблюдения при взвешивании по методу Боде (метод замещения).

Четыре взвешивания выполняются. 1. Взвешенная масса x уравновешена массой g. Предположим, что это соответствует точке А согласно расписанию (см. Рисунок 13). Где 12 11 — коэффициент плеча этих весов, когда на них не влияет причина прогрессивной ошибки. 2. Удалите массу x и уравновесите массу g и массу (их общая масса обозначена I1). Происходит во время 2 = + ч) г- 3. Балансировка повторяется таким образом, чтобы значение веса балансировочного веса считалось равным 1z, когда ошибка достигает значения tz. В результате общая масса t2, которая уравновешивает массу g, изменяется.

Удалите ожоги и поместите взвешенную массу * в чашку. Поскольку неравномерность изменилась и ошибка достигла m4 к времени 4, одна из чашек должна добавить некоторую массу в виде веса для достижения равновесия. Знак плюс перед m указывает, что эта масса добавлена в чашку с массой x, и что знак минус добавлен в чашку с массой r.

Среднее из первого и четвертого измерений (U1.4) Для второго и третьего взвешивания t1 + t, H-NZH, 2 и 2 на (U1.5) Поскольку средняя ошибка результата пары симметричных измерений равна друг другу, h + t4 g, + -s3 2 2 Правые части равенства (U1.4) и (U1.5) также равны. В результате левая часть этих уравнений также равна (U1.6) Оказывается, исключаются не только прогрессивные ошибки из-за изменений неравенства, но также некоторые ошибки из неравенства ( hM).

Как уже указывалось, одной из причин прогрессирующей ошибки в электрических измерениях является постепенное падение напряжения батареи или батареи, питающей схему измерения. Рисунок 15. Схема потенциометра постоянного тока Рассмотрим пример устранения прогрессивной погрешности потенциометра постоянного тока из падения напряжения батареи B (Рисунок 15). Сделайте три измерения. Сначала включите гальванометр G в цепь ЭДС.

Регулировка сопротивления r нормального элемента (переключатель 7 в положении 7) уравновешивает падение напряжения и падение напряжения на сопротивлении образца напряжением от рабочего тока I. Медленное снижение рабочего тока по, Затем поверните переключатель P в положение 2, чтобы отрегулировать сопротивление Ex и измерить требуемое напряжение Ex. Повторите первое измерение здесь. Из-за постепенной ошибки достигается равновесие с новыми значениями рабочего тока и модельного сопротивления E.

Принимая это во внимание, после соответствующего преобразования получите значение Ex без какой-либо прогрессивной ошибки. + Если не ясно, есть ли прогрессивная ошибка, рекомендуется использовать симметричный метод наблюдения. Многие измерения, выполненные в порядке, показанном в сочетании с каким-либо методом для исключения определенных ошибок, могут выявить и устранить любые прогрессивные ошибки. Известная коррекция результатов измерений Результат измерения корректируется расчетом.

Наиболее распространенным случаем коррекции является алгебраическое сложение результатов измерений и коррекций (с учетом их знака). Числовая поправка равна систематической ошибке, а знак противоположен. В других случаях ошибка устраняется путем умножения результата измерения на поправочный коэффициент. Поправочный коэффициент может быть немного больше или меньше 1. Только когда коррекция мала по сравнению с измеренным значением или когда поправочный коэффициент близок к 1, может быть рассчитана высокая точность результата коррекции.

Предположим, что поправочный коэффициент включает одно и два десятичных знака, причем первая цифра равна нулю. Первый десятичный знак (1,1) соответствует 10% -ной ошибке, и такая большая ошибка встречается редко. Поэтому поправочный коэффициент часто составляет 1,01. 1,02; 1,03 литра и т. Д. Чтобы умножить такое число на результат измерения, умножьте на 1 100, переместите запятую на два символа влево и добавьте ее к значению результата. Например, показание прибора составляет 85, а поправочный коэффициент равен 1,02. Одна половина 85 — 1,70.

Скорректированный результат измерения составляет 85 + 1,7 = 86,7. Этот прием также следует использовать, когда поправочный коэффициент меньше 1. Например, 0,96 = 1-0,04 поправочный коэффициент. Чтобы умножить показания устройства на него, вам нужно получить 4 100 устройства. 85 0,96 = 85 (1-0,04) = 85-3,4 = 81,6. Во многих случаях показания прибора должны быть умножены на коэффициент, называемый преобразованием (2; 2,5; 3; 5; 10; 20 и т. Д.). Не объединяйте поправочный коэффициент с коэффициентом пересчета, потому что это усложняет вычисление результатов измерения. Числовой пример.

В результате комбинации был получен коэффициент 2,88. Трудно умножить это число на число в вашем уме. Если вы используете каждый фактор отдельно, умножение не вызовет проблем. Множитель 2,88 является результатом умножения коэффициента преобразования 3 на поправочный коэффициент 0,96. Значение считывания измерительного устройства составляет 115. тогда 115-0,96 = 115 (1-0,04) = 115-4,6 = 110,4; 110.4-3 = 331.2 (как вы знаете, порядок умножения на коэффициенты не играет роли).

В отличие от поправок, поправочные коэффициенты используются, когда погрешность пропорциональна показаниям прибора в определенном диапазоне измерений. В некоторых случаях удобнее указывать фактический размер каждого номинального размера (или дисплея прибора), то есть размер, для которого коррекция уже была введена. Этот модифицированный метод учета в основном используется в качестве контрмеры. Преимущество особенно заметно при применении ряда мер. Фактический размер комплекта, составленного В процессе измерения получается суммирование фактических размеров мер, входящих в комплект.

Сумма этих размеров немного сложнее, чем номинальный размер, но обычно компенсируется номинальным размером. Поскольку операция добавления исключена, результат коррекции быстрее. Кроме того, уменьшается вероятность ошибок расчета. Может указывать фактический размер и ошибку. В этом нет необходимости, поскольку вы можете более уверенно определять признаки коррекции.

Чтобы исправить результаты измерений любым из описанных методов, вы должны сначала определить эти поправки. Чтобы исключить ошибки метода, необходимо знать параметры прибора, который может рассчитать коррекцию результата измерения (если он может быть рассчитан) справочная формула (U1.5) Пример. В случае измерения сопротивления x согласно схеме, показанной на рисунке 10b, были получены следующие измеренные значения амперметра и вольтметра.

Исправьте сопротивление амперметра. Это 0,2 Ом. Фактическое значение сопротивления xd = 2,5-0,2 = = 2,3 Ом. Как правило, ошибки измерительного прибора и другие данные и зависимости, необходимые для определения и создания поправок, идентифицируются до измерения. Однако это можно определить после измерения, но это не следует считать неправильным. В качестве примера мы можем сослаться на точное определение времени на основе астрономических наблюдений и измерений. Коррекция в этом случае определяется после измерения.

Оценка границ систематической ошибки В некоторых случаях систематическое устранение ошибок практически невозможно. Прежде всего, речь идет о методе измерения, и его систематическая ошибка не совсем понятна. Кроме того, существует большая группа приборов, для которых систематические ошибки были изучены и могут быть измерены и определены, но не могут быть использованы для корректировки результатов измерений. Это интегрированная группа инструментов, чаще всего называемая счетчиками.

Скорее, показания счетчиков могут корректироваться только в очень ограниченных случаях, которые не характерны для их применения и предполагаемых условий. Давайте проанализируем вышеупомянутые детали на примере счетчика электрической энергии (обычно называемого электрическим счетчиком). Как правило, угловая скорость каждого встречного диска Текущий момент пропорционален потребляемой мощности. На практике, однако, он не строго пропорционален мощности, и, как следствие, существуют разные нагрузки , то есть разные систематические ошибки для разных мощностей.

На рисунке 13 показана зависимость погрешности счетчика от потребляемой мощности, выраженная в процентах от номинальной мощности (соответствует номинальным значениям тока и напряжения). Каждое значение мощности соответствует определенной ошибке. Однако эти ошибки можно использовать для исправления индикации только в том случае, если значение мощности не изменилось в течение всего процесса измерения. Если измерения с использованием счетчика выполняются с переменными значениями мощности, это очень сложно и в большинстве случаев невозможно рассчитать поправку.

Если систематические ошибки не могут быть исключены (даже если они известны, как в примере выше), оценить возможные границы систематических ошибок. Ошибки счетчика иногда считаются случайными, потому что причина их появления неизвестна, но это не так, потому что каждой величине энергопотребления соответствует конкретная ошибка. Потребляемая мощность не является случайной величиной, а зависит от режима работы электрического устройства, потребляющего энергию. В большинстве случаев ошибка измерения энергии счетчика меньше максимальной ошибки.

Эта ошибка является наибольшей только тогда, когда режим энергопотребления всегда одинаков и ошибка соответствует наиболее важному моменту (см. Рисунок 12). Этот случай маловероятен. При изменении нагрузки признаки ошибок могут меняться, что приводит к частичной компенсации в целом. Поэтому нет способа определить результирующую ошибку, и необходимо внести исправление. Обратите внимание, что если погрешность измерительной системы не превышает ± 2%, ошибка измерения энергии в конечном итоге составит менее 2%.

То, что было сказано об электрических счетчиках, также можно отнести к другим встроенным измерительным приборам и измерениям, проводимым с их помощью. Повторим еще раз: при разработке новых методов измерения и новых инструментов необходимо выявить и исследовать все возможные систематические ошибки.

Смотрите также:

Решение задач по метрологии

Источник

1) Кислотно-основного титриметрического определения уксусной кислоты в уксусной эссенции;

2) Гравиметрического определения хроматов в электролите для хромирования.

Если вы устраняете систематическую ошибку модели, то уже слишком поздно

Введение

Систематическая ошибка алгоритма: слабое место ИИ

Что такое «распознавание именованных сущностей»?

Новый эксперимент по снижению систематической ошибки

Если вы исправляете систематическую ошибку модели, то уже слишком поздно

Благодарности

Если вы устраняете систематическую ошибку модели, то уже слишком поздно

Введение

Систематическая ошибка алгоритма: слабое место ИИ

Что такое «распознавание именованных сущностей»?

Новый эксперимент по снижению систематической ошибки

Если вы исправляете систематическую ошибку модели, то уже слишком поздно

Благодарности

Abstract

Background

Results

Conclusions

Background

Results and Discussion

Extent of systematic error

Characterizing systematic errors

Identification and correction of systematic errors

Assessing SysCall’s performance

Presence of systematic errors in other datasets

Conclusions

Methods

methyl-Seq experiments

Annotating systematic errors at GGT sites

Annotating systematic errors in the phiX174

SysCall’s design and implementation

Model features

Parameter estimation

Prediction procedure

References

Acknowledgements

Author information

Authors and Affiliations

Corresponding authors

Additional information

Authors’ contributions

Authors’ original submitted files for images

Rights and permissions

About this article

Cite this article

Keywords

Исключение систематических погрешностей

Вам также может понравиться

Как составить словарь лексики по стихотворению

Как найти именно своего человека

Как найти радиус трапеции через периметр

Добавить комментарий Отменить ответ