Критерии тестирования. Как выбрать тесты для автоматизации

Для Андроид 06.05.2019
Для Андроид

Как один из методов диагностики пригодности кандидатов тестирование нуждается в выявлении качества выполнения возложенных на него селективных функций. В качестве признанных для оценки тестов выступает ряд показателей, которые характеризуют как критерии качества, или добротности.

«Разложенные» по жизненному циклу тестов - конструированию, проведению и вынесению оценки, они могут дать возможность проследить, на каком этапе тест в большей степени приобретает или теряет смысл, над каким аспектом его внедрения в практику специалистам предстоит работать еще.

Определяя одинаковые для всех психологических методов диагностики пригодности критерии, Г. Шанц, например, не выделяет особо тестирование, считая, что оно по показателям качества должно вписываться в сравнимый пятиэлементный ряд других инструментов отбора: надежность, валидность, объективность, экономичность и полезность. Бертхель классификацию критериев добротности тестирования представляет как трехэлементную, выделяя объективность, надежность и валидность, раскладывая последний показатель на три составляющие. Подобной позиции придерживается А.Компа, детально характеризуя каждый из трех обозначенных критериев.

Выделяя в принципе те же показатели оценки тестов, Б.Бернд выстроил их в иерархический ряд, в котором три первых, расположенных по значимости критерия: объективность- надежность-- валидность обозначил как основные, а четыре последующих: нормируемость - сравнимость - экономичность - целесообразность как побочные.

Анализ показал, что под объективностью понимается степень, в которой результаты теста не зависят от проверяющего. «Объективность означает, что результат тестирования достигается только тестовым инструментом, т.е. согласно его намерениям и целям, независимо от руководителя теста. Тогда побуждением к ответу в тесте будет только вопрос или задача теста». В зависимости от того, в какой фазе тестирования проявляется влияние исследователя на результат, различают три аспекта объективности: проведения, подведения итогов и интерпретации (см. приложение 19).

Надежность, или независимость от случая, определяют как степень стабильности, с которой отличительная черта будет измерена точно при повторном тестировании. Одним из важных аспектов осуществления достоверного тестирования является методика эмпирического определения достоверности. Как показал анализ, наиболее часто в научной и научно-методической литературе речь идет о четырех эффективных методах: повторном тестировании, параллельном тестировании, раздвоении теста и консистентном анализе (см. приложение 20).

Валидность, или действительность теста есть гарантия, что он в самом деле измеряет то, что подлежит измерению, или что должно быть измерено. Согласно оценкам специалистов, валидность остается самой спорной и сложной проблемой для тех, кто занимается конструированием тестов. Чаще всего в литературе речь идет о следующих видах валидности: содержательной, конструктивной, критери- альнообусловленной, согласованной, конкурентной (см. приложение 21) и прогностической. Для практики отбора персонала особенно интересна и значима, как показывает анализ, прогностическая валидность, которая тем лучше, чем выше коррелируют друг с другом результаты тестирования и последующие фактические профессиональные успехи.

Трехэлементная система основных показателей оценки качества тестов дополняется побочными критериями, в число которых традиционно включаются нормируемость, сравнимость, целесообразность (измеряемые качества или способ поведения должны иметь практический интерес и не должны также хорошо исследоваться другими тестами), экономичность (для проведения теста требуется мало времени; используется мало материалов; тест прост в обращении; тест может проводиться как групповой; предполагается быстрое и удобное вынесение оценки) (см. приложение 22).

Приведенная система показателей, классически используемых как при конструировании, так и реализации тестов на практике, как показал анализ, претерпевает некоторые изменения. Например, в крупномасштабном исследовании отбора и найма кандидатов оценка тестирования и других селективных методов проводилась по трем критериям: валидности, практичности и приемлемости. Дискутируя по поводу специфики и основных видов валидности, авторы исследования фокусируют внимание на том, что для пользователя процедурами отбора главным является только вопрос, «в какой степени процедура является применимой, чтобы можно было сделать выводы о будущем профессиональном успехе претендента».

Практичность, которая не является релевантной в психологических исследованиях и отражающей их литературе, серьезную значимость приобретает на практике, при непосредственном отборе, ее оценка есть не что иное как «часть анализа производственно-экономических затрат». По Бартелю и Шулеру, «чувствительный к изменениям анализ показывает, что уже относительно небольшой рост валидности можно связывать с увеличением рентабельности». В производственной практике в оценку практичности включаются затраты на разработку или выбор метода, стоимость его реализации, в том числе затраты времени для оценки компетенции экспертов, их обучения; организационные расходы, потребности в помещении и материалах. Также сюда включаются затраты на информирование и убеждение, если это необходимо, других сотрудников предприятия. Оценка практичности, кроме того, не является независимой от ожидаемого восприятия процедуры со стороны кандидатов, как «третьей оценочной категории»».

Критика тестирования и принципов отбора со стороны общественности привели к необходимости изучения воздействия отборочных процедур на самих претендентов на рабочие места. По оценке, например, Поортинга, квоты нанимаемых на предприятия зависят от используемых им методов отбора. В соответствии с этим восприятие, или приемлемость метода со стороны кандидатов, было выбрана третьим в оценочной шкале селективных инструментов и в их числе - тестирова-

Во всех оценочных системах неизменно присутствующим является показатель валидности тестов, которую можно квалифицировать по отношению к некоторым другим методам отбора как достаточно высокую. В литературе чаще всего критерий валидности дифференцируется по основным видам тестов - интеллектуальным, производительным и личностным.

Значительная часть проведенных обследований показывает, что наиболее ценным инструментом диагностики профессиональной пригодности являются тесты на интеллект. Валидность тестов этой группы Штелле оценивает в диапазоне 0,20-0,30, авторы осуществленных мета-анализов - 0,25-0,50; ими же подчеркивается, что трудовую деятельность с параллельным обучением гшо- гнозировать легче, чем «чисто профессиональную в узком смысле». Например, крупные финансовые организации ФРГ, согласно результатам Торгово- промышленной палаты, валидность оценки интеллектуальных способностей «лиц с последующим обучением» через соответствующие тестовые батареи оценивают в 0,48.

Определяя прогностическую валидность производительных, или профессиональных тестов, Шулер и соавторы отмечают их специфичность, зависимость от 142 условий применения и на этой основе констатируют, что если тест сконструирован и применяется в соответствии с расчетными требованиями, то оценка его валидности может находиться «на высоте других хороших методов отбора». Оценка валидности у Штелле менее осторожная, ученый характеризует ее цифровым интервальным показателем 0,10-0,20.

Отмечаемая в литературе дискуссионность пригодности для отбора личностных тестов сопровождается соответствующим рядом оценочных показателей. По Штелле, валидность характеризуется достаточно широким диапазоном - 0,

20-0,40, другие исследователи дают моментные показатели, укладывающиеся в границах этого интервала: Рейли и Чао- 0,18, Шмитт и соавторы-- 0,15. Если же оценивать не общий личностный тест, а его «отдельные специфические гипотетические факторы», то, по расчетам специалистов, можно ожидать более высокой оценки. Так, средний показатель валидности для специальных личностных тестов определяется как 0,25 и 0,30 - для тестов по оценке интересов и мотиваций.

Результаты исследований дают основание для выявления рангов прогностической валидности используемых при отборе тестов: наибольшая валидность прослеживается у тестов на интеллект, затем - по убывающей - личностных тестов и замыкают ряд тесты производительности.

По результатам европейского обследования по отбору и найму (табл. 23), частота практического использования различных видов тестов в странах-респо- ндентах неодинакова. С наибольшей дистанцией от остальных, попавших в выборку (редко), внедряют психологические тесты немецкие предприятия. Некоторым исключением является отбор тех категорий кандидатов, которые с одновременной работой намерены получать на предприятии профессиональное образование (ученики). Их отбирают с использованием всех обозначенных вцдов тестов, особенно- производительных (в среднем каждого девятого) и интеллектуальных (каждого двенадцатого).

На предприятиях стран Бенилюкса и Англии центром тяжести в применении тестового метода являются ученики и стажеры, а также менеджеры всех уровней. Во Франции и Испании психологические тесты оказались влиятельным методом отбора всех профессиональных групп кандидатов. Практически во всех странах выборки преобладают над другими личностными тестами, которые можно считать в соответствии с этим начинающими ранговый ряд частотности применения тестового метода. Два других вида имеют меньшую обоснованность в получении точного ранга, поскольку единодушия в реализации у работодателей различных стран не получили. Тем не менее, усредненная оценка дает основание полагать, что несколько более часто находит использование при отборе группа производительных, чем интеллектуальных тестов.

Во избежание необъективности тестирования при найме необходимо строго соблюдать указания прилагаемой к тесту инструкции.

Важным моментом организации и проведения тестирования является создание тестовой ситуации, в комплексное понятие которой включаются такие элементы тестовой процедуры, как внешние условия, руководитель теста, взаимодействие между руководителем теста и испытуемым, установки и ожидания испытуемого, страх перед тестом. Частота использования тестирования при внешнем отборе кандидатов ФРГ Франция Испания Бенилюкс Англия лич. пр. ИНТ. лич. пр. ИНТ. лич. пр. ИНТ. лич. пр. ИНТ. лич. пр. ИНТ. Необученные рабочие 2 5 2 20 30 30 20 27 20 0 9 0 0 13 0 Квалифицированные рабочие 3 5 0 36 18 18 53 32 42 0 14 0 7 43 29 Служащие без руководящих функций 6 5 5 21 21 14 69 25 44 25 20 25 6 31 25 Обучающиеся на производстве Руководители, в т.ч. нижнего уровня среднего уровня высшего уровня 7 11 8 56 33 44 59 35 47 50 29 57 69 56 44 Объективность тестовой ситуации означает прежде всего, что условия проведения для кандидатов одинаковы и стандартизированы.

Для участников испытания подбирается соответствующее помещение, хорошо освещаемое и проветриваемое, исключающее посторонние помехи. В задачи руководителя тестирования входит ознакомление кандидатов с инструкцией теста, наблюдение за ходом процедуры, предотвращение нарушения порядка, сбор анкет по истечении времени. На первый взгляд, задачи «руководителя» достаточно «невинны». Вместе с тем это далеко не так. «Атмосфера во время тестирования может быть смягчена уже вступительным словом руководителя, - пишет Ришар, - и было бы хорошо, если бы такая ситуация сознательно провоцировалась». Пол, раса, возраст, цвет кожи, телосложение, профессиональный и социальный статус, опыт и практика «руководителя», его личные качества и внешность влияют на улучшение или ухудшение результатов теста. По результатам исследования Ра- бина (1954 г.), испытуемые мужского пола дают меньше сексуальных толкований по Роршах-тесту, если руководитель теста- женщина; по заключению Хаймана (1955 г.), тестируемые-мужчины дают «руководителям-женщинам больше «типично женских» ответов и наоборот. Согласно выводам Робинзона и Роде (1946 г.), ответы в тестовых заданиях менялись нз-за национальности, Кэнтрилпа (1946 г.) - цвета кожи, Кэмпбелла и Фидлмэна (1959 г.) - профессионального статуса «руководителя».

Замечено, что уже одно знакомство с руководителем теста может привести к значительно лучшим результатам при тестировании. На испытуемых способны повлиять «поклон или другая форма обращения, возможно, бессознательная», но ставшая им со стороны «руководителя» наградой и т.д. Вместе с тем., по оценкам оппонентов, фатальное влияние на индивидуальный результат в тестировании оказывают субъективные качества испытуемого: его установки сегодня, опыт или переживания вчера и позавчера и многое другое, которые, как серьезные помехи вряд ли могут быть «перекрыты» попыткой «стандартизации какой-нибудь детали».

Зависимость между результативностью и страхом кандидата - более сложная, чем констатация, что имеющие страх перед тестом могут иметь худшие, чем у остальных, показатели. Различают степень страха, которую уже сама личность привносит в тестовую ситуацию и которая характерна для нее, и страх, индуцированный тестом. Последний при «принципиально низком уровне ведет к повышению, а при принципиально высоком уровне страха - к снижению показателей испытуемых». Также выявлено, что, во-первых, страх влияет на результаты не в пользу пугливых; во-вторых, каждая тестовая ситуация, не носящая характера игры или исследования, вызывает страх, с которым испытуемые справляются по- разному. В-третьих, нормальная тестовая ситуация при угрозе нехватки времени усиливает чувство страха; в-четвертых, постоянный страх и страх перед тестированием являются помехами еще большими, чем остальные, так как показывают, в какой степени индивидуум привносит в тестовую ситуацию свою собственную историю и какие-либо особенности, которые неотделимы от измеряемых качеств или способностей.

Работая над созданием требуемой тестовой ситуации, менеджер по персоналу должен предварительно определить, какому контингенту претендентов предстоит пройти тестирование, какой тест задействовать, сколько времени займет процедура тестирования и оценка результатов, целесообразен ли метод с экономической точки зрения.

Практики считают, что если тестирование проводится для предварительного отбора, где встречается много кандидатов, то к «повышению вероятности попадания в точку» могут привести даже тесты с низкой валидностью.

Серьезной проблемой является актуальность тестовых норм. Согласно имеющимся данным, лучше всего тесты «дифференцируются в усредненных сферах». Если для тестирования приглашаются те кандидаты, которые достигают по опыту хороших результатов, тест в этом случае, вероятно, малопригоден для новых познаний о тестируемом.

Большинство тестов оценивается по шаблону, поэтому с этой задачей могут справиться вспомогательные работники. Часто в указаниях сообщается также о доверительных интервалах, которые при оценивании необходимо принимать во внимание. Оценка может быть вынесена в течение нескольких минут. Интерпретация результатов является задачей специалиста.

Экономический аспект тестирования заслуживает внимания в следующем. Большинство методов предполагает проведение группового тестирования и дает возможность одновременно проверить те или иные способности нескольких кандидатов. Основной инструментарий (например, шаблоны, инструкции) приобретаются только один раз, если параллельно не будет занято несколько оценщиков. Расходы на тестирование могут быть точно прокалькулированы, если известно его направление, а значит- вид теста, длительность процедуры и количество требуемого тестового материала.

Исследование тестового метода в целом и его деталях показало, что, во- первых, он представляет собой классический научный инструмент отбора, подкрепленный высокоразвитой теорией и техникой. Относится к полуконтактным психологическим методам, представляющим среди других «наибольшую ценность» для диагностики в зависимости от профиля выбранного теста, триады составляющих профессиональной пригодности: квалификационной, интеллектуальной и личностной. Специфика метода в том, что он побуждает человека к определенным высказываниям и действиям через сформированные условия стандартизации, которые распространяются также на следующую за выполнением задания его оценку.

Во-вторых, такие моменты тестирования как побуждение к действию через созданные работодателем стандартизованные условия, диагностика не только профессиональных, но и интеллектуальных и даже личностных качеств испытуемого служат одной из наиболее веских причин острой дискуссии по поводу действительности прогностических способностей метода. Согласно психологическим канонам, личность будет открыто или косвенно отвергать вторжение в ее частную жизненную сферу любых экспертов и в большей степени тех, кто предполагает ее оценивать через завуалированные «в кружках, кляксах и квадратах» методы. «Мимикрия» претендента останется нераскрытой, если противоречие между способом оценки личности и ее отношением к этому способу не будуу преодолены или сглажены.

В-третьих, поле деятельности по достижению компромисса между желаемым и возможным подвержено эволюционному изменению и расширению. Так, в настоящее время существуют по крайней мере две системы оценки тестирования как метода диагностики профессиональной пригодности. Первая, классически и традиционно применяемая, в большей степени ориентирована на оценку тестов как таковых через критерии объективности, надежности и валидности, по кото- 146 рым конкретный психологический тест экспертируют в фазе его проектирования. Ряд других критериев (экономичность, целесообразность и др.) предлагается как дополнение к основным. Вторая система, включающая синтетические показатели, полученные путем сложного «смешения» основных и дополнительных критериев классической системы, есть уже более продвинутый оценочный вариант, адаптированный к практике - как к социальным («приемлемость кандидатами»), так и экономическим притязаниям предприятия («практичность»). Следовательно, тестирование является достаточно подвижным методом, способным в условиях жесткой рыночной конкуренции быть более целесообразным для предприятия- работодателя и, выполняя роль селективного инструмента, отслеживать изменения в поведении и отношении к отбору «нового поколения» кандидатов.

В-четвергых, согласно практике тестирования, метод используется для внешнего отбора. При общем тренде фактической частотности применения: личностные -» производительные -» интеллектуальные, в каждой из стран сложилось различное отношение работодателей к тактике реализации метода при найме. Во Франции, как и Германии, психологические тесты актуальны для тех категорий кандидатов, решающим элементом в профиле пригодности которых является потенциал развития (ученики, стажеры), а также особые мыслительные способности или личностные качества (менеджеры). На предприятиях Испании при значительном влиянии результатов тестирования на решение о приеме на работу особое предпочтение отдается личностным тестам, которые используются для селекции всех видов обученных кандидатов, достигая максимума (93%) при найме руководителей. Менее значимыми оказались тесты производительности, хотя в своей «нише» - ученики в торгово-коммерческой сфере и ученики-техники - их применение характеризовалось 67% и 63% соответственно, и личностные тесты («ниша» - менеджеры, 73%). В Англии при внедрении тестов 84% опрошенных фирм показывают дифференцированное отношение к методу в зависимости от статуса вакансии: сфера личностных тестов ограничивается по существу отбором руководителей и стажеров, тестов производительности - учениками, стажерами и квалифицированными рабочими, тестов на интеллект (наименее актуальных) - сужается до одной категории - стажеров. В странах Бенилюкса при главенствующей роли тестов производительности другие применяются в меньшей мере. Это означает, что модели отбора с помощью тестовых методов помимо статуса вакансии определяются также национальными факторами.

В-пятых, специфика метода такова, что его применение возможно только в том случае, если отбором качественных тестов, организацией тестовых ситуаций, проведением тестирования и оцениванием его результатов будут заниматься на предприятии специалисты-психологи.

В-шестых, в практике деятельности ряда предприятий при отборе кандидатов используются экзаменационные методы, в некоторой степени схожие с тестами, ио ими не являющиеся (например арифметические задачи, упражнения на правописание, вопросы на общие знания и т.п. для претецдентов-учеников). Подмена метода не способствует повышению имиджа тестирования у нанимающихся, кроме того, привычная экзаменовка не гарантирует той объективности результатов, которую предполагает тест.

В-седьмых, издержки на тестирование оправдываются при большом числе кандидатов и гомогенном профиле требований к ним.

В-восьмых, поскольку тест чаще всего предполагает вхождение в искусственную ситуацию, которую оппоненты квалифицируют как «выдуманная реаль ность» (на практике такое «вхождение» тем лучше, чем выше интеллектуальный уровень кандидата), то есть основание предполагать, что наиболее значимой нишей метода являются нанимающиеся на должности менеджеров всех уровней, а также учеников: от их базового интеллекта зависит прогнозирование дальнейших успехов. «Тотальное» тестирование будет в большей степени целесообразным и эффективным, если кандидаты знакомы с этим селективным инструментом со школы, «привыкли» к его специфической «полуконтактности» и тем снизили порог страха как одной из весомых помех достижению оптимальных результатов.

Очень часто приходится сталкиваться с вопросом «Что автоматизировать в первую очередь?» Автоматизация не делается ради автоматизации: хочется видеть результат процесса, который давал бы положительный ROI (подробнее о расчете ROI можно прочитать ).

Почему важно использовать автоматизацию?

Принято считать, что автоматизация тестирования действует как инструмент поддержки ручного тестирования, но на самом деле важно понять, что автоматизация – это наилучший способ не просто сэкономить время, но и повысить эффективность, широту охвата и точность тестирования, ведь повторяющиеся задачи в условиях ручного подхода подвергаются риску человеческих ошибок. Автоматизация не превосходит и не заменяет ручное тестирование, но дополняет его. Подобно управлению тестированием автоматизация также нуждается в разработке стратегии с надлежащим планированием, мониторингом и контролем. Автоматизаторы не только изучают новые способы автоматизации, но и принимают много продуманных решений. Автоматизация при правильной реализации может стать преимуществом для команды, проекта и организации.
Существует много преимуществ автоматизации, мы упомянем следующие:

  • ускоряет выполнение обычных задач, таких как дымовые и регрессионные тесты;
  • помогает при подготовке тестовых данных;
  • оптимизирует выполнение тестовых примеров, связанных со сложной бизнес-логикой;
  • облегчает проведение кроссплатформенных тест-кейсов (например, при проверке разных ОС, браузеров и т.д.);
  • отлично подходит для выполнения тест-кейсов, которые трудно или даже невозможно выполнить вручную;
  • хорошо помогает в тех случаях, когда количество итераций при выполнении заранее неизвестно.

При этом не стоит забывать, что автоматизировать весь процесс тестирования программного обеспечения сложно и экономически неэффективно как из-за дороговизны инструментов тестирования, так и из-за вероятности нестабильного характера определенных разделов приложения. Ситуации на проекте сильно влияет на выбор области для автоматизации (будь то автоматизация тестов для регресса или автоматизация, которая покажет узкие места в частых сборках). Описывая все возможные варианты, мы рискуем получить целую книгу, а потому рассмотрим лишь наиболее часто встречающуюся ситуацию: необходимо автоматизировать набор регрессии.

Итак, каковы критерии выбора тест-кейсов для автоматизации?

Одна из самых частых ошибок, которые делают тестировщики, – выбор неправильных тестов для автоматизации. Нужно внимательно проанализировать и наметить кандидатов для автоматизации с учетом наиболее важного фактора, а именно ROI; другими словами, необходимо выяснить способы получения более высокой и положительной ROI. Для этого придется предпринять ряд действий:

  • определить частоту выполнения тестового примера (запускают его для каждой новой сборки или один раз, но с большим объемом ввода?);
  • выяснить, является тест-кейс критичным для бизнеса или охватывает полный сквозной сценарий;
  • убедиться, что анализ результатов автотеста не будет превышать время, которое затрачивается при ручном тестировании (в противном случае он потеряет свою актуальность для автоматизации);
  • учесть вероятность обнаружения ошибок (ввести тесты, которые чаще всего показывают ошибки и слабые места);
  • понять, может ли тест стать блокирующим для важной функции или функциональности, которая имеет решающее значение для бизнеса.

Какие типы тестов следует исключать из тестирования автоматизации?

Перечислим случаи, при которых тесты-кейсы нужно отфильтровать от автоматизации:

  • тесты юзабилити, требующие ручного вмешательства для проверки ошибок или отклонения от ожидаемого поведения;
  • тестовые примеры, включающие в себя установку или не нуждающиеся в повторном исполнении функции (тем не менее, вы должны автоматизировать тесты, предполагающие объемные входные данные);
  • избегайте автоматизировать тесты, которые могут привести к непредсказуемым результатам (например, новый функционал, временные тесты, проверка даты истечения срока действия);
  • UX-тесты, которые включают проверку повторной калибровки объектов на разных размерах экрана.

Что дальше?

Исходя из вышеперечисленных факторов отбора, мы получим сценарии, которые будут участвовать в отборе для автоматизации.
Следующим шагом будет разбиение тестируемого приложения на модули. Для каждого модуля анализируем и идентифицируем тест-кейсы, которые будут выполняться с различным набором данных, на различных средах (ОС/Браузер) и со сложной бизнес-логикой, используют большой объем данных (в том числе и специальных) и применяются различными пользователями.

Рассмотрим процесс на примере. У нас есть модуль с созданием заявок в системе, для которого мы отбираем тест-кейсы, участвующие в процессе создания заявки. После того, как все тесты выписаны, мы отмечаем, выполняется ли хотя бы одно из условий определенное нами выше (рис.1).

По клику на картинку откроется полная версия.
Y – условие выполняется
N – Условие не выполняется
Таким образом, мы получаем 3 тест-кейса, которые можно начать автоматизировать, и 2 тест-кейса, не требующих автоматизации. Мы выполнили самую важную задачу и добрую половину работы: беспорядок новой темы превращается в подробный план того, что нужно сделать.

Вывод


Чаще всего мы предпочитаем автоматизировать набор регрессии, поскольку он содержит большее количество тестовых примеров, а его функционал уже стабилен (то есть, не меняется от сборки к сборке). В этом случае мы можем разбить регрессионные наборы на модули и принять решение о запуске соответствующего пакета в соответствии с требованиями к выпуску.
Вместо автоматизации всего набора мы выбираем фазовую автоматизацию. Другими словами, мы следуем прототипу модели для разработки пакета автоматизации.

Итак, создавайте структуру или фреймворк с реализацией меньшего количества тестовых примеров, а затем улучшайте его, добавляя все больше примеров.

Любите тестировщика в себе, а не себя в тестировании!

Первый в истории домашний тест на беременность был разработан в 1971 году, и результат его можно было ожидать лишь спустя 2-3 часа. Но наука не стоит на месте, и на сегодняшний день мы имеем широкий выбор тестов на беременность, отличающихся как удобством проведения тестирования, так и сроком результата и ценовой категорией.

Основными критериями по выбору теста у большинства женщин являются его надёжность, удобство, цена и быстрый результат. В случае, когда есть необходимость в приобретении быстрого теста на беременность, важно понимать, по каким критериям выбирать тест и на что ориентироваться, чтобы не ошибиться. Для этого стоит выяснить, каким образом работает тест, каков механизм определения беременности.

Все тесты на беременность распознают беременность путём определения уровня хорионического гонадотропина человека (ХГЧ) в моче. Хорионический гонадотропин начинает выделяться с момента, когда оплодотворённая яйцеклетка прикрепляется к стенке матки. Изначально показатели ХГЧ являются мизерными, но далее, начиная со второй и до пятой недели беременности, показатели ХГЧ удваиваются каждые 1,5 суток. Через пару недель от момента зачатия уровень ХГЧ в моче женщины может достигать 100 единиц.

Итак, в состав каждого теста на беременность входят специальные антитела к хорионическому гонадотропину, и при наличии гормона в моче происходит реакция, которая и вызывает окрашивание определённой зоны теста, чаще всего, полоски.

Большинство тестов на беременность могут определить её наличие с первого дня задержки менструации. Чувствительность таких тестов к ХГЧ составляет 25 Мме/мл. Именно на чувствительность теста нужно обращать внимание тем женщинам, которые хотят узнать о наличии или отсутствии беременности как можно раньше. И если ждать две недели после дня возможного зачатия не представляется возможным, нужно выбирать те тесты, чувствительность которых составляет менее 25 Мме/мл.

Быстрые тесты, которые также называют экспресс — тестами могут говорить о произошедшем зачатии с момента, когда содержание ХГЧ в моче женщины едва превысило 10 Мме/мл, то есть после 7-8 дня после предполагаемого зачатия. Чувствительность теста должна быть указана на упаковке изделия, более чувствительные тесты могут стоить дороже, чем тесты с меньшей степенью чувствительности.

Кроме того, что при выборе быстрого теста важно обращать внимание на его чувствительность, есть ещё несколько рекомендаций по ранней диагностике беременности. Во-первых, тест нужно проводить утром, используя первую утреннюю мочу. Считается, что именно в утренней моче самая высокая концентрация хорионического гонадотропина человека. Во-вторых, планшетные и струйные тесты на беременность считаются более надёжными, чем тесты-полоски, поэтому лучше обратить внимание на них.

Чтобы быть уверенной в результате, можно приобрести и пройти тестирование, используя несколько тестов от разных производителей. Если результаты теста заставляют усомниться в их достоверности (еле заметная вторая полоска, вторая полоска, которая проявилась очень поздно и др.), можно пройти более точное диагностирование, а именно сдать в лаборатории анализ крови на хорионический гонадотропин. В настоящее время результат такого тестирования возможно получить на электронную почту или с помощью смс-сообщения уже через несколько часов после анализа.

С помощью анализа крови на ХГЧ о наступившей беременности возможно узнать уже через несколько дней после зачатия, но более информативным результат будет спустя 9-11 дней после дня возможного зачатия. Пусть результат теста не разочарует вас и оправдает ожидания.

К тестам предъявляются определённые требования. Основными из них являются валидность, надёжность, наличие тестовых норм, социальная адаптация тестовых методик.

Определяя одинаковые для всех психологических методов диагностики пригодности критерии, Г.Шанц, например, не выделяет особо тестирование, считая, что оно - по показателям качества - должно вписываться в сравнимый- пятиэлементный - ряд других инструментов отбора:

  • - надежность;
  • - валидность;
  • - объективность;
  • - экономичность;
  • - полезность .

Валидность (англ. valid - действительный, пригодный, имеющий силу) - один из важнейших критериев качества теста, означающий пригодность теста для измерения того, что он по замыслу должен измерять; или иначе: соответствие тестовой методики измеряемому концепту. Если, например, проводится тестирование испытуемых на определение их интеллектуальных способностей, то вряд ли целесообразно с помощью одного и того же теста оценивать еще и типы их темперамента. Проверка теста на валидность включает ряд процедур, главными из которых являются процедуры валидизации (валидации). Определяется валидация посредством корреляции результатов тестирования с успешностью выполнения соответствующей деятельности. К примеру, если с группой испытуемых проведено тестирование на определение общих способностей, то процесс валидации можно представить как установление корреляционных связей полученных данных тестирования с результатами обследования этих же испытуемых на предмет выявления общих способностей по другим проверенным и надежным методикам. Валидность считается достаточно высокой, если коэффициент корреляции будет более 0,6. При значении коэффициента корреляции 0,45-0,65 валидность считается вполне удовлетворительной .

Надёжность - один из важных критериев его качества, относящегося к точности психологических измерений. Чем выше надежность теста, тем относительно свободнее он от погрешностей измерений. Надежность теста рассматривается как устойчивость (стабильность) результатов при повторном тестировании на той же выборке испытуемых. Повторное тестирование обычно проводится через две недели после первого тестирования. Считается, что при коэффициенте корреляции более 0,75 уровень надежности теста вполне приемлем.

Каждый тест следует сопровождать сведениями о его надёжности. Сообщаемая мера надёжности характеризует тест только в случае его проведения в стандартных условиях и с людьми, имеющими сходство с теми, кто входил в состав нормативной выработки. Следовательно, при описании теста нужно точно указывать и характеристики этой выборки, вместе с типом измеренной на ней надёжности.

Теоретически, разновидностей тестовой надёжности может быть очень много, однако практическое применение находят лишь несколько типов надёжности. Поскольку все типы надёжности касаются степени согласованности или соответствия между двумя независимо полученными множествами показателей, их все можно выразить в виде коэффициента корреляции, который способствует измерению надёжности теста.

Существуют приёмы проверки надёжности тестов. Они включают повторное тестирование, параллельное тестирование, приём раздельного коррелирования (внутренняя корреляция высказываний), использование дисперсионного анализа, факторный анализ .

Выделяют следующие типы надёжности:

ретестовая надёжность (самый очевидный и понятный метод определения надёжности результатов теста - его повторное проведение;

надёжность взаимозаменяемых форм (один из способов избежать трудностей, с которыми приходится сталкиваться при определении ретестовой надёжности, - использование взаимозаменяемых форм теста);

надёжность эквивалентных половин теста (меру надёжности можно определить и на основании однократного применения единственной формы теста, пользуясь для этого различными процедурами расщепления теста на две равноценные половины) и др. .

Надежность (достоверность) тестирования формально выводится из аксиом классической теории тестов. Исходным пунктом является предположение, что дисперсия наблюдаемых значений суммарно составлена из дисперсии истинных значений и дисперсии ошибок:

Достоверность, соответственно, равна доли истинной дисперсии от общей дисперсии. Если общая дисперсия безошибочна, достоверность достигает максимального значения 1. При практическом нахождении достоверности появляется проблема невозможности эмпирически обнаружить оценки, которые встречаются в вышеприведенных равенствах. Для возможности определения величины ошибки и этим - величины истинной оценки как вспомогательная конструкция вводится понятие параллельного, или эквивалентного измерения. Два измерения называются параллельными, если их истинное значение и дисперсия значений ошибок одинаковы, отсюда также следует, что при параллельных измерениях ожидаемые оценки(среднее значение) и дисперсия наблюдаемых оценок одинаковы. С помощью этого предположения можно показать, что соотношение между двумя параллельными измерениями (rx, y) как раз соответствует определению достоверности, а именно равно отношению истинной дисперсии к наблюдаемой:

Таким образом, достоверность инструмента теста можно определить в обход двух параллельных измерений.

Формулу 3 можно преобразовать:

Используя формулу (1) получаем:

Значение, выведенное из равенства достоверности, называется стандартной ошибкой текста. Она выявляет среднее отклонение ошибки от истинного значения .

Проблемы валидности и надежности тесно взаимосвязаны. Однако валидность рассчитывается относительно объекта исследования (применительно к испытуемым), надежность же - относительно предмета психодиагностического исследования (психологических свойств или черт личности).

Надежность не обязательно предполагает валидность. Она является необходимым, но недостаточным условием валидности. Справедливо следующее неравенство: валидность надежность. Это означает, что валидность теста не может превышать его надежность .

Под объективностью понимается степень, в которой результаты тестирования не зависят от проверяющего. Объективность налицо, если разные исследователи одного проверяемого пришли к идентичным результатам .

Норма теста определяется в результате тестирования большой выборки испытуемых определенного возраста и пола с последующим усреднением полученных oценок и дифференциацией по ряду релевантных показателей. Согласно Р.С Немову, норма теста - это средний уровень развития большой совокупности людей, похожих на данного испытуемого по ряду социально-демографических характеристик.

Понятие «норма теста» связано с понятием «репрезентативность». Репрезентативность (франц. representatif - показательный) - свойство выборочной совокупности представлять характеристики генеральной совокупности. Репрезентативность означает: с некоторой наперёд заданной или определённой статистической погрешностью можно считать, что представляемое в выборочной совокупности распределение изучаемых признаков соответствует их реальному распределению .

Для установления нормы теста и стандартизации тестовой методики требуется предварительно определить обоснованность выборки и провести статистические расчеты по определению их репрезентативности. Операции по анализу и расчету тестовых норм (а следовательно, и проверке их на репрезентативность) проводятся с использованием математических методов (в основном на компьютере). В случае негативных результатов (отсутствия устойчивых тестовых норм) прибегают к обследованию более широкой выборки или отказываются от плана использования данного теста.

Всякие нормы со временем, как правило, изменяются в соответствии с изменяющимися условиями социально-культурной жизнедеятельности людей. Р.С Немов отмечает, что «нормы интеллектуального развития, установленные в первой четверти нашего века, не подходят для его последней четверти, так как за это время уровень развития мышления людей значительно вырос». В соответствии с установленным среди психологов правилом один раз в пять лет нормы теста, особенно интеллектуального, должны пересматриваться.

Валидность, надежность, соответствие тестовым нормам (репрезентативность) являются основными требованиями психометрии. Их объективный характер, возможность перепроверки результатов тестирования являются гарантией достоверной психологической информации.

Социальная адаптация тестовых методик - данное требование выдвинуто сравнительно недавно. И связано это с необходимостью адаптации тестовых методик, заимствованных из других стран, к новым региональным и социальным условиям. Р.С Немов по этому поводу пишет: "Если, например, созданный в Европе тест интеллекта впервые применяется в стране, где доминирующим в структуре интеллекта является не словесно-логическое, а образное или практическое мышление, то он обязательно должен быть социокультурно адаптирован. В противном случае, применяя его в первоначальном, неадаптированном варианте, мы, скорее всего, получим низкие результаты, которые не будут соответствовать уровню развития мышления у жителей данной страны».

Работа по переоценке тестовых методик по своему объему фактически соответствует конструированию оригинальной методики. « С этой точки зрения заимствование зарубежных общедиагностических тестов способностей, черт характера, интересов и т.п. вовсе не оказывается кратчайшим путем к психодиагностике. Этот путь кажется короче только тем, кто сознательно или по неведению пренебрегает принципами психометрики» . Таким образом, применение тестирования в исследовании систем управления является достаточно важным моментом.

Тестирование - исследование высказываний, позволяющих получить объективное отражение свойств и количественных параметров деятельности людей. Тест - система высказываний или оценок по комплексу вопросов, в которых закодирована какая-либо проблема.

В управлении при помощи тестирования можно исследовать проблемы использования ресурсов (в частности, важнейшего из них - времени), уровень квалификации персонала, распределение функций управления, сочетание формального и неформального управления, стиль управления и пр. Тестирование составляет важную часть полной программы управления трудовыми ресурсами. Наиболее полно сущность тестов раскрывается в их классификации. Большую роль в исследовании при помощи тестирования играет конструкция теста. Тест включает набор высказываний и оценок по определённой проблеме или ситуации. При составлении теста необходимо учитывать его основные характеристики: валидность, надежность, соответствие тестовым нормам.

К побочным критериям качества тестов относятся:

Нормируемость;

Сравнимость;

Целесообразность(полезность);




Катерина протягом тривалого часу працювала в Україні та Новій Зеландії. Вона – QA з понад десятьма роками досвіду в ІТ та сертифікована Full Advanced ISTQB. Одним із напрямів її роботи є покращення процесів тестування в командах. Тож ми запитали в неї, які ключові проблеми трапляються в роботі команди та як їх можна уникнути чи мінімізувати.


Найперша й найголовніша проблема в тому, що люди не вміють спілкуватися. Я проаналізувала матеріали декількох конференцій та мітапів, аби зрозуміти, що ж нам заважає й що необхідно змінити. Так з’ясувалося, що найчастіше – це проблеми спілкування. Не нестача певних технічних знань, не те, що люди не знають мови програмування тощо, а саме спілкування.

Непорозуміння, невміння домовлятися з девелоперами, із замовниками, між собою спричинюють серйозні проблеми в командах. На жаль, у нас це відбувається скрізь. Це специфіка не тільки ІТ-сфери, а загальна проблема будь-якої спільноти, будь-якої команди. Це пов’язано з дуже багатьма речами. Одна з найважливіших – це відсутність довіри між членами команди. Тобто найбільші проблеми в спілкуванні трапляються, коли люди одне одному не довіряють і їм потрібно якось себе захищати. Тоді затягується процес, збільшуються об’єми документації та бюрократія. Численні ж дослідження та курси для менеджерів доводять: коли в колективі високий ступінь довіри, працювати набагато краще. Процеси забирають менше часу.

Друга дуже серйозна проблема (і вона не технічна, знову-таки) – люди бояться робити помилки. Їх жахає те, які наслідки для них можуть мати ці помилки. Деякі люди бояться розповідати про свої проблеми команді або керівникові та намагаються все вирішити самотужки. Це призводить до того, що проблеми лишаються прихованими майже до точки дедлайна. А коли вони таки виринають на поверхню, то щось вдіяти вже важко.

Саме тому, коли в команді високий ступінь довіри, люди не бояться помилятися та відповідати за свої помилки. Відтак гарному менеджеру в цій команді лишається тільки мінімізувати наслідки цих помилок. У мене є дуже гарний приклад, як саме це працює в нашій компанії. Коли я тільки перейшла в PricewaterhouseCoopers (PwC), у нас був дуже специфічний керівник відділу: для нього завжди було дві точки зору – його та неправильна. І хоч загалом людина була непогана, але дуже вперта. Ступінь довіри в команді був не надто високий, а от people turn over якраз навпаки – люди йшли з команди часто. Після зміни начальства нас зібрали і сказали: «Ми трансформуємося, наше завдання – трансформувати бізнес. Але ми не можемо трансформувати бізнес, не трансформувавши водночас себе. А щоби трансформувати себе, ми маємо вчитися, ми повинні помилятися. Інакше нічого не вийде».

Третя проблема – невміння давати фідбек. Коли ти даєш фідбек, то найперше, що ти повинен розуміти, – яка мета цього фідбеку. Мета фідбеку – це підтримати «правильну» поведінку чи змінити «неправильну».

На жаль, люди дуже рідко надають фідбек на «правильну» поведінку та на «хороші вчинки». Якщо хтось щось зробив добре, то його треба похвалити, треба сказати «ти дуже добре це зробив, дякую, це мені допомогло», можливо, навіть написати листа вдячності. Однак (незрозуміло чому) у нас так не заведено. Якщо ти робиш щось добре, то це просто сприймається як належне. Але коли ти десь схибиш, тобі скажуть все, що про тебе думають. Тоді в людини виникає думка: «Ага, я, виходить, нічого гарного не роблю, я тільки помиляюся, я поганий». Тому, по-перше, фідбек мусить мати коригувальний вплив. Коли ти даєш коригувальний фідбек, треба розуміти, що людина не є поганою. Можливо, щось було зроблено не так, але людина не погана сама по собі. Це як із дітьми: коли дитина вчинить погано, то треба пояснити, що погана не вона, а лише її вчинок. Усі хороші люди можуть помилитися і зробити щось не дуже правильне. Але разом можна виправити це.

Про фідбеки дуже гарно розповідається на manager-tolls.com . Там є хороші безплатні подкасти про стосунки, про те, як їх налагоджувати. Я дуже раджу всім послухати про фідбеки. Там йдеться про те, як їх правильно структурувати та давати. Дуже гарна штука, яка дійсно працює.

З усього вищезгаданого випливає четверта проблема – невміння людей пояснити свою точку зору. Один із прикладів – це різниця контекстів: якщо ти зараз у певному контексті, то це не означає, що всі автоматично мають розуміти цей контекст. Саме тому, коли ти починаєш щось пояснювати (особливо коли ти захоплюєшся), треба обов’язково перевіряти, чи співрозмовники тебе зрозуміли. Треба не забувати наводити приклади.

Ще один дуже важливий аспект цієї проблеми – це неефективні мітинги, неефективні зустрічі. Знову нетехнічна проблема. Я впевнена, що будь-яку технічну проблему можна розв’язати, коли ти працюєш разом із командою: чи то написання автотестів, чи розробка якоїсь дуже хитрої стратегії тестування… – немає жодної різниці. Коли проблему вирішує команда, це вже не проблема, а лише невеличкий технічний челендж.

Що ж до неефективних мітингів – це дуже важка річ, яка з’їдає надто багато часу. Люди, коли там сидять, не завжди розуміють, що вони там роблять. Але чомусь вважається, якщо вони були на тому мітингу, з усім були згодні та не ставили жодних питань, то вони все зрозуміли і все буде добре. Ні.

На тому ж manager-tolls.com є гарна добірка подкастів про ефективні мітинги. Я у своїй компанії нещодавно робила невеличкий тренінг про ефективність мітингів. Там я проводила експеримент про те, що на мітингах треба слухати й аналізувати. Найперше я розбила групу на 4 підгрупи:

Першій групі було поставлено просте питання. В одного з членів команди були ручка та аркуш паперу, куди він міг записувати. У другої групи допоміжних матеріалів не було. Ми обговорювали питання, що вимагало запам’ятовування деталей. Ми провели опитування: інтервʼюери мали розповісти мені те, що їм розповіли їхні партнери. Звісно, ті, хто записував, розповіли більше, ніж ті, хто не записував.

Але далі експеримент був ще цікавішим. Це інші дві групи. Третій групі дозволили записувати чи не записувати – за бажанням інтервʼюера. У четвертій групі цій людині дозволено було гортати FB чи телефон під час питань. Запитання були дуже прості. Типу «Що позавчора ви їли на вечерю?», «Де ви провели вихідні?» тощо. У тих, хто не відволікався на телефон, середній відгук був 5-10 секунд. Але в тих, хто відволікався, відгук був майже 30-40 секунд. Лише порівняйте – 5 секунд і 30 секунд!

Це пов’язано з тим, як працює наш мозок. Це називається behavior economics. У нашого мозку дуже мало ресурсу й коли ти його витрачаєш на різні дрібниці (… як пам’ять процесора чи ЦПУ), то в тебе залишається менше ресурсу на обробку важливих задач. Тож коли ти відволікаєшся, аби відповісти на мейл, почитати FB і т. ін, то уваги й ресурсів твого «процесора» не вистачає на важливу задачу. Відтак дуже важливо, щоби на мітингах не було телефонів, а лептопи були тільки для нотаток. І тут важливо зазначити: краще мати на лептопі програмку скетчінгу, щоби писати прямо на екрані як на папері. Якщо ж у лептопі немає такої крутої опції, то звичайний аркуш паперу завжди згодиться. Адже цікаве свідчення: коли ми записуємо інформацію, ми її запам’ятовуємо краще, бо в нас працює інший відділ мозку.

П’ята проблема так само належить до так званих софт скілс. Вона теж пов’язана з контекстом, але трохи в іншому сенсі. Часто люди намагаються робити все так, як раніше, і не беруть до уваги певний локальний контекст: навички конкретної команди, як побудовано спілкування з девелоперами, бізнес-аналітиками, замовником, з ким завгодно… які є доступні технології, і найголовніше – якою є мета.

Порівняймо: сьогодні ви розробляєте веб-сайт для того, щоби випустити якийсь новий вид супер-ламп і їх треба швидко продати. А назавтра ви, наприклад, розробляєте медичне програмне забезпечення, яке буде відповідати за операцію на серці… Мета та підходи будуть різними. Це головне. Коли ти починаєш працювати, треба розуміти, яка в тебе мета, та її постійно перевіряти: чи вона не змінилася, чи ви працюєте так, аби її досягти. Це, знов-таки, стосується не лише програмістів чи тестувальників. Це застосовно взагалі до всього. Треба чітко обговорювати й розуміти цілі: важливо, аби вони були спільними. Бо в команді дуже часто буває таке, що в усіх вони різні. Хтось із девелоперів прийшов вивчити нові підходи до програмування, хтось прийшов відсидіти свої 8 годин та щось за це отримати… А мета має бути одна – зробити класний продукт, який буде допомагати людям.

Коли в тебе є мета, ти і працюєш краще, бо розумієш, чого тобі треба досягти. Ти ліпше розумієш, як тобі співпрацювати з іншими. Ти можеш чітко пояснити, що тобі потрібно від цих інших. Як бачимо, усе переплітається: якщо у вас усіх одна мета, вам простіше працювати в команді, ви довіряєте одне одному, ваші мітинги стають ефективними, ви в одному контексті. Тож виходить, що все починається з визначення спільної мети. А від неї вже залежить, як працювати над рештою складників. Мету я невипадково лишила наостанок, адже треба було до цього дійти. Як говорила моя вчителька англійської: the last but not the least. Тобто остання лише в списку, але не на останньому місці.



Рекомендуем почитать

Наверх