Datasheet for Dataset

По методологии Gebru et al. (2021) для прозрачной документации наборов данных.

Мотивация

Для какой цели был создан набор данных?

AirData.kz был создан для восполнения критического пробела в общедоступных данных о качестве воздуха в Казахстане. Данные государственного мониторинга были разрозненны между ведомствами, представлены в несогласованных форматах и единицах измерения, зачастую недоступны для исследователей и общественности. Исторические показания регулярно удалялись после короткого срока хранения. Набор данных создан для сбора, гармонизации, очистки и постоянного архивирования измерений качества воздуха из всех доступных источников — с открытым и бесплатным доступом для исследований, журналистики, анализа общественного здоровья и гражданской осведомлённости.

Кто создал набор данных и от имени какой организации?

Набор данных создан и поддерживается волонтёрами из Global Shapers Almaty Hub — инициативы Всемирного экономического форума. AirData.kz работает как некоммерческий проект открытых данных без корпоративной аффилиации.

Кто финансировал создание набора данных?

Проект полностью финансируется волонтёрами. Расходы на инфраструктуру (сервер, домен, доступ к API) покрываются за счёт личных взносов и разовых пожертвований. Гранты, корпоративные спонсоры и государственное финансирование отсутствуют.

Состав

Что представляют собой экземпляры данных?

Каждый экземпляр — это одно измерение качества воздуха или метеорологический параметр: один показатель, на одной станции, в один момент времени. Например: «PM2.5 = 45,2 мкг/м³ на станции KGMT-040 15.01.2024 в 14:00 UTC+6».

Сколько всего экземпляров данных?

По состоянию на март 2026 года набор данных содержит приблизительно:

45+ миллионов необработанных показаний КГМТ (государственная сеть)
2,3 миллиона показаний WAQI (международный агрегатор)
60 000+ показаний OpenAQ
664 000+ очищенных часовых показаний PM2.5 по Алматы
1 094 станции мониторинга в реестре станций

Набор данных непрерывно растёт — новые данные поступают каждые 20 минут из активных источников.

Набор данных содержит все возможные экземпляры или является выборкой?

Набор данных стремится быть полной переписью, а не выборкой — мы собираем каждое доступное измерение из каждого источника. Однако он неизбежно неполон: государственные станции простаивают, датчики отключаются, часть исторических данных была утеряна до начала архивирования в 2019 году. Охват различается по городам и периодам. Алматы имеет наибольшую плотность покрытия (5 источников, 200+ станций). Другие города зависят преимущественно от государственных станций КГМТ.

Из чего состоит каждый экземпляр данных?

Каждая запись измерения содержит:

Идентификатор станции и географические координаты (широта, долгота)
Временная метка (UTC и местный часовой пояс)
Код параметра (напр., pm25, no2, co, temperature)
Измеренное значение в унифицированных единицах (мкг/м³ для концентраций)
Исходное необработанное значение и исходная единица измерения (для проверяемости)
Идентификатор источника данных (kgmt, airgradient, openaq, waqi, airkaz)
Флаг контроля качества (необработанный, чистый, подозрительный, невалидный)
Код причины QC при наличии флага (напр., spike, stuck_sensor, cluster_outlier)

Есть ли метка или целевая переменная для каждого экземпляра?

Нет. Это наблюдательный набор данных, а не размеченный для обучения с учителем. Однако каждое измерение содержит флаг контроля качества (чистый / подозрительный / невалидный), присвоенный автоматизированным конвейером очистки, который может использоваться как метка для исследований качества данных.

Отсутствует ли информация в отдельных экземплярах?

Да. Типичные причины отсутствия данных: простой датчиков (нет записи), сбои сети при передаче данных, работа государственных станций только в рабочее время (ранние данные КГМТ), параметры, измеряемые не всеми станциями (напр., H₂S и SO₂ измеряет только КГМТ, CO₂ и TVOC — только AirGradient). Пропущенные значения представлены как NULL — мы никогда не интерполируем и не восстанавливаем данные.

Есть ли ошибки, источники шума или избыточность?

Да, подробно задокументированные. Известные проблемы: дрейф и ошибки калибровки датчиков (особенно бюджетных), зависание датчиков с повторением одного значения часами, внезапные всплески от электромагнитных помех, смена единиц измерения государственными станциями без уведомления, перекрытие данных между источниками (напр., станции КГМТ также присутствуют в фидах WAQI). Наш 7-этапный конвейер очистки специально нацелен на эти проблемы, и все флаги сохраняются в публикуемых данных.

Является ли набор данных самодостаточным?

Да. Публикуемый набор данных (файлы CSV, Parquet, GeoJSON) полностью самодостаточен и не требует внешних ресурсов. Реестр станций включает все необходимые метаданные (координаты, источник, оператор). Исходные данные из API архивированы в нашей базе данных — публикуемые файлы не зависят от доступности этих API.

Содержит ли набор данных конфиденциальную информацию?

Нет. Все данные представляют собой экологические измерения с фиксированных станций мониторинга в общедоступных местах. Персональные данные не собираются. Координаты станций являются публичной инфраструктурной информацией.

Содержит ли набор данных оскорбительный контент?

Нет. Набор данных содержит только числовые измерения и метаданные станций.

Процесс сбора

Как были получены данные?

Данные напрямую наблюдаются физическими приборами (аппаратные датчики и референсные мониторы). Они получены через автоматический опрос API пяти источников: КазГидроМет (государственный REST API), AirGradient (публичный API датчиков), OpenAQ (API открытых данных), WAQI/aqicn.org (публичные фиды), AirKaz (исторические CSV-архивы). Кроме того, исторические государственные данные (2018–2022) были извлечены из Excel-таблиц, предоставленных непосредственно КазГидроМетом по официальному соглашению об обмене данными.

Какие механизмы использовались для сбора данных?

Механизмы сбора по источникам:

КГМТ — референсные анализаторы (BAM, хемилюминесценция, УФ-флуоресценция) в климатически контролируемых станциях. Данные передаются на центральный сервер, доступ через REST API.
AirGradient — бюджетные оптические счётчики частиц (PMS5003) с датчиками CO₂ (SenseAir S8) и TVOC. Данные загружаются через WiFi в облачный API AirGradient.
OpenAQ — платформа агрегации данных из государственных и исследовательских сетей. Мы опрашиваем их API v3.
WAQI — платформа агрегации на основе государственных фидов. Мы опрашиваем их JSON API.
AirKaz — историческая сеть бюджетных датчиков (2017–2020) с ежедневным экспортом CSV.

Кто участвовал в сборе данных?

Первичный сбор данных выполняется эксплуатирующими организациями (КазГидроМет, владельцы датчиков AirGradient и др.). Роль AirData.kz — агрегация, а не первичный сбор. Наш автоматизированный конвейер получает, гармонизирует и архивирует данные. Разработка и обслуживание конвейера осуществляется волонтёрами проекта.

За какой период были собраны данные?

Самые ранние записи: март 2017 (датчики PM2.5 AirKaz в Алматы). Данные КГМТ: июнь 2020 — настоящее время (с дозагрузкой Excel-данных с 2018 года). AirGradient: непрерывный опрос в реальном времени. OpenAQ: с 2024 года. WAQI: с октября 2025 года. Сбор непрерывный — новые данные поступают каждые 20 минут.

Предобработка, очистка и разметка

Проводилась ли предобработка/очистка данных?

Да, обширная. Конвейер очистки включает 7 этапов для всех параметров:

S1: Фильтрация отрицательных и NULL-значений — на этапе вставки в базу данных
S2: Жёсткое ограничение — физически невозможные значения помечаются как невалидные (напр., PM2.5 > 1 000 мкг/м³)
S3a: Обнаружение постоянных станций — станции, выдающие одинаковые значения ≥70% месяца
S3b: Неправдоподобный базовый уровень — месячные медианы станций, превышающие реалистичные пороги
S3c: Обнаружение мёртвых датчиков — станции с >80% нулевых значений
S4: Обнаружение статистических выбросов — робастные Z-оценки (на основе MAD) с частичным пулингом
S5: Обнаружение одиночных всплесков — изолированные скачки >10× от соседних показаний
S6: Обнаружение зависших датчиков — идентичные последовательные значения ≥6 часов
S7: Обнаружение кластерных выбросов — суточные средние станций >3 робастных Z от медианы географического кластера

Также проводится гармонизация единиц: КГМТ мг/м³ → мкг/м³ (×1000), WAQI индекс AQI → мкг/м³ (обратное преобразование по точкам излома EPA), КГМТ давление мм рт. ст. → гПа.

Были ли сохранены необработанные данные?

Да. Необработанные данные хранятся в точности как получены в выделенных таблицах Слоя 0 (по одной на источник). Каждое опубликованное измерение сохраняет связь с исходным источником, включая оригинальное значение и единицу измерения. Необработанные данные никогда не модифицируются.

Доступно ли программное обеспечение для очистки?

Да. Весь конвейер, включая все этапы очистки, является открытым исходным кодом и доступен в репозитории проекта на GitHub.

Использование

Использовался ли набор данных для каких-либо задач?

Да:

AirData-AI — инструмент аналитики на основе ИИ, отвечающий на вопросы о качестве воздуха на естественном языке
Тепловые карты-календари на airdata.kz, показывающие ежедневные уровни PM2.5
Калькулятор сигаретного эквивалента (методология Berkeley Earth) для повышения осведомлённости
Оценщик персонального воздействия на основе дневного распорядка
Внутренние исследования сезонных и географических закономерностей загрязнения воздуха

Для каких ещё задач может использоваться набор данных?

Эпидемиологические исследования связи качества воздуха со здоровьем. Анализ городского планирования и транспортной политики. Изучение климатических и погодных закономерностей. Исследования в области машинного обучения: обнаружение аномалий во временных рядах, объединение данных датчиков, прогнозирование качества воздуха. Журналистские расследования. Образование в области науки о данных, экологии и общественного здоровья.

Есть ли особенности состава или сбора, которые могут повлиять на использование?

Да. Пользователям следует учитывать: (1) Плотность станций значительно различается по городам — в Алматы 200+ станций, тогда как в малых городах может быть лишь 1–3. (2) Временное покрытие неравномерно — некоторые источники начали работу только в 2023–2025 годах. (3) Бюджетные датчики (AirGradient, AirKaz) имеют меньшую точность, чем государственные референсные мониторы. (4) Данные КГМТ до 2023 года были дозагружены из Excel-архивов с несогласованностями форматов. (5) Конвейер очистки помечает ~11% данных PM2.5 по Алматы как подозрительные или невалидные.

Есть ли задачи, для которых набор данных не должен использоваться?

Набор данных не следует использовать для: оповещений о чрезвычайных ситуациях в реальном времени (используйте официальные государственные источники), нормативного соответствия или судебных разбирательств (мы не являемся аккредитованной сетью мониторинга), индивидуальной оценки рисков для здоровья без профессиональной консультации, использования в качестве эталона для обучения моделей без понимания флагов QC и известных ограничений.

Распространение

Будет ли набор данных распространяться третьим лицам?

Да. Набор данных общедоступен для всех без ограничений. Он распространяется через сайт AirData.kz и репозиторий GitHub.

Как будет распространяться набор данных?

В нескольких форматах: сжатые CSV-файлы (по городам и параметрам), файлы Apache Parquet (для аналитики), GeoJSON (для картографии) и CSV реестра станций. Все файлы доступны для прямого скачивания с airdata.kz/data/ и из репозитория GitHub.

Будет ли набор данных распространяться по лицензии?

Набор данных публикуется на открытых условиях без ограничений на использование. Указание авторства приветствуется, но не обязательно. Исходные источники данных имеют собственные условия: данные КГМТ предоставляются по официальному соглашению с КазГидроМетом для исследовательского использования, данные AirGradient и OpenAQ открыты по их политикам, данные WAQI подчиняются их условиям использования.

Обслуживание

Кто обслуживает набор данных?

Волонтёрская команда AirData.kz при Global Shapers Almaty Hub.

Как связаться с обслуживающей стороной?

По электронной почте: airdatakz@gmail.com.

Будет ли набор данных обновляться?

Да, непрерывно. Новые данные поступают каждые 20 минут из активных источников. Суточные агрегации и проверки качества выполняются автоматически. Экспорт CSV/Parquet обновляется ежедневно. Реестр станций обновляется при подключении новых станций.

Будут ли доступны старые версии?

Исторические данные никогда не удаляются — набор данных только дополняется. Старые измерения остаются навсегда. Однако флаги качества могут обновляться при улучшении методологии очистки. Слой необработанных данных неизменяем.

Могут ли другие участвовать в развитии набора данных?

Да. Проект с открытым исходным кодом. Участники могут присылать pull-запросы для улучшения конвейера, предлагать новые источники данных или сообщать о проблемах качества через GitHub. Мы также приветствуем партнёрства с сетями мониторинга.

Цитирование

При использовании набора данных в исследованиях или публикациях, пожалуйста, укажите:

AirData.kz. Open Air Quality Dataset for Kazakhstan. Global Shapers Almaty Hub, 2019–настоящее время. Доступно по адресу: https://airdata.kz

Об этом документе

Этот datasheet составлен по методологии «Datasheets for Datasets», предложенной Gebru, T., Morgenstern, J., Vecchione, B., Vaughan, J.W., Wallach, H., Daumé III, H., и Crawford, K. (2021). Communications of the ACM, 64(12), 86–92.