Данные

Откуда они берутся, что с ними происходит и как их использовать.

Мы собираем данные о качестве воздуха из всех доступных источников по Казахстану — государственные станции, недорогие датчики, международные агрегаторы. Каждый источник передаёт данные по-своему: разные единицы, разные форматы, разный уровень надёжности.

Наша задача — объединить всё это, тщательно очистить и опубликовать единый набор данных, которому можно доверять. Вот как это работает.

Откуда берутся данные

Наши источники

Государственная сеть

КазГидроМет (КГМТ)

Официальная государственная сеть мониторинга, покрывающая весь Казахстан. Передаёт данные о PM2.5, PM10, NO2, SO2, CO, O3, H2S и метеоусловиях.

141+ станцийС 2018 годаВесь Казахстан

Недорогие датчики

AirGradient

Плотная сеть недорогих датчиков качества воздуха с высокочастотными измерениями PM, CO2, TVOC, температуры и влажности.

139 датчиковКаждые 5 минАлматы

Международный агрегатор

OpenAQ

Глобальная платформа открытых данных о качестве воздуха, собирающая измерения PM2.5 и PM10 от государственных и исследовательских мониторов.

200+ локацийС 2020 годаКазахстан

Международный агрегатор

WAQI / aqicn.org

Проект Мирового индекса качества воздуха, предоставляющий мультипараметрические данные включая PM2.5, PM10, NO2, SO2, CO, O3 и метеопараметры.

КЗ + Центральная АзияС 2023 годаМультипараметр.

Бюджетные сенсоры

AirKaz

Историческая сеть бюджетных PM2.5 датчиков по Алматы с суточными измерениями по городу и отдельным сенсорам.

41 сенсор2017–2020Алматы

Процесс

От датчика до открытых данных

Каждое измерение проходит один и тот же тщательный процесс, прежде чем попадёт к вам. Ничто не изменяется тихо — мы сохраняем оригинал и показываем нашу работу.

1

Сбор

Мы автоматически получаем данные из всех четырёх источников. Каждый ответ API сохраняется в точности как получен — оригинал никогда не изменяется. Если что-то пойдёт не так с одним источником, остальные продолжают работать.

2

Гармонизация

Разные источники используют разные единицы и форматы. Мы переводим всё в единый стандарт — все концентрации в микрограммах на кубический метр, все временные метки выровнены, все станции приведены к единому реестру. Оригинальные значения всегда сохраняются рядом с конвертированными.

3

Очистка

Здесь мы уделяем больше всего внимания. Каждое измерение проверяется на проблемы — невозможные значения, зависшие датчики, внезапные скачки, физически бессмысленные показания. Для PM2.5 мы проводим более глубокий статистический анализ. Каждая проблема отмечается открыто, ничего не удаляется тихо.

4

Валидация

Перед публикацией весь набор данных проходит финальный раунд проверки — автоматические проверки ищут всё, что мы могли пропустить. Если хоть одна проверка не пройдена, ничего не публикуется до решения проблемы. Мы лучше задержим публикацию, чем выпустим плохие данные.

5

Публикация

Только измерения, прошедшие все проверки, включаются в опубликованный набор данных. Результат доступен в открытых форматах — готовый к скачиванию, к использованию, с возможностью проследить каждое значение до исходного показания.

Качество данных

Почему этим данным можно доверять?

Мы знаем, что данные о качестве воздуха полезны только если им можно доверять. Датчики ломаются, показания скачут без причины, приборы зависают. Мы не делаем вид, что этого не происходит — вместо этого мы открыто с этим работаем:

4

Четыре уровня проверки качества — от базовых проверок в момент поступления данных до глубокого статистического анализа, выявляющего тонкие проблемы датчиков. Каждый уровень ловит то, что мог пропустить предыдущий.

Каждое измерение отмечено — чистое, подозрительное или невалидное. Мы не удаляем плохие данные тихо. Вы можете видеть, что именно мы отметили и почему, и решить сами, что включать.

Полная прослеживаемость — каждое опубликованное значение связано с исходным показанием, с сохранением оригинального значения и единицы измерения. Вы можете проверить нашу работу.

Непройденные проверки блокируют публикацию — если наша валидация находит проблему, ничего не публикуется до её устранения. Мы лучше допустим задержку, чем пропустим ненадёжные данные.

Что мы измеряем

Параметры

Параметр Описание Ед. изм.
pm25 PM2.5 — мелкодисперсные частицы мкг/м3
pm10 PM10 — крупнодисперсные частицы мкг/м3
pm1 PM1.0 — ультрамелкие частицы мкг/м3
no2 Диоксид азота мкг/м3
so2 Диоксид серы мкг/м3
co Угарный газ мкг/м3
o3 Озон мкг/м3
h2s Сероводород мкг/м3
co2 Углекислый газ ppm
tvoc Летучие органические соединения ppb
temperature Температура воздуха °C
humidity Относительная влажность %

Открытые данные

Скачать данные

Все данные бесплатны и открыты. Измерения разделены по годам и месяцам. Включены только данные, прошедшие контроль качества.

.parquet
Измерения
.csv
Станции
.geojson
Локации