Datasheet for Dataset
Gebru et al. (2021) деректер жинақтарын ашық құжаттау әдістемесі бойынша.
Мотивация
Деректер жинағы қандай мақсатпен құрылды?
AirData.kz Қазақстандағы жалпыға қолжетімді ауа сапасы деректеріндегі маңызды олқылықты толтыру үшін құрылды. Мемлекеттік мониторинг деректері әртүрлі ведомстваларға шашыраңқы болып, сәйкес келмейтін форматтар мен бірліктерде ұсынылып, зерттеушілер мен қоғамға жиі қолжетімсіз болды. Тарихи көрсеткіштер қысқа сақтау мерзімінен кейін тұрақты түрде жойылды. Деректер жинағы барлық қолжетімді көздерден ауа сапасы өлшемдерін жинау, гармонизациялау, тазарту және тұрақты мұрағаттау мақсатында жасалды — зерттеу, журналистика, қоғамдық денсаулық талдауы және азаматтық хабардарлық үшін тегін қолжетімді.
Деректер жинағын кім және қай ұйым атынан жасады?
Деректер жинағын Дүниежүзілік экономикалық форумның бастамасы — Global Shapers Almaty Hub волонтёрлері жасады және қолдайды. AirData.kz корпоративтік байланысы жоқ коммерциялық емес ашық деректер жобасы ретінде жұмыс істейді.
Деректер жинағын жасауды кім қаржыландырды?
Жоба толығымен волонтёрлер қаражатымен қаржыландырылады. Инфрақұрылым шығындары (сервер, домен, API қолжетімділігі) жеке салымдар мен кездейсоқ қайырмалдықтар есебінен жабылады. Гранттар, корпоративтік демеушілер немесе мемлекеттік қаржыландыру жоқ.
Құрамы
Деректер данасы нені білдіреді?
Әрбір дана — бір ауа сапасы немесе метеорологиялық өлшем: бір параметр, бір станцияда, уақыттың бір нүктесінде. Мысалы: «PM2.5 = 45,2 мкг/м³, KGMT-040 станциясында, 2024-01-15, 14:00 UTC+6».
Жалпы қанша дана бар?
2026 жылдың наурызына қарай деректер жинағында шамамен:
- 45+ миллион өңделмеген КГМТ (мемлекеттік) көрсеткіштері
- 2,3 миллион WAQI (халықаралық агрегатор) көрсеткіштері
- 60 000+ OpenAQ көрсеткіштері
- 664 000+ тазартылған Алматы PM2.5 сағаттық көрсеткіштері
- 1 094 мониторинг станциясы станциялар тізілімінде
Деректер жинағы үздіксіз өседі — белсенді көздерден әр 20 минут сайын жаңа деректер түседі.
Деректер жинағы барлық мүмкін даналарды қамтиды ма, әлде іріктеме ме?
Деректер жинағы іріктеме емес, толық санақ болуға ұмтылады — біз әрбір көзден әрбір қолжетімді өлшемді жинаймыз. Алайда, ол сөзсіз толық емес: мемлекеттік станциялар тоқтайды, сенсорлар өшеді, 2019 жылы мұрағаттауды бастағанға дейін кейбір тарихи деректер жоғалды. Қамту қалалар мен кезеңдер бойынша әртүрлі. Алматыда ең тығыз қамту (5 көз, 200+ станция). Басқа қалалар негізінен КГМТ мемлекеттік станцияларына тәуелді.
Әрбір дана қандай деректерден тұрады?
Әрбір өлшем жазбасы мынаны қамтиды:
- Станция идентификаторы және географиялық координаттар (ендік, бойлық)
- Уақыт белгісі (UTC және жергілікті уақыт белдеуі)
- Параметр коды (мыс., pm25, no2, co, temperature)
- Бірыңғайландырылған бірліктердегі өлшенген мән (концентрациялар үшін мкг/м³)
- Бастапқы өңделмеген мән және бірлік (тексерілу мүмкіндігі үшін)
- Деректер көзі идентификаторы (kgmt, airgradient, openaq, waqi, airkaz)
- Сапа бақылау жалауы (өңделмеген, таза, күмәнді, жарамсыз)
- Жалау болған жағдайда QC себеп коды (мыс., spike, stuck_sensor, cluster_outlier)
Әрбір данаға белгі немесе мақсатты айнымалы байланысты ма?
Жоқ. Бұл бақылау деректер жинағы, жетекші оқыту үшін белгіленген жинақ емес. Алайда, әрбір өлшем автоматтандырылған тазарту конвейері тағайындаған сапа бақылау жалауын (таза / күмәнді / жарамсыз) қамтиды, ол деректер сапасын зерттеу үшін белгі ретінде пайдаланылуы мүмкін.
Жеке даналарда жетіспейтін ақпарат бар ма?
Иә. Деректердің жетіспеу себептері: сенсор тоқтауы (жазба жоқ), деректер тасымалдау кезіндегі желі ақаулары, мемлекеттік станциялардың тек жұмыс уақытында жұмыс істеуі (ерте КГМТ деректері), барлық станцияларда өлшенбейтін параметрлер (мыс., H₂S пен SO₂ тек КГМТ-де, CO₂ мен TVOC тек AirGradient-те). Жетіспейтін мәндер NULL ретінде ұсынылған — біз ешқашан интерполяция жасамаймыз.
Деректер жинағында қателер, шу көздері немесе артықтық бар ма?
Иә, толық құжатталған. Белгілі мәселелер: сенсор дрейфі мен калибрлеу қателері (әсіресе бюджетті сенсорларда), бірдей мәнді сағаттар бойы хабарлайтын тоқтап қалған сенсорлар, электромагниттік кедергілерден кенеттен секіру, мемлекеттік станциялардың хабарламасыз бірлік ауыстыруы, көздер арасындағы деректер қабаттасуы (мыс., КГМТ станциялары WAQI фидтерінде де кездеседі). Біздің 7 кезеңді тазарту конвейері осы мәселелерге арнайы бағытталған, барлық жалаулар жарияланатын деректерде сақталады.
Деректер жинағы өзін-өзі қамтамасыз ете ме?
Иә. Жарияланатын деректер жинағы (CSV, Parquet, GeoJSON файлдары) толығымен дербес және сыртқы ресурстарды қажет етпейді. Станциялар тізілімі барлық қажетті метадеректерді қамтиды. Бастапқы API деректері біздің дерекқорда мұрағатталған — жарияланатын файлдар осы API-лердің қолжетімділігіне тәуелді емес.
Деректер жинағында құпия ақпарат бар ма?
Жоқ. Барлық деректер жалпыға қолжетімді орындардағы тұрақты мониторинг станцияларынан алынған экологиялық өлшемдер. Жеке деректер жиналмайды.
Деректер жинағында қорлайтын мазмұн бар ма?
Жоқ. Деректер жинағы тек сандық өлшемдер мен станция метадеректерін қамтиды.
Жинау процесі
Деректер қалай алынды?
Деректер физикалық аспаптармен (аппараттық сенсорлар мен референстік мониторлар) тікелей бақыланады. Олар бес көзден автоматты API сұрау арқылы алынады: ҚазГидроМет (мемлекеттік REST API), AirGradient (ашық сенсор API), OpenAQ (ашық деректер API), WAQI/aqicn.org (ашық фидтер), AirKaz (тарихи CSV мұрағаттары). Сонымен қатар, тарихи мемлекеттік деректер (2018–2022) ресми деректер алмасу келісімі бойынша ҚазГидроМет тікелей берген Excel кестелерінен алынды.
Деректерді жинау үшін қандай механизмдер қолданылды?
Көздер бойынша жинау механизмдері:
- КГМТ — референстік анализаторлар (BAM, хемилюминесценция, УК-флуоресценция) климатты бақыланатын станцияларда. Деректер орталық серверге тасымалданады, REST API арқылы қолжетімді.
- AirGradient — бюджетті оптикалық бөлшек санағыштар (PMS5003) CO₂ (SenseAir S8) және TVOC сенсорларымен. Деректер WiFi арқылы AirGradient бұлт API-ге жүктеледі.
- OpenAQ — мемлекеттік және зерттеу желілерінен деректер жинайтын агрегация платформасы. Біз олардың v3 API-ін сұраймыз.
- WAQI — мемлекеттік фидтерді пайдаланатын агрегация платформасы. Біз олардың JSON API-ін сұраймыз.
- AirKaz — тарихи бюджетті сенсор желісі (2017–2020), күнделікті CSV экспортымен.
Деректерді жинауға кім қатысты?
Бастапқы деректерді жинауды пайдаланушы ұйымдар жүзеге асырады (ҚазГидроМет, AirGradient сенсор иелері және т.б.). AirData.kz рөлі — агрегация, бастапқы жинау емес. Біздің автоматтандырылған конвейер деректерді алады, гармонизациялайды және мұрағаттайды. Конвейерді әзірлеу мен қызмет көрсету жоба волонтёрлері орындайды.
Деректер қандай уақыт аралығында жиналды?
Ең ерте жазбалар: 2017 жылдың наурызы (Алматыдағы AirKaz PM2.5 сенсорлары). КГМТ деректері: 2020 жылдың маусымынан бүгінге дейін (2018 жылдан Excel деректерімен толықтырылған). AirGradient: нақты уақытта үздіксіз сұрау. OpenAQ: 2024 жылдан. WAQI: 2025 жылдың қазанынан. Жинау үздіксіз жүреді — жаңа деректер әр 20 минут сайын түседі.
Алдын ала өңдеу, тазарту және белгілеу
Деректерді алдын ала өңдеу/тазарту жүргізілді ме?
Иә, кеңінен. Тазарту конвейері барлық параметрлер үшін 7 кезеңді қамтиды:
- S1: Теріс мәндер мен NULL сүзгілеу — дерекқорға енгізу кезінде
- S2: Қатаң шектеу — физикалық тұрғыдан мүмкін емес мәндер жарамсыз деп белгіленеді (мыс., PM2.5 > 1 000 мкг/м³)
- S3a: Тұрақты станцияларды анықтау — айдың ≥70% бірдей мәндер беретін станциялар
- S3b: Ақылға сыймайтын базалық деңгей — шынайы шектерден асатын станция-ай медианалары
- S3c: Өлі сенсорларды анықтау — >80% нөлдік мәндер беретін станциялар
- S4: Статистикалық шеткі мәндерді анықтау — робастты Z-бағалар (MAD негізінде) ішінара біріктіру арқылы
- S5: Жалғыз секірулерді анықтау — көршілес көрсеткіштерден >10× оқшауланған секіру
- S6: Тоқтап қалған сенсорларды анықтау — ≥6 сағат бірдей дәйекті мәндер
- S7: Кластерлік шеткі мәндерді анықтау — тәуліктік станция орташалары географиялық кластер медианасынан >3 робастты Z
Бірлікті гармонизациялау да жүргізіледі: КГМТ мг/м³ → мкг/м³ (×1000), WAQI AQI индексі → мкг/м³ (EPA сыну нүктелерінің кері түрлендіруі), КГМТ қысым мм с.б. → гПа.
Өңделмеген деректер сақталды ма?
Иә. Өңделмеген деректер алынғандай дәл сақталады — әр көзге арналған 0-деңгей кестелерінде. Әрбір жарияланған өлшем бастапқы көзбен байланысын, соның ішінде бастапқы мән мен бірлікті сақтайды. Өңделмеген деректер ешқашан өзгертілмейді.
Тазарту бағдарламалық жасақтамасы қолжетімді ме?
Иә. Барлық тазарту кезеңдерін қоса алғанда, бүкіл конвейер ашық бастапқы код болып табылады және жобаның GitHub репозиторийінде қолжетімді.
Пайдалану
Деректер жинағы бұрын қандай да бір тапсырмалар үшін пайдаланылды ма?
Иә:
- AirData-AI — ауа сапасы туралы табиғи тілдегі сұрақтарға жауап беретін ЖИ-негізіндегі аналитика құралы
- airdata.kz сайтында күнделікті PM2.5 деңгейлерін көрсететін күнтізбе жылу карталары
- Темекі эквиваленті калькуляторы (Berkeley Earth әдістемесі) қоғамдық хабардарлық үшін
- Күнделікті белсенділік заңдылықтарына негізделген жеке әсер бағалаушысы
- Қазақстандағы ауа ластануының маусымдық және географиялық заңдылықтарына ішкі зерттеулер
Деректер жинағы тағы қандай тапсырмалар үшін пайдаланылуы мүмкін?
Ауа сапасын денсаулықпен байланыстыратын эпидемиологиялық зерттеулер. Қала жоспарлау және көлік саясатын талдау. Климат пен ауа райы заңдылықтарын зерттеу. Машиналық оқыту зерттеулері: уақыт қатарларындағы аномалияларды анықтау, сенсор деректерін біріктіру, ауа сапасын болжау. Журналистік зерттеулер. Деректер ғылымы, экология және қоғамдық денсаулық курстарында білім беру.
Құрамы немесе жинау тәсілінде болашақ пайдалануға әсер ететін ерекшеліктер бар ма?
Иә. Пайдаланушылар мынаны ескеруі керек: (1) Станция тығыздығы қалалар бойынша айтарлықтай ерекшеленеді — Алматыда 200+ станция, ал кіші қалаларда 1–3 ғана болуы мүмкін. (2) Уақыттық қамту біркелкі емес — кейбір көздер 2023–2025 жылдары ғана жұмыс бастады. (3) Бюджетті сенсорлардың (AirGradient, AirKaz) дәлдігі мемлекеттік референстік мониторларға қарағанда төмен. (4) 2023 жылға дейінгі КГМТ деректері формат сәйкессіздіктері бар Excel мұрағаттарынан толықтырылған. (5) Тазарту конвейері Алматы PM2.5 деректерінің ~11%-ын күмәнді немесе жарамсыз деп белгілейді.
Деректер жинағы пайдаланылмауы тиіс тапсырмалар бар ма?
Деректер жинағын мына мақсаттарда пайдаланбау керек: нақты уақыттағы төтенше жағдай ескертулері (ресми мемлекеттік көздерді пайдаланыңыз), нормативтік сәйкестік немесе сот ісі (біз аккредитацияланған мониторинг желісі емеспіз), кәсіби кеңессіз жеке денсаулық тәуекелін бағалау, QC жалауларын және белгілі шектеулерді түсінбестен модельдерді оқыту үшін эталон ретінде пайдалану.
Тарату
Деректер жинағы үшінші тараптарға таратыла ма?
Иә. Деректер жинағы шектеусіз барлығына жалпыға қолжетімді. Ол AirData.kz сайты мен GitHub репозиторийі арқылы таратылады.
Деректер жинағы қалай таратылады?
Бірнеше форматта: сығылған CSV файлдары (қала мен параметр бойынша), Apache Parquet файлдары (аналитика үшін), GeoJSON (картография үшін) және станциялар тізілімі CSV. Барлық файлдар airdata.kz/data/ және GitHub репозиторийінен тікелей жүктеуге қолжетімді.
Деректер жинағы лицензия бойынша таратыла ма?
Деректер жинағы пайдалануға шектеусіз ашық шарттарда жарияланады. Авторлықты көрсету қолдау табады, бірақ міндетті емес. Бастапқы деректер көздерінің өз шарттары бар: КГМТ деректері ҚазГидроМетпен зерттеу мақсатында ресми келісім бойынша беріледі, AirGradient пен OpenAQ деректері олардың саясаты бойынша ашық, WAQI деректеріне олардың пайдалану шарттары қолданылады.
Қызмет көрсету
Деректер жинағына кім қызмет көрсетеді?
Global Shapers Almaty Hub жанындағы AirData.kz волонтёрлер тобы.
Қызмет көрсетушімен қалай байланысуға болады?
Электрондық пошта арқылы: airdatakz@gmail.com.
Деректер жинағы жаңартыла ма?
Иә, үздіксіз. Белсенді көздерден жаңа деректер әр 20 минут сайын түседі. Тәуліктік агрегациялар мен сапа тексерулері автоматты түрде жүргізіледі. CSV/Parquet экспорты күн сайын жаңартылады. Жаңа станциялар қосылған кезде станциялар тізілімі жаңартылады.
Ескі нұсқалар қолжетімді бола ма?
Тарихи деректер ешқашан жойылмайды — деректер жинағы тек толықтырылады. Ескі өлшемдер мәңгілікке қалады. Алайда, тазарту әдістемесі жетілдірілсе, сапа жалаулары жаңартылуы мүмкін. Өңделмеген деректер деңгейі өзгермейді.
Басқалар деректер жинағының дамуына үлес қоса ала ма?
Иә. Жоба ашық бастапқы кодты. Қатысушылар конвейерді жақсарту үшін pull-сұраулар жібере алады, жаңа деректер көздерін ұсына алады немесе GitHub арқылы деректер сапасы мәселелерін хабарлай алады. Біз сондай-ақ мониторинг желілерімен серіктестікті құптаймыз.
Дәйексөз
Деректер жинағын зерттеуде немесе жарияланымда пайдалансаңыз, көрсетіңіз:
AirData.kz. Open Air Quality Dataset for Kazakhstan. Global Shapers Almaty Hub, 2019–қазіргі уақытқа дейін. Қолжетімді: https://airdata.kz Осы құжат туралы
Бұл datasheet Gebru, T., Morgenstern, J., Vecchione, B., Vaughan, J.W., Wallach, H., Daumé III, H., және Crawford, K. (2021) ұсынған «Datasheets for Datasets» әдістемесі бойынша құрастырылған. Communications of the ACM, 64(12), 86–92.