Податоците на кои им веруваме


Повод: Избори 2014

Од каде потекнуваат податоците на кои им веруваме?

Накратко, поради минималната реакција на твитер, тука во малку поаналитичен формат околу податоците на кои им веруваме без да ги преиспитаме. Следи поопсежно објаснување на неколку слики од мобилна апликација и веб апликација и прашањата кои произлегуваат од нив.

Официјалната мобилна апликација за iOS е надградена на 26 април и јас ја симнав во недела вечер, а веб страницата на ДИК е референтна точка за изборните резултати. Сосем несакајќи ја слушав прес конференцијата на полноќ на ДИК, каде на прашањето “Можете ли да ни дадете симулацијата на мандати?” беше даден одговор дека преку ноќ се чека да пристигнат записниците и оваа симулација ќе се издаде утрото.

Тоа беше чудно со оглед на тоа што имаше голем процент на обработени гласови и резултатите во сумарна форма беа веќе објавени. Прва мисла: хаха, ова личи на приказната за украдени избори од серијата Scandal:

 

Ова ме натера да ја симнам апликацијата чисто да видам да не случајно заборавиле да ја отстранат симулацијата таму, но наместо то, податоците од двете места покажуваа различни резултати.

Околу 00:50, процент на обработеност е поголем на веб апликација и при поголема обработеност, вкупниот број на гласачки ливчиња е помал на веб, вкупниот број на неважечки ливчиња е помал на веб.

Image

 

Image

Околу 01:20, мобилната апликација е со непроменети податоци на обработеност од 90.38%, додека на веб бројките се движат нагоре од обработени 3347 избирачки места на 95.30% обработеност, но бројот на важечки и неважечки ливчиња е сеуште помал од бројките во мобилната апликација.

ImageImage

Околу 01:55, мобилната апликација е со обработени  3437 места / 97.81%, додека веб верзијата е води понапред со 3442 / 98.01%, но бројките за важечки и неважечки ливчиња сеуште е драматично помалку на веб.

ImageImage

За бонус поени и следните забелешки: бројот на избирачи запишани во Избирачкиот список е различен, и вкупниот број на избирачки места е различен.

Појдовната точка беше необјавената симулација (која патем била објавена за многу кратко време, и беше фатена благодарение на Skopski_Peder), а од нејзе произлегуваат следниве прашања:

– Како е регулиран внесот во електронскиот систем од запечатениот записник, врз која основа ги имаме дигиталните информации во ДИК? Никаде во изборниот законик јас не можев да најдам таква одредба.

– Зашто дигиталните информации на полноќ се валидни за сумарни резултати, но не и за симулации на мандати и зашто би била инцијалната симулација повлечена?

– Дали референтна точка за точност се дигиталните информации, записниците на хартија, и која презентација на дигиталните информации, веб или мобилна?

– Како е можно истите податоци во две официјално објавени апликации да прикажуваат различни влезни податоци (вкупен број избирачи во Избирачки список и вкупен број изборни места) како и драматично различни податоци за важечки и неважечки ливчиња? И како да се смета за релевантен резултатот базиран на ваква двосмисленост, особено во услови кога биле достапни единствено дигитални податоци?

–  Зашто нема ниедна независна анализа, друг пресек на податоците внесени од сите избирачки места (опозиција, независни набљудувачи), од останатите копии кои се прават на записниците? Гледаме само еден пресек кој е крајно неконзистентен, a освен сликите погоре, има и други верзии на неконзистентности.

И уште еднаш, од каде потекнуваат податоците на кои им веруваме и зашто не ги доведуваме во прашање почесто, кога се ова е на очиглед?

 

Robots.txt


Реакција на случувањата околу исклучувањето на некои медиуми од  Тиме.мк илити „Ако може да се заработува од содржина на Интернет, сакам и јас бе.  Имам веб страна, имам трошоци, некој нека ми плати МЕНЕ.“

1. Точка један. Категоризација на делото.

@mkrobot: Според законот за авторско дело http://bit.ly/yF7FD9 дневни вести, факти и медиумски информации не се сметаат за авторско дело.

2. Точка два. Штета.

Дури и да ја заменариме точка један, за било која граѓанска парница  за повреда на авторски или сродни права, треба да се докаже штета, како директна последица од дејствувањата на обвинетиот. Со среќа со тоа, кога овде се работи за носење сообраќај на матичните сајтови, на кои не постои PayWall и информациите се јавно достапни. Ова дури и јас го знам, од познавање на правото од Црна хроника.

3. Точка три. Опт аут.

Кога има лесен опт aут (robots.txt), навистина не гледам каде е проблемот. Ако немате подесено robots.txt во root на вашиот сајт, crawling е дозволен. Крај на приказната.

Мало истражување:

Заклучок: Никој  од засегнатите нема забрана за crawling на содржината.

4. Точка четири. Пари.

Се се сведува на ова. Бидете попаметни и најдете начин да генерирате бизнис од својата содржина ако е толку вредна, не пробувајте да го поткопате бизнисот на другиот со произволни и неиздржани барања и заплашувања со фактури од 5000 евра. Вложениот труд и трошок не значи дека некој нешто ви должи. Бизнис е бизнис. Бидете попаметни.

Пишаа на темата и:

It.com.mk Надополнето: Канал 5, Сител, Kурир.мк и NetPress се повлекоа од Time.mk поради комерцијални причини

Комуникации.нет  Сител и Канал 5 се само пиони во целата игра

Јована Тозија За агрегаторцките работи

Резонанца


Овие денови, тема на разговор се некои навистина важни нешта.

Искажани се пораки кои имаат голема резонанца.

Во еден момент, забележав дека преку 30тина мои пријатели на Фејсбук ја споделиле колумната на Катерина Блажевска.

Родители и деца
колумна на Катерина Блажевска

Преку API-то на Фејсбук, може да се добие апсолутната бројка на споделувања на одреден линк.

http://graph.facebook.com/?id=http://www.dnevnik.com.mk/default.asp?ItemID=9FF9F08AD5990A41A2588EF8C31AF757

Некои пораки едноставно имаат резонанца.