Stap 5: Schoon en gegevens converteren
De ruwe datasets die ik verkregen werden in verschillende formaten: JSON, CSV en TSV zelfs. De velden zijn wankel, de gegevens kan worden glitchy en mijn doel is om te eindigen met dezelfde indeling voor elke dataset, die ik uiteindelijk toegewezen aan vectorbestanden met behulp van OpenFrameworks, een populaire online C++ toolkit.
Soms, kan ik dit doen met een spreadsheetprogramma zoals Excel, nummers of mijn nieuwe favoriet, KaliedaGraph.
Andere tijden, zou ik zweep uit mijn eigen gegevens conversiecode in Python, die is gebaseerd op mijn SF_Geocoder code. Het voordeel van deze code is dat het zal kruispunten in elke stad en gebruik van de Google Maps API voor het genereren van lat/longs.
De bestandsindeling die ik uiteindelijk gegenereerd voor elke dataset was een standaard CSV met:
kolom 1 = primaire descriptor (zoals een id-nummer)
kolom 2 = primaire descriptor (zoals een datum)
kolom 3 = breedtegraad
kolom 4 = lengtegraad
kolom 5 = grootte
Het veld grootte wordt vaak genegeerd in datasets zoals UFO-waarnemingen en San Francisco uitzettingen, maar zijn gebruik voor een vergroting van de shapes van datasets zoals Amerikaanse gevangenissen, waar de grootte de bevolking van de gevangenis is.