Stap 4: Verwerking van persoonsgegevens voor besluit boom Pre gebruiken
In tegenstelling tot HMM en DTW algoritmen, is besluit boom niet bereid om te gaan met het probleem van de classificatie in tijdreeksen. Een tijd-serie is een reeks van meetgegevens. Elk gebaar heeft zijn eigen serie tijdgegevens. Elke tijd-serie hebben verschillend aantal maatregelen, zelfs niet de gegevens uit een zelfde gebaar. Wilt gebruiken Weka besluit boom in dit geval, moet we uittreksel sommige functies van de tijd-serie en een bestand met bouwen. ARFF uitbreiding.
Waleed Kadous onderzocht in zijn PhD-thesis en voorgestelde twee benaderingen om functies uit een tijd-serie. Ik gebruikte een aanpak die, volgens hem, werkte verrassend goed zelfs wordt een eenvoudig algoritme. Deze aanpak bestaat in elk tijdreeksen (ongeacht de lengte) te verdelen in een aantal vensters. Dus, als een voorbeeld 45 monsters lang is, dat het eerste venster de waarden van de eerste tot en met negende maatregel zal hebben, zal het tweede venster de waarden uit de tiende tot achttiende maatregel, enzovoort hebben. Vervolgens berekenen we statistieken voor elk van de Vensters.
Een R-applicatie werd ontwikkeld, gebaseerd op het tekstbestand dat is gegenereerd door de toepassing van de Processing, pre de tijdreeksen te verwerken en het gedeelte van de gegevens van de arff Weka trein bestand te genereren. Deze toepassing wordt berekend door het gemiddelde en de standaardafwijking van elk venster van elke as (x, y en z) de functies.