diff --git a/src/main.ipynb b/src/main.ipynb index 592eab5..9b9a98b 100644 --- a/src/main.ipynb +++ b/src/main.ipynb @@ -11,25 +11,13 @@ "- Vasco Alves - nº estudante 2022228207\n", "\n", "## Introdução\n", - "Este projeto visa a análise nos domínios da frequência\n", - "e do tempo de sinais áudio com o objetivo de identificar os dígitos\n", - "em inglês entre 0 e 9. \n", + "Este projeto teve como âmbito analisar gravações de áudio com o objetivo de identificar os dígitos a serem pronunciados.\n", + "Para este efeito, foram elaboradas, implementadas vários conjuntos de _features_ temporais e _features_ espectrais. Adicionalmente, foi feito um pré-processamento dos dados antes para evitar, por exemplo, o tom da voz, ou a pronúncia do sujeito de influenciar os resultados.\n", "\n", - "### Descrição dos Dados:\n", - "Os dados fornecidos correspondem a sinais de voz emitidos\n", - "por 60 participantes (cada uma das subdiretorias na pasta data contém os sinais\n", - "correspondentes a 1 participante). Cada participante repetiu 50 vezes cada um\n", - "dos dígitos, ou seja, cada uma das 60 pastas contém 500 sinais de áudio em\n", - "formato ‘.wav’. Cada sinal de áudio foi adquirido a uma taxa de amostragem\n", - "de 48000 Hz em modo mono-canal. Mais detalhes sobre os dados podem ser\n", - "obtidos nas ligações seguintes. \n", - "- https://github.com/soerenab/AudioMNIST \n", - "- https://www.kaggle.com/datasets/sripaadsrinivasan/audio-mnist \n", - "- https://arxiv.org/abs/1807.03418. \n", "\n", - "### Entregas:\n", - "- Meta 1: 09/abr/2026, 23:59 \n", - "- Meta 2: 14/mai/2026, 23:59 \n" + "Os dados compreendem um total de 30000 gravações: cinquenta gravações por dígito por cada um dos sessenta indivíduos. Os dados estão organizados por indivíduo. O áudio foi capturado quarenta e oito mil vezes por segundo ($48000\\text{ Hz}$), em modo mono-canal e armazenado no formato _lossless_ _Waveform_ (extensão de ficheiro '_.wav_'). \n", + "\n", + "Feito esta introdução, podemos prosseguir com a análise dos resultados.\n" ] }, { @@ -50,7 +38,7 @@ }, { "cell_type": "code", - "execution_count": 54, + "execution_count": 1, "id": "043391e2-1364-4675-8de7-3e0a5732d908", "metadata": {}, "outputs": [ @@ -429,7 +417,7 @@ "\n", "### Duração Ativa\n", "\n", - "Embora todos os ficheiros tenham o mesmo comprimento após o pré-processamento, o padding extra de zeros é fácil de identificar e ignorar para o fim de obter a duração ativa do som. A duração ativa discrimina facilmente entre sons mais curtos (como \"six\") e sons mais longos como (\"seven\").\n" + "Embora todos os ficheiros tenham o mesmo comprimento após o pré-processamento, o padding extra de zeros é fácil de identificar e ignorar para o fim de obter a duração ativa do som. A duração ativa discrimina facilmente entre sons mais curtos (como \"six\") e sons mais longos (como \"seven\").\n" ] }, {