introdução

This commit is contained in:
vascoalvesxyz
2026-04-07 03:53:06 +01:00
parent 23df87e152
commit 70998757f9

View File

@@ -11,25 +11,13 @@
"- Vasco Alves - nº estudante 2022228207\n",
"\n",
"## Introdução\n",
"Este projeto visa a análise nos domínios da frequência\n",
"e do tempo de sinais áudio com o objetivo de identificar os dígitos\n",
"em inglês entre 0 e 9. \n",
"Este projeto teve como âmbito analisar gravações de áudio com o objetivo de identificar os dígitos a serem pronunciados.\n",
"Para este efeito, foram elaboradas, implementadas vários conjuntos de _features_ temporais e _features_ espectrais. Adicionalmente, foi feito um pré-processamento dos dados antes para evitar, por exemplo, o tom da voz, ou a pronúncia do sujeito de influenciar os resultados.\n",
"\n",
"### Descrição dos Dados:\n",
"Os dados fornecidos correspondem a sinais de voz emitidos\n",
"por 60 participantes (cada uma das subdiretorias na pasta data contém os sinais\n",
"correspondentes a 1 participante). Cada participante repetiu 50 vezes cada um\n",
"dos dígitos, ou seja, cada uma das 60 pastas contém 500 sinais de áudio em\n",
"formato .wav. Cada sinal de áudio foi adquirido a uma taxa de amostragem\n",
"de 48000 Hz em modo mono-canal. Mais detalhes sobre os dados podem ser\n",
"obtidos nas ligações seguintes. \n",
"- https://github.com/soerenab/AudioMNIST \n",
"- https://www.kaggle.com/datasets/sripaadsrinivasan/audio-mnist \n",
"- https://arxiv.org/abs/1807.03418. \n",
"\n",
"### Entregas:\n",
"- Meta 1: 09/abr/2026, 23:59 \n",
"- Meta 2: 14/mai/2026, 23:59 \n"
"Os dados compreendem um total de 30000 gravações: cinquenta gravações por dígito por cada um dos sessenta indivíduos. Os dados estão organizados por indivíduo. O áudio foi capturado quarenta e oito mil vezes por segundo ($48000\\text{ Hz}$), em modo mono-canal e armazenado no formato _lossless_ _Waveform_ (extensão de ficheiro '_.wav_'). \n",
"\n",
"Feito esta introdução, podemos prosseguir com a análise dos resultados.\n"
]
},
{
@@ -50,7 +38,7 @@
},
{
"cell_type": "code",
"execution_count": 54,
"execution_count": 1,
"id": "043391e2-1364-4675-8de7-3e0a5732d908",
"metadata": {},
"outputs": [
@@ -429,7 +417,7 @@
"\n",
"### Duração Ativa\n",
"\n",
"Embora todos os ficheiros tenham o mesmo comprimento após o pré-processamento, o padding extra de zeros é fácil de identificar e ignorar para o fim de obter a duração ativa do som. A duração ativa discrimina facilmente entre sons mais curtos (como \"six\") e sons mais longos como (\"seven\").\n"
"Embora todos os ficheiros tenham o mesmo comprimento após o pré-processamento, o padding extra de zeros é fácil de identificar e ignorar para o fim de obter a duração ativa do som. A duração ativa discrimina facilmente entre sons mais curtos (como \"six\") e sons mais longos (como \"seven\").\n"
]
},
{