Reading Music Systems: From Deep Optical Music Recognition to Contextual Methods

Baró Mas, Arnau; Baró Mas, Arnau

Reading Music Systems: From Deep Optical Music Recognition to Contextual Methods

Author

Baró Mas, Arnau

Director

Fornés Bisquerra, Alicia

Tutor

Lladós, Josep

Date of defense

2022-11-14

Pages

148 p.

Doctorate programs

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Abstract

La transcripció de partitures a algun format llegible per un ordinador pot realitzar-se manualment. No obstant això, la complexitat de la notació musical condueix inevitablement a un enutjós programari d’edició de partitures, la qual cosa fa que tot el procés sigui molt lent i propens a errors. Per això, els sistemes de transcripció automàtica de documents musicals són eines interessants. L’anàlisi de documents és el camp que tracta l’extracció i el processament de documents mitjançant el reconeixement d’imatges i patrons. Aquest és una branca de la visió per computador. Sent les partitures musicals el document a analitzar, el camp dedicat a abordar aquesta tasca es coneix com a reconeixement òptic de música (OMR). Normalment, un sistema OMR pren una imatge d’una partitura i extreu automàticament el seu contingut a alguna estructura simbòlica com MEI o MusicXML. En aquesta tesi, hem investigat diferents mètodes per reconèixer símbols musicals d’una sola línia de pentagrama (partitures de violí, flauta, etc.), de la mateixa manera que la majoria de les recerques sobre el reconeixement de text se centren en el reconeixement de les paraules que apareixen en una imatge d’una línia de text. Aquests mètodes es basen en dues metodologies diferents. D’una banda, presentem dos mètodes basats en Xarxes Neuronals Recurrents, en particular la xarxa neuronal; Long Short-Term Memory. D’altra banda, es detalla un mètode basat en Sequence to Sequence. El context musical és necessari per a millorar els resultats d’OMR, igual que els models lingüístics i els diccionaris ajuden en el reconeixement de text. Per exemple, es podrien definir fàcilment regles sintàctiques i gramàtiques per a fer front a les ambigüitats del ritme. En teoria musical, el compàs defineix la quantitat de temps per unitat de compàs. Així, en la segona part d’aquesta dissertació s’han investigat diferents metodologies per a millorar el reconeixement dels mètodes d’OMR. Hem explorat tres mètodes diferents: (a) una representació gràfica en forma d’arbre en la qual cada nivell uneix les primitives seguint un conjunt de regles, és el que es denomina Dendrogrames, (b) la incorporació de Models de Llenguatge per modelar la probabilitat d’una seqüència de tokens i (c) xarxes neuronals basades en grafs per analitzar les partitures per a evitar relacions sense sentit entre les primitives musicals. Finalment, per a entrenar totes aquestes metodologies i donada l’especificitat de les bases de dades segons els mètodes a usar a la literatura, hem creat quatre conjunts de dades musicals diferents. Dos d’ells són sintètics amb aparença moderna o manuscrita antiga i els altres dos són manuscrits reals, un d’ells modern i l’altre antic.

La transcripción de partituras a algún formato legible por un ordenador puede realizarse manualmente. Sin embargo, la complejidad de la notación musical conduce inevitablemente a un engorroso software de edición de partituras, lo que hace que todo el proceso sea muy lento y propenso a errores. Por ello, los sistemas de transcripción automática de documentos musicales son herramientas interesantes. El análisis de documentos es el campo que trata la extracción y el procesamiento de documentos mediante el reconocimiento de imágenes y patrones. Este es una rama de la visión por computador. Siendo las partituras musicales el documento a analizar, el campo dedicado a abordar esta tarea se conoce como reconocimiento óptico de música (OMR). Normalmente, un sistema OMR toma una imagen de una partitura y extrae automáticamente su contenido a alguna estructura simbólica como MEI o MusicXML. En esta tesis, hemos investigado diferentes métodos para reconocer los símbolos musicales de una sola línea de pentagrama (partituras de violín, flauta, etc.), de la misma manera que la mayoría de las investigaciones sobre el reconocimiento de texto se centran en el reconocimiento de las palabras que aparecen en una imagen de una línea de texto. Estos métodos se basan en dos metodologías diferentes. Por un lado, presentamos dos métodos basados en Redes Neuronales Recurrentes, en particular la red neuronal; Long Short-Term Memory. Por otro lado, se detalla un método basado en Sequence to Sequence. El contexto musical es necesario para mejorar los resultados de OMR, de la misma forma que los modelos lingüísticos y los diccionarios ayudan al reconocimiento de texto. Por ejemplo, se podrían definir fácilmente reglas sintácticas y gramáticas para hacer frente a las ambigüedades del ritmo. En teoría musical, el compás define la cantidad de tiempos por unidad de compás. Así, en la segunda parte de esta disertación se han investigado diferentes metodologías para mejorar el reconocimiento de los OMR. Hemos explorado tres métodos diferentes: (a) una representación gráfica en forma de árbol en la que cada nivel une las primitivas siguiendo un conjunto de reglas, es lo que se denomina Dendrogramas, (b) la incorporación de Modelos de Lenguaje para modelar la probabilidad de una secuencia de tokens y (c) redes neuronales de grafos para analizar las partituras para evitar relaciones sin sentido entre las primitivas musicales. Finalmente, para entrenar todas estas metodologías y dada la especificidad de los métodos en la literatura, hemos creado cuatro conjuntos de datos musicales diferentes. Dos de ellos son sintéticos con apariencia moderna o manuscrita antigua y los otros dos son manuscritos reales, siendo uno de ellos moderno y el otro antiguo.

The transcription of sheet music into some machine-readable format can be carried out manually. However, the complexity of music notation inevitably leads to burdensome software for music score editing, which makes the whole process very time-consuming and prone to errors. Consequently, automatic transcription systems for musical documents represent interesting tools. Document analysis is the subject that deals with the extraction and processing of documents through image and pattern recognition. It is a branch of computer vision. Taking music scores as source, the field devoted to address this task is known as Optical Music Recognition (OMR). Typically, an OMR system takes an image of a music score and automatically extracts its content into some symbolic structure such as MEI or MusicXML. In this dissertation, we have investigated different methods for recognizing a single staff section (eg. scores for violin, flute, etc.), much in the same way as most text recognition research focuses on recognizing words appearing in a given line image. These methods are based in two different methodologies. On the one hand, we present two methods based on Recurrent Neural Networks, in particular, the Long Short-Term Memory Neural Network. On the other hand, a method based on Sequence to Sequence models is detailed. Music context is needed to improve the OMR results, just like language models and dictionaries help in handwriting recognition. For example, syntactical rules and grammars could be easily defined to cope with the ambiguities in the rhythm. In music theory, for example, the time signature defines the amount of beats per bar unit. Thus, in the second part of this dissertation, different methodologies have been investigated to improve the OMR recognition. We have explored three different methods: (a) a graphic tree-structure representation, Dendrograms, that joins, at each level, its primitives following a set of rules, (b) the incorporation of Language Models to model the probability of a sequence of tokens, and (c) graph neural networks to analyze the music scores to avoid meaningless relationships between music primitives. Finally, to train all these methodologies, and given the method-specificity of the datasets in the literature, we have created four different music datasets. Two of them are synthetic with a modern or old handwritten appearance, whereas the other two are real handwritten scores, being one of them modern and the other old.

Keywords

Reconeixement òptic musical; Reconocimiento óptico musical; Optical music recognition; Visió per computador; Visión por computador; Computer vision; Aprenentatge profund; Aprendizaje profundo; Deep learning

Subjects

004 - Computer science

Knowledge Area

Tecnologies

Recommended citation

This citation was generated automatically.

Documents

abm1de1.pdf

11.81Mb

Export

DIDL MARC MARC_CCUC METS OAI_DC ORE QDC RDF

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/

This item appears in the following Collection(s)

Programa de Doctorat en Informàtica [89]

Àrea de contingut