Novas

Reunión de investigación 18 de outubro

publicado a la‎(s)‎ 2 oct. 2012 2:16 por Rede Galega de Recursos Lingüísticos para unha Sociedade do Coñecenmento   [ actualizado el 16 oct. 2012 7:49 ]

O día 18 de outubro a rede RELISCO organizará unha reunión de investigación para todos os membros que queiran asistir que terá lugar ás 11.00h na sala Carballo Calero da facultade de filoloxía. O noso conferenciante invitado, Serge Verlinde (Universidad de Lovaina), impartirá o seminario:

Título: "Lexical error correction: yes, but how?"
Resumo:
Spelling and grammar checkers, both integrated in software or online, are well known. Language learners, however, make many lexical errors. Is it also possible to correct (automatically) these errors? Which approach do we have to choose?

Conferencia 9 de outubro

publicado a la‎(s)‎ 1 oct. 2012 4:41 por Rede Galega de Recursos Lingüísticos para unha Sociedade do Coñecenmento   [ actualizado el 4 oct. 2012 5:18 ]

O próximo día 9 de outubro a rede RELISCO organizará unha conferencia na Aula de Graos da  Facultade de Informática da Universidade da Coruña, ás 18.00.

Éric Villemonte de la Clergerie (INRIA)

Título: "Desiging and improving FRMG, a wide coverage French meta-grammar"
Resumo:
I will present how the notion of metagrammar has been used to develop a large Tree-Adjoining Grammar (TAG) for French and focus on the description of some syntactic phenomena. The parser derived from the grammar has been tried on larger and larger corpora, and the second part of the talk will survey the long term effort that is needed to improve coverage, efficiency and accuracy. In particular, I will focus on recent experiments done to significantly improve the accuracy using machine learning techniques and existing syntactic annotations.

Conferencia 17 de outubro

publicado a la‎(s)‎ 1 oct. 2012 4:31 por Rede Galega de Recursos Lingüísticos para unha Sociedade do Coñecenmento   [ actualizado el 2 oct. 2012 10:13 ]

O próximo día 17 de outubro a rede RELISCO organizará unha conferencia no salón de graos da Facultade de Filoloxía da Universidade da Coruña, ás 13h.

Serge Verlinde
(Universidad de Lovaina)

Título: “Interactive Language Toolbox: from old-fashioned dictionaries to state-of-the-art writing assistants”
Resumo: The internet hosts many websites that provide interesting information on words. Unfortunately, many of these resources remain unknown or underused. On the Interactive Language Toolbox website, we provide a user-friendly access to a large number of sites for Dutch, English and French with specific tools for translation and reviewing (spelling, grammar and lexicon).

Programa Xornada Universidade-Empresa 9 de xullo

publicado a la‎(s)‎ 3 jul. 2012 2:52 por Rede Galega de Recursos Lingüísticos para unha Sociedade do Coñecenmento   [ actualizado el 4 jul. 2012 11:13 ]

Xa está dispoñible o programa da xornada Universidade-Empresa sobre Minería de Opinión que terá lugar o 9 de xullo na Facultade de Filoloxía de Santiago de Compostela. As xornadas darán comezo ás 10h coa intervención da coordinadora da rede, Margarita Alonso Ramos, que presenterá aos diferentes grupos integrantes de ReLiSCo.

Empresas participantes na Xornada

publicado a la‎(s)‎ 25 jun. 2012 4:02 por Rede Galega de Recursos Lingüísticos para unha Sociedade do Coñecenmento   [ actualizado el 4 jul. 2012 11:22 ]

Na Xornada Universidade-Empresa que terán lugar o luns, 9 de xullo no Salón de Graos da USC intervirán:

Xosé Ramón Pichel (Imaxin)

Título: COATI. Prototipo de reputación on-line multilingüe para blogs para os idiomas galego/portugués e español.

Resúmen:
Presentaremos un prototipo de Opinion Mining multilingüe desenvolvido por imaxin|software chamado Coati que fai unha análise de reputación online nos idiomas máis usados nos blogues galegos (galego/portugués e español), usando técnicas de Opinion Mining. Foi un desafio poder facer un prototipo de Opinion Mining para o galego xa que a pesar do crecemento experimentado nos últimos anos no ámbito do Procesamento da linguaxe natural (PLN), as investigacións e os modelos comerciais están máis focados no inglés. Neste traballo, alén de presentar a ferramenta, proporemos unha metodoloxía semiautomática para xerar recursos de Opinion Mining para o galego aproveitando recursos do español e utilizando o portugués como variante linguística ponte, que por ser por moitos considerado galego e portugués dúas variedades diferentes do mesmo idioma, asegura unha alta taxa de transferencia léxica con relación ao galego.

Enrique Torrejón (Bitext)

Titulo: NaturalOpinions y el análisis de opiniones en Twitter

Resumen

Presentación en la que se expone cómo se realiza el análisis semántico de opiniones en Twitter de forma automatizada por medio software de  lingüístico desarrollado por la empresa Bitext para su servicio NaturalOpinions

Francisco Rangel (Autoritas)

Título:Retos de la Escucha Activa, más allá del análisis del sentimiento

Resumen:

Hoy Internet es un inmenso recurso cargado de información susceptible de ser convertida en conocimiento útil para las organizaciones. Todo el mundo conversa en Internet, en gran variedad de canales diferentes y sobre gran variedad de temas, y en la mayoría de ellos con una característica común, la desestructuración de la información. Los retos tecnológicos a los que la escucha activa debe hacer frente se resumen en los siguientes puntos:

  • Estructuración de información desestructurada mediante tecnologías de la lengua y aprendizaje automático
  • Procesamiento en tiempo real de grandes cantidades de información (big data) mediante cloud computing
  • Análisis de relaciones e influencia mediante técnicas de análisis de red social
  • Presentación de la información mediante técnicas de visualización de datos

En su breve historia, las técnicas de estructuración de información para la escucha activa se han centrado principalmente en el análisis de la reputación (análisis del sentimiento), obviando dos cuestiones vitales para las organizaciones:

  • La reputación es sólo uno de los objetivos de la escucha activa, dentro de un marco más amplio de estrategia de comunicación online, haciendo honor a su completo significado "Active Listening, more than just paying attention" (Robertson, K.  2005)
  • Pensar que una opinión o una frase puede ser interpretada en términos de opiniones positivas, negativas o neutras, lo que se conoce como el tono de las opiniones, es una simplificación sobre la interpretación y el significado de las cosas, pues en la interpretación y en los matices está su riqueza.

Nuestro enfoque de escucha activa, implementado bajo el nombre de Cosmos y bajo el lema de "Tocamos Internet", se basa por tanto en un análisis en el continuo de las emociones, los sentimientos, los valores, proporcionando una visión confrontada de parejas de valores que denotan polaridad y que permiten al experto interpretar y extraer esos matices de significado que le aportan el valor estratégico que la organización necesita.

Judith Sastre (Inbenta)

Título: Por una gestión semántica de las redes sociales

Resumen:

El sistema de Social Media Management de Inbenta permite a las compañías gestionar grandes cantidades de mensajes de usuarios procedentes de las redes sociales de una manera profesional mediante el uso de tecnologías del procesamiento del lenguaje natural y de respuestas predeterminadas.Este sistema de gestión de las redes sociales permite:
Recoger mensajes de diversas fuentes: Twitter, Facebook, foros y webs de consumidores y transformarlos en Tickets a procesar.
Análisis semántico del contenido de todos los mensajes, utilizando nuestra tecnología de búsqueda semántica. Este análisis semántico permite:
Enrutar automáticamente el mensaje (ticket) al servicio o agente correcto
Recomendar respuestas predeterminadas a los agentes para ahorrarles tiempo
Construir con el tiempo una base de datos exhaustiva de respuestas predeterminadas para facilitar el trabajo editorial del agente e identificar las principales peticiones de los usuarios.
Plataforma multi-usuario y multi-perfil y la posibilidad de crear un número ilimitado de workflows automáticos
Informes y estadísticas completos sobre la calidad de servicio y el rendimiento de los agentes

Iván Pino (Llorente & Cuenca)

Título: Monitorización, Reputación y Redes

Resumen:

Las tecnologías de la lengua están abriendo un amplio abanico de posibilidades para la gestión de la reputación de las organizaciones. Internet pone a disposición de las compañías recursos y servicios que les permiten llevar a cabo las dos tareas básicas de la comunicación: escuchar y hablar. Sin embargo, la enorme complejidad que suponen ciertos factores como el volumen de información publicada, la valoración de la autoridad de las fuentes, la probabilidad de propagación de determinados contenidos o la ambigüedad de términos importantes para las empresas, está exigiendo del día a día de los profesionales que se dedican a esta labor un esfuerzo significativo para comprender estos factores y saber extraer lo mejor que ofrece el estado del arte de la tecnología en la actualidad.

Diego Cobelo (Classora)

Título: Web semántica y bases de conocimiento: recursos para mejorar el análisis de contenidos

Resumen:

Cómo el desarrollo de la web semántica y bases de conocimiento pueden ayudar a mejorar resultados en el análisis de contenidos en facetas tales como desambigüación (como hacen los diccionarios electrónicos, tesauros y corpus) y otras posibles aplicaciones todavía por explotar.


 

Xornadas Universidade-Empresas 9 de xullo

publicado a la‎(s)‎ 20 jun. 2012 5:25 por Rede Galega de Recursos Lingüísticos para unha Sociedade do Coñecenmento   [ actualizado el 21 jun. 2012 4:19 ]

O próximo día 9 de xullo a rede RELISCO organizará unha xornada de empresas no Salón de Graos da Facultade de Filoloxía en Santiago de Compostela. A temática das ponencias xirarán en torno á Minería de Opinións. Próximamente incluiremos un programa coa relación de empresas que participarán así como o contido das conferencias que se impartirán.

Seminario 15 de xuño

publicado a la‎(s)‎ 15 may. 2012 5:06 por Rede Galega de Recursos Lingüísticos para unha Sociedade do Coñecenmento   [ actualizado el 31 may. 2012 1:01 ]

O próximo día 15 de xuño a rede RELISCO organizará un seminario na aula 2.1a da Facultade de Informática da Universidade da Coruña. Próximamente incluiremos un programa detallado con todos os participantes e os horarios correspondentes:

Xavier Carreras (UPC)
Autores: Xavier Carreras, Michael Collins e Terry Koo
Título: "A TAG formalism for Parsing and Translation"
Resumo:

Syntactic parsing is the fundamental problem of determining the structure of natural language sentences. It is a challenging task, because syntactic structures of natural languages are recursive, and there is a significant degree of ambiguity in determining how different parts of a sentence combine together syntactically. In any computational model for parsing, the choice of grammar formalism is critical to both the representational power of the model and its computational efficiency. In this talk I will describe a variant of a Tree Adjoining Grammar (TAG) that can use a wide variety of rich features and, at the same time, has efficient algorithms. I will present two applications of our TAG. The first is a discriminative parser, a generalization of Conditional Random Fields for structured prediction that extends the framework to syntactic parsing. The second application is machine translation, where we frame the problem as a parsing task. The TAG-based translation system makes direct use of syntactic structures in modeling differences in word order between different languages, and in modeling the grammaticality of translation output. In both applications we show improvements over state-of-the-art systems.


André Martins (Carnegie Mellon University)
Autores: André Martins, Noah Smith, Mário Figueirido, Eric Xing e Pedro Aguiar
Título: "Turbo Parsing and Constrained Inference with AD^3"
Resumo:

In the first part of this talk, I will present AD^3 (Alternating Direction Dual Decomposition), a new decoding algorithm for approximate LP-MAP inference in constrained factor graphs. The LP-MAP approximation consists in ignoring global effects caused by the cycles of the graph, and can be seen as a linear relaxation of the original problem. The proposed algorithm can handle arbitrary first-order logic constraints and is suitable to massive decompositions, unlike previously proposed dual decomposition algorithms. As an intermediate step, it requires solving small quadratic programs, for which I provide closed form solutions or efficient procedures.
In the second part of the talk, I will apply this methodology to dependency syntax with rich-feature models. I will start by formulating dependency parsing as a concise integer linear program, which is relaxed for tractability. A constrained factor graph is then constructed for this problem and the relaxation is shown to be equivalent to LP-MAP inference in such graph. The resulting framework is called "turbo parsing," and includes as particular cases other parsers proposed in the literature. Finally, I will apply AD^3 for solving the relaxation. Experiments in 14 languages yield state-of-art results.

Carlos Gómez Rodríguez (Universidade da Coruña)
Autores: Carlos Gómez Rodríguez e Daniel Fernández-González.
Título: "Undirected Parsing and Buffer Transitions: Two Approaches to Improve Transition-Based Dependency Parsers"
Resumo:

A dependency parser is a system that can be used to automatically obtain the structure of natural language sentences, as expressed by directed links (dependencies) between words. One of the most widely-used types of dependency parsers are transition-based parsers, which achieve this by using a non-deterministic state machine and a model that scores transitions between its states. In this talk, I will present two different approaches to modify existing transition-based dependency parsers in order to improve their accuracy.
In the first approach, we transform the dependency parsers into variants which build an undirected graph rather than a (directed) dependency structure. The undirected graph is then converted into a directed dependency tree in a post-processing step. This technique
alleviates error propagation, as undirected parsers do not need to observe the single-head constraint.The second approach consists of enriching the parsers with simple transitions that act on buffer nodes. We define two sets of such transitions: projective buffer transitions, which create a left or right links of length one between the first two buffer nodes; and non-projective buffer transitions, which create links involving the second buffer node and the topmost stack node, allowing a limited form of non-projectivity.

Pablo Gamallo (Universidade de Santiago de Compostela)
Título: A Depurative Strategy for Dependency Parsing with Finite State Transducers

Resumo:

We describe a dependency parsing strategy based on finite state transducers, which minimizes the complexity of rules/transducers by using a technique we call /depurative/. Depurative parsing is driven by the "single-head" constraint of Dependency Grammar, and can be seen as an alternative method to the standard /constructive/ strategy. It simplifies the input string by progressively identifying and removing those words that were recognized as /dependents/ by each transducer. At the end of the depurative process, if all the dependencies in the sentence were identified, the input string should contain just one token representing the main head of the sentence. This finite-state strategy was inspired by the /Right/ and /Left Reduce/ operations used in deterministic dependency parsing.

Seminario de Ignacio Bosque

publicado a la‎(s)‎ 23 abr. 2012 4:02 por J GM   [ actualizado el 26 abr. 2012 5:07 ]

O próximo 4 de maio, o profesor Ignacio Bosque (da UCM e da RAE) impartirá na Facultade de Filoloxía e Tradución da Universidade de Vigo un seminario co título "La integridad léxica y los componentes de la gramática"
(Lugar: Salón de graos, Hora: 11:30)

Programa Seminario 2 de maio

publicado a la‎(s)‎ 23 abr. 2012 4:00 por Rede Galega de Recursos Lingüísticos para unha Sociedade do Coñecenmento   [ actualizado el 23 abr. 2012 4:10 ]

Xa está dispoñible o programa do seminario "Recuperación da Información e PLN" que terá lugar o 2 de maio na Facultade de Informática da UDC.

Seminario 2 de maio

publicado a la‎(s)‎ 11 abr. 2012 2:42 por Rede Galega de Recursos Lingüísticos para unha Sociedade do Coñecenmento   [ actualizado el 23 abr. 2012 2:19 ]

O vindeiro día 2 de maio a rede RELISCO organizará un seminario na Facultade de Informática da Universidade da Coruña. Proximamente incluiremos un programa detallado con todos os participantes e os horarios correspondentes. A continuación amosamos dous dos visitantes que intervirán e un resumo sobre o contido da súa conferencia:

Gaël Dias (University of Caen Basse-Normandi) co título "Information Digestion".
Resumo:
The World Wide Web (WWW) is a huge information network within which searching for relevant quality contents remains an open question. The ambiguity of natural language is traditionally the main reason, which prevents search engines from retrieving information according to users' needs. However, the globalized access to the WWW via weblogs or social networks has highlighted new problems. Web documents tend to be subjective, they mainly refer to actual events to the detriment of past events and their ever growing number contributes to the well-known problem of Information Overload. In this presentation, we present our contributions to digest information in real-world heterogeneous text environments (i.e. the Web) thus leveraging users' e fforts to encounter relevant quality information. Within this context, we will specifically focus on presenting language-independent methodologies to extract implicit and explicit knowledge from real-world texts, thus allowing to reach Multilingual Information Digestion.



Luis Pérez Freire (Gradiant: Centro Tecnolóxico de Telecomunicacións de Galicia) co título "Content-based multimedia information retrieval: current research challenges in high-level understanding"
Autores: Daniel González Jiménez, Luis Pérez Freire
Resumo:
Multimedia information retrieval is about the extraction of knowledge from all kind of multimedia contents.
Content-based multimedia information retrieval (CBMIR) is the field that addresses techniques for knowledge extraction from multimedia contents when tags or text annotations are not available. Even when text descriptions are available, CBMIR can increase accuracy and provide a deeper level of understanding. This talk will provide an overview of CBMIR techniques for audiovisual contents and the hottest research topics related to high-level understanding, mainly focusing on the analysis of human signals for inferring affective states, identity, demographics, and actions.

Milagros Fernández Gavilanes (Grupo COLE - Universidade de Vigo) "Un modelo de recuperación semántica conceptual"

Resumo: Introducimos un entorno de adquisición e representación de información a partir de técnicas de procesamento da linguaxe natural que permite a integración de coñecemento lingüístico nas aplicacións de recuperación de información en base a un modelo matemático ben definido. O obxectivo práctico é facilitar o mantemento da aplicación resultante, así como a súa trazabilidade, xenericidade, accesibilidade a todo tipo de usuarios e un comportamento predecible. A interpretación matemática da semántica descansa na noción de grafo conceptual, que servirá de base á indexación e posterior localización dos textos mediante un mecanismo de emparellamento aproximado de patróns baseado na proxección e xeneralización de grafos.


Adrián Blanco González
(Grupo COLE - Universidade de Vigo) "Avaliación do modelo de RI conceptual"
Resumo:
Habitualmente, a consideración do modelo de recuperación de información conceptual xustificouse pola vantaxe que supón neste tipo de aplicacións a facilidade para integrar coñecemento lingüístico en base a un modelo matemático ben definido, así como a súa trazabilidade, xenericidade, accesibilidade a todo tipo de usuarios e un comportamento predecible. Sen embargo, tamén a miúdo a miúdo argumentouse que as expectativas estarían sobrevaloradas e que na práctica o rendemento non era o esperado, de maneira que o esforzo requerido para a súa implementación non se vía compensado. Neste traballo, tratamos de disipar a dúbida plantexada avaliando en detalle as características do modelo conceptual para demostrar que as capacidades operativas exhibidas son superiores ás dos modelos clásicos en uso ou, no peor dos casos, análogas.

Jesús Vilares Ferro (Grupo LYS - Universidade da Coruña)  "Subword-Level Pseudo-Translation for CLIR Using Parallel Corpora"
Resumo:
Cross-Language Information Retrieval (CLIR) is a particular case of IR where queries and documents are in different languages, thus requiring the use of Machine Translation (MT) techniques for making matching possible. Word and phrase-level translation approaches have been commonly used in this context. However, translation at character $n-grams$ level ---or pseudo-translation, properly speaking--- appears as an alternative for retrieval purposes. This is a knowledge-light approach which avoids the need for word normalization during indexing or translation, and also dealing with out-of-vocabulary words. Moreover, since such a solution does not rely on language-specific processing, only needeing a parallel corpus as input, it can be used with languages of very different natures even when linguistic information and resources are scarce or unavailable.



Daniel Fernández González (Grupo COLE - Universidade de Vigo) "Análisis de dependencias basado en transiciones"
Resumo:
Unha das representacións sintácticas que suscitou maior interese dentro da comunidade do procesamento da linguaxe natural nos últimos anos foi a análise de dependencias. Baixo esta motivación, xurdiron diferentes analizadores de dependencias entre os que destacamos os analizadores basados en transicións. Ca fin de mellorar a precisión da análise ofrecida por estos últimos abordáronse dous enfoques diferentes. Por un lado, desenvolver analizadores non dirixidos baseados en transicións e, por outro, ampliar o conxunto de transicións dos analizadores.

1-10 of 19