Logo del repository
  1. Home
 
Opzioni

Capturing Distinctiveness in Text Classification Tasks

Dipartimento di Scienze Economiche, Aziendali, Matematiche e Statistiche
TREVISANI MATILDE
Progetti di ricerca da altri enti pubblici nazionali (no enti locali FVG)
operative
Data di inizio
18 Aprile 2024
Data di fine
17 Aprile 2026
Abstract
In molte applicazioni di linguistica quantitativa, gli studiosi sono interessati a identificare un set di caratteristiche linguistiche, che si rivelano distintive per un testo o una classe di testi con riferimento a un corpus o a un modello. In molte applicazioni un set di caratteristiche distintive si rivela necessario per ottenere una lettura qualitativa efficace di ogni classe di testo (in termini di contenuti o tratti linguistici). Inoltre, i grandi modelli linguistici (LLM) offrono rappresentazioni di testo basate su trasformatori e sfidano le misure più tradizionali specifiche del testo. Diverse discipline sfruttano l'esistenza di una partizione di testi in classi in modi diversi. In alcune applicazioni queste classi di testo sono note (a priori) e vengono sfruttati algoritmi di apprendimento automatico supervisionato (ML) per valutarne la coerenza e/o assegnare ulteriori testi sconosciuti alla classe più pertinente; in altre, le classi di testo sono il risultato di un'attività di clustering di testo (TC) non supervisionato, ovvero vengono generate ex-post e bottom-up anziché essere assegnate in base a conoscenze a priori. La classificazione basata su algoritmi ML supervisionati è comunemente utilizzata per classificare i testi (set di test) sulla base dei dati di training (set di training). Grazie alle grandi quantità di caratteristiche del testo, ML fornisce generalmente un modo efficace per discriminare tra le classi esistenti e, quindi, per attribuire ogni nuovo testo "sconosciuto" a una di esse. Sebbene l'accuratezza della classificazione sia spesso altamente soddisfacente, le caratteristiche distintive di ogni classe rimangono solo raramente spiegabili e trasparenti. Tuttavia, anche i risultati delle attività di classificazione basate su TC non supervisionato sono difficili da leggere e interpretare. La necessità di passare da procedure black-box a metodi spiegabili è alla base della distinzione tra approcci ML e Statistical Learning (SL) e rappresenta anche uno dei driver di questo progetto. Questo progetto di ricerca mira a esplorare il concetto di distintività (e chiave) per evidenziare i punti di forza e di debolezza di diversi approcci, la loro coerenza (sovrapposizione) e come possono essere applicati nella pratica, in particolare quando si lavora con grandi corpora. L'idea è quella di identificare le migliori misure/metodi SL per selezionare un set di caratteristiche, che si dimostri distintivo per una classe di testi e, quindi, sottoporre i risultati a esperti in materia per ottenere un'interpretazione efficace delle classi di testo. I risultati vengono confrontati e messi a contrasto con le soluzioni LLM. A un primo livello, il progetto è essenzialmente focalizzato sui metodi e mira a confrontare e mettere a contrasto misure/metodi esistenti e a trovare strumenti rivisti e innovativi per guardare oltre i risultati TC, ML e LLM. L'idea è che procedure SL flessibili e modelli spiegabili dovrebbero essere in grado di interagire con gli esperti dei diversi campi di applicazione al fine di trovare soluzioni che soddisfino le esigenze di una lettura qualitativa efficace dei risultati. A un secondo livello, il progetto mira a verificare metodi e procedure in diversi ambienti. Il progetto prevede l'analisi statistica di corpora di interesse per diverse discipline (sociologia, filosofia, psicologia) e mette in discussione specifiche domande di ricerca che coinvolgono problemi di classificazione del testo: 1) discorsi istituzionali organizzati per intervalli di tempo e classi di relatori, 2) letteratura scientifica organizzata per intervalli di tempo, scuole di pensiero e curatori delle riviste, 3) interviste approfondite organizzate in base alle proprietà dei partecipanti rilevanti (età, genere, ecc.), 4) saggi scritti da esseri umani e modelli linguistici di intelligenza artificiale generativa. Il toolkit da implementare all'interno di questo progetto è complesso perché i metodi disponibili sono numerosi e solo parzialmente esplorati in una prospettiva comparativa. Inoltre, è necessario prestare attenzione ai limiti e ai vantaggi delle varie soluzioni nei vari domini applicativi e con riferimento a testi di varia natura.
In many quantitative linguistics applications, scholars are interested in identifying a set of linguistic features, which proves distinctive for a text or a class of texts with reference to a corpus or a model. In many applications a set of distinctive features proves necessary to achieve an effective qualitative reading of each text class (in terms of contents or linguistic traits). Moreover, large language models (LLMs) offer text representations based on transformers and challenge more traditional text-specific measures. Different disciplines exploit the existence of a partition of texts into classes in different ways. In some applications these text classes are known (a priori) and supervised machine learning (ML) algorithms are exploited to assess their consistency and/or to assign further unknown texts to the most pertinent class; in others, text classes are the result of an unsupervised text clustering (TC) task, i.e. they are generated ex-post and bottom-up rather than being assigned on a priori knowledge. Classification based on supervised ML algorithms is commonly used to classify texts (test set) on the basis of training data (training set). Thanks to large amounts of text features, ML generally provides an effective way to discriminate among existing classes and, then, to ascribe each new "unknown" text to one of them. Although the accuracy of classification is often highly satisfactory, the distinctive features of each class remain only seldom explainable and transparent. However, also results of classification tasks based on unsupervised TC are hard to read and interpret. The need to move from black-box procedures to explainable methods is at the basis of the distinction between ML and Statistical Learning (SL) approaches and it represents also one of the drivers of this project. This research project aims at exploring the concept of distinctiveness (and keyness) to highlight the strengths and weaknesses of different approaches, their consistency (overlapping) and how they can be applied in practice, particularly when working with large corpora. The idea is identifying the best SL measures/methods to select a set of features, which proves distinctive for a class of texts and, then, submit results to subject-matter experts to achieve an effective interpretation of text classes. Results are compared and contrasted with LLM solutions. At a first level, the project is essentially focussed on methods and aims at comparing and contrasting existing measures/methods and finding revised and innovative tools to look beyond TC, ML and LLM results. The idea is that flexible SL procedures and explainable models should be able to interact with the experts of the different fields of application in order to find solutions that fit the needs of an effective qualitative reading of results. At a second level, the project aims at verifying methods and procedures in different environments. The project envisages the statistical analysis of corpora that are of interest for different disciplines (sociology, philosophy, psychology) and put on debate specific research questions that involve text classification problems: 1) institutional speeches arranged by time-spans and speakers-classes, 2) scientific literature arranged by time-spans, schools of thought, and editors of the journals, 3) in-depth interviews arranged by relevant participants' properties (age, gender, etc.), 4) essays written by humans and generative AI language models. The toolkit to be implemented within this project is complex because the available methods are numerous and only partially explored in a comparative perspective. Furthermore, it is necessary to pay attention to the limits and advantages of the various solutions in the various application domains and with reference to texts of a various nature.
Parole chiave
  • Statistica

  • Statistica (SECS-S)

CER
SH5_4 - Philology; text and image studies
SH8_9 - Digital approaches to anthropology, cultural studies and art
SSD
Settore SECS-S/01 - Statistica
SDG
sustainableDevelopmentGoal.goal0
Finanziatore
Università  degli Studi di PADOVA
Importo
35000
Partner(i)
Università  degli Studi di PADOVA
Università  degli Studi di TRIESTE
Ruolo
Coordinatore
Partner
Get Involved!
  • Source Code
  • Documentation
  • Slack Channel
Make it your own

DSpace-CRIS can be extensively configured to meet your needs. Decide which information need to be collected and available with fine-grained security. Start updating the theme to match your nstitution's web identity.

Need professional help?

The original creators of DSpace-CRIS at 4Science can take your project to the next level, get in touch!

Realizzato con Software DSpace-CRIS - Estensione mantenuta e ottimizzata da 4Science

  • Impostazioni dei cookie
  • Informativa sulla privacy
  • Accordo con l'utente finale
  • Invia il tuo Feedback