(Annotations Gleason optimisées pour l'ensemble de données TCGA PRAD) est le résultat de la collaboration entre Codatta et DPath.ai, établissant une nouvelle norme pour les données pathologiques prêtes pour l'IA. En réunissant une communauté d'experts en pathologie de premier plan via la plateforme Codatta, cet ensemble de données transcende les annotations au niveau des coupes traditionnelles, introduisant des annotations spatiales au niveau des ROI, améliorant le niveau de détail, la précision et la transparence des diagnostics. Grâce à des annotations Gleason optimisées, des justifications détaillées d'annotation et un mappage Gleason basé sur les ROI, cet ensemble de données devient une ressource clé pour le développement de modèles d'IA et la recherche en pathologie, abordant le défi central de la création de données annotées de haute qualité. Grâce au modèle de redevance de Codatta, les contributeurs peuvent maintenir la propriété de leur travail, garantissant ainsi leur reconnaissance et leur valeur continue, tandis que DPath.ai montre comment les solutions collaboratives peuvent promouvoir le développement de l'IA en pathologie.
Figure 1 : Annotation Gleason optimisée de l'ensemble de données TCGA PRAD. Source de l'image : https://huggingface.co/datasets/Codatta/Refined-TCGA-PRAD-Prostate-Cancer-Pathology-Dataset
Qu'est-ce que l'ensemble de données TCGA PRAD ?
Les annotations Gleason optimisées pour l'ensemble de données TCGA PRAD (cancer de la prostate) ont amélioré les annotations au niveau des coupes initiales en intégrant des annotations spatiales au niveau des ROI. Développé conjointement par Codatta et DPath.ai, cet ensemble de données a été créé en collaboration avec la communauté des pathologistes, soutenant une participation mondiale tout en garantissant la propriété des annotations. Cette méthode améliore la précision, le niveau de détail et la fiabilité des diagnostics, éléments clés pour l'entraînement des modèles d'IA et la recherche en pathologie.
En organisant 435 images de coupes TCGA, les pathologistes ont identifié 245 cas nécessitant une amélioration des annotations et confirmé l'exactitude de l'annotation pour 190 cas. Cet ensemble de données contient des métadonnées au niveau des coupes et des annotations spatiales au niveau des ROI, fournissant aux chercheurs une ressource précieuse pour le développement de pipelines d'IA, l'exploration interactive des régions tumorales et la recherche avancée en pathologie.
Autonomisation de l'IA en pathologie : Codatta et DPath.ai s'associent
(Annotations Gleason optimisées pour l'ensemble de données TCGA PRAD) démontre le potentiel de création de données collaborative et communautaire, tout en améliorant la précision et le niveau de détail des annotations, rendant l'entraînement des modèles d'IA plus fiable et favorisant le développement de la recherche médicale. Cependant, ces contributions nécessitent une expertise professionnelle, du temps et des efforts, ce qui nécessite une structure d'incitation durable pour reconnaître et récompenser le travail des professionnels qualifiés.
Modèle de redevance
Le modèle de redevance de Codatta propose une solution à cela. Comparé aux modèles Web2 traditionnels (comme Scale AI), il améliore l'efficacité de la contribution et de l'acquisition des données. Bien que Scale AI excelle à répondre aux préférences de liquidité immédiate des utilisateurs ordinaires, capable de collecter rapidement et efficacement des données à grande échelle, ses coûts élevés excluent les petits participants lorsqu'il s'agit d'experts du domaine effectuant des tâches spécialisées. En revanche, Codatta aligne les praticiens qualifiés et les experts en offrant des récompenses basées sur des conditions et des actifs. Comme le montre la figure 2 ci-dessous, ces incitations attirent des contributeurs prêts à investir des données professionnelles de haute qualité, même si les retours peuvent être retardés, les bénéfices potentiels étant plus élevés, faisant de Codatta un choix idéal pour les applications verticales d'IA et avancées nécessitant précision et expertise.
Figure 2 : Cartographie de la compétence et des préférences de liquidité dans la contribution de données
Contrairement aux coûts initiaux élevés de Scale AI, le modèle de redevance de Codatta élimine les obstacles financiers pour les petites startups d'IA en introduisant un système de paiement à la demande. Cette méthode démocratise l'accès aux données de pointe essentielles sans investissement initial coûteux, permettant aux startups de démontrer leur adéquation au marché et de se développer. De plus, en transformant les données en actifs liquides sur le marché financier décentralisé, Codatta garantit que les contributeurs peuvent équilibrer les besoins de liquidité à court terme et la propriété des actifs à long terme. Des fonctionnalités telles que les transactions convenues et la propriété partielle optimisent encore la liquidité, rendant les récompenses basées sur des actifs plus attrayantes pour un plus large éventail de contributeurs. Cette cohérence favorise la collaboration, stimule l'innovation dans des applications d'IA de niche et crée un écosystème d'investissement diversifié pour les créateurs de données et les startups.
DPath.ai : Solution collaborative pour relever les défis des données d'IA en pathologie
DPath.ai est en train de créer une plateforme décentralisée visant à connecter des pathologistes, des chercheurs et des développeurs de modèles d'IA du monde entier. Nous sommes responsables de l'acquisition, de la curation et de l'échange de données de pathologie de haute qualité, permettant à quiconque intéressé par l'entraînement de modèles d'IA de participer. La plateforme DPath utilise la technologie blockchain pour garantir la transparence, l'équité et la sécurité des échanges de données.
Des plateformes comme DPath.ai peuvent tirer parti du protocole de données décentralisé de Codatta pour acquérir des annotations de manière collaborative et transparente :
Définition de la tâche : Normes d'annotation claires (comme la classification Gleason pour le cancer de la prostate) garantissant la cohérence et la fiabilité des données de résultats.
Participation communautaire : Des pathologistes qualifiés du monde entier participent via la plateforme Codatta et sont incités par son modèle de redevance, recevant des récompenses continues liées à la valeur future des ensembles de données.
Qualité et intégrité : La vérification basée sur la blockchain et le croisement des données par plusieurs parties garantissent des annotations de haute qualité traçables, tout en renforçant la responsabilité des annotateurs.
Sécurité et accessibilité : Le stockage décentralisé des données maintient la propriété des données sécurisée et accessible pour les individus concernés.
Figure 3 : Collaboration entre Codatta et DPath.ai. Source de l'image : https://huggingface.co/datasets/Codatta/Refined-TCGA-PRAD-Prostate-Cancer-Pathology-Dataset
En acquérant des données spécifiques à un domaine de manière collaborative, DPath.ai a non seulement enrichi l'ensemble de données TCGA PRAD par une classification Gleason précise, mais a également montré comment la plateforme Codatta crée des données de pointe pour le domaine de l'IA professionnelle. Cette approche favorise la participation durable, démocratise l'accès aux données et accélère le développement de systèmes d'IA en santé équitables et efficaces.
Conclusion
(Annotations Gleason optimisées pour l'ensemble de données TCGA PRAD) est le résultat de la collaboration entre Codatta et DPath.ai, améliorant la précision diagnostique et le niveau de détail des données d'IA en pathologie grâce à des annotations au niveau des ROI avec des justifications d'annotation. Grâce à la participation d'experts en pathologie du monde entier, ce projet garantit des données de haute qualité, tout en récompensant les contributeurs via le modèle de redevance de Codatta, offrant une valeur continue et une propriété. Cette approche favorise également la collaboration, améliore la liquidité des données et accélère le développement de l'IA en santé, démontrant la puissance des solutions décentralisées et communautaires.