Cómo comenzar a resolver desafíos de datos con gráficos de conocimiento

Articulos tematica Microsoft

En 1991, Sir Tim Berners-Lee lanzó el primer sitio web . Aunque simple, representó años de investigación sobre la mejor manera de compartir documentos dentro de entornos en red

La web evolucionó rápidamente a partir de una búsqueda puramente académica para ser la columna vertebral sobre la que se construye gran parte del mundo moderno. Pero la web tenía un defecto. Las computadoras no pueden comprender el contenido de las páginas web de la misma manera que los cerebros humanos. Este sigue siendo el caso a pesar de los avances recientes en la PNL, la visión por computadora y la tecnología de aprendizaje automático.

A finales de la década de 1990, Lee propuso la Web Semántica , o, agregando una capa de metadatos a los sitios, dando los conceptos representados por las definiciones y jerarquías legibles por máquina de las páginas web. La Web Semántica no ha logrado una adopción generalizada, aunque el desarrollo continuó, lo que llevó a la popularización de los gráficos de conocimiento a principios de la década de 2010

Los gráficos de conocimiento construidos sobre conceptos ontológicos desarrollados como parte de la Web Semántica, pero permitieron un sistema jerárquico más expresivo, con un mayor énfasis en la escala y las relaciones. Esto lo hizo adecuado para tareas impulsadas por IA y alimentó su adopción dentro de Google , Apple , Uber y otros.

En los años posteriores, el interés por los gráficos de conocimiento ha seguido creciendo. Si está considerando adoptarlos dentro de su organización, este artículo lo ayudará a comenzar, desde el reclutamiento y la planificación hasta la construcción de su pila de tecnología.

Establecer sus objetivos

Los gráficos de conocimiento son adecuados para organizaciones con grandes conjuntos de datos y donde la extracción de conocimiento a menudo resulta engorrosa. Por ejemplo, una organización puede utilizar una variedad de sistemas de gestión de contenido y datos, todos sin la capacidad de comunicarse entre sí. Los datos pueden estar estructurados de una manera que sea incompatible entre sí. O el problema puede ser cultural, con poca colaboración horizontal entre equipos y departamentos.

Su punto de dolor será distinto a su organización, al igual que su aplicación de gráficos de conocimiento. Algunas organizaciones de servicios financieros utilizan la tecnología para eliminar posibles problemas costosos de cumplimiento y fraude, mientras que algunas en el sector de las biociencias se centran en su potencial para acelerar el descubrimiento y el desarrollo de fármacos.

El objetivo será el mismo: tomar una colección de fuentes de datos desordenadas, desestructuradas y dispersas y unificarlas e integrarlas con el conocimiento que da significado a los datos, para que puedan ser mejor analizados y aporte un valor más inmediato.

Construyendo su equipo de Knowledge Graph

Cuando intente construir su equipo de gráficos de conocimiento, se encontrará luchando para identificar candidatos adecuados con experiencia de primera mano. Los gráficos de conocimiento son una innovación relativamente reciente y su organización se verá obligada a competir con los bolsillos profundos de Uber, Facebook y Google por el talento.

Busque conjuntos de habilidades adyacentes. La experiencia con los estándares en la Web Semántica y el espacio de representación del conocimiento (como RDF, OWL y SPARQL) o bases de datos de gráficos (como Neo4j y Amazon Neptune) es útil. De lo contrario, busque un historial sólido en la creación y gestión de sistemas de datos.

Curiosamente, un nuevo rol ha surgido de esta tendencia: el científico del conocimiento . Los científicos del conocimiento provienen de diversos antecedentes, incluidos programadores, científicos de datos y taxonomistas. En última instancia, la clave es que desea liberar el conocimiento del cerebro humano y expresarlo en formatos que las máquinas puedan aprovechar.

Tómese el tiempo para considerar la cultura también. La construcción de un gráfico de conocimiento requiere que convenza a sus partes interesadas y equipos internos para que comiencen a trabajar en colaboración y con un grado de apertura al que pueden no estar acostumbrados. La contratación de personas que sean capaces de forjar alianzas y evangelizar eficazmente resultará vital.

Sentar las bases

Debe comenzar con un inventario de todos sus datos. Este paso es crucial, ya que también es el lugar donde identifica dónde los datos pueden ser fluidos y propensos a actualizaciones y cambios. A medida que avanza en este proceso, tenga en cuenta las "Cinco V de Big Data": volumen (la cantidad), velocidad (su propensión a cambiar), variedad (los formatos y la estructura), la veracidad (qué tan precisa es) y el valor. (lo útil que es). Estos puntos informarán las decisiones que tome sobre qué datos incluir, qué priorizar y qué ignorar.

A continuación, querrá comenzar a reunir el conocimiento de su organización, a menudo en forma de glosarios comerciales, diccionarios de datos u hojas de cálculo con datos de referencia y otra información de conexión. Una vez que haya recopilado esos activos, puede comenzar a modelar su dominio, definiendo relaciones y jerarquías. Para aquellos que buscan ejemplos, puede consultar ejemplos de código abierto existentes, como Schema.org y ConceptNet.

Elección de su pila de tecnología

El último puente por cruzar es uno de los más importantes: seleccionar los fundamentos tecnológicos de su gráfico de conocimiento.

En el corazón se encuentra, inevitablemente, una base de datos de gráficos. Aquí hay muchas opciones, tanto comerciales como de código abierto, con dos categorías principales de bases de datos de gráficos: gráficos de propiedades y tiendas triples RDF. Ambas pueden ser herramientas extremadamente útiles en su programa de gráficos de conocimiento.

Los gráficos de propiedades como Neo4j o TigerGraph son extremadamente populares para construir gráficos de conocimiento. Neo4j está particularmente bien considerado por los desarrolladores como fácil de comenzar, mientras que TigerGraph pone un gran énfasis en la escala.

RDF es el único lenguaje estandarizado para datos de gráficos (con SPARQL como el lenguaje de consulta estándar sobre datos RDF), y fue diseñado teniendo en cuenta la escala web, por lo que vale la pena considerar qué parte del problema de su gráfico de conocimiento se centrará en la integración de datos, y tal vez eso lo lleve hacia una solución basada en un estándar, para que sus datos sean lo más interoperables posible. AllegroGraph y GraphDB son dos tiendas triples RDF populares. La base de datos de gráficos de Neptune de Amazon es compatible con ambos modelos dentro del mismo producto

Semrush sigue a tu competencia

Fecha actualización el 2021-09-31. Fecha publicación el 2021-09-31. Categoria: computadoras Autor: Oscar olg Mapa del sitio Fuente: thegoaspotlight