Foto de Mpho Mojapelo a Unsplash

API de AI: què són i com utilitzar-los

Un conjunt de millors pràctiques per a les API d’Intel·ligència Artificial

Tens curiositat per les API de parla a text, de traducció d’idiomes o de reconeixement d’imatges? Estàs de sort! Hi ha molts serveis que us permeten fer-ho i també hi ha moltes raons per utilitzar les API d’Intel·ligència Artificial (AI) a les vostres aplicacions. En aquest article, descriurem alguns dels casos d’ús de les API de AI, i després parlarem de les millors pràctiques a adoptar quan s’utilitzen.

Si teniu pressa, aneu cap al TL; DR a la part inferior.

La primera pregunta abans d’implementar un servei extern que cal plantejar-se és “necessito això”? Quan es tracta d’API basades en Intel·ligència Artificial, la resposta es pot complicar! Per ajudar-vos a decidir, mireu dos dels serveis més utilitzats i quan els heu d'utilitzar (o no).

Utilitzeu el cas número 1: veu a text

Avui dia, moltes aplicacions estan aprofitant les capacitats de veu a text i probablement ja heu utilitzat una que ho faci. Siri, Google Assistant, Bixby o Alexa ho fan servir, però no és tot. També s'utilitza per aplicacions de missatgeria (per exemple, WhatsApp) i motors de cerca (per exemple, la barra de cerca de Google).

Potser us pregunteu on hi ha l’IA. No és només transcripció del discurs?

La base de qualsevol API de veu a text és, de fet, prendre l'àudio de veu com a entrada i transcriure-la al text, tot i que no s'aturarà aquí, i és quan passa la màgia de la intel·ligència artificial. Per a la majoria de les API disponibles, també:

  • alterar la transcripció anterior en funció del context
  • identificar diferents altaveus
  • poder cercar paraules clau específiques
  • permetre la personalització del model (útil per a accents regionals)

Utilitzeu-ho: per a casos d’ús específics, com ara durant la síntesi de veu durant un assaig en què el context, les paraules utilitzades i l’orador actual importen molt.

No ho utilitzeu: si només espereu un altaveu o per a una simple missatgeria de text. En aquest cas, la majoria dels teclats dels telèfons intel·ligents ja inclouen una capacitat de reconeixement de veu que es pot utilitzar i per a l'aplicació web podeu utilitzar l'API de SpeechSynthesis.

Ús del cas 2: Reconeixement d’imatges

En comparació amb Speech-to-Text, només hi ha algunes aplicacions que utilitzen el Reconeixement d’imatges avui dia, i la majoria d’elles són molt específiques (per exemple, PlantNet que identifica les plantes de les quals feu fotografia). Tot i que, comencem a veure’n un ús general, concretament amb:

  • Google Lens: analitza el que hi ha a la pantalla (foto o no) i intentarà identificar adreces, llocs, coses i recomanar resultats basats en aquesta
  • Veure AI: aplicació per a persones amb deficiències visuals que descriu el que hi ha al seu voltant (en funció de cap a on està apuntant la càmera del telèfon)
L’ús de Google Lens per reconèixer un lloc

Com ja haureu entès, la màgia aquí és prendre una imatge com a entrada i intentar identificar el que hi ha a la imatge. Per a la majoria de proveïdors, hi ha dues maneres de fer-ho:

  • Utilitzant models pre-formats: inclou classes comunes (menjar, llocs, persones, color ...)
  • Utilitzant classificadors personalitzats: permeten als usuaris entrenar les seves pròpies classes (com es pot veure amb PlantNet més amunt)

Tot i que alguns dispositius Android i iOS tenen capacitats de reconeixement d’imatges integrades, com a desenvolupador, no sempre les podeu consultar des de l’aplicació. Per tant, sempre que s’ajusti al vostre cas d’ús, haureu d’utilitzar-lo.

Ús del cas número 3, # 4 ...

Hi ha moltes altres API de la IA per aquí. No anirem a examinar-los tots en aquesta publicació, però si esteu pensant a utilitzar-ne un, i no esteu segurs de si el vostre cas d’ús s’ajusta a la necessitat o no, deixeu un comentari o contacteu directament amb mi. Estaré encantat d’ajudar!

Ara heu decidit utilitzar una, dues o fins i tot més (en aquest cas, aquí teniu un article per a vostès) les API de AI de la vostra sol·licitud. En aquesta secció, veurem algunes bones pràctiques a adoptar abans de pensar en utilitzar-les en producció.

Proveu abans de comprar

Com en totes les API de tercers, hi ha paràmetres a tenir en compte: preu, usabilitat, disponibilitat ... Però quan es tracta d’Intel·ligència Artificial, també hi ha un factor de fiabilitat que entra en joc. t rate 0 o 1. De fet, hi haurà qualsevol cosa entre 0 i 1 com veurem a la següent secció.

Tots els principals proveïdors de núvols ofereixen el seu propi conjunt d’API d’AI i tenen una pàgina de demostració o una prova gratuïta. Aprofiteu-ho, proveu-vos-hi i escolliu el que obté els millors resultats!

  • IBM Watson
  • IA de Google Cloud
  • Microsoft Cognitive Services
  • AWS AI Services

També hi ha plataformes per a serveis específics com Clarifai (API de visió), SAP Conversational AI (Chatbots) o una simple cerca d’inserir-el-favorit-motor de cerca-aquí.

Exemple de trucar al servei Watson Assistant mitjançant Postman

Intel·ligència artificial rima amb confiança

Tal com es va parlar a la secció anterior, cada vegada que obtindreu una resposta d’una API de AI, també contindrà un nivell de confiança que oscil·la entre 0 i 1, que correspon al percentatge de certesa que ha reconegut alguna cosa.

Prenem un exemple amb una API de reconeixement visual quan envieu la imatge següent:

Crèdits: Getty.com

Aquí teniu la resposta de JSON. He tret algunes classes per ser llegibles.

[{"classifier_id": "predeterminat", "nom": "predeterminat", "classes": [{"class": "bus", "puntuació": 0.797}, {"class": "dispositiu mecànic", " puntuació ": 0.506}, {" class ":" Color vermell indi "," puntuació ": 0.799}]," display ":" Model general "," descripció ":" Comprendre ràpidament objectes, accions, escenes i colors dins una imatge ". }]

En aquest cas, tenim una classe que s’identifica juntament amb un punt de confiança. Tenir en compte aquesta puntuació és clau. Normalment recomano una puntuació de confiança mínima del 95%. Aquesta puntuació hauria d’augmentar amb el pas del temps, ja que el proveïdor d’API afegiu més dades de formació als models.

Parlant de dades de formació, una altra cosa que voldreu considerar és si voleu o no permetre que les dades enviades des de la vostra sol·licitud s’utilitzin per millorar els models generals del vostre proveïdor. Si voleu permetre-ho, heu de comunicar-ho explícitament als vostres usuaris.

TL; DR:

  • Abans d’utilitzar una API d’IA, decidiu si realment la necessiteu
  • Si ho feu, proveu diferents proveïdors i seleccioneu el que millor s’adapti al vostre cas d’ús
  • Assegureu-vos de tenir un llindar prou alt en el punt de confiança per evitar falsos positius

Diverteix-te infusionant IA a les teves aplicacions.