Whisper to system rozpoznawania mowy, udostępniony na licencji otwartego oprogramowania, który został przeszkolony na 680 000 godzinach danych wielojęzycznych i wielozadaniowych zebranych z internetu. Został zaprojektowany tak, aby być odpornym na akcenty, hałas w tle oraz język techniczny, a także umożliwia transkrypcję i tłumaczenie mowy w wielu językach na angielski. To proste podejście typu „od zera do końca” zaimplementowane w postaci kodera-dekodera typu Transformer. Dodatkowo potrafi dokonywać identyfikacji języka i tworzyć znaczniki czasowe na poziomie fraz. Został stworzony w taki sposób, aby był łatwy w użyciu i miał wysoką dokładność, co pozwala programistom na dodanie interfejsów głosowych do jeszcze większej liczby aplikacji.