banner
Qt/C++. Распознавание объектов и измерение дистанции.

В следующем звуковом файле программа Object Detector рассказывает о том, что она "видит" перед собой. Программа идентифицирует следующие объекты: человек, часы и сотовый телефон. Она вычисляет вероятнсть их распознавания и расстояние до каждого из них. Эти действия сопровождаются выводом на экран рамок с обводом найденных объектов, показом цифровых значений вероятности распознавания и дистанций в метрах.
Для генерации речи в программе применяется класс Speak от Qt. Есть ли в этом классе возможность использовать другие языки, наравне с русскоим? Безусловно, да. Speak предлагает несколько опций, например, речь с разным тембром и тональностью. Cуществует возможность установки уровня громкости, скорости произношения и других параметров.
На чем основана технология вычисления расстояния до объектов без применения радара? Каковы дистоинства и недостатки предлагаемого метода? Все это хорошо описано в книге к которой я отсылаю читателя. Как реализаован указанный метод в настоящей программе смотрите здесь.
Это семнадцатая статья из цикла "Real-Time Object Recognition". Первые шестнадцать опубликованы здесь: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15 и 16
При разработке программ использовались:
  • операционная система macOS Big Sur версия 11.6.2;
  • среда разработки Qt Creator версия 8.0.0;
  • компилятор Apple Clang версия 13.0.0 (clang-1300.0.29.30);
  • библиотека OpenCV версия 4.5.5
  • нейронная сеть из группы YOLO, обученная на наборе данных COCO.
  • СУБД (система управления базами данных) PostgreSQL 14.7
  • администратор баз данных pqAdmin 4 version 6.4
1. Программа Object Detector выполняет следующие функции:
  • принимает поток данных с видеокамеры в режиме реального времени;
  • детектирует объекты с помощью нейронной сети (Deep Neural Networks) yolov4-tiny;
  • принимает настройки пользователя для установки связи между объектами и действиями;
  • озвучивает (произносит) имена обнаруженных объектов и вероятности их распознавания;
  • принимает и устанавливает настройки пользователя для модуля голосовых данных (высоту тона, громкость, скорость речи);
  • сохраняет изображения обнаруженных объектов (images) в виде jpg файллов на SSD диске и ссылки на них в базе данных PostgreSQL;
  • отсылает файлы images по заданному в программе e-mail адресу;
  • отсылает файлы images по протоколу FTP на удаленный сервер;
  • записывает звук с микрофона на SSD диск в виде wav файлов;
  • отображает в Status Bar приложения уровень звукового сигнала, поступающего на вход микрофона;
  • выводит на экран сохраненные на диске images;
  • формирует текущeе графическое положение устройства и сохраняет его в базе данных;
  • подключается к брокеру broker.hivemq.com;
  • подписывается на канал приема команд от программы Client Mqtt;
  • передает программе Client Mqtt через брокера фотографии обнаруженных объектов;
  • выполняет команды, полученные от приложения Client Mqtt;
  • тестирует исправность канала связи Mqtt;
  • открывает карту и показывает место нахождения (обнаружения) объекта(объектов);
  • выполняет SQL выборки по комбинациям параметров: тип объекта, период времени, вероятность распознавания;
  • предоставляет возможность редактирования снимков распознанных объектов;
  • загружает с веб сервера HTML страницу с фотографиями распознанных объектов и сохраняет ее на локальном диске компьютера;
  • сканирует и находит устройства Bluetooth;
  • подключается к выбранному пользователем устройству Bluetooth, образуя пару;
  • пересылает на удаленное устройство Bluetooth, например, телефон файлы изображений, распознанных программой объектов.
  • формирует матрицы настроек программы;
  • выполняет операции: Save As, Save, Open, Open Recent для файлов, содержащих матрицы настроек;
  • выполняет операции connect/disconnect для клиентов, работающих по протоколу TCP/IP;
  • выполняет операции read/send для объектов QByteArray и QString, содержащих изображения и имена файлов изображений по протоколу TCP/IP;
  • реализует протоколы SSL и WebSocket;
  • запускает/останавливает QuickTime Player для создания видео клипов;
  • включает/отключает Activity: MQTT, Bluetooth, Speech;
  • измеряет, выводит на экран и озвучивает дистанции до распознанных объектов.

2. Измерение дистанции и вывод на экран, генерация звука в программе Object Detector.

Вывод на экран имен найденных объектов, ограничивающих рамок, коэффициентов достоверности, реализован в строках: 171-176 класса NewThread.
Расчет дистанций до объектов и вывод на экран их значений выполнен в функции void distance(cv::Mat &frame, cv::Rect &fig) класса NewThread в строках 457 - 477.
Вызов функций для проговаривания имен объектов, достоверности распознания и расстояний находится в стоках 182-191 класса NewThread.
Полное описание исходных текстов проектов: Object Detector version 1.5, iOS MQTT Client, macOS MQTT Client, Client TCP, SslWebSocketServer, SslWebSocketClient предоставляются платно в файлах pdf или odt при запросе через e-mail: veresov@jdesign.ru.
Проекты можно загрузить и поблагодарить: Спасибо!  2202   2005   9442   6213   (сбербанк)
Евгений Вересов.
09.06.2023 года.