You can use one of three options to find duplicates: color, formulas, or add-ons.
Updated on September 16, 2022
What to Know
- Highlight a column. Select Format > Conditional Formatting. Select Custom formula is in the Format cells if menu.
- Then, enter =countif(A:A,A1)>1 (adjust the letters for the chosen column range). Choose a color in the Formatting Style section.
- Other methods: Use the UNIQUE formula or an add-on.
This article explains how to highlight duplicates in Google Sheets using three methods.
How to Find Duplicates in Google Sheets Columns
One way to identify duplicates is to highlight them with color. You can search by column for duplicates and automatically highlight them, either by filling the cells with color or changing the text color.
-
Open the spreadsheet you want to analyze in Google Sheets.
-
Make sure the spreadsheet has data organized by columns and each column has a heading.
-
Highlight the column you want to search through.
-
Click Format > Conditional Formatting. The Conditional Formatting menu opens on the right.
-
Confirm the cell range is what you selected in Step 2.
-
In the Format cells if drop-down menu, select Custom formula is. A new field appears below it.
-
Enter the following formula in the new field, adjusting the letters for the column range you selected:
=countif(A:A,A1)>1
-
In the Formatting style section, choose a fill color for the duplicate cells. In this example, we’ve chosen red.
Alternatively, you could change the text color in the duplicate cells instead of filling it with a color. To do this, select the text color icon (the A in the menu bar) and choose your color.
-
Select Done to apply the conditional formatting. All duplicates should now have a red-filled cell.
Find Duplicates With Formulas
You can also use a formula to find the duplicate data in your spreadsheets. This method can work by column or by row and displays the duplicate data in a new column or sheet within your file.
Find Duplicates in Columns With a Formula
Finding duplicates in columns let you examine a single column of data to see if there is anything in that column that has been duplicated.
-
Open the spreadsheet you wish to analyze.
-
Click into an open cell in the same sheet (for example, the next empty column in the sheet).
-
In that empty cell, enter the following and then press Enter.
=UNIQUE
The formula feature is activated.
-
Select the column you want to find duplicates in by clicking the letter at the top of the column. The formula will automatically add the column range for you. Your formula will look something like this:
=UNIQUE(C2:C25)
-
Type the closing parenthesis in the formula cell (or press Enter) to complete the formula.
-
The unique data is displayed in that column for you, starting in the cell where you entered the formula.
Find Duplicate Rows Using a Formula
The method to find duplicate rows in your spreadsheet is similar, except the range of cells you select to analyze by the formula is different.
-
Open the spreadsheet you wish to analyze.
-
Click into an open cell in the same sheet (for example, the next empty column in the sheet).
-
In that empty cell, enter the following and then press Enter.
=UNIQUE
The formula feature is activated.
-
Select the rows you wish to analyze for duplicates.
-
Press Enter to complete the formula. The duplicate rows are displayed.
Find Duplicates With a Google Add-On
You can also use a Google add-on to find and highlight duplicates in Google Sheets. These add-ons will let you do more with your duplicates, such as identify and delete them; compare data across sheets; ignore header rows; automatically copying or moving unique data to another location; and more.
If you need to address any of these situations or if your data set is more robust than three columns, download Remove Duplicates by Ablebits or a similar app that allows you to find and highlight your duplicate data, copy the duplicate data to another location, and clear duplicate values or delete duplicate rows.
FAQ
-
How do I remove duplicates in Google Sheets?
To remove duplicates in Google Sheets, open a spreadsheet and highlight a data range, then go to Data > Data Cleanup > Remove Duplicates.
-
How do I compare different Google spreadsheets for duplicates?
Install Ablebit’s Remove Duplicates add-on for Google Sheets and use the Compare Columns or Sheets tool. Go to Extensions > Remove Duplicates > Compare columns or sheets.
Thanks for letting us know!
Get the Latest Tech News Delivered Every Day
Subscribe
Таблицы Excel всегда были основой огромных наборов данных. Они позволяют вам легко и автоматически управлять различными записями, обеспечивая при этом возможность использования функций, формул и всех других функций, предлагаемых электронными таблицами.
Хотя электронные таблицы хороши в своем отношении, они не могут предотвратить дублирование записей. Это означает, что вам придется вручную находить и заботиться о них самостоятельно, когда это необходимо.
Хотя удалять дубликаты в Google Таблицах легко, как насчет их выделения? Давайте узнаем!
Мы будем использовать условное форматирование в наших интересах, чтобы найти и выделить дубликаты в Google Sheets.
Следуйте любому из приведенных ниже руководств в зависимости от вашего текущего устройства и требований.
Способ 1. Используйте условное форматирование на настольных устройствах.
Условное форматирование позволяет применить форматирование к определенным ячейкам, содержащим данные, относящиеся к определенной вами формуле.
Вы можете использовать это в своих интересах, чтобы найти и применить выделение только к повторяющимся ячейкам в текущем листе.
Следуйте любому из приведенных ниже руководств, чтобы помочь вам в этом процессе.
СЧЁТЕСЛИ — это формула, которую мы будем использовать для выделения дубликатов на нашем листе. Следуйте одному из разделов ниже в зависимости от диапазона ваших данных.
1.1 Для одного столбца
Если вы хотите выделить дубликаты в одном столбце, вы можете использовать приведенную ниже формулу. Выполните следующие шаги, чтобы помочь вам в этом процессе.
=СЧЁТЕСЛИ(М:М,М1)>1
M:M — это ваш диапазон, а M1 — критерий. Если вы знакомы с формулами, вы можете скопировать и вставить приведенную выше формулу и использовать ее в своей таблице Google. Если нет, то начните с перехода к соответствующему листу.
Используйте клавишу Shift на клавиатуре или метку столбца вверху, чтобы выбрать столбец, в котором вы хотите искать дубликаты.
Теперь нажмите «Формат» в верхней части панели инструментов.
Нажмите и выберите «Условное форматирование».
Выбранный вами диапазон теперь будет автоматически добавлен на боковую панель условного форматирования слева от вас. Щелкните следующее раскрывающееся меню «Правила формулы» и выберите «Пользовательская формула».
Теперь скопируйте и вставьте формулу в новое место. Вы также можете использовать ссылку ниже для удобства.
=СЧЁТЕСЛИ(М:М,М1)>1
Замените M на первую ячейку вашего диапазона, а затем на следующую на последнюю ячейку в вашем диапазоне. Остальную часть формулы редактировать не нужно, и теперь к дубликатам слева следует применить выделение.
Вы можете изменить цвет выделения/заливки для повторяющихся ячеек, используя средство выбора на боковой панели.
Нажмите «Готово», чтобы завершить и сохранить правило.
Вот и все! Вот как вы можете выбрать дубликаты в определенном столбце в Google Таблицах.
1.2 Для нескольких столбцов
Если вы хотите найти и выделить повторяющиеся ячейки в нескольких столбцах, вы можете вместо этого использовать руководство, указанное ниже. Давайте начнем!
Откройте соответствующий лист и выберите несколько столбцов на своем листе, где вы хотите идентифицировать и выделить дубликаты. Вы можете щелкнуть и перетащить на экран или использовать клавиатуру. Вы также можете вручную определить свой диапазон и полностью пропустить этот шаг.
Нажмите «Формат» на панели инструментов вверху.
Выберите «Условное форматирование».
Теперь щелкните раскрывающееся меню и выберите «Пользовательская формула».
Введите нужную формулу в следующем синтаксисе
=СЧЁТЕСЛИ(M$1:N$1;O1)>1
Замените M & N номером ячейки нужных вам столбцов. Точно так же замените O1 вашими критериями поиска дубликатов.
Дубликаты теперь будут автоматически выделены цветом по умолчанию.
Вы можете изменить то же самое, нажав на средство выбора на панели инструментов внизу.
Вот и все! Теперь у вас будут выделены дубликаты в нескольких столбцах в вашей таблице Google.
Советы по поиску в нескольких столбцах
Google Sheets использует символ $ для определения абсолютных столбцов и строк. Это означает, что если вы хотите выделить дубликаты из значения одного столбца или нескольких значений столбца, этот символ может пригодиться.
Имейте в виду, вам нужно будет использовать это перед значением диапазона, чтобы определить абсолютный столбец. Используйте приведенный ниже пример для дальнейшего справки.
=СЧЁТЕСЛИ(M$1:P$1,$O1)>1
В приведенном выше примере мы найдем дубликаты из заданного диапазона на основе абсолютных значений, содержащихся в столбце O.
Способ 2: использовать условное форматирование на Android
Вы также можете использовать условное форматирование на устройствах Android. Следуйте приведенному ниже руководству, чтобы применить условное форматирование к листу, чтобы выделить повторяющиеся записи.
2.1 Для одного столбца
Откройте приложение Google Sheets на своем устройстве и нажмите на ячейку, чтобы выбрать ее.
Теперь перетащите один из углов, чтобы выбрать нужный диапазон.
После того, как вы выбрали диапазон, нажмите значок «Параметры формата» вверху.
Прокрутите вниз и нажмите «Условное форматирование».
Нажмите «Добавить» в правом верхнем углу.
Выбранный диапазон теперь будет автоматически введен для вас. Нажмите на раскрывающееся меню и выберите «Пользовательское правило».
Теперь используйте следующую формулу, чтобы найти дубликаты в выбранном диапазоне.
=СЧЁТЕСЛИ(M1:M10,M1)>1
Замените M1 на адрес первой ячейки в вашем столбце, а затем M10 на адрес последней ячейки в выбранном столбце. Замените M1 на желаемый критерий, но мы рекомендуем установить его в первую ячейку вашего столбца, если только вы не имеете дело с пустыми ячейками. Выберите свой стиль форматирования, нажав на одну из предустановок.
Вы также можете установить собственный стиль, нажав «+».
Когда вы закончите, нажмите «Сохранить» в правом верхнем углу.
Используйте жест «назад», чтобы вернуться к выбранному листу, если это необходимо, и теперь условное форматирование уже должно быть применено к выбранному диапазону. Теперь вы можете продолжить поиск дубликатов в других столбцах и строках.
2.2 Для нескольких столбцов
Вы можете использовать следующий синтаксис при поиске дубликатов в нескольких столбцах. Это то же самое, что и формула, используемая на настольных устройствах, и если вам нужна помощь с ее запуском, вы можете использовать приведенное выше руководство, которое поможет вам в этом процессе.
=СЧЁТЕСЛИ(M$1:N$1;O1)>1
Как обычно, замените M$1 на первую ячейку вашего диапазона, а N$1 на последнюю ячейку вашего диапазона. Убедитесь, что вы сохранили символ $ для определения абсолютов.
Наконец, замените O1 собственным критерием в зависимости от набора данных, который вы оцениваете.
Как удалить дубликаты в Google Sheets
Теперь, когда вы нашли дубликаты, хотите ли вы их удалить? Вот как вы можете сделать это в Google Таблицах.
Откройте Google Таблицы и выберите нужный диапазон, из которого вы хотите удалить дубликаты.
Теперь нажмите «Данные» на панели инструментов вверху.
Нажмите и выберите «Очистка данных».
Теперь нажмите «Удалить дубликаты».
Установите флажок «Выбрать все» и соответствующие столбцы в вашем диапазоне. Это также дает вам возможность выборочного исключения определенных столбцов из этого процесса.
Сделав свой выбор, нажмите «Удалить дубликаты».
Теперь дубликаты будут удалены из выбранного столбца. Нажмите «ОК», чтобы сохранить изменения и продолжить редактирование листа по мере необходимости.
Часто задаваемые вопросы
Вот несколько часто задаваемых вопросов о выделении дубликатов в Google Sheets, которые должны помочь вам быстро ознакомиться с последней информацией.
Устранение неполадок с результатами
Если вы новичок в использовании условного форматирования и формул в Google Таблицах, это может быть довольно пугающим, особенно если ваши формулы не могут показать вам предполагаемые результаты.
Вот несколько вещей, которые вы должны проверить, чтобы устранить неполадки с результатами при попытке выделить дубликаты в Google Таблицах.
- Проверьте свой диапазон
- Проверить абсолютные значения
- Проверьте свой критерий
-
Переменные COUNTIF и UNIQUE не чувствительны к регистру.
- Убедитесь, что данные в ячейках поддерживаются для условного форматирования.
- Проверьте наличие пропущенных пробелов
- Проверить неправильный синтаксис
Можно ли использовать условное форматирование на устройствах iOS?
К сожалению, приложения Google обычно имеют ограниченную поддержку устройств iOS, и это относится и к Google Sheets. Вы не можете использовать условное форматирование в приложении Google Sheets для iOS.
Мы рекомендуем вам переключиться на настольное устройство или использовать мобильный браузер на основе хрома, чтобы принудительно использовать настольный веб-сайт для Google Sheets на вашем мобильном устройстве.
Возможно, вам придется попробовать несколько браузеров, чтобы найти тот, который лучше всего работает с масштабированием.
Можете ли вы вместо этого выделить уникальные предметы?
Нет, к сожалению, формула UNIQUE в настоящее время не поддерживается условным форматированием, что означает, что вы не можете использовать ее для выделения уникальных элементов. Вы можете использовать его только для получения результатов в пустой ячейке/столбце.
Что делать, если вы ищете данные, которые повторяются 3 или 4 раза?
В синтаксисе COUNTIF мы используем символ >, чтобы определить, сколько раз набор данных повторяется в выбранном диапазоне. Таким образом, если вы хотите найти записи, повторяющиеся три или даже четыре раза, вы можете заменить 1 на желаемое число.
Например, если вы ищете записи в столбце B, которые повторяются четыре раза для первых 100 строк, вы будете использовать следующий синтаксис.
=СЧЁТЕСЛИ(B1:B100;B1)>4
Примечание. В результат также будут включены записи, которые повторяются более 4 раз в выбранном диапазоне.
Мы надеемся, что этот пост помог вам выделить дубликаты в Google Таблицах. Если у вас возникнут какие-либо проблемы или у вас есть дополнительные вопросы к нам, не стесняйтесь обращаться к нам, используя раздел комментариев ниже.
СВЯЗАННЫЙ:
Доброго времени суток, дорогие читатели.
Помните ли вы овцу Долли? При работе с документами google, особенно со spreadsheet (MS Excel) таблицами для решения многих нетипичных задач, таких как: специальное форматирование по множеству условий или удаление дубликатов, необходимо было научится пользоваться JavaScript, так как не все можно исполнить с помощью стандартных функций, а по формулам есть ограничения, которые раскроем в следующем выпуске. Теперь же представляем ликбез по поиску дублей ссылок и текста в Google Spreadsheet.
Поэтому начнем писать скрипты для Google Spreadsheet. Если вы знаете несколько языков программирования хотя бы поверхностно, вам, конечно, будет легче. На JavaScript я начал писать без проблем, но работал в основном с VBA, Visual basic, C/C++, C#. Как говорится, всего понемногу и везде по чуть-чуть. Ежели знания языков программирования хромают, то добро пожаловать на наш ликбез.
Для того чтоб вам был понятен пример, мы будем изучать скрипт на примере удаления дубликатов в таблицах документа google spreadsheet. Писать мы будем с нуля, поэтому приступаем.
Поставим задачу — найти в текстовом списке дубликаты и удалить их, создав резервную копию списка.
Создадим новый документ и назовем его “Поиски дублей”, страницу назовем так же. Искать дубликаты будем по 1-й колонке. Для того, чтобы было удобнее, пропишем название столбцов и закрепим их. Для того, чтобы закрепить строку или столбец, нужно потянуть за соответствующую жирную линию, при этом она переместится на 1 строку вниз или на 1 столбец вправо (Рисунок 1).
Рисунок 1. Закрепление столбцов и строк.
Так как обычно нам нужно использовать несколько столбцов, а в силу привычки мы обычно удаляем все лишние, мы добавим их заново (столбцы B:D). Если у вас новый лист, то соответственно там столбцы есть и добавлять их не нужно, а удалить все, что после, будет только приветствоваться. Так как чистота залог порядка.
Создадим еще 2 листа “Рабочая страница” на которой мы будем проводить манипуляции с данными. “Копия” — лист для копии начальных данных, в случае неправильной работы скрипта или потери данных (Рисунок 2).
Рисунок 2. Создание 2-х листов.
Приступаем к написанию кода. Нажимаем в верхнем ниспадающем меню Инструменты -> Редактор скриптов (Рисунок 3).
Рисунок 3. Открытие редактора скриптов в Google Spreadsheet.
Перед нами в новом окне откроется редактор скриптов с вариантами создания скриптов
(Рисунок 4)
Рисунок 4. Варианты создания скриптов в Редакторе скриптов.
Если вы выберете любой из пунктов слева (создание соответствующего скрипта для Диска, Почты и т.д.), то увидите вступительный скрипт с подробными объяснениями каким образом работать с тем или иным скриптом, Но это только показательные скрипты. Но мы выберем “Пустой проект” и увидим только начало всех скриптов
function myFunction(){}
.
Стандартное название проекта — это “Проект без названия”, я же поменял название кликнув на эти слова (верхняя строка на рисунке) и назвал его “Поиски дубликатов” (Рисунок 5). Это для того, чтобы потом при наличии 10 и более скриптов, можно было их различать и без особых усилий находить нужный нам скрипт.
Рисунок 5. “Пустой проект” с первыми стандартными строками кода и измененным названием
В фигурных скобках и будем писать наш скрипт.
Углубляться в изучение JavaScript мы особо не будем, но чтобы понял даже новичок, по ходу написания кода, я буду подробно комментировать происходящее.
Пишем алгоритм
Перед тем, как приступить к написанию любого автоматизирующего скрипта (задачи), нам нужно нарисовать для себя алгоритм действий. И пусть многим это может показаться бредом и тратой лишнего времени и, возможно, вы посчитаете данные действия лишними, но это очень важный этап работы. При работе с большими проектами это очень важно, так как запутаться можно и в 3-х соснах — алгоритм решает данную проблему. Это касается не только JavaScript, это касается абсолютно любого языка, да и вообще любых действий. Для понимания приведем пример на основе получения чашки чая (Рисунок 6).
Рисунок 6. Алгоритм действий получения чашки чая (пример).
Надеюсь, вы заварили чашечку 🙂 и с хорошим настроением читаете дальше.
Нарисуем алгоритм для нашего скрипта по поиску дубликатов (Рисунок 7), он будет более подробный чем пример с чашкой чая.
Рисунок 7. Алгоритм для задачи по поиску дубликатов
Внесу небольшое пояснение, это уже окончательный вид алгоритма, поэтому в нем присутствуют 2 блока которые, возможно не сразу будут понятны для обычного пользователя.
Блок 2 — касается удаления контента и комментариев со страницы, на странице, которая, только что создана и совсем ничего не содержит. Этот блок нужен при повторном использовании скрипта, поэтому мы сразу закладываем данную функцию в скрипт. Об этом более подробно будет написано ниже.
Блок 5 — создание массива и конвертация, об этом будет рассказано подробно ниже. Сейчас же скажу, что созданный массив будет основным элементом обработки данных.
Кодин
Объявим переменные для наших листов, чтобы программа знала, как к ним обращаться.
Для объявления переменной в текущей области видимости используется ключевое слово var. Причем, особенностью языка javascript, как впрочем, и многих других, таких как php, является то, что не нужно специально объявлять тип переменной (как например, в C#: число объявляется integer; строка — string и т.д.).
Для того, чтобы описывать строки кода внутри самого кода, мы будем использовать комментарий в виде текста, который начинается с двух прямых слешей “//”. В разных языках программирования теги комментариев выглядят по разному и представляют из себя последовательность некоторых символов, вот несколько из них: (см. Таблицу 1.)
Таблица 1. Сравнительная таблица тегов комментариев в некоторых языках
При написании программ в редакторах языков, либо при применении правильного синтаксиса, например, в программе notepad++, текст программы будет подсвечиваться соответствующими цветами, которые прописаны для этого языка по умолчанию. Цвет текста комментариев, например, будет зеленый для большинства языков по умолчанию, но на самом деле, в программах для кодинга обычно присутствует возможность настраивать уветовую гамму, хотя и не везде. В google JS цвет комментария будет коричневый.
Рисунок 8. Иллюстрация подсветки синтаксиса кода.
Объявим три переменные для наших листов:
переменная sheet_work_page для страницы с названием “Рабочая страница”, сюда мы будем помещать текст для поиска и после работы получать результат.
переменная sheet_find_dubles для страницы с названием “Поиск дубликатов”, на этой странице будет проходить обработка дубликатов.
переменная sheet_copy для страницы с названием “Копия”, создается копию данных перед началом обработки, так как никогда не знаешь, когда понадобится оригинал.
var sheet_work_page = SpreadsheetApp.getActiveSpreadsheet().getSheetByName('Рабочая страница');
var sheet_find_dubles = SpreadsheetApp.getActiveSpreadsheet().getSheetByName('Поиск дубликатов');
var sheet_copy = SpreadsheetApp.getActiveSpreadsheet().getSheetByName('Копия');
</sourse>
А также переменные для работы.
var i,Page_Last_Row,k,archurls;
переменные i, k - счетчики циклов, так как имена не несут большую смысловую нагрузку, не будем им присваивать имена покрасивее.
переменная Page_Last_Row - последняя строка листа, для которого, эта переменная будет объявлена.
переменная archurls - массив для хранения и перебора значений.
Для каждой новой обработки нам необходимо удалять контент и комментарии со страниц “Рабочая страница” и “Копия”, так как наш скрипт будет оперировать с комментариями. Это операция предотвращает попадание в конечный результат данных, которые могли остатся от предыдущих использований скрипта. Например: Вы, сначала работали с 1000 строк, а потом перешли на 20 строк, не удалив предыдущий результат, Вы в итоге получите 1000 строк, а не 20. Эту операцию на страницах можно выполнить так: удалить содержимое, нажав клавишу delete, а комментарии через контекстное меню соответствующей командой. При простом удалении, например, при нажатии клавиши delete, комментарии остаются.
Также можно воспользоватся клавиатурой:
Встать на вторую строку, нажать клавиши Shift + Space(пробел) так мы выделим всю строку, далее Shift+Ctrl+Arrow_Down (стрелка вниз) (выделить все до конца листа) и через контекстное меню "Удалить строки". Получаем девственно чистый лист с шапкой.
<img src="http://habrastorage.org/storage3/c53/628/51b/c5362851ba5f57dbdaa809c5f0d75dc7.jpg"/>
Рисунок 9 Правильно удаляем примечания.
Для удаления Нам необходимо знать границы диапазона где производится операция чистки. Это нужно для того чтобы, например, оставить шапку в документе нетронутой, либо если нам необходимо затронуть лишь часть данных, а также это необходимость формулировки языков программирования - знать рабочий диапазон.
Для нашего диапазона за основу берем диапазон ячеек “A2:D номер последней строки”
Номер последней строки - количество строк листа “Поиски дубликатов”.
Диапазон начинается с ячейки A2 так как первая строка или ячейка A1 находится в закреплении для обозначения шапки листа. А работать с закрепленной областью скритп не умеет. Также вид A2:Dномер последней строки можно записать как (2,1,номер последней строки,4) от этого ничего не поменяется, подробнее об этом Вы можете прочитать здесь.
<a href=”http://habrahabr.ru/post/157933/”>на русском языке</a>
<a href=”http://webhostingw.com/google-spreadsheet-formulas/”>на английском языке</a>
Напишем код для всего, что было сказано выше об удалении примечаний и содержимого, это всего лишь 4 строки.
<source lang=”javascript”>
sheet_work_page.getRange("A2:D" + sheet_find_dubles.getLastRow()).clearContent();
sheet_work_page.getRange("A2:D" + sheet_find_dubles.getLastRow()).clearComment();
sheet_copy.getRange("A2:D" + sheet_find_dubles.getLastRow()).clearContent();
sheet_copy.getRange("A2:D" + sheet_find_dubles.getLastRow()).clearComment();
Опишем немного подробнее:
sheet_work_page — символьное имя, которое мы присвоили листу “Рабочая страница”.
getRange(первая строка, первый столбец, последняя строка, последний столбец) — указание диапазона для совершения дальнейших действий.
clearContent() — удаление содержимого в ячейках, указанных в диапазоне.
clearComment() — удаление примечаний в ячейках, указанных в диапазоне.
Создаем переменную datatocopy и выделяем диапазон ячеек с данными A2:D последняя строка в листе “Поиск дубликатов” и копируем на страницы “Рабочая страница” и “Копия”.
Особенность данной операции в том, что вставить скопированый диапазон можно только при выделении соответствующего диапазона.
var datatocopy = sheet_find_dubles.getRange("A2:D" + sheet_find_dubles.getLastRow()).getValues();
sheet_work_page.getRange(2,1,sheet_find_dubles.getLastRow()-1,4).setValues(datatocopy);
var datatocopy1 = sheet_find_dubles.getRange("A2:D" + sheet_find_dubles.getLastRow()).getValues();
sheet_copy.getRange(2,1,sheet_find_dubles.getLastRow()-1,4).setValues(datatocopy1);
переменной Page_Last_Row присваиваем значение последней строки страницы “Поиск дубликатов”
Page_Last_Row = sheet_find_dubles.getLastRow();
В объявленный ранее массив archurls присваиваем все данные из первой колонки листа “Поиск дубликатов”.
archurls = sheet_find_dubles.getRange(2, 1, Page_Last_Row-1, 1).getValues();
и конвертируем 2-х мерный массив в одномерный. Это нужно для того, чтобы переконвертировать все записи в столбце в символы, так как поиск у нас происходит посимвольно.
for (i=0; i<archurls.length; i++) //convert 2d array into 1d
{
archurls[i] = archurls[i][0];
}
Чтобы лучше понять механизм действий и составить правильное представление, рассмотрим скриншот “Как выглядят данные в массиве archurls” рисунок 8
Рисунок 8 Как выглядит массив со значениями изнутри.
Переменной i, которая в данном случаем будет использоваться для порядкового номера проверяемой строки листа “Рабочая страница”, присваиваем значение 2-й строки, так как 1-я у нас является названиями столбцов, i = 2;
И переходим к написанию главного цикла по поиску дубликатов. Объявляем цикл while (цикл, условие которого проверяется перед началом операций всего цикла) и в нем перебираем построчно значения из листа “Рабочая страница”, сравнивая со значениями листа “Поиск дубликатов”.
while (i <= sheet_work_page.getLastRow())
{
k = archurls.indexOf(sheet_work_page.getRange(i, 1).getValue());
if (k >= 0)
{
if ((k+2)==i)
{
sheet_work_page.getRange(i, 4).setComment('Найдено совпадение со строкой ' + (k+1) + ' архива');
i++;
continue;
}
else
{
sheet_work_page.getRange("A" + i + ":C" + i).clearContent();
i++;
delete_count++;
continue;
}
}
}
В итоге, на рабочей странице получаем список без 100% дубликатов.
Учтите, что если ссылка А содержит кириллицу но визуально она похожа на ссылку B, написанную латиницей, то эти ссылки будут разными.
Сортируем, если есть такая необходимость.
Описание: Лист.sort(номер колонки, true/false) true — от А до Я, false — от Я до А
sheet_work_page.sort(3, true);
Для того, чтобы нам не приходилось каждый раз для запуска скрипта заходить в редактор, мы выведем отдельную кнопку на панели меню.
Код функции для кнопки прост.
function onOpen()
{
SpreadsheetApp.getActiveSpreadsheet().addMenu("Поиск дубликатов?", [{name: "Удалить дубликаты!", functionName: "check_duplicates_one_sheet"}]);
}
Добавляем меню с названием “Копаем?” указываем название подменю “Копаем!” и присваиваем кнопке выполнение функции той, что мы написали выше:check_duplicates_one_sheet (рисунок 9)
Рисунок 9
Можете зайти в наш документ описанный в этой статье.
Дополнение:
“А если необходимо просто удалить дубликаты из колонки А, быстренько и без глупостей?”, — спросите вы.
Что ж напишем более скоростной скрипт.
function removeDuplicates() {
//объявим наш листик.
var sheet = SpreadsheetApp.getActiveSpreadsheet().getSheetByName("Ускоренная чистка дублей для одной колонки");
//получаем массив данных из нашего листа.
var data = sheet.getDataRange().getValues();
//объявим новый массив для результатов.
var newdata = new Array();
//проверяем на дубли
for(i in data){
var row = data[i];
var duplicate = false;
for(j in newdata){
if(row[0] == newdata[j][0]){
duplicate = true;
}
}
//обновляем строку
if(!duplicate){
newdata.push(row);
}
}
//очищаем содержимое ячеек с исходного листа
sheet.clearContents();
//вставляем в лист новый отчищенный массив
sheet.getRange(1, 1, newData.length, newData[0].length).setValues(newData);
//сортируем по возрастанию
sheet.sort(1, true);
}
В итоге, у нас быстродействующий скрипт по удалению дубликатов.
Проверенно на 400 000 записях.
До новых встреч! Ваш покорный слуга.
Также можете посетить наши предыдущие статьи:
Талмуд по формулам в Google SpreadSheet
Рассылка писем в Google Docs (Drive)
ждите наши следующие выпуски.
Если вы являетесь постоянным пользователем Google Sheets, вы, вероятно, столкнулись с проблемой, когда вы случайно добавили повторяющиеся записи в свою электронную таблицу. Эта ситуация может разрушить набор данных, над созданием которого вы так усердно работали. Вы можете не знать, что это произошло, особенно когда ваш компьютер выходит из строя или когда вы нажимаете на трекпад на своем ноутбуке.
Очень легко что-то упустить, когда в вашей памяти огромное количество данных. электронная таблица. Типичные результаты включают ошибки вычислений и повторяющиеся ячейки, которые трудно идентифицировать при поиске источника проблемы.
К счастью, для выделения дубликатов в ваших электронных таблицах доступно несколько различных методов.
- Используйте встроенную функцию удаления дубликатов.
- Используйте выделение для поиска дубликатов.
- Скопируйте уникальные ячейки и переместите их на новый лист.
- Используйте сторонний поиск дубликатов.
- Создайте сводную таблицу который подсчитывает дубликаты на индивидуальной основе.
Вышеуказанные процессы упрощают поиск этих повторяющихся записей, чтобы вы могли удалить их или проигнорировать, если это необходимо. Вот ваши варианты.
Независимо от того, пытаетесь ли вы найти дубликаты в одном столбце, двух столбцах или на всем листе, функция «Удалить дубликаты» точно удаляет ячейки с одинаковыми данными. Однако учтите, что он удаляет все дубликаты, даже если они не связаны с одними и теми же данными.
- Выделите столбцы, которые хотите проверить. для дублирования данных.
- В меню вверху выберите <“Данные -> Очистка данных”, а затем выберите “Удалить дубликаты”
- Появится диалоговое окно. Установите флажки рядом с каждым столбцом в списке, который вы хотите проверить, или вы можете установить флажок “Выбрать все” и нажмите “Удалить дубликаты”
- Google Таблицы показывают, сколько копий было найдено и удалено, чтобы вы могли убедиться, что процесс работает должным образом.
Использование Google Таблиц’ встроенная функция “Найти и удалить дубликаты” Функция — это самый простой способ устранить дубликаты, но иногда вам может понадобиться просмотреть копии перед их удалением. Отличный способ сделать это — выделить цветом.
Выделение дубликатов с помощью цвета для быстрого удаления
Когда дело доходит до выявления ошибок в ваших электронных таблицах, использование выделения для выделения любой неверной информации является еще одним хорошим способом.
- Откройте файл “Google Таблиц” и выделите “столбец или столбцы” который вы хотите отредактировать.
- В верхней строке меню нажмите выберите“Формат.”
- В раскрывающемся меню выберите Условное форматирование.
- Выберите нужный “диапазон” в появившемся новом меню.< бр>
- В разделе “Правила форматирования” измените раскрывающийся раздел “Форматировать ячейки, если…” на “Пользовательская формула.”
- Вставьте следующую “формулу” в поле, расположенное под “Пользовательская формула” option:
=countif(A:A,A1)>1. - В разделе “Стиль форматирования” выберите значок “Цвет заливки”, чтобы выделить содержимое желтым (или любым цветом по вашему выбору) фоном ячейки.
- Нажмите “Готово”чтобы сохранить изменения, просмотреть дубликаты и удалить те, которые вы считаете законными копиями.
Теперь ваша электронная таблица будет выделять повторяющиеся ячейки выбранным вами цветом, и вы можете сканировать выделенное на наличие любых дубликатов.
Примечание.Лучше всего выделять ячейки столбца, начиная с первой строки, а не выбирать ячейки в середине. Формула не любит использовать строку 2 в качестве первого столбца. В выбранном поле (A2:B9) пропущено несколько дубликатов. После добавления строки 1 (A1:B9) были найдены все копии. См. два изображения ниже.
Изображение №1: показывает пропущенные дубликаты при выборе ячеек строки 2 в качестве первых ячеек (A2 и B2):
Изображение №2: показывает все дубликаты при выборе ячеек строки 1 в качестве первых ячеек (A1 и B1):
Убедитесь, что все существующие дубликаты верны, так как некоторые копии вообще не являются дубликатами. Они могут быть одинаковыми для двух разных учетных записей, пользователей, сотрудников и т. д. Как только вы подтвердите ненужные ячейки подражателя, удалите их. Наконец, вы можете закрыть меню форматирования и восстановить стандартный цвет ячеек.
Копировать уникальные ячейки в Google Sheets для простого удаления дубликатов
Если вы предпочитаете сортировать необработанные данные автоматически, лучше копировать все уникальные ячейки, а не дубликаты. Этот процесс обеспечивает более быструю сортировку и фильтрацию.. Если вы уверены, что ваша информация верна, и предпочитаете удалить дубликаты, попробуйте способ, описанный ниже.
- Откройте документ “Таблицы”. вы хотите отсортировать. Выделите “столбец”, который хотите изменить. Этот процесс записывает диапазон столбцов для следующего шага.
- Нажмите < em>“пустой столбец” где вы хотите, чтобы уникальные записи отображались. Выделив (не нажимая ячейку), вставьте следующую формулу: =UNIQUE(). Естественно, он должен быть помещен в верхнюю ячейку.
- Введите “координаты ячейки” исходного столбца в скобках, например: (A3:A9).
- Нажмите “Enter” чтобы переместить новые данные в указанный ранее столбец.
< p>После этого вы можете проверить записи вручную или импортировать данные в рабочую таблицу.
Использовать стороннее дополнение для поиска и удаления дубликатов в таблицах
Существуют онлайн-плагины, доступные для использования с Google Sheets. Вы найдете надстройки в Google Workspace Marketplace, включая инструменты для автоматического удаления повторяющихся записей.
Удалить дубликаты с помощью Ablebits
Подходящий инструмент, известный как Удаление дубликатов с помощью Ablebits, позволяет вам для быстрого поиска дубликатов во всем листе информации или путем поиска до двух столбцов.
Вы можете перемещать, удалять и выделять результаты. Инструмент включает две настройки мастера: найти и удалить дубликаты и найти уникальные ячейки или качества в вашем документе. Эти два параметра упрощают отслеживание информации по мере ее поступления.
В целом, использование инструмента-мастера для поиска информации может быть оправдано в долгосрочной перспективе. Этот вариант в первую очередь предназначен для пользователей, постоянно ищущих дубликаты в своих таблицах и предпочитающих тратить время на что-то другое.
Использование сводной таблицы для поиска повторяющихся строк в листах
Сводная таблица является удобным инструментом для более внимательного изучения данных. Сводная таблица не удаляет автоматически повторяющиеся ячейки или строки; он предоставляет разбивку по столбцам, в которых есть дубликаты, чтобы вы могли вручную просмотреть свои данные и посмотреть, что нужно удалить, если вообще что-то нужно.
Создание сводной таблицы требует больше усилий, чем другие методы, представленные в этой статье. Вы должны добавить сводную таблицу для каждого столбца, чтобы обеспечить единообразие результатов и точное определение дубликатов.
Примечание.Если в электронной таблице нет названий столбцов, сводные таблицы не будут работать точно для поиска дубликатов. Попробуйте временно добавить новую строку, а затем назовите столбцы, используя эту новую строку.
Вот шаги, чтобы использовать сводную таблицу для выявления повторяющихся ячеек или строк.
- Выберите “все данные таблицы”, затем перейдите в раздел “Данные –> Сводная таблица”
- При необходимости измените диапазон ячеек, затем выберите “Создать”
- Выберите “Добавить,” который находится рядом с “Строки” На этом шаге выбирается столбец для поиска дубликатов. Да, вы правильно прочитали. Выберите нужный столбец в раскрывающемся меню. Если вы потеряли редактор сводной таблицы, нажмите на заполненную ячейку, чтобы вернуть его.
- Теперь выберите “Добавить” рядом с параметром “Значения” и выберите “такой же столбец, как указано выше”, но задайте для него суммирование “COUNT” или “COUNTA” Это уже должно быть по умолчанию.
- Новая сводная таблица определяет все дубликаты, как показано ниже.
- Если вы хотите просмотреть другой столбец, вы можете повторить описанные выше шаги (чтобы сохранить предыдущие результаты) или снова открыть редактор сводной таблицы и изменить существующую таблицу.
- Сводная таблица изменится, чтобы показать новые корректировки.
Как упоминалось ранее, метод сводной таблицы немного сложнее. Тем не менее, он дает вам отчет о повторяющихся записях’ места, которые могут быть полезны для анализа данных. Дополнительные сведения о сводных таблицах см. в руководстве Alphr по созданию, редактированию и обновлению сводных таблиц в Google Таблицах.
В целом, повторяющаяся ячейка в Google Sheets может вызвать проблемы с вашими данными, если вы не будете осторожны, особенно при сортировке финансовой информации в полезную электронную таблицу.
Наиболее распространенные причины дублирования:
- Несколько человек добавили одного и того же клиента, счет, категорию, товар и т. д.
- Импорт данных добавлены к уже существующим данным во второй раз.
- Действия копирования/вставки добавили повторяющиеся записи.
К счастью, идентификация, удаление и удаление идентичных ячеек данных на удивление просты в Google Sheets, что хорошо, если вы постоянно имеете дело с электронными таблицами в своем повседневном рабочем процессе. Если вы ищете что-то для более быстрой сортировки контента, вы всегда можете использовать надстройку, такую как Remove Duplicates от Ablebits, чтобы ваша информация была хорошо отсортирована и организована.
Есть ли у вас опыт, советы, или вопросы об использовании любого из методов, упомянутых в этой статье? Дайте нам знать в разделе комментариев ниже.
Функция COUNTIF и функция очистки данных — два самых простых способа найти дубликаты в Google Sheets.
О Google Таблицах
Google Sheets — это бесплатное облачное приложение для работы с электронными таблицами, предлагаемое Google как часть полного офисного пакета для конкуренции с Microsoft Office. Google Таблицы могут подготавливать данные, выполнять расчеты и многое другое.
Он используется для изменения, организации и хранения данных. Пакет производительности Google Docs включает эту программу, состоящую из Google Drive, Google Sheets и Google Slides.
Однако одним из преимуществ Google Sheets является то, что, в отличие от Excel, его можно использовать совместно с другими пользователями в режиме реального времени.
Google Таблицы упростили создание баз данных, предлагая удобный интерфейс и практичные инструменты для организации данных.
Использование Google Таблиц может повысить производительность и сэкономить время. Пользователи больше не беспокоятся о потере важных данных или непреднамеренной перезаписи файлов, поскольку платформа основана на облаке.
Одной из наиболее широко используемых программ для работы с электронными таблицами и базами данных является Google Sheets, которая доступна во всех популярных настольных и мобильных операционных системах.
Как Google Таблицы помогают создавать базы данных проще?
Традиционно создание баз данных было сложной и трудоемкой операцией. Однако последние разработки в области технологий, особенно Google Sheets, значительно упростили эту процедуру. Программа также имеет множество возможностей, таких как возможность добавления диаграмм, формул и изображений.
Для управления и хранения данных в режиме реального времени большинство предприятий используют его вместо других дорогостоящих баз данных, таких как PostgreSQL, MySQL, SQL Server и т. д. Большинство крошечных наборов данных предпочитают таблицы Google в качестве альтернативы.
Google Таблицы не являются комплексной системой управления базами данных для вашей компании. Однако, в отличие от других систем управления базами данных, она творит чудеса для малых предприятий и проектов, позволяя им эффективно управлять финансовыми операциями своей фирмы.
Важно отметить, что он имеет несколько сложных функций, доступных бесплатно, таких как API Google Sheets, скрипт приложений, триггеры форм, триггеры с таймером и ImportXML.
Пользователи сценария приложения могут подключаться к различным базам данных, поскольку сценарий приложения включает службу JDBC для подключения к MySQL, Microsoft SQL Server и другим базам данных.
Компании могут сократить свои расходы на различные продукты систем управления данными, используя все свои возможности.
Теперь давайте обсудим влияние повторяющихся значений в базе данных.
Влияние повторяющихся значений в базе данных
Если данные используются для целей аналитики или отчетности, повторяющиеся значения в базе данных могут негативно повлиять на данные.
В редких случаях повторяющиеся значения могут исказить данные, что может привести к неточным выводам, сделанным на основе данных. В других случаях дублирование значений может затруднить использование и понимание данных.
В любом случае очень важно знать о потенциальных последствиях дублирования значений в базе данных и принимать меры предосторожности для предотвращения или уменьшения таких последствий.
В этом разделе будут рассмотрены способы привлечения внимания к дублированию данных в таблицах Google и их устранения.
Общая формула, используемая для выделения дубликатов:
=COUNTIF(range, criterion)
Вот пошаговое руководство по использованию этой формулы в Google Таблицах.
Перейдите к опции «Формат» в верхнем меню и прокрутите вниз до «Условное форматирование», как показано ниже.
Новые параметры условного форматирования появятся справа после нажатия кнопки условного форматирования, как показано ниже:
После определения диапазона ячеек, в котором вы хотите выделить дубликаты, прокрутите вниз до раздела «Правила форматирования» и выберите параметр «Пользовательская формула» в раскрывающемся меню, как показано в примере выше.
В это поле введите формулу:
=COUNTIF($G$6:$G$14,G6)>1
Ячейка G должна быть заменена соответствующим столбцом в зависимости от вашей потребности выделить дублирование.
После нажатия кнопки «Готово» дубликаты из столбца будут выделены, как показано на изображении выше.
С помощью настроек стиля форматирования, как показано ниже, вы можете изменить цвет выделения или другие параметры форматирования:
Мы видели, как выделить дублирование из одного столбца в приведенном выше примере.
В следующем разделе мы увидим, как выделить дубликаты из нескольких столбцов.
Выделите дубликаты в Google Sheets в нескольких столбцах
Все этапы в этом процессе будут такими же, как обсуждалось выше, за исключением формулы и диапазона ячеек, которые мы определяем для выделения дубликатов.
Чтобы лучше понять это, давайте использовать один пример.
Перейдите к опции «Условное форматирование» в меню навигации «Формат», чтобы запустить формулу. Параметры будут видны справа, как показано на изображении ниже.
Диапазон ячеек указывается в разделе «Применить к диапазону».
В разделе «Правила форматирования» формула, используемая для выделения дубликатов из нескольких столбцов, выглядит следующим образом:
=COUNTIF($F$6:$I$8,F6)>1
Это очень простая формула, которую легко реализовать. Формула содержит только диапазон ячеек, из которых мы должны определить дубликаты.
После выполнения этой формулы дубликаты из четырех столбцов выделяются, как показано в примере ниже.
На этой иллюстрации мы также изменили цвет подсветки на синий.
Мы рассмотрим, как выделить повторяющиеся данные из строк в следующем разделе.
Выделите дубликаты в Google Sheets в строках
В таблице Google идентификация повторяющихся строк данных немного отличается от выделения повторяющихся столбцов.
Мы не будем повторять каждый шаг, поскольку они все одинаковы, кроме формулы.
Возьмем один пример.
Диапазон ячеек, из которого вы хотите выделить дубликаты, указан в части «Применить к диапазону» параметров условного формата, как показано на рисунке ниже.
В разделе «Пользовательская формула» введена формула
=COUNTIF(ARRAYFORMULA($A$3:$A$10&$B$3:$B$10&$C$3:$C$10),$A3&$B3&$C3)>1
Обратите внимание, что хотя формула кажется сложной, она состоит из начальных и конечных номеров ячеек строк, в которых вы хотите выделить дубликаты.
Результат будет отображаться, как показано ниже, после запуска этой формулы.
На этой иллюстрации также изменен цвет выделения, что возможно в той же части меню стилей форматирования, что и при выделении повторяющихся столбцов.
Выделите дубликаты в Google Таблицах по определенным критериям
Если вы хотите выделить дубликаты на основе определенных критериев, вам нужно использовать оператор звездочки («*»), чтобы указать функции СЧЁТЕСЛИ связать оба заданных диапазона и отобразить результат.
Синтаксис формулы для выполнения приведенного выше условия будет следующим:
=(COUNTIF(Range,Criteria)>1) * (New Condition) )
Давайте возьмем один пример, чтобы понять это.
Критерии. Допустим, вы хотите выделить все повторяющиеся строки в базе данных, оставив первые записи повторяющихся строк нетронутыми.
Давайте посмотрим, как это сделать в Google Sheet. За исключением изменения формулы, все этапы такие же, как описано выше в других подходах, так что давайте перейдем непосредственно к этому.
Формула для выполнения вышеуказанных критериев выглядит следующим образом:
=COUNTIF(ArrayFormula($A$3:$A3&$B$3:$B3&$C$3:$C3),$A3&$B3&$C3)>1
Казалось бы, сложная и длинная формула включает в себя начало и конец номеров ячеек.
На приведенном ниже листе Google видно, что первые записи Apple и Orange пропущены, а последние выделены.
До этого момента мы видели, как выделять повторяющиеся данные в строках, столбцах и с определенными критериями.
В следующем разделе мы быстро рассмотрим, как удалить повторяющиеся данные с помощью ярлыков.
Ярлык для удаления дубликатов
Выберите базу данных или столбец, для которого вы хотите удалить повторяющиеся записи, выберите «Очистка данных» в меню вверху, прокрутите вниз до «Удалить дубликаты» и нажмите «ОК», как показано на рисунке ниже.
Вы увидите всплывающее окно для выбора альтернатив и подтверждения удаления дубликатов после нажатия «Удалить дубликаты», как показано на рисунке ниже.
Существует выбор «Данные в виде строки заголовка», как показано на изображении ниже. Установите этот флажок, если на вашем листе есть строка заголовка, чтобы Google Sheet игнорировал ее при удалении дубликатов.
Дубликаты будут удалены, когда вы подтвердите свой выбор и нажмете кнопку «Удалить дубликаты», отображая статус ниже.
Как создать уникальный список?
Давайте извлечем отдельный список из базы данных с многочисленными дубликатами.
Формула невероятно проста для понимания и применения.
Чтобы понять это, давайте возьмем одну из наших ранних таблиц Google.
Синтаксис для создания уникального списка:
=unique(range start: range end)
Как видно на изображении ниже, формула задается в столбце D, определяется диапазон ячеек, из которого мы хотим извлечь уникальные данные, и после ее выполнения результат отображается в столбце D.
Как удалить пробелы в Google Таблицах?
При работе в Google Sheet с текстовыми или числовыми данными вы часто сталкиваетесь с излишними пробелами в ячейках, что раздражает.
В этой части мы рассмотрим, как избавиться от этих дополнительных пробелов.
Давайте воспользуемся приведенной ниже таблицей Google, чтобы устранить лишние пробелы.
Выберите столбец или набор данных с дополнительными пробелами, перейдите в «Меню данных» вверху, прокрутите вниз до «Очистка данных» и нажмите «Обрезать пробелы», как показано ниже.
Когда вы выберете «Обрезать пробелы», вы увидите результат, как показано на рисунке ниже. Как видите, столбец теперь свободен от дополнительных пробелов.
Заключительные слова
Дублирование данных — это не только бесполезная трата времени, но и потенциально может привести к серьезным проблемам и дорогостоящим ошибкам.
Если ваш лист Google небольшой, вы можете найти их вручную, но если у вас много листов, это займет много времени и может привести к ошибкам. Приведенные выше методы помогут вам определить дубликаты в вашем документе Google и удалить их все сразу.
Затем вы можете ознакомиться с окончательной шпаргалкой по часто задаваемым вопросам Google Sheets.